CN115497460A - 音频识别方法、模型的训练方法、装置、设备及存储介质 - Google Patents
音频识别方法、模型的训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115497460A CN115497460A CN202211096150.8A CN202211096150A CN115497460A CN 115497460 A CN115497460 A CN 115497460A CN 202211096150 A CN202211096150 A CN 202211096150A CN 115497460 A CN115497460 A CN 115497460A
- Authority
- CN
- China
- Prior art keywords
- low
- frequency
- audio
- training
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000006870 function Effects 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 8
- 238000003786 synthesis reaction Methods 0.000 claims description 8
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 101100506221 Nitrosomonas europaea (strain ATCC 19718 / CIP 103999 / KCTC 2705 / NBRC 14298) hao3 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请提供了音频识别方法、模型的训练方法、装置、设备及存储介质,具体实现方案为:在第一音频数据集中确定低频三音素;基于低频三音素,从预设语料库中确定包含低频三音素的低频文本;基于低频文本训练音频识别模型。根据本申请的技术方案,能够有效提升训练数据中的低频数据内容的多样性和准确性。
Description
技术领域
本申请涉及深度学习技术领域,尤其涉及语音识别技术领域。
背景技术
近年来,随着语音识别技术的飞速发展,语音增强,语音识别,语音问答,信息提取等相关任务受到了越来越多的关注,但语音识别技术在较大程度上依赖于训练数据,而低频词在收集的训练数据中所占权重较小。因此,训练数据的数量是影响低频词识别的关键因素。
发明内容
根据本申请实施例的第一方面,提供了一种音频识别模型的训练方法,包括:
在第一音频数据集中确定低频三音素;
基于低频三音素,从预设语料库中确定包含低频三音素的低频文本;
基于低频文本训练音频识别模型。
根据本申请实施例的第二方面,提供了一种音频识别方法,包括:
利用音频识别模型对待处理音频数据进行识别,得到待处理音频数据中的识别结果;其中,音频识别模型是基于包含低频三音素的文本合成的音频数据训练得到的。
根据本申请实施例的第三方面,提供了一种音频识别模型的训练装置,包括:
确定模块,用于在第一音频数据集确定低频三音素;
查找模块,用于基于低频三音素,从预设语料库中确定包含低频三音素的低频文本;
训练模块,用于基于低频文本训练音频识别模型。
根据本申请实施例的第四方面,提供了一种音频识别装置,包括:
音频处理模块,用于利用音频识别模型对待处理音频数据进行识别,得到待处理音频数据中的识别结果;其中,音频识别模型是基于包含低频三音素的文本合成的音频数据训练得到的。
根据本申请实施例的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本申请实施例中任意一种音频识别模型的训练方法或音频识别方法。
根据本申请实施例的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本申请实施例中任意一种音频识别模型的训练方法或音频识别方法。
上述申请中的一个实施例具有如下优点或有益效果:利用在第一音频数据集中确定低频三音素,从预设语料库中确定包含低频三音素的低频文本,增加了训练数据的多样性,同时由于三音素考虑了协同发音,这样采用低频三音素确定低频文本,就可以提升训练数据中的低频音频数据的准确性。基于低频文本训练音频识别模型,提高了音频识别模型的训练效果,使得音频识别模型能够有效识别低频词。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是根据本申请一实施例的音频识别模型的训练方法的流程示意图;
图2是根据本申请另一实施例的音频识别模型的训练方法的流程示意图;
图3是根据本申请另一实施例的音频识别模型的训练方法中步骤S130的具体流程示意图;
图4是根据本申请另一实施例的音频识别模型的训练方法的具体流程示意图;
图5是根据本申请另一实施例的音频识别方法的示意图;
图6是根据本申请一实施例的音频识别模型的训练装置的框图;
图7是根据本申请一实施例的音频识别装置的框图;
图8是用来实现本申请实施例的音频识别模型的训练方法和音频识别方法的电子设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
示例性方法
图1是根据本申请一实施例的音频识别模型的训练方法的流程图。如图1所示,在一示例性实施例中,该方法可以包括:
S110、在第一音频数据集中确定低频三音素;
S120、基于低频三音素,从预设语料库中确定包含低频三音素的低频文本;
S130、基于低频文本训练音频识别模型。
在步骤S110中,示例性地,第一音频数据集是用于对音频识别模型进行训练的音频数据构成的集合。第一音频数据集中的音频数据可以是预先在任意场景下采集的,其可以包括真实场景下的语音数据,还可以包括各个AI语音平台合成的语音数据,在此不作限定。其中,语音数据可以是来源于业内开放的通用语音训练集,还可以是来源于特定用户录制的语音等。
可选地,语音数据可以通过单音素表示,也可以通过三音素表示。而单音素没有考虑协同发音,也就是上下文音素会对当前的中心音素发音有影响,产生协同变化,因此采用三音素使得音频数据的表示更加准确。
可选地,低频三音素用于表征出现频次低于预设阈值的三音素,预设阈值设置为10,还可以根据实际情况进行设置。具体地,可以通过三音素表示第一音频数据集中音频数据,再对三音素的出现频次进行筛选,确定出低频三音素。
在步骤S120中,示例性地,预设语料库是按照一定的语言学原则,收集自然出现的连续的语言文本或语音片段而建成的电子文库。可以理解的是,预设语料库可以是任意领域、任意方式得到的语料库。可选地,预设语料库可以包括语音数据,还可以包括文本数据。可选地,当语料库中包括语音数据时,可以是将语料库中的语音数据转换为文本数据,对文本数据进行分词得到整词,再将整词转换为三音素,得到三音素序列。可选地,当语料库中包括文本数据时,可以是直接将文本数据进行分词处理得到整词,再将整词转换为三音素,得到三音素序列。
可选地,音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。因此,整词转换为三音素的方法可以包括:先利用单音素表示整词,得到单音素序列,再将单音素复制为三音素,以使单音素序列转换为三音素序列。例如,单音素表示为如t,o,ng,而三音素表示为如t-o+ng。
又例如,中文为:好好学习天天向上;
拼音表示为:hao3 hao3 xue2 xi2 tian1 tian1 xiang4 shang4;
单音素表示为:sil,h,ao3,h,ao3,x,ue2,x,i2,t,ian1,t,ian1,x,iang4,sh,ang4,sil;
三音素表示为:sil sil-h+ao3 h-ao3+h ao3-h+ao3 h-ao3+x……sh-ang4+silsil;其中,音素sil用于表示为静音,音素sil覆盖的位置会无声。“sil-h+ao3”中的“sil”在“-”的左边,“h+ao3”在“-”的右边,说明发音偏向于“h+ao3”。“h”在“+”的左边,“ao3”在“+”的右边,说明发音偏向于“h”。
再将从预设语料库中提取的包含低频三音素的三音素序列对应的文本数据确定为低频文本。可选地,可以是利用三音素序列与语料库的文本数据的关系,在语料库中提取包含低频三音素的三音素序列对应的文本数据;还可以是将包含低频三音素的三音素序列转换为文本数据。
示例性地,由于同一低频三音素可以对应多个整词,可以先将低频三音素转换为多个整词,再根据多个整词在预设语料库中提取包含上述整词的低频文本。需要说明的是,上述处理过程最终确定出的低频文本可以是由任意数量的字符构成的任意长度的文本,例如可以是单字、整词,还可以是句子、篇章等。其中,整词可以是二字单词,也可以是四字成语等,在此不作限定。
在步骤S130中,示例性地,音频识别模型是具有音频识别功能的网络模型,例如其可以是神经网络模型(Neural Networks,NN)、编码-解码器(Encoder-Decoder),还可以是隐马尔可夫模型(Hidden Markov Model,HMM)等。
将上述步骤S120所确定出的低频文本用于对上述的音频识别模型进行训练时,可以采用任意可行的训练方式。例如,可以从音频库中检索与低频文本对应的音频,然后由低频文本及其对应的音频组成训练样本,然后利用该训练样本对音频识别模型进行音频识别训练。
可以理解,相对于常规的音频数据样本,例如,相对于上述的第一音频数据集,上述的低频文本中包含更多且更集中的低频三音素。利用低频文本对音频识别模型进行训练,可以提高训练样本中的低频音频的占比,使模型学习到更多的低频音频特征。
因此,本申请的技术方案中,利用在第一音频数据集中确定低频三音素,从预设语料库中确定包含低频三音素的低频文本,增加了训练数据的多样性,同时由于三音素考虑了协同发音,这样采用低频三音素确定低频文本,就可以提升训练数据中的低频音频数据的准确性。基于低频文本训练音频识别模型,提高了音频识别模型的训练效果,使得音频识别模型能够有效识别低频词。
在一种实施方式中,如图2所示,在基于低频文本训练音频识别模型之前,还包括:
S210、在低频文本中确定低频三音素对应的低频词;
S220、基于低频词的种类,调整低频词对应的低频文本的数量。
示例性地,基于低频三音素,从预设语料库中确定至少一个包含低频三音素的低频文本,确定每个低频文本中低频三音素对应的低频词。
示例性地,可以将文字相同的低频词确定为同一种类的低频词,这样,在获取至少一个低频文本中的低频词后,即可将得到的低频词进行聚合,得到至少一个种类的低频词。再将每个种类的低频词对应的低频文本的数量调整至预设范围内,其中,预设范围可以根据实际情况进行设置。从而保证了训练数据(即低频文本)中不同低频词数量的均衡,进而提升了音频识别模型的训练效果。
在本实施例中,在预设语料库中针对同一低频三音素确定出多个低频文本后,由于同一低频三音素可以对应于多个低频词,且多个低频文本中低频词的数量多少不一,所以确定每个低频词对应的低频文本数量。判断每个低频词对应的低频文本的数量是否超过设定值,若不超过设定值,则保留所有低频文本;若超过,则在低频文本中随机选取一定数量的文本,一般选取该设定值所对应的数量的低频文本。其中,设定值可以根据实际需要进行设置。
例如,假设一个低频三音素为A,检索到的包含A的低频文本有若干条,且对应于A的汉字整词分别为A1,A2,A3,A4,分别从A1,A2,A3,A4对应的低频文本中进行筛选。假设对低频文本进行筛选的数量设定值为30,则,如若包含A1的低频文本不足30条,则全部保留下来,若包含A1的低频文本有50条,则从中随机抽取30条保留下来,A2,A3,A4也做同样的筛选操作,使得训练数据中可以均匀的覆盖这四个汉字整词,从而保证训练数据的均衡。
又例如,假设一个低频三音素为A,检索到的包含A的低频文本有若干条,且对应于A的汉字整词分别为A1,A2,A3,A4,分别从A1,A2,A3,A4对应的低频文本中进行筛选,如若包含A1的低频文本有30条,包含A2的低频文本有50条,包含A3的低频文本有45条,包含A4的低频文本有40条,则可以将包含A1对应的文本数作为设定值。这样,A2,A3,A4均随机抽取30条低频文本保留下来,使得训练数据中可以均匀的覆盖这四个汉字整词,从而保证训练数据的均衡。
在一种实施方式中,如图3所示,基于低频文本训练音频识别模型,包括:
S310、基于低频文本合成音频训练数据;
S320、基于音频训练数据和第一音频数据集,确定第二音频数据集;
S330、基于第二音频数据集训练音频识别模型。
示例性地,对低频文本进行语音合成,即可将合成的音频作为音频训练数据。
为了提高合成的音频训练数据能够覆盖更多的说话风格,增加音频训练数据的多样性和全面性,可以通过不同类型的说话人资源对低频文本进行语音合成。具体地,可以通过AI语音平台合成不同语音风格的音频训练数据,或者通过不同声音特点的说话人进行语音合成。
由于音频训练数据均为根据低频文本合成的音频数据,则合成的音频数据中低频语音的占比较高。需要说明的是,在真实场景下低频语音的占比较低。那么,若以合成的音频数据来训练音频识别模型,则会出现音频识别模型对真实场景下音频数据的识别不准确的问题。因此将第一音频数据集与音频训练数据进行混合,得到第二音频数据集。即将真实场景下采集的音频数据和合成的音频数据结合,得到第二音频数据集。可选地,可以将第一音频数据集与音频训练数据等比例混合,也可以是按照不同比例进行混合,在此不作限定。这样,将真实场景下采集的音频数据和合成的音频数据结合后的音频数据作为训练数据,使得训练数据更具有真实性,同时丰富了训练数据的多样性,从而提升音频识别模型的训练效果,进而音频识别模型可以提高语音识别的准确性。
在一种实施方式中,基于第二音频数据集训练音频识别模型,包括:
基于正确的序列标注和所述音频识别模型对所述第二音频数据集中音频数据进行识别得到的观测序列,生成第一损失函数;
基于音频识别模型对第二音频数据集中的音频数据进行识别的交叉熵损失函数和第一损失函数,生成目标损失函数;
利用目标损失函数训练音频识别模型。
示例性地,由于音频识别的本质是序列分类的问题,因此基于正确的序列标注和音频识别模型识别第二音频数据集中音频数据得到的识别结果,生成第一损失函数。
可选地,可以引入序列鉴别性训练(sequence-discriminative training,SDT),即引入最大互信息、增强型最大互信息、最小音素错误和最小贝叶斯风险训练准则作为模型训练的损失函数(即第一损失函数)。
在本实施例中,采用最大互信息,公式如下:
其中,om和wm分别是第m个音频样本的观测序列和正确的序列标注,θ是声学模型参数,sm是wm对应的状态序列,K是声学缩放系数。在该公式中分子表示正确序列的可能性,分母是所有可能单词序列的可能性之和。
示例性地,由于一般采用机器学习(例如解码-编码器)对生成音频识别模型,在模型进行训练时可以采用交叉熵损失函数,最小化帧错误率。将交叉熵损失函数和第一损失函数结合生成目标损失函数,提高了序列的准确性,从而提升了音频识别模型的训练效果。
在本实施例中,通过将交叉熵损失函数与第一损失函数相加得到目标损失函数,公式如下:
其中,LASR即为交叉熵损失函数,LSDT为第一损失函数。
在一种实施方式中,在第一音频数据集中确定低频三音素,包括:
利用三音素确定第一音频数据集对应的第一音素集;
基于第一音素集中三音素的频次,确定第一音素集中的低频三音素。
在本实施例中,将第一音频数据集中的音频数据进行标注,再对其进行分词处理,得到文本序列,再利用单音素对文本序列进行表示得到单音素序列,将单音素复制为三音素,以使单音素序列转换为三音素序列,从而实现通过三音素表示文本序列,进而基于三音素序列得到第一音素集。根据第一音素集中各个三音素的出现频次,将出现频次低于预设阈值的三音素,定义为低频三音素,从而更准确地确定出第一音频数据集中的低频词。
为了能够更加详尽地了解本申请实施例的特点与技术内容,以下提供一个具体的应用示例进行说明。可以理解,以下应用示例仅作为参考,并不限定具体的实施过程。
在一应用示例中,如图4所示。音频识别模型的训练方法可以包括:
第一步:将原始训练数据(即第一音频数据集)中的训练音频对应的标注数据进行分词,得到具有整词信息的文本串。
第二步:根据音素词典将分词后的文本(即具有整词信息的文本串)转为单音素,也即phone串。
第三步:由于单音素没有考虑协同发音,也就是上下文音素会对当前的中心音素发音有影响,产生协同变化,因此要将单音素转为三音素,即将phone串转为triphone串。
第四步:对三音素的出现频次进行统计,设置阈值T,频次低于该阈值的三音素就定义为低频三音素。其中,T可以根据实际情况进行设置。
第五步:将语料库中的文本按照前述第一到三步处理成triphone串,然后利用低频三音素在语料库中检索其中的triphone串是否包含低频三音素,若包含低频三音素则将triphone串转为汉字文本,并将该低频三音素转为对应的汉字整词。
第六步:在得到包含低频词的文本后发现,同一个低频三音素对应于多个汉字整词,并且包含每个汉字整词的文本多少不一。为了降低筛选的文本量级,同时确保三音素尽可能覆盖到每一个汉字整词,因此对这些含低频词对应的文本进行筛选。判断每个低频词对应的文本的数量是否超过设定值,若不超过设定值,则保留所有低频文本;若超过,则在低频文本中随机选取一定数量的文本,一般根据设定值所对应的数量进行选取。其中,设定值可以根据实际需要进行设置。
第七步:选择七十个不同的说话人资源将筛选到的低频词文本合成音频,使得合成音频的说话风格具有多样性,尽量模拟真实音频数据。
第八步:原始训练数据都是真实音频数据,为了不影响识别模型在真实数据上的识别效果,要抽取一部分真实音频数据与第七步合成的低频词音频数据按照一定的配比混合到一起,提取特征后进行模型训练。训练是基于encoder-decoder的框架进行的,具体不再赘述。传统encoder-decoder通常采用交叉熵损失函数(CE),它能够独立的处理每一帧语音向量,可以最小化帧错误率,但是,语音识别本质上是一个序列分类问题,所以在基于encoder-decoder的框架训练两轮之后引入序列鉴别性训练方法,准则常用的有最大互信息、增强型最大互信息、最小音素错误和最小贝叶斯风险训练准则。在本实施例中,使用的准则是最大互信息准则,该准则最大化观测序列分布和word序列分布之间的互信息,减少句子错误率。在基于帧的语音识别中一般直接使用字错误率(WER)来评价语音识别准确率,其中最大互信息准则为:
其中,om和wm分别是第m个音频样本的观测序列和正确的序列标注,θ是声学模型参数,sm是wm对应的状态序列,K是声学缩放系数。在该公式中分子表示正确序列的可能性,分母是所有可能单词序列的可能性之和。
整个识别框架的整体损失函数为:
其中,LASR为交叉熵损失函数,LSDT为MMI准则计算出的损失。
在模型的损失满足整体损失函数时,输出训练好的模型。
图5是根据本申请一实施例的一种音频识别方法的流程图。如图5所示,在一示例性实施例中,该方法可以包括:
S510、利用音频识别模型对待处理音频数据进行识别,得到待处理音频数据中的识别结果;其中,音频识别模型是基于包含低频三音素的文本合成的音频数据训练得到的。
本申请的技术方案中,由于音频识别模型是基于包含低频三音素的文本合成的音频数据训练得到的,因此,音频识别模型能够准确识别出待处理音频数据中的低频词。
在一种实施方式中,音频识别模型是根据申请实施例中任意一种音频识别模型的训练方法训练得到的。
示例性地,可以是利用在第一音频数据集中确定低频三音素,从预设语料库中确定包含低频三音素的低频文本,增加了训练数据的多样性,同时由于三音素考虑了协同发音,这样采用低频三音素确定低频文本,就可以提升训练数据中的低频数据内容的准确性。基于低频文本训练音频识别模型,提高了音频识别模型的训练效果,使得音频识别模型能够有效识别低频词。
本申请的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
示例性装置
相应的,如图6所示,本申请实施例还提供了一种音频识别模型的训练装置,包括:
确定模块610,用于在第一音频数据集确定低频三音素;
查找模块620,用于基于所述低频三音素,从预设语料库中确定包含所述低频三音素的低频文本;
训练模块630,用于基于所述低频文本训练音频识别模型。
在一种实施方式中,所述装置,在训练模块630之前,还包括:
第一处理模块,用于在所述低频文本中确定所述低频三音素对应的低频词;
第二处理模块,用于基于所述低频词的种类,调整所述低频词对应的低频文本的数量。
在一种实施方式中,训练模块630,还用于:
基于所述低频文本合成音频训练数据;
基于所述音频训练数据和所述第一音频数据集,确定第二音频数据集;
基于所述第二音频数据集训练所述音频识别模型。
在一种实施方式中,基于所述第二音频数据集训练所述音频识别模型,包括:
基于正确的序列标注和所述音频识别模型对所述第二音频数据集中音频数据进行识别得到的观测序列,生成第一损失函数;
基于所述音频识别模型对所述第二音频数据集中的音频数据进行识别的交叉熵损失函数和所述第一损失函数,生成目标损失函数;
利用所述目标损失函数训练所述音频识别模型。
在一种实施方式中,确定模块610,还用于:
利用三音素确定第一音频数据集对应的第一音素集;
基于所述第一音素集中三音素的频次,确定所述第一音素集中的低频三音素。
相应的,如图7所示本申请实施例还提供了一种音频的识别装置,包括:
音频识别模块710,用于利用音频识别模型对待处理音频数据进行识别,得到所述待处理音频数据中的识别结果;其中,所述音频识别模型是基于包含低频三音素的文本合成的音频数据训练得到的。
本实施例提供的装置,与本申请上述实施例所提供的方法属于同一申请构思,可执行本申请上述任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请上述实施例提供的方法的具体处理内容,此处不再加以赘述。
示例性电子设备
本申请另一实施例还提出一种电子设备,如图8所示,该设备包括:
存储器800和处理器810;
其中,所述存储器800与所述处理器810连接,用于存储程序;
所述处理器810,用于通过运行所述存储器800中存储的程序,实现上述任一实施例公开的音频识别模型的训练方法或音频识别方法。
具体的,上述电子设备还可以包括:总线、通信接口820、输入设备830和输出设备840。
处理器810、存储器800、通信接口820、输入设备830和输出设备840通过总线相互连接。其中:
总线可包括一通路,在计算机系统各个部件之间传送信息。
处理器810可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
处理器810可包括主处理器,还可包括基带芯片、调制解调器等。
存储器800中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器800可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
输入设备830可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
输出设备840可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
通信接口820可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
处理器810执行存储器800中所存放的程序,以及调用其他设备,可用于实现本申请上述实施例所提供的任意一种音频识别模型的训练方法或音频识别方法的各个步骤。
示例性计算机程序产品和存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的音频识别模型的训练方法或音频识别方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是存储介质,其上存储有计算机程序,计算机程序被处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的音频识别模型的训练方法或音频识别方法中的步骤,具体可以实现以下步骤:S110、在第一音频数据集中确定低频三音素;S120、基于低频三音素,从预设语料库中确定包含低频三音素的低频文本;S130、基于低频文本训练音频识别模型。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种音频识别模型的训练方法,其特征在于,包括:
在第一音频数据集中确定低频三音素;
基于所述低频三音素,从预设语料库中确定包含所述低频三音素的低频文本;
基于所述低频文本训练音频识别模型。
2.根据权利要求1所述的方法,其特征在于,在所述基于所述低频文本训练音频识别模型之前,还包括:
在所述低频文本中确定所述低频三音素对应的低频词;
基于所述低频词的种类,调整所述低频词对应的低频文本的数量。
3.根据权利要求1所述的方法,其特征在于,所述基于所述低频文本训练音频识别模型,包括:
基于所述低频文本合成音频训练数据;
基于所述音频训练数据和所述第一音频数据集,确定第二音频数据集;
基于所述第二音频数据集训练所述音频识别模型。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第二音频数据集训练所述音频识别模型,包括:
基于正确的序列标注和所述音频识别模型对所述第二音频数据集中音频数据进行识别得到的观测序列,生成第一损失函数;
基于所述音频识别模型对所述第二音频数据集中的音频数据进行识别的交叉熵损失函数和所述第一损失函数,生成目标损失函数;
利用所述目标损失函数训练所述音频识别模型。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述在第一音频数据集中确定低频三音素,包括:
利用三音素确定第一音频数据集对应的第一音素集;
基于所述第一音素集中三音素的频次,确定所述第一音素集中的低频三音素。
6.一种音频识别方法,其特征在于,包括:
利用音频识别模型对待处理音频数据进行识别,得到所述待处理音频数据中的识别结果;其中,所述音频识别模型是基于包含低频三音素的文本合成的音频数据训练得到的。
7.根据权利要求6所述的方法,其特征在于,所述音频识别模型是根据如权利要求1-5中任一项所述的音频识别模型的训练方法训练得到的。
8.一种音频识别模型的训练装置,其特征在于,包括:
确定模块,用于在第一音频数据集确定低频三音素;
查找模块,用于基于所述低频三音素,从预设语料库中确定包含所述低频三音素的低频文本;
训练模块,用于基于所述低频文本训练音频识别模型。
9.一种音频识别装置,其特征在于,包括:
音频处理模块,用于利用音频识别模型对待处理音频数据进行识别,得到所述待处理音频数据中的识别结果;其中,所述音频识别模型是基于包含低频三音素的文本合成的音频数据训练得到的。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的音频识别模型的训练方法或音频识别方法。
11.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的音频识别模型的训练方法或音频识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211096150.8A CN115497460A (zh) | 2022-09-08 | 2022-09-08 | 音频识别方法、模型的训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211096150.8A CN115497460A (zh) | 2022-09-08 | 2022-09-08 | 音频识别方法、模型的训练方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115497460A true CN115497460A (zh) | 2022-12-20 |
Family
ID=84468925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211096150.8A Pending CN115497460A (zh) | 2022-09-08 | 2022-09-08 | 音频识别方法、模型的训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115497460A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109346064A (zh) * | 2018-12-13 | 2019-02-15 | 苏州思必驰信息科技有限公司 | 用于端到端语音识别模型的训练方法及系统 |
CN111583909A (zh) * | 2020-05-18 | 2020-08-25 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN111768761A (zh) * | 2019-03-14 | 2020-10-13 | 京东数字科技控股有限公司 | 一种语音识别模型的训练方法和装置 |
CN112216270A (zh) * | 2020-10-09 | 2021-01-12 | 携程计算机技术(上海)有限公司 | 语音音素的识别方法及系统、电子设备及存储介质 |
CN112509560A (zh) * | 2020-11-24 | 2021-03-16 | 杭州一知智能科技有限公司 | 一种基于缓存语言模型的语音识别自适应方法和系统 |
CN113393830A (zh) * | 2021-06-11 | 2021-09-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 混合声学模型训练及歌词时间戳生成方法、设备、介质 |
CN114220417A (zh) * | 2021-12-10 | 2022-03-22 | 京东科技信息技术有限公司 | 一种意图识别方法、装置及相关设备 |
CN114333759A (zh) * | 2021-12-31 | 2022-04-12 | 腾讯音乐娱乐科技(深圳)有限公司 | 模型训练方法、语音合成方法、设备和计算机程序产品 |
CN114639371A (zh) * | 2022-03-16 | 2022-06-17 | 马上消费金融股份有限公司 | 一种语音的转换方法、装置及设备 |
CN114783424A (zh) * | 2022-03-21 | 2022-07-22 | 北京云迹科技股份有限公司 | 文本语料筛选方法、装置、设备及存储介质 |
CN114999450A (zh) * | 2022-05-24 | 2022-09-02 | 网易有道信息技术(北京)有限公司 | 同形异义字的识别方法、装置、电子设备及存储介质 |
-
2022
- 2022-09-08 CN CN202211096150.8A patent/CN115497460A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109346064A (zh) * | 2018-12-13 | 2019-02-15 | 苏州思必驰信息科技有限公司 | 用于端到端语音识别模型的训练方法及系统 |
CN111768761A (zh) * | 2019-03-14 | 2020-10-13 | 京东数字科技控股有限公司 | 一种语音识别模型的训练方法和装置 |
CN111583909A (zh) * | 2020-05-18 | 2020-08-25 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN112216270A (zh) * | 2020-10-09 | 2021-01-12 | 携程计算机技术(上海)有限公司 | 语音音素的识别方法及系统、电子设备及存储介质 |
CN112509560A (zh) * | 2020-11-24 | 2021-03-16 | 杭州一知智能科技有限公司 | 一种基于缓存语言模型的语音识别自适应方法和系统 |
CN113393830A (zh) * | 2021-06-11 | 2021-09-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 混合声学模型训练及歌词时间戳生成方法、设备、介质 |
CN114220417A (zh) * | 2021-12-10 | 2022-03-22 | 京东科技信息技术有限公司 | 一种意图识别方法、装置及相关设备 |
CN114333759A (zh) * | 2021-12-31 | 2022-04-12 | 腾讯音乐娱乐科技(深圳)有限公司 | 模型训练方法、语音合成方法、设备和计算机程序产品 |
CN114639371A (zh) * | 2022-03-16 | 2022-06-17 | 马上消费金融股份有限公司 | 一种语音的转换方法、装置及设备 |
CN114783424A (zh) * | 2022-03-21 | 2022-07-22 | 北京云迹科技股份有限公司 | 文本语料筛选方法、装置、设备及存储介质 |
CN114999450A (zh) * | 2022-05-24 | 2022-09-02 | 网易有道信息技术(北京)有限公司 | 同形异义字的识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
王兴金: "融合多特征的老挝语词性标注研究", 中国优秀硕士学位论文全文数据库 信息科技辑, 15 April 2021 (2021-04-15), pages 138 - 1009 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111292720B (zh) | 语音合成方法、装置、计算机可读介质及电子设备 | |
CN113470662B (zh) | 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配 | |
CN108447486B (zh) | 一种语音翻译方法及装置 | |
US9368108B2 (en) | Speech recognition method and device | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US20200082808A1 (en) | Speech recognition error correction method and apparatus | |
CN112309366A (zh) | 语音合成方法、装置、存储介质及电子设备 | |
CN103854643B (zh) | 用于合成语音的方法和装置 | |
CN110600002B (zh) | 语音合成方法、装置及电子设备 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN111552777B (zh) | 一种音频识别方法、装置、电子设备及存储介质 | |
CN113380222B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN112309367B (zh) | 语音合成方法、装置、存储介质及电子设备 | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
CN113450757A (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
CN116682411A (zh) | 语音合成方法、语音合成系统、电子设备及存储介质 | |
CN113936642A (zh) | 发音词典构建方法、语音识别方法及相关装置 | |
CN112542154B (zh) | 文本转换方法、装置、计算机可读存储介质及电子设备 | |
CN115497460A (zh) | 音频识别方法、模型的训练方法、装置、设备及存储介质 | |
Sefara et al. | Web-based automatic pronunciation assistant | |
CN115472185A (zh) | 一种语音生成方法、装置、设备及存储介质 | |
CN114283786A (zh) | 语音识别方法、装置及计算机可读存储介质 | |
US11043212B2 (en) | Speech signal processing and evaluation | |
Sefara et al. | The development of local synthetic voices for an automatic pronunciation assistant |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |