CN110033760B - 语音识别的建模方法、装置及设备 - Google Patents
语音识别的建模方法、装置及设备 Download PDFInfo
- Publication number
- CN110033760B CN110033760B CN201910297805.XA CN201910297805A CN110033760B CN 110033760 B CN110033760 B CN 110033760B CN 201910297805 A CN201910297805 A CN 201910297805A CN 110033760 B CN110033760 B CN 110033760B
- Authority
- CN
- China
- Prior art keywords
- voice data
- dialects
- label
- mandarin
- dialect
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 241001672694 Citrus reticulata Species 0.000 claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 238000007476 Maximum Likelihood Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 6
- 238000012423 maintenance Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提出一种语音识别的建模方法、装置及设备,其中,方法包括:确定N类标签;根据普通话的第二语音数据训练神经网络,生成输出为N类标签的识别模型;将P种方言的第二语音数据分别输入到识别模型中进行处理,获取每帧方言的第二语音数据的输出标签;根据所述输出标签和标注的真实标签,对于P种方言中每一种方言确定N类标签的错误率,根据错误率大于预设阈值的标签新生成M类目标标签;根据普通话的第三语音数据和P种方言的第三语音数据训练声学模型,声学模型的输出为N类标签和P种方言中每一种方言对应的M类目标标签。由此,实现了普通话和方言混合建模,在保证识别准确性的同时,使同一个模型既支持普通话,又能支持多种方言。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别的建模方法、装置及设备。
背景技术
随着语音识别技术的发展,语音识别的性能已满足实用,例如手机上的各种输入法都带有语音交互功能。而在实际应用中,除了普通话场景的语音识别外,还存在方言场景的语音识别。目前已有许多支持方言语音识别的语音交互产品,比如手机输入法上语音识别可选项,用户可以根据需要选择对应的方言,再比如一些针对特定方言定制的智能电视、智能冰箱等。
相关技术中,通常采用普通话识别模型对普通话进行语音识别,采用相应的方言识别模型对方言进行语音识别,而在用户在切换语言时,需要来回选择相应的语音识别模型,操作繁琐。并且,随着要支持的方言越来越多,工作量与维护成本较高。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种语音识别的建模方法,实现了普通话和方言混合建模,在保证识别准确性的同时,使得同一个模型既支持普通话,又能支持多种方言,无需在多个模型之间切换,简化了用户操作,并且降低了维护成本。
本发明的第二个目的在于提出一种语音识别的建模装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种计算机可读存储介质。
本发明第一方面实施例提出了一种语音识别的建模方法,包括:
根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理,获取每帧第一语音数据对应的标签,统计输出的标签并对相同类别的标签进行去重,确定N类标签,其中,N为正整数,P为正整数;
根据普通话的第二语音数据训练神经网络,当所述神经网络收敛时生成识别模型,其中,所述识别模型的输出为所述N类标签;
将所述P种方言的第二语音数据分别输入到所述识别模型中进行处理,获取每帧方言的第二语音数据的输出标签;
根据所述输出标签和标注的真实标签,对于所述P种方言中每一种方言确定所述N类标签中每类标签的错误率,根据所述错误率大于预设阈值的M类标签新生成M类目标标签,其中,M为大于等于零的整数;
根据普通话的第三语音数据和所述P种方言的第三语音数据训练声学模型,其中,所述声学模型的输出为所述N类标签和所述P种方言中每一种方言对应的所述M类目标标签。
本发明第二方面实施例提出了一种语音识别的建模装置,包括:
对齐模块,用于根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理,获取每帧第一语音数据对应的标签,统计输出的标签并对相同类别的标签进行去重,确定N类标签,其中,N为正整数,P为正整数;
第一训练模块,用于根据普通话的第二语音数据训练神经网络,当所述神经网络收敛时生成识别模型,其中,所述识别模型的输出为所述N类标签;
处理模块,用于将所述P种方言的第二语音数据分别输入到所述识别模型中进行处理,获取每帧方言的第二语音数据的输出标签;
生成模块,用于根据所述输出标签和标注的真实标签,对于所述P种方言中每一种方言确定所述N类标签中每类标签的错误率,根据所述错误率大于预设阈值的M类标签新生成M类目标标签,其中,M为大于等于零的整数;
第二训练模块,用于根据普通话的第三语音数据和所述P种方言的第三语音数据训练声学模型,其中,所述声学模型的输出为所述N类标签和所述P种方言中每一种方言对应的所述M类目标标签。
本发明第三方面实施例提出了一种计算机设备,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的语音识别的建模方法。
本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的语音识别的建模方法。
本发明实施例提供的技术方案可以包括以下有益效果:
根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理,获取每帧第一语音数据对应的标签,统计输出的标签并对相同类别的标签进行去重,确定N类标签。进而,根据普通话的第二语音数据训练神经网络,当神经网络收敛时生成输出为N类标签的识别模型。进一步将P种方言的第二语音数据分别输入到识别模型中进行处理,获取每帧方言的第二语音数据的输出标签。进一步根据输出标签和标注的真实标签,对于P种方言中每一种方言确定N类标签中每类标签的错误率,根据错误率大于预设阈值的M类标签新生成M类目标标签。进一步根据普通话的第三语音数据和P种方言的第三语音数据训练声学模型,其中,声学模型的输出为N类标签和P种方言中每一种方言对应的M类目标标签。由此,对于每种方言,基于普通话训练的识别模型中各标签的错误率,生成相应的目标标签,并根据已有标签与新生成的目标标签生成声学模型,使得该声学模型可以识别普通话语音与方言语音,实现了普通话和方言混合建模,在保证识别准确性的同时,使得同一个模型既支持普通话,又能支持多种方言,无需在多个模型之间切换,简化了用户操作,并且降低了维护成本。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明实施例所提供的一种语音识别的建模方法的流程示意图;
图2为本发明实施例所提供的一种确定输出标签的流程示意图;
图3为本发明实施例所提供的一种声学模型的示意图;
图4为本发明实施例所提供的一种语音识别的建模装置的结构示意图;
图5为本发明实施例所提供的另一种语音识别的建模装置的结构示意图;
图6示出了适于用来实现本发明实施例的示例性计算机设备的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的语音识别的建模方法、装置及设备。
图1为本发明实施例所提供的一种语音识别的建模方法的流程示意图,如图1所示,该方法包括:
步骤101,根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理,获取每帧第一语音数据对应的标签,统计输出的标签并对相同类别的标签进行去重,确定N类标签,其中,N为正整数,P为正整数。
相关技术中,在针对普通话和方言进行语音识别时,需要切换至相应的语音识别模型进行识别,切换操作繁琐,并且当方言数量增加时需要增加相应的语音识别模型,成本较高。因此,本发明实施例提出一种语音识别的建模方法,能够对普通话和方言混合建模,从而实现一个模型既可以识别普通话,又可以识别方言。
本发明实施例中,在针对普通话和方言混合建模时,可以先根据预先训练的对齐模型对普通话和方言的语音数据做帧级别的对齐,确定N类标签,以保证普通话与方言的建模单元一致。
其中,标签为每帧语音数据对应的内容,比如根据相关语音识别模型中的声学模型确定每帧语音数据对应的标签,根据语音识别模型中的语言模型和标签获取识别文本。
作为一种示例,可以根据普通话数据预先训练对齐模型,该对齐模型输入为每帧语音数据的特征,输出为每帧语音数据对应的标签。进而,将收集的普通话语音数据和方言A、方言B的语音数据输入到该对齐模型中,输出每帧语音数据对应的标签,进一步对输出的标签进行统计和去重,确定N类标签作为后续步骤中神经网络的输出层节点,比如N为2000,对齐后可以确定2000个不同的标签。由此,实现了将方言与普通话进行帧级别的对齐,保证方言和普通话的建模单元一致。
在本发明的一个实施例中,对齐模型可以基于混合高斯模型实现。可以预先收集普通话的语音数据以及对应标注的文本信息,其中该文本信息中已知每个字对应的一个或多个标签。进而,提取每帧语音数据的梅尔频率倒谱系数(简称MFCC)特征,根据MFCC特征和文本信息,基于最大似然估计训练混合高斯模型的参数,生成对齐模型,使得该对齐模型的输入为每帧语音数据的MFCC特征,输出为每帧语音数据对应的标签。
步骤102,根据普通话的第二语音数据训练神经网络,当神经网络收敛时生成识别模型,其中,识别模型的输出为N类标签。
本发明实施例中,在确定了N类标签后,可以收集普通话的语音数据训练神经网络,使该神经网络的输出层节点数量为N,分别对应N类标签。其中,神经网络可以为DNN-HMM(深度神经网络-隐马尔科夫模型)。
作为一种可能的实现方式,可以收集普通话的语音数据和对应标注的标签,并对普通话语音数据提取滤波器组系数(Filter Bank)特征,基于CTC(ConnectionistTemporal Classification)的训练准则训练神经网络,其中,CTC的训练准则可以如下公式所示,
其中,k为某一时刻参考的标签k的得分,∑s∈label(z,k)α(s)β(s)表示某一时刻CTC路径中属于标签k的得分(通过CTC的前向得分和后向得分的乘积得到),P(z|x)为某一时刻CTC所经过路径的总得分。进而,当神经网络收敛时生成识别模型,该识别模型的输出层为N类标签,可以对普通话的语音数据进行识别。将普通话语音数据输入该识别模型,可以获取每帧语音数据对应的标签。
步骤103,将P种方言的第二语音数据分别输入到识别模型中进行处理,获取每帧方言的第二语音数据的输出标签。
本实施例中,可以收集方言的语音数据,并将方言的语音数据输入到从语音数据到标签的识别模型中,获取每帧方言的语音数据对应的标签,作为相应的输出标签。
下面结合识别模型的处理过程进行说明。
图2为本发明实施例所提供的一种确定输出标签的流程示意图,如图2所示,包括:
步骤201,提取方言的第二语音数据的滤波器组系数特征,根据滤波器组系数特征确定每帧方言的第二语音数据的N个后验概率。
本实施例中,由于根据对齐模型确定了N类标签,则识别模型的输出为该N类标签。可以提取方言的语音数据的滤波器组系数特征,并将滤波器组系数特征输入到识别模型中进行处理,对于每帧方言的语音数据,输出N个后验概率,比如输出一个长度为N的一维数组,数组中每个值代表每个标签的后验概率。
步骤202,将N个后验概率中最大值对应的标签,作为每帧方言的第二语音数据的输出标签。
本实施例中,对于每帧方言的语音数据,确定N个后验概率中的最大后验概率,并将该最大后验概率对于的标签,作为该帧方言的语音数据的输出标签。
作为一种示例,N为2000,将方言A和方言B的语音数据分别输入到识别模型,分别得到对应的前向打分,即识别模型输出层的后验概率。由于输出层节点为2000个,对于方言A每一帧数据,以及方言B的每一帧数据,均会得到一个长度为2000的一维数组,其中,数组中每个值代表每个标签的后验概率。进而,将每个数组中最大值对应的标签,作为该帧语音数据的输出标签。
步骤104,根据输出标签和标注的真实标签,对于P种方言中每一种方言确定N类标签中每类标签的错误率,根据错误率大于预设阈值的M类标签新生成M类目标标签,其中,M为大于等于零的整数。
本发明实施例中,可以在收集上述步骤中方言的第二语音数据时,获取该语音数据对应标注的真实标签。其中,输出标签与真实标签均属于N类标签。
可以理解,由于识别模型是根据普通话语音数据训练得到的,因此将方言的语音数据输入到识别模型中进行处理,得到的输出标签可能并不准确,因此可以进一步将能够准确识别的标签作为普通话与方言共用的标签,根据不能够准确识别的标签新生成目标标签作为方言单独使用的标签。
作为一种示例,以方言A为例,对于方言A的每一帧语音数据,将该帧语音数据的输出标签与标注的真实标签进行匹配,若一致则代表分类正确,若不一致则代表分类错误。进而统计各个标签分类错误的个数,并对每个标签的总数归一化,得到每个标签分类的错误率。比如,对于标签1,标注的真实标签为10个,对应的输出标签中有5个为标签1,有5个为其他标签,则确定标签1的错误率为50%。
本实施例中,对于每一种方言,在确定N类标签中各标签的错误率后,可以将错误率与预设阈值进行比较,将错误率小于等于预设阈值的标签作为普通话与该种方言共用的标签,并根据错误率大于预设阈值的标签新生成目标标签,也就是说,对于每一种方言可以从N类标签中确定出M类错误率较高的标签,并根据该M类标签新生成对应的M类目标标签,作为该种方言独有的标签。其中,预设阈值可以根据大量实验数据确定,也可以根据需要自行设置,比如可以为90%,此处不作限制。
需要说明的是,本实施例中当方言种类为多种的情况,针对每一种方言,分别确定各标签的错误率,比如对于方言A确定了M1个目标标签,对于方言B确定了M2个目标标签,其具体实现方式可以参照上述示例,此处不再赘述。
在本发明的一个实施例中,对于每一种方言,在根据错误率大于预设阈值的M类标签新生成M类目标标签之后,还可以根据M类目标标签更新解码字典,在解码字典中为目标标签增加相应的发音。其中,解码字典中包括从单词到音素的映射,用于连接声学模型和语言模型。
步骤105,根据普通话的第三语音数据和P种方言的第三语音数据训练声学模型,其中,声学模型的输出为N类标签和P种方言中每一种方言对应的M类目标标签。
本发明实施例中,在对于P种方言中每一种方言确定M类目标标签之后,可以根据普通话的语音数据与方言的语音数据共同训练一个声学模型,其中,声学模型的输出为N类标签和P种方言中每一种方言对应的M类目标标签。由此,通过该声学模型既可以识别普通话,也可以识别P种方言,并且保证了识别的准确性,从而根据该声学模型及相关语言模型、解码字典构建语音识别模型,可以通过一个语音识别模型对普通话和多种方言进行语音识别。其中,声学模型可以为DNN-HMM模型。
作为一种示例,以普通话和方言A为例,N为2000,预设阈值为90%。对于方言A,2000个标签中错误率大于90%的标签数目为400,将该400个建模单元单独列出并作为额外的建模单元。进而,根据普通话语音数据和方言A语音数据训练声学模型,使得声学模型输出层节点个数为2400,其中,2000个节点中有1600个为普通话和方言A共用,400个为普通话单独使用,额外的400个节点为方言A单独使用。
作为另一种示例,参照图3,以普通话和方言A、方言B为例,N为2000,预设阈值为90%。对于方言A,2000个标签中错误率大于90%的标签数目为400,将该400个建模单元单独列出并作为额外的建模单元;对于方言B,2000个标签中错误率大于90%的标签数目为600,将该600个建模单元单独列出并作为额外的建模单元。进而,根据普通话语音数据和方言A、方言B的语音数据训练声学模型,使得声学模型输出层节点个数为3000,其中,对于方言A,2000个节点中有1600个为普通话和方言A共用,400个为普通话单独使用,额外的400个节点为方言A单独使用。对于方言B,节点中有1400个为普通话和方言B共用,600个为普通话单独使用,额外的600个节点为方言B单独使用。
在本发明的一个实施例中,可以收集普通话的语音数据和P种方言的语音数据,并对普通话的语音数据标注相应的标签作为第一标注标签,以及对P种方言的语音数据标注相应的标签作为第二标注标签。进而,根据上述收集的语音数据与对应标注的标签生成训练样本集。其中,对于P种方言中每一种方言的语音数据,将原先标注的错误率大于预设阈值的M类标签替换为对应的M类目标标签,比如,对于方言A,标签1的错误率大于90%,则将原先应当标注的标签1替换为标注目标标签1。进而,根据预设的目标函数和训练样本训练预设模型的处理参数,生成声学模型,使得声学模型的输入为语音数据,输出为每帧语音数据对应的标签或目标标签。其中,预设模型可以为DNN-HMM等,可以基于CTC训练准则训练声学模型,其实现方式可以参照识别模型,此处不再赘述。
需要说明的是,本实施例不同步骤中普通话的语音数据可以相同,也可以不同,以及方言的语音数据可以相同,也可以不同,具体可以根据需要进行选择,此处不作限制。
本发明实施例的语音识别的建模方法,根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理,获取每帧第一语音数据对应的标签,统计输出的标签并对相同类别的标签进行去重,确定N类标签。进而,根据普通话的第二语音数据训练神经网络,当神经网络收敛时生成输出为N类标签的识别模型。进一步将P种方言的第二语音数据分别输入到识别模型中进行处理,获取每帧方言的第二语音数据的输出标签。进一步根据输出标签和标注的真实标签,对于P种方言中每一种方言确定N类标签中每类标签的错误率,根据错误率大于预设阈值的M类标签新生成M类目标标签。进一步根据普通话的第三语音数据和P种方言的第三语音数据训练声学模型,其中,声学模型的输出为N类标签和P种方言中每一种方言对应的M类目标标签。由此,对于每种方言,基于普通话训练的识别模型中各标签的错误率,生成相应的目标标签,并根据已有标签与新生成的目标标签生成声学模型,使得该声学模型可以识别普通话语音与方言语音,实现了基于每帧语音数据分类的错误确定建模单元,从而实现了普通话和方言混合建模,在保证识别准确性的同时,使得同一个模型既支持普通话,又能支持多种方言,无需在多个模型之间切换,简化了用户操作,并且降低了维护成本。
为了实现上述实施例,本发明还提出一种语音识别的建模装置。
图4为本发明实施例所提供的一种语音识别的建模装置的结构示意图,如图4所示,该装置包括:对齐模块100,第一训练模块200,处理模块300,生成模块400,第二训练模块500。
其中,对齐模块100,用于根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理,获取每帧第一语音数据对应的标签,统计输出的标签并对相同类别的标签进行去重,确定N类标签,其中,N为正整数,P为正整数。
第一训练模块200,用于根据普通话的第二语音数据训练神经网络,当神经网络收敛时生成识别模型,其中,识别模型的输出为N类标签。
处理模块300,用于将P种方言的第二语音数据分别输入到识别模型中进行处理,获取每帧方言的第二语音数据的输出标签。
生成模块400,用于根据输出标签和标注的真实标签,对于P种方言中每一种方言确定N类标签中每类标签的错误率,根据错误率大于预设阈值的M类标签新生成M类目标标签,其中,M为大于等于零的整数。
第二训练模块500,用于根据普通话的第三语音数据和P种方言的第三语音数据训练声学模型,其中,声学模型的输出为N类标签和P种方言中每一种方言对应的M类目标标签。
在图4的基础上,图5所示的装置还包括:第三训练模块600,更新模块700。
其中,第三训练模块600,用于获取普通话的第四语音数据和对应的文本信息;提取每帧第四语音数据的MFCC特征,根据MFCC特征和文本信息,基于最大似然估计训练混合高斯模型的参数,生成对齐模型。
更新模块700,用于根据M类目标标签更新解码字典。
可选地,处理模块300具体用于:提取方言的第二语音数据的滤波器组系数特征,根据滤波器组系数特征确定每帧方言的第二语音数据的N个后验概率;将N个后验概率中最大值对应的标签,作为每帧方言的第二语音数据的输出标签。
可选地,第二训练模块500具体用于:根据普通话的第三语音数据和与普通话的第三语音数据对应的第一标注标签,以及P种方言的第三语音数据和与P种方言的第三语音数据对应的第二标注标签,生成训练样本,其中,对于P种方言中每一种方言的第三语音数据,将原先标注的错误率大于预设阈值的M类标签替换为对应的M类目标标签;根据预设的目标函数和训练样本训练预设模型的处理参数,生成声学模型。
需要说明的是,前述实施例对语音识别的建模方法的解释说明同样适用于本实施例的装置,此处不再赘述。
本发明实施例的语音识别的建模装置,能够对于每种方言,基于普通话训练的识别模型中各标签的错误率,生成相应的目标标签,并根据已有标签与新生成的目标标签生成声学模型,使得该声学模型可以识别普通话语音与方言语音,实现了普通话和方言混合建模,在保证识别准确性的同时,使得同一个模型既支持普通话,又能支持多种方言,无需在多个模型之间切换,简化了用户操作,并且降低了维护成本。
为了实现上述实施例,本发明还提出一种计算机设备,包括处理器和存储器;其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述任一实施例所述的语音识别的建模方法。
为了实现上述实施例,本发明还提出一种计算机程序产品,当计算机程序产品中的指令被处理器执行时实现如前述任一实施例所述的语音识别的建模方法。
为了实现上述实施例,本发明还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述任一实施例所述的语音识别的建模方法。
图6示出了适于用来实现本发明实施例的示例性计算机设备的框图。图6显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (12)
1.一种语音识别的建模方法,其特征在于,包括:
根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理,获取每帧第一语音数据对应的标签,统计输出的标签并对相同类别的标签进行去重,确定N类标签,其中,N为正整数,P为正整数;
根据普通话的第二语音数据训练神经网络,当所述神经网络收敛时生成识别模型,其中,所述识别模型的输出为所述N类标签;
将所述P种方言的第二语音数据分别输入到所述识别模型中进行处理,获取每帧方言的第二语音数据的输出标签;
根据所述输出标签和标注的真实标签,对于所述P种方言中每一种方言确定所述N类标签中每类标签的错误率,根据所述错误率大于预设阈值的M类标签新生成M类目标标签,其中,M为大于等于零的整数;
根据普通话的第三语音数据和所述P种方言的第三语音数据训练声学模型,其中,所述声学模型的输出为所述P种方言中每一种方言对应的所述M类目标标签、以及所述N类标签。
2.如权利要求1所述的方法,其特征在于,所述将所述P种方言的第二语音数据分别输入到所述识别模型中进行处理,获取每帧方言的第二语音数据的输出标签包括:
提取所述方言的第二语音数据的滤波器组系数特征,根据所述滤波器组系数特征确定每帧方言的第二语音数据的N个后验概率;
将所述N个后验概率中最大值对应的标签,作为所述每帧方言的第二语音数据的输出标签。
3.如权利要求1所述的方法,其特征在于,所述根据普通话的第三语音数据和所述P种方言的第三语音数据训练声学模型包括:
根据所述普通话的第三语音数据和与所述普通话的第三语音数据对应的第一标注标签,以及所述P种方言的第三语音数据和与所述P种方言的第三语音数据对应的第二标注标签,生成训练样本,其中,对于所述P种方言中每一种方言的第三语音数据,将原先标注的错误率大于预设阈值的M类标签替换为对应的M类目标标签;
根据预设的目标函数和所述训练样本训练预设模型,生成所述声学模型。
4.如权利要求1所述的方法,其特征在于,在根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理之前,还包括:
获取普通话的第四语音数据和对应的文本信息;
提取每帧第四语音数据的MFCC特征,根据所述MFCC特征和所述文本信息,基于最大似然估计训练混合高斯模型,生成所述对齐模型。
5.如权利要求1所述的方法,其特征在于,在根据所述错误率大于预设阈值的M类标签新生成M类目标标签之后,还包括:
根据所述M类目标标签更新解码字典。
6.一种语音识别的建模装置,其特征在于,包括:
对齐模块,用于根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理,获取每帧第一语音数据对应的标签,统计输出的标签并对相同类别的标签进行去重,确定N类标签,其中,N为正整数,P为正整数;
第一训练模块,用于根据普通话的第二语音数据训练神经网络,当所述神经网络收敛时生成识别模型,其中,所述识别模型的输出为所述N类标签;
处理模块,用于将所述P种方言的第二语音数据分别输入到所述识别模型中进行处理,获取每帧方言的第二语音数据的输出标签;
生成模块,用于根据所述输出标签和标注的真实标签,对于所述P种方言中每一种方言确定所述N类标签中每类标签的错误率,根据所述错误率大于预设阈值的M类标签新生成M类目标标签,其中,M为大于等于零的整数;
第二训练模块,用于根据普通话的第三语音数据和所述P种方言的第三语音数据训练声学模型,其中,所述声学模型的输出为所述P种方言中每一种方言对应的所述M类目标标签、以及所述N类标签。
7.如权利要求6所述的装置,其特征在于,所述处理模块具体用于:
提取所述方言的第二语音数据的滤波器组系数特征,根据所述滤波器组系数特征确定每帧方言的第二语音数据的N个后验概率;
将所述N个后验概率中最大值对应的标签,作为所述每帧方言的第二语音数据的输出标签。
8.如权利要求6所述的装置,其特征在于,所述第二训练模块具体用于:
根据所述普通话的第三语音数据和与所述普通话的第三语音数据对应的第一标注标签,以及所述P种方言的第三语音数据和与所述P种方言的第三语音数据对应的第二标注标签,生成训练样本,其中,对于所述P种方言中每一种方言的第三语音数据,将原先标注的错误率大于预设阈值的M类标签替换为对应的M类目标标签;
根据预设的目标函数和所述训练样本训练预设模型,生成所述声学模型。
9.如权利要求6所述的装置,其特征在于,还包括:
第三训练模块,用于获取普通话的第四语音数据和对应的文本信息;
提取每帧第四语音数据的MFCC特征,根据所述MFCC特征和所述文本信息,基于最大似然估计训练混合高斯模型,生成所述对齐模型。
10.如权利要求6所述的装置,其特征在于,还包括:
更新模块,用于根据所述M类目标标签更新解码字典。
11.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-5中任一项所述的语音识别的建模方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的语音识别的建模方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910297805.XA CN110033760B (zh) | 2019-04-15 | 2019-04-15 | 语音识别的建模方法、装置及设备 |
US16/843,174 US11688391B2 (en) | 2019-04-15 | 2020-04-08 | Mandarin and dialect mixed modeling and speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910297805.XA CN110033760B (zh) | 2019-04-15 | 2019-04-15 | 语音识别的建模方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110033760A CN110033760A (zh) | 2019-07-19 |
CN110033760B true CN110033760B (zh) | 2021-01-29 |
Family
ID=67238338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910297805.XA Active CN110033760B (zh) | 2019-04-15 | 2019-04-15 | 语音识别的建模方法、装置及设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11688391B2 (zh) |
CN (1) | CN110033760B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517664B (zh) * | 2019-09-10 | 2022-08-05 | 科大讯飞股份有限公司 | 多方言识别方法、装置、设备及可读存储介质 |
CN110619869B (zh) * | 2019-11-06 | 2021-12-24 | 百度在线网络技术(北京)有限公司 | 用于训练混合语言识别模型的方法和装置 |
CN110808035B (zh) * | 2019-11-06 | 2021-11-26 | 百度在线网络技术(北京)有限公司 | 用于训练混合语言识别模型的方法和装置 |
CN110930979B (zh) * | 2019-11-29 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 一种语音识别模型训练方法、装置以及电子设备 |
CN110956954B (zh) * | 2019-11-29 | 2020-12-11 | 百度在线网络技术(北京)有限公司 | 一种语音识别模型训练方法、装置以及电子设备 |
CN111833844A (zh) * | 2020-07-28 | 2020-10-27 | 苏州思必驰信息科技有限公司 | 用于语音识别和语种分类的混合模型的训练方法及系统 |
CN112509555B (zh) * | 2020-11-25 | 2023-05-23 | 平安科技(深圳)有限公司 | 方言语音识别方法、装置、介质及电子设备 |
CN112233653B (zh) * | 2020-12-10 | 2021-03-12 | 北京远鉴信息技术有限公司 | 多方言口音普通话语音识别模型训练方法、装置及设备 |
CN112668340B (zh) * | 2020-12-28 | 2024-07-12 | 北京捷通华声科技股份有限公司 | 一种信息处理方法及装置 |
CN113593524B (zh) * | 2021-01-26 | 2024-09-10 | 腾讯科技(深圳)有限公司 | 口音识别声学模型训练、口音识别方法、装置和存储介质 |
CN113192492B (zh) * | 2021-04-28 | 2024-05-28 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN113220839B (zh) * | 2021-05-13 | 2022-05-24 | 亿咖通(湖北)技术有限公司 | 一种意图识别方法、电子设备及计算机可读存储介质 |
CN113823262B (zh) * | 2021-11-16 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置、电子设备和存储介质 |
CN114038450A (zh) * | 2021-12-06 | 2022-02-11 | 深圳市北科瑞声科技股份有限公司 | 方言识别方法、装置、设备及存储介质 |
CN115240640A (zh) * | 2022-07-20 | 2022-10-25 | 科大讯飞股份有限公司 | 方言语音识别方法、装置、设备及存储介质 |
CN117763194B (zh) * | 2023-12-19 | 2024-08-16 | 知迪科技(安徽)有限公司 | 一种基于大语言模型的车载数据语音标签系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080201145A1 (en) * | 2007-02-20 | 2008-08-21 | Microsoft Corporation | Unsupervised labeling of sentence level accent |
US20130262111A1 (en) * | 2012-03-30 | 2013-10-03 | Src, Inc. | Automated voice and speech labeling |
US20140067735A1 (en) * | 2012-08-29 | 2014-03-06 | Microsoft Corporation | Computer-implemented deep tensor neural network |
CN105632501A (zh) * | 2015-12-30 | 2016-06-01 | 中国科学院自动化研究所 | 一种基于深度学习技术的自动口音分类方法及装置 |
CN106251859A (zh) * | 2016-07-22 | 2016-12-21 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
US20170148431A1 (en) * | 2015-11-25 | 2017-05-25 | Baidu Usa Llc | End-to-end speech recognition |
CN106875942A (zh) * | 2016-12-28 | 2017-06-20 | 中国科学院自动化研究所 | 基于口音瓶颈特征的声学模型自适应方法 |
CN106919710A (zh) * | 2017-03-13 | 2017-07-04 | 东南大学 | 一种基于卷积神经网络的方言分类方法 |
CN107452379A (zh) * | 2017-08-17 | 2017-12-08 | 广州腾猴科技有限公司 | 一种方言语言的识别技术及虚拟现实教学方法和系统 |
CN107735833A (zh) * | 2015-06-07 | 2018-02-23 | 苹果公司 | 自动口音检测 |
CN107871497A (zh) * | 2016-09-23 | 2018-04-03 | 北京眼神科技有限公司 | 语音识别方法和装置 |
CN108172218A (zh) * | 2016-12-05 | 2018-06-15 | 中国移动通信有限公司研究院 | 一种语音建模方法及装置 |
CN108711421A (zh) * | 2017-04-10 | 2018-10-26 | 北京猎户星空科技有限公司 | 一种语音识别声学模型建立方法及装置和电子设备 |
CN108831445A (zh) * | 2018-05-21 | 2018-11-16 | 四川大学 | 四川方言识别方法、声学模型训练方法、装置及设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4267101B2 (ja) * | 1997-11-17 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声識別装置、発音矯正装置およびこれらの方法 |
US7475015B2 (en) * | 2003-09-05 | 2009-01-06 | International Business Machines Corporation | Semantic language modeling and confidence measurement |
US7880607B2 (en) * | 2006-12-15 | 2011-02-01 | Motorola, Inc. | Intelligent risk management system for first responders |
US11074495B2 (en) * | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
US9966064B2 (en) * | 2012-07-18 | 2018-05-08 | International Business Machines Corporation | Dialect-specific acoustic language modeling and speech recognition |
US9311915B2 (en) * | 2013-07-31 | 2016-04-12 | Google Inc. | Context-based speech recognition |
US9875736B2 (en) * | 2015-02-19 | 2018-01-23 | Microsoft Technology Licensing, Llc | Pre-training and/or transfer learning for sequence taggers |
US9892731B2 (en) * | 2015-09-28 | 2018-02-13 | Trausti Thor Kristjansson | Methods for speech enhancement and speech recognition using neural networks |
US10529322B2 (en) * | 2017-06-15 | 2020-01-07 | Google Llc | Semantic model for tagging of word lattices |
US11170761B2 (en) * | 2018-12-04 | 2021-11-09 | Sorenson Ip Holdings, Llc | Training of speech recognition systems |
-
2019
- 2019-04-15 CN CN201910297805.XA patent/CN110033760B/zh active Active
-
2020
- 2020-04-08 US US16/843,174 patent/US11688391B2/en active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080201145A1 (en) * | 2007-02-20 | 2008-08-21 | Microsoft Corporation | Unsupervised labeling of sentence level accent |
US20130262111A1 (en) * | 2012-03-30 | 2013-10-03 | Src, Inc. | Automated voice and speech labeling |
US20140067735A1 (en) * | 2012-08-29 | 2014-03-06 | Microsoft Corporation | Computer-implemented deep tensor neural network |
CN107735833A (zh) * | 2015-06-07 | 2018-02-23 | 苹果公司 | 自动口音检测 |
US20170148431A1 (en) * | 2015-11-25 | 2017-05-25 | Baidu Usa Llc | End-to-end speech recognition |
CN105632501A (zh) * | 2015-12-30 | 2016-06-01 | 中国科学院自动化研究所 | 一种基于深度学习技术的自动口音分类方法及装置 |
CN106251859A (zh) * | 2016-07-22 | 2016-12-21 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN107871497A (zh) * | 2016-09-23 | 2018-04-03 | 北京眼神科技有限公司 | 语音识别方法和装置 |
CN108172218A (zh) * | 2016-12-05 | 2018-06-15 | 中国移动通信有限公司研究院 | 一种语音建模方法及装置 |
CN106875942A (zh) * | 2016-12-28 | 2017-06-20 | 中国科学院自动化研究所 | 基于口音瓶颈特征的声学模型自适应方法 |
CN106919710A (zh) * | 2017-03-13 | 2017-07-04 | 东南大学 | 一种基于卷积神经网络的方言分类方法 |
CN108711421A (zh) * | 2017-04-10 | 2018-10-26 | 北京猎户星空科技有限公司 | 一种语音识别声学模型建立方法及装置和电子设备 |
CN107452379A (zh) * | 2017-08-17 | 2017-12-08 | 广州腾猴科技有限公司 | 一种方言语言的识别技术及虚拟现实教学方法和系统 |
CN108831445A (zh) * | 2018-05-21 | 2018-11-16 | 四川大学 | 四川方言识别方法、声学模型训练方法、装置及设备 |
Non-Patent Citations (6)
Title |
---|
Ctc regularized model adaptation for improving lstm rnn based multi-accent mandarin speech recognition;Jiangyan Yi et al.;《2016 10th International Symposium on Chinese Spoken Language Processing》;20161231;全文 * |
CTC Regularized Model Adaptation for Improving LSTM RNN Based Multi-Accent Mandarin Speech Recognition;Jiangyan Yi et al.;《Journal of Signal Processing Systems》;20181231;第985-997页 * |
Deep neural network acoustic modeling for native and non-native Mandarin speech recognition;Xin Chen et al.;《The 9th International Symposium on Chinese Spoken Language Processing》;20141231;第6-9页 * |
基于深层神经网络的藏语识别;袁胜龙 等;《模式识别与人工智能》;20150331;第28卷(第3期);第209-213页 * |
基于深度神经网络的四川方言识别;石佳影 等;《现代计算机》;20160531;第3-6页 * |
基于深度神经网络的语种识别;崔瑞莲 等;《模式识别与人工智能》;20151231;第28卷(第12期);第1093-1099页 * |
Also Published As
Publication number | Publication date |
---|---|
US11688391B2 (en) | 2023-06-27 |
US20200327883A1 (en) | 2020-10-15 |
CN110033760A (zh) | 2019-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110033760B (zh) | 语音识别的建模方法、装置及设备 | |
CN109887497B (zh) | 语音识别的建模方法、装置及设备 | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
KR101780760B1 (ko) | 가변길이 문맥을 이용한 음성인식 | |
US10176804B2 (en) | Analyzing textual data | |
CN109036391B (zh) | 语音识别方法、装置及系统 | |
Schuster et al. | Japanese and korean voice search | |
CN113692616B (zh) | 用于在端到端模型中的跨语言语音识别的基于音素的场境化 | |
EP3940693A1 (en) | Voice interaction-based information verification method and apparatus, and device and computer storage medium | |
CN110503956B (zh) | 语音识别方法、装置、介质及电子设备 | |
CN112287680B (zh) | 一种问诊信息的实体抽取方法、装置、设备及存储介质 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN111611349A (zh) | 语音查询方法、装置、计算机设备及存储介质 | |
CN111326144B (zh) | 语音数据处理方法、装置、介质和计算设备 | |
CN112216284B (zh) | 训练数据更新方法及系统、语音识别方法及系统、设备 | |
JP2013148697A (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
CN111126084B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
KR20230156125A (ko) | 룩업 테이블 순환 언어 모델 | |
CN111508497B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
US10529337B2 (en) | Symbol sequence estimation in speech | |
KR20220090586A (ko) | 오디오-비주얼 매칭을 사용한 자동 음성 인식 가설 재점수화 | |
CN114299930A (zh) | 端到端语音识别模型处理方法、语音识别方法及相关装置 | |
KR102409873B1 (ko) | 증강된 일관성 정규화를 이용한 음성 인식 모델 학습 방법 및 시스템 | |
CN110675865B (zh) | 用于训练混合语言识别模型的方法和装置 | |
CN115512692B (zh) | 语音识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |