CN111768761A - 一种语音识别模型的训练方法和装置 - Google Patents

一种语音识别模型的训练方法和装置 Download PDF

Info

Publication number
CN111768761A
CN111768761A CN201910193085.2A CN201910193085A CN111768761A CN 111768761 A CN111768761 A CN 111768761A CN 201910193085 A CN201910193085 A CN 201910193085A CN 111768761 A CN111768761 A CN 111768761A
Authority
CN
China
Prior art keywords
voice data
modeling
training
frequency
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910193085.2A
Other languages
English (en)
Other versions
CN111768761B (zh
Inventor
穆玉芝
王虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN201910193085.2A priority Critical patent/CN111768761B/zh
Publication of CN111768761A publication Critical patent/CN111768761A/zh
Application granted granted Critical
Publication of CN111768761B publication Critical patent/CN111768761B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种语音识别模型的训练方法和装置,该方法中,按照各建模项在语音样本中的出现频率从高到低排序构成频率表,利用滑动窗口在频率表上滑动,对每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断,将语音识别模型的训练过程分为两个训练阶段,在第一训练阶段以高频建模项为学习目标实施简单的语音识别模型训练,在第二训练阶段以低频建模项为学习目标,对出现频率较低的建模项通过重用相关低频语音数据来增加被学习的次数。本发明能够在参与训练的语音数据不充足或语音数据类别不均衡的情况下,提高训练得到的语音识别模型的语音识别准确率。

Description

一种语音识别模型的训练方法和装置
技术领域
本发明涉及语音识别技术领域,特别涉及一种语音识别模型的训练方法和装置。
背景技术
语音识别是当前人工智能研究的热点,其涉及的场景包括智能家居,智能问答以及智能客服等领域。随着人们对便捷生活诉求的增加,语音识别技术正不断地发展和完善。例如LAS[1]和RNN-Transducer[2]等端到端方法均在语音识别领域取得了较高的准确率。另外,针对语音质量较差的语料还引入了课程学习等方法,使得在噪声污染严重的语音中取得较高的识别准确率和泛化性能。
上述方法可以将输入的语音特征直接转化为期望的文本,减少了传统方法中各个模块建模的复杂度,同时在大量数据的支撑下取得很高的准确率和泛化性。然而,上述方法是以充足的样本数据的基础的,如果样本数据不充足或语音数据类别不均衡时,则存在识别准确率低的问题。
发明内容
有鉴于此,本发明的目的在于提供一种语音识别模型的训练方法和装置,能够在参与训练的语音数据不充足或语音数据类别不均衡的情况下,提高训练得到的语音识别模型的语音识别准确率。
为了达到上述目的,本发明提供了如下技术方案:
一种语音识别模型的训练方法,预先基于设定的建模粒度配置建模字典,建模字典中包括该建模粒度下的所有建模项;该方法包括:
获取多条语音数据及每条语音数据的语音文本;
提取每条语音数据的声音特征信息,并根据所有语音数据的语音文本统计建模字典中每个建模项的出现频率和权重,将所有建模项按照出现频率从高到低排序构成频率表;
利用滑动窗口在所述频率表中按照预设步长滑动,并对滑动到的每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断;
如果该滑动窗口适用于第一训练阶段,则根据该滑动窗口中所有建模项的权重确定一权重参数,将所有语音数据的声音特征信息作为训练样本,执行基于该权重参数的语音识别模型训练;
如果该滑动窗口适用于第二训练阶段,则根据该滑动窗口确定低频语音数据及其重用次数,根据低频语音数据的重用次数调整建模字典中所有建模项的权重,根据该滑动窗口中所有建模项调整后的权重确定一权重参数,将所有语音数据的声音特征信息作为训练样本,根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练。
一种语音识别模型的训练装置,包括:
配置单元,用于预先基于设定的建模粒度配置建模字典,建模字典中包括该建模粒度下的所有建模项;
获取单元,用于获取多条语音数据及每条语音数据的语音文本;
提取单元,用于提取每条语音数据的声音特征信息;
统计单元,用于根据所有语音数据的语音文本统计建模字典中每个建模项的出现频率和权重,将所有建模项按照出现频率从高到低排序构成频率表;
判断单元,用于利用滑动窗口在所述频率表中按照预设步长滑动,并对滑动到的每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断;
第一训练单元,用于如果判断单元判断该滑动窗口适用于第一训练阶段,则根据该滑动窗口中所有建模项的权重确定一权重参数,将所有语音数据的声音特征信息作为训练样本,执行基于该权重参数的语音识别模型训练;
第二训练单元,用于如果判断单元判断该滑动窗口适用于第二训练阶段,则根据该滑动窗口确定低频语音数据及其重用次数,根据低频语音数据的重用次数调整建模字典中所有建模项的权重,根据该滑动窗口中所有建模项调整后的权重确定一权重参数,将所有语音数据的声音特征信息作为训练样本,根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练。
一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通过总线相连的存储器;所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序;所述至少一个处理器执行所述一个或多个计算机程序时实现上述语音识别模型的训练方法中的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个计算机程序,所述一个或多个计算机程序被处理器执行时实现上述语音识别模型的训练方法。
由上面的技术方案可知,本发明中,将所有建模项按照各建模项在语音样本中的出现频率从高到低排序构成频率表,利用滑动窗口在频率表上滑动,并对滑动到的每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断,从而将语音识别模型的训练过程分为两个训练阶段,在第一训练阶段以高频建模项为学习目标实施简单的语音识别模型训练,在第二训练阶段以低频建模项进行相关低频语音数据的重用训练,使得出现频率较低的建模项在训练过程中的被学习次数增加,从而可以提高训练得到的语音识别模型对此类建模项的语音识别准确率。因此,在参与训练的语音数据不充足或语音数据类别不均衡的情况下,应用本发明的技术方案可以提高训练得到的语音识别模型的语音识别准确率。
附图说明
图1是本发明实施例语音识别模型的训练方法流程图;
图2是本发明实施例语音识别模型的第二训练阶段的训练流程图;
图3是本发明实施例语音识别模型的训练装置的结构示意图;
图4是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图并据实施例,对本发明的技术方案进行详细说明。
参见图1,图1是本发明实施例语音识别模型的训练方法流程图,如图1所示,该方法包括以下步骤:
步骤101、预先基于设定的建模粒度配置建模字典,建模字典中包括该建模粒度下的所有建模项。
本发明中,在训练语音识别模型时,需要基于设定的建模粒度,例如音素、音节、字等。针对设定的建模粒度可以配置相应的建模字典,例如设定的建模粒度是音节时,需要配置包括有全部音节的建模字典,建模字典中的每个音节称为一个建模项。
步骤102、获取多条语音数据及每条语音数据的语音文本。
这里,获取的多条语音数据作为语音样本,之后对这些语音数据提取得到的声音特征信息将作为语音识别模型的训练样本。
步骤103、提取每条语音数据的声音特征信息,并根据所有语音数据的语音文本统计建模字典中每个建模项的出现频率和权重,将所有建模项按照出现频率从高到低排序构成频率表。
本发明实施例中,提取每条语音数据的FilterBank特征作为该条语音数据的声音特征信息。
本发明实施例中,根据所有语音数据的语音文本统计建模字典中每个建模项的出现频率和权重,可采用以下方式:
对每个建模项,统计语音样本中包含该建模项的语音数据的条数,将统计结果作为该建模项的出现频率,记为class_per_count;
采用公式weight=n_sample/class_per_count计算每个建模项的权重;其中,weight为该建模项的权重,n_sample为语音样本中语音数据的总条数,class_per_count为该建模项的出现频率。
本发明实施例中,将所有建模项按照出现频率从高到低排序得到一频率表,该频率表将用于后续的语音识别模型训练。
步骤104、利用滑动窗口在所述频率表中按照预设步长滑动,并对滑动到的每个滑动窗口进行判断,如果该滑动窗口适用于第一训练阶段,则执行步骤105,如果该滑动窗口适用于第二训练阶段,则执行步骤106。
本发明实施例中,对滑动到的每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断,包括:
统计语音样本中包含该滑动窗口中至少一个建模项的语音数据的条数,计算统计结果与语音样本中语音数据的总条数的比值,如果比值大于预设比例阈值(例如0.5),则确定该滑动窗口适用于第一训练阶段,否则,确定该滑动窗口适用于第二训练阶段。
在实际应用中,由于频率表是按照建模项的出现频率从高到低排序的,因此,在滑动窗口从频率表的初始点开始向后滑动时,滑动窗口中的建模项的出现频率会越来越低,这意味着语音样本中包括这些建模项的语音数据越来越少,因此,频率表中必定存在一个滑动窗口,以该滑动窗口为临界,在该滑动窗口之前经过的各滑动窗口均适用于第一训练阶段,该滑动窗口以及在该滑动窗口之后滑动到的各滑动窗口均适用于第二训练阶段。因此,在实际实现中,可以在滑动到每滑动窗口时,对该滑动窗口进行本步骤S104的判断,并根据判断结果执行S105或S106,也可以先找到该作为临界的滑动窗口,然后对滑动到的每个滑动窗口,如果位于该临界滑动窗口之前,则直接确定该滑动窗口适用于第一训练阶段,否则,可以直接确定该滑动窗口适用于第二训练阶段。
本发明实施例中,对于出现频率较高的部分建模项,比较容易识别,因此,在训练语音识别模型时,不需要进行复杂的训练过程即可达到较高的识别率,因此,在利用滑动窗口在频率表中滑动确定适用于第一训练阶段的滑动窗口时,可以采用相同大小的滑动窗口,也可以采用大小不同的滑动窗口,例如,可以先利用较大的滑动窗口在频率表中滑动确定预设个数(例如2个)的适用于第一训练阶段的滑动窗口并基于每个滑动窗口执行步骤S105的训练过程,然后再采用较小的滑动窗口在频率表中滑动确定其它适用于第一训练阶段的滑动窗口并基于根据每个滑动执行步骤S105的训练过程。这里的较大的滑动窗口的尺寸(大小)可以设置为150,较小的滑动窗口的尺寸(大小)可设置为100。
步骤105、根据该滑动窗口中所有建模项的权重确定一权重参数,将语音样本中所有语音数据的声音特征信息作为训练样本,执行基于该权重参数的语音识别模型训练。
在基于深度神经网络的语音识别模型的训练过程中,一般采用针对给定的目标损失函数的梯度下降算法,上述权重参数是计算目标损失函数的一个可选参数(默认设置为1),主要用于解决正负样本不均衡问题。例如,在判断给定建模项是否出现在一段语音的语音识别模型中,如果用于训练的语音样本中分别包含存在和不存在给定建模项的样本数量为N1和N2,那么目标损失函数(例如交叉熵函数)针对该建模项的权重参数可设置为N2/N1。
本发明实施例中,权重参数可以是一个标量,也可以是一个向量,下面分别针对权重参数是标量及向量时的权重参数确定方法进行说明:
本步骤105中,当权重参数是一个标量时,根据该滑动窗口中所有建模项的权重确定权重参数时,可以将该滑动窗口中所有建模项的权重的平均值作为确定的权重参数。
本步骤105中,当权重参数是一个向量时,该向量中包括建模字典中每个建模项对应的权重参数,根据该滑动窗口中所有建模项的权重确定一权重参数时可以采用如下方法:针对建模字典中的每个建模项,如果该建模项属于该滑动窗口,则将该向量中该建模项的权重参数设置为该建模项的权重,如果该建模项不属于该滑动窗口,则若该建模项的权重小于预设权重阈值(例如20),则将该向量中该建模项的权重参数设置为该建模项的权重,若该建模项的权重不小于预设权重阈值,则将该向量中该建模项的权重参数设置为预设权重阈值。上述确定权重参数的过程将较大的权重降低到预设权重阈值,从而避免了较大权重导致语音识别模型训练过程不稳定的现象。
本步骤105中,在训练语音识别模型时,在针对所有语音数据的一轮训练过程中,可以通过将所有语音数据分成多组进行多次迭代训练(分批次训练)。可以预先设定每次迭代中参与训练的语音数据条数(batch_size),根据语音样本数量(即语音样本中语音数据的总条数)和每次迭代中参与训练的语音数据条数batch_size确定对所有语音样本执行一轮训练所需的迭代次数(即语音样本数量/batch_size)。
确定了对所有语音数据的一轮训练所需的迭代次数之后,就可以根据该迭代次数将语音样本中的所有语音数据划分成多组,然后针对每组语音数据,根据本步骤确定的权重参数和该组语音数据对语音识别模型执行一次迭代训练,具体地,当权重参数是一标量时,可以将该权重参数作为本次迭代过程中所有建模项的权重参数,将该组语音数据的声音特征信息作为训练样本,对语音识别模型进行一次迭代训练。当权重参数是一向量时,将该向量中各建模项的权重参数作为本次迭代过程中各建模项的权重参数,将该组语音数据的声音特征信息作为训练样本,对语音识别模型进行一次迭代训练。
步骤106、根据该滑动窗口确定低频语音数据及其重用次数,根据低频语音数据的重用次数调整每个建模项的权重,根据该滑动窗口中每个建模项调整后的权重确定一权重参数,将语音样本中所有语音数据的声音特征信息作为训练样本,根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练。
步骤106按照图2所示的第二训练阶段的训练流程实现,如图2所示,主要包括以下步骤:
步骤1061、确定语音样本的低频语音数据。
本发明中,适用于第二训练阶段的每个滑动窗口中,各建模项的出现频率较低,为了提高对这些建模项的识别准确率,需要在语音样本中增加包含这些建模项的语音数据,具体可以通过在一轮训练中重复使用包含这些建模项的语音数据实现。
为了重复使用包含出现频率较低的语音数据,可以在针对所有语音样本进行一轮训练前,将语音样本中的所有语音数据划分为低频语音数据和高频语音数据,然后对语音样本进行多次迭代训练,每次迭代训练过程中使用部分高频语音数据和低频语音数据,且要保证一轮训练中所有高频语音数据仅参与一次迭代训练,而低频语音数据则可以参与多次迭代训练。
本发明实施例中,根据该滑动窗口确定低频语音数据,具体地,将语音样本中包含该建模集合中的至少一个建模项的各语音数据确定为低频语音数据,语音样本中的其它各语音数据则作为高频语音数据。随着滑动窗口的滑动,滑动窗口中包括的建模项也随之变化,因此,本发明中,高频语音数据和低频语音数据的划分是随着滑动窗口的变化而变化的。
步骤1062、确定低频语音数据的重用次数。
本发明实施例中,预先设置每次迭代中参与训练的语音样本数量为batch_size,其中高频语音数据条数为NH(NH≥1),低频语音数据条数NL(NL=batch_size-NH≥1)。
在确定了低频语音数据之后,高频语音数据也随之确定,而语音样本中的高频语音数据和低频语音数据被确定之后,可以根据高频语音数据条数和低频语音数据条数确定低频语音数据的重用次数,具体方法如下:
计算被划分为高频语音数据的语音数据条数与每次迭代中参与训练的高频语音数据条数NH的商QH;
计算被划分为低频语音数据的语音数据条数与每次迭代中参与训练的低频语音数据条数NL的商QL;
计算QH与QL的商,将该商值向上取整后得到的值确定为低频语音数据的重用次数。
步骤1063、根据低频语音数据的重用次数调整每个建模项的权重。
在确定了低频语音数据的重用次数之后,由于语音样本中的各低频语音数据需要参与多次迭代(根据重用次数确定),因此,相当于在语音样本中增加了多份低频语音数据,这使得参与训练的语音样本中,各建模项的出现频率和权重发生变化,因此,需要对各建模项的权重进行调整。
本发明实施例总,根据该滑动窗口将所有语音数据划分为低频语音数据和高频语音数据并确定低频语音数据的重用次数之后,根据低频语音数据的重用次数调整建模字典中所有建模项的权重的方法具体如下:
对建模字典中的每个建模项,统计包含该建模项的语音数据条数,如果该建模项属于该滑动窗口,则将包含该建模项的语音数据条数与低频语音数据的重用次数的乘积作为该建模项的出现频率,否则,将包含该建模项的语音数据条数作为该建模项的出现频率;
采用公式weight’=(m_count+N×n_count)/class_per_count’计算该建模项调整后的权重;其中,weight’为该建模项调整后的权重,m_count为被划分为高频语音数据的语音数据条数,n_count为被划分为低频语音数据的语音数据条数,N表示低频语音数据的重用次数,class_per_count’为该建模项的出现频率。
步骤1064、根据该滑动窗口中每个建模项调整后的权重确定一权重参数,将语音样本中所有语音数据的声音特征信息作为训练样本,根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练。
本步骤中,根据该滑动窗口中每个建模项调整后的权重确定一权重参数时,需要根据权重是向量或标量采用不同的实现方法,下面分别进行说明:
1)权重参数为一标量
当权重参数是一标量时,根据该滑动窗口中每个建模项调整后的权重确定权重参数的方法与上述步骤S105确定权重参数的方法类似,即均是将该滑动窗口中所有建模项调整后的权重的平均值确定为该权重参数。
权重参数是标量的情况下,将语音样本中所有语音数据的声音特征信息作为训练样本,根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练的具体实现方法如下:
计算被划分为高频语音数据的语音数据条数与每次迭代中参与训练的高频语音数据条数的商QH,将所有高频语音数据平均划分为QH组;
针对每组高频语音数据,选择NL条语音数据加入到该组高频语音数据,将该权重参数作为本次迭代过程中所有建模项的权重参数,将该组语音数据的声音特征信息作为训练样本,对语音识别模型进行一次迭代训练;其中,每条低频语音数据参与训练的迭代次数不超过低频语音数据的重用次数,且每次迭代中参与训练的NL条低频语音数据互不相同。
2)权重参数为一向量
当权重参数是一向量时,根据该滑动窗口中每个建模项调整后的权重确定权重参数的方法与上述步骤S105确定权重参数的方法类似(仅权重阈值不同,S105中是预设权重阈值,本步骤S106中权重阈值W是根据该滑动窗口中各建模项调整后的权重确定的),具体为:针对每个建模项,如果该建模项属于该滑动窗口,则将所述向量中该建模项的权重参数设置为该建模项调整后的权重,如果该建模项不属于该滑动窗口,则若该建模项调整后的权重小于W,则将所述向量中该建模项的权重参数设置为该建模项调整后的权重,若该建模项的权重不小于W,则将所述向量中该建模项的权重参数设置为W;W是该滑动窗口中各建模项调整后的权重中的最大值。
权重参数是向量的情况下,将所有语音数据的声音特征信息作为训练样本,根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练的方法如下:
计算被划分为高频语音数据的语音数据条数与每次迭代中参与训练的高频语音数据条数的商QH,将所有高频语音数据平均划分为QH组;
针对每组高频语音数据,选择NL条低频语音数据加入到该组高频语音数据中,将所述向量中各建模项的权重参数作为本次迭代过程中各建模项的权重参数,将该组语音数据的声音特征信息作为训练样本,对语音识别模型进行一次迭代训练;其中,每条低频语音数据参与训练的迭代次数不超过低频语音数据的重用次数,且每次迭代中参与训练的NL条低频语音数据互不相同。
以上对本发明实施例语音识别模型的训练方法进行了详细说明,本发明还提供了一种语音识别模型的训练装置,以下结合图3进行详细说明。
参见图3,图3是本发明实施例语音识别模型的训练装置的结构示意图,如图3所示,该装置包括:
配置单元301,用于预先基于设定的建模粒度配置建模字典,建模字典中包括该建模粒度下的所有建模项;
获取单元302,用于获取多条语音数据及每条语音数据的语音文本;
提取单元303,用于提取每条语音数据的声音特征信息;
统计单元304,用于根据所有语音数据的语音文本统计建模字典中每个建模项的出现频率和权重,将所有建模项按照出现频率从高到低排序构成频率表;
判断单元305,用于利用滑动窗口在所述频率表中按照预设步长滑动,并对滑动到的每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断;
第一训练单元306,用于如果判断单元305判断该滑动窗口适用于第一训练阶段,则根据该滑动窗口中所有建模项的权重确定一权重参数,将所有语音数据的声音特征信息作为训练样本,执行基于该权重参数的语音识别模型训练;
第二训练单元307,用于如果判断单元305判断该滑动窗口确定低频语音数据及其重用次数,根据低频语音数据的重用次数调整建模字典中所有建模项的权重,根据该滑动窗口中所有建模项调整后的权重确定一权重参数,将所有语音数据的声音特征信息作为训练样本,根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练。
图3所示装置中,
所述统计单元304,根据所有语音数据的语音文本统计建模字典中每个建模项的出现频率和权重时,用于:
对每个建模项,统计语音样本中包含该建模项的语音数据的条数,将统计结果作为该建模项的出现频率,并采用公式weight=n_sample/class_per_count计算该建模项的权重;其中,weight为该建模项的权重,n_sample为语音数据总条数,class_per_count为该建模项的出现频率。
图3所示装置中,
所述判断单元305,对滑动到的每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断,包括:
统计包含该滑动窗口中至少一个建模项的语音数据的条数,计算统计结果与语音数据总条数的比值,如果该比值大于预设比例阈值,则确定该滑动窗口适用于第一训练阶段,否则,确定该滑动窗口适用于第二训练阶段。
图3所示装置中,
所述第二训练单元307,根据该滑动窗口确定低频语音数据时,用于:将包含该滑动窗口中的至少一个建模项的各语音数据确定为低频语音数据,其它各语音数据则作为高频语音数据。
图3所示装置中,
所述配置单元301,用于预先设置每次迭代中参与训练的高频语音数据条数和低频语音数据条数;
所述第二训练单元307,确定低频语音数据的重用次数时,用于:
计算被划分为高频语音数据的语音数据条数与每次迭代中参与训练的高频语音数据条数的商QH;
计算被划分为低频语音数据的语音数据条数与每次迭代中参与训练的低频语音数据条数的商QL;
计算QH与QL的商,将该商值向上取整后得到的值确定为低频语音数据的重用次数。
图3所示装置中,
所述第二训练单元307,根据该滑动窗口将所有语音数据划分为低频语音数据和高频语音数据并确定低频语音数据的重用次数之后,根据低频语音数据的重用次数调整建模字典中所有建模项的权重时,用于:
对每个建模项,统计包含该建模项的语音数据条数,如果该建模项属于该滑动窗口,则将包含该建模项的语音数据条数与低频语音数据的重用次数的乘积作为该建模项的出现频率,否则,将包含该建模项的语音数据条数作为该建模项的出现频率;
采用公式weight’=(m_count+N×n_count)/class_per_count’计算该建模项调整后的权重;其中,weight’为该建模项调整后的权重,m_count为被划分为高频语音数据的语音数据条数,N为低频语音数据的重用次数,n_count为被划分为低频语音数据的语音数据条数,class_per_count’为该建模项的出现频率。
图3所示装置中,
所述配置单元301,预先设置每次迭代中参与训练的语音数据条数batch_size;
所述权重参数为一标量;
所述第一训练单元306,根据该滑动窗口中所有建模项的权重确定一权重参数的方法为:将该滑动窗口中所有建模项的权重的平均值确定为该权重参数;
所述第一训练单元306,将所有语音数据的声音特征信息作为训练样本,执行基于该权重参数的语音识别模型训练时,用于:
根据语音数据的总条数和预先设置的batch_size确定一轮训练所需的迭代次数,根据该迭代次数将所有语音数据平均划分为多组;
针对每组语音数据,将该权重参数作为本次迭代过程中所有建模项的权重参数,将该组语音数据的声音特征信息作为训练样本对语音识别模型进行一次迭代训练。
图3所示装置中,
所述配置单元301,用于预先设置每次迭代中参与训练的高频语音数据条数NH和低频语音数据条数NL;
所述权重参数为一标量;
所述第二训练单元307,根据该滑动窗口中所有建模项调整后的权重确定一权重参数时,用于:将该滑动窗口中所有建模项调整后的权重的平均值确定为该权重参数;
所述第二训练单元307,将所有语音数据的声音特征信息作为训练样本,根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练时,用于:
计算被划分为高频语音数据的语音数据条数与每次迭代中参与训练的高频语音数据条数的商QH,将所有高频语音数据平均划分为QH组;
针对每组高频语音数据,选择NL条语音数据加入到该组高频语音数据,将该权重参数作为本次迭代过程中所有建模项的权重参数,将该组语音数据的声音特征信息作为训练样本,对语音识别模型进行一次迭代训练;其中,每条低频语音数据参与训练的迭代次数不超过低频语音数据的重用次数,且每次迭代中参与训练的NL条低频语音数据互不相同。
图3所示装置中,
所述配置单元301,用于预先设置每次迭代中参与训练的语音数据条数batch_size;
所述权重参数为一向量,该向量中包括建模字典中所有建模项的权重参数;
所述第一训练单元306,根据该滑动窗口中所有建模项的权重确定一权重参数时,用于:针对建模字典中的每个建模项,如果该建模项属于该滑动窗口,则将所述向量中该建模项的权重参数设置为该建模项的权重,如果该建模项不属于该滑动窗口,则若该建模项的权重小于预设权重阈值,则将所述向量中该建模项的权重参数设置为该建模项的权重,若该建模项的权重不小于预设权重阈值,则将所述向量中该建模项的权重参数设置为预设权重阈值;
所述第一训练单元306,将所有语音数据的声音特征信息作为训练样本,执行基于该权重参数的语音识别模型训练时,用于:
根据语音数据总条数和预先设置的batch_size确定一轮训练所需的迭代次数,根据该迭代次数将所有语音数据平均划分为多组;
针对每组语音数据,将所述向量中各建模项的权重参数作为本次迭代过程中各建模项的权重参数,将该组语音数据的声音特征信息作为训练样本,对语音识别模型进行一次迭代训练。
图3所示装置中,
所述配置单元301,用于预先设置每次迭代中参与训练的高频语音数据条数NH和低频语音数据条数NL;
所述权重参数为一向量,该向量中包括建模字典中所有建模项的权重参数;
所述第二训练单元307,根据该滑动窗口中所有建模项调整后的权重确定权重参数时,用于:针对建模字典中的每个建模项,如果该建模项属于该滑动窗口,则将所述向量中该建模项的权重参数设置为该建模项调整后的权重,如果该建模项不属于该滑动窗口,则若该建模项调整后的权重小于W,则将所述向量中该建模项的权重参数设置为该建模项调整后的权重,若该建模项的权重不小于W,则将所述向量中该建模项的权重参数设置为权重值W;其中,W是该滑动窗口中各建模项调整后的权重中的最大值;
所述第二训练单元307,将所有语音数据的声音特征信息作为训练样本,根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练时,用于:
计算被划分为高频语音数据的语音数据条数与每次迭代中参与训练的高频语音数据条数的商QH,将所有高频语音数据平均划分为QH组;
针对每组高频语音数据,选择NL条低频语音数据加入到该组高频语音数据中,将所述向量中各建模项的权重参数作为本次迭代过程中各建模项的权重参数,将该组语音数据的声音特征信息作为训练样本,对语音识别模型进行一次迭代训练;其中,每条低频语音数据参与训练的迭代次数不超过低频语音数据的重用次数,且每次迭代中参与训练的NL条低频语音数据互不相同。
图3所示装置中,所述建模粒度为音素、音节、或字。
本发明实施例还提供了一种电子设备,如图4所示,电子设备400包括:至少一个处理器401,以及与所述至少一个处理器401通过总线相连的存储器402;所述存储器402存储有可被所述至少一个处理器401执行的一个或多个计算机程序;所述至少一个处理器401执行所述一个或多个计算机程序时实现上述图1所示的语音识别模型的训练方法中的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个计算机程序,所述一个或多个计算机程序被处理器执行时实现上述图1所示的语音识别模型的训练方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (24)

1.一种语音识别模型的训练方法,其特征在于,预先基于设定的建模粒度配置建模字典,建模字典中包括该建模粒度下的所有建模项;该方法包括:
获取多条语音数据及每条语音数据的语音文本;
提取每条语音数据的声音特征信息,并根据所有语音数据的语音文本统计建模字典中每个建模项的出现频率和权重,将所有建模项按照出现频率从高到低排序构成频率表;
利用滑动窗口在所述频率表中按照预设步长滑动,并对滑动到的每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断;
如果该滑动窗口适用于第一训练阶段,则根据该滑动窗口中所有建模项的权重确定一权重参数,将所有语音数据的声音特征信息作为训练样本,执行基于该权重参数的语音识别模型训练;
如果该滑动窗口适用于第二训练阶段,则根据该滑动窗口确定低频语音数据及其重用次数,根据低频语音数据的重用次数调整建模字典中所有建模项的权重,根据该滑动窗口中所有建模项调整后的权重确定一权重参数,将所有语音数据的声音特征信息作为训练样本,根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练。
2.根据权利要求1所述的方法,其特征在于,
根据所有语音数据的语音文本统计建模字典中每个建模项的出现频率和权重的方法为:
对每个建模项,统计语音样本中包含该建模项的语音数据的条数,将统计结果作为该建模项的出现频率,并采用公式weight=n_sample/class_per_count计算该建模项的权重;其中,weight为该建模项的权重,n_sample为语音数据总条数,class_per_count为该建模项的出现频率。
3.根据权利要求1所述的方法,其特征在于,
对滑动到的每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断,包括:
统计包含该滑动窗口中至少一个建模项的语音数据的条数,计算统计结果与语音数据总条数的比值,如果该比值大于预设比例阈值,则确定该滑动窗口适用于第一训练阶段,否则,确定该滑动窗口适用于第二训练阶段。
4.根据权利要求3所述的方法,其特征在于,
根据该滑动窗口确定低频语音数据的方法为:将包含该滑动窗口中的至少一个建模项的各语音数据确定为低频语音数据,其它各语音数据则作为高频语音数据。
5.根据权利要求4所述的方法,其特征在于,
预先设置每次迭代中参与训练的高频语音数据条数和低频语音数据条数;
确定低频语音数据的重用次数的方法为:
计算被划分为高频语音数据的语音数据条数与每次迭代中参与训练的高频语音数据条数的商QH;
计算被划分为低频语音数据的语音数据条数与每次迭代中参与训练的低频语音数据条数的商QL;
计算QH与QL的商,将该商值向上取整后得到的值确定为低频语音数据的重用次数。
6.根据权利要求5所述的方法,其特征在于,
根据该滑动窗口将所有语音数据划分为低频语音数据和高频语音数据并确定低频语音数据的重用次数之后,根据低频语音数据的重用次数调整建模字典中所有建模项的权重的方法为:
对每个建模项,统计包含该建模项的语音数据条数,如果该建模项属于该滑动窗口,则将包含该建模项的语音数据条数与低频语音数据的重用次数的乘积作为该建模项的出现频率,否则,将包含该建模项的语音数据条数作为该建模项的出现频率;
采用公式weight’=(m_count+N×n_count)/class_per_count’计算该建模项调整后的权重;其中,weight’为该建模项调整后的权重,m_count为被划分为高频语音数据的语音数据条数,N为低频语音数据的重用次数,n_count为被划分为低频语音数据的语音数据条数,class_per_count’为该建模项的出现频率。
7.根据权利要求1所述的方法,其特征在于,
预先设置每次迭代中参与训练的语音数据条数batch_size;
所述权重参数为一标量;
根据该滑动窗口中所有建模项的权重确定一权重参数的方法为:将该滑动窗口中所有建模项的权重的平均值确定为该权重参数;
将所有语音数据的声音特征信息作为训练样本,执行基于该权重参数的语音识别模型训练的方法为:
根据语音数据的总条数和预先设置的batch_size确定一轮训练所需的迭代次数,根据该迭代次数将所有语音数据平均划分为多组;
针对每组语音数据,将该权重参数作为本次迭代过程中所有建模项的权重参数,将该组语音数据的声音特征信息作为训练样本对语音识别模型进行一次迭代训练。
8.根据权利要求1所述的方法,其特征在于,
预先设置每次迭代中参与训练的高频语音数据条数NH和低频语音数据条数NL;
所述权重参数为一标量;
根据该滑动窗口中所有建模项调整后的权重确定一权重参数的方法为:将该滑动窗口中所有建模项调整后的权重的平均值确定为该权重参数;
将所有语音数据的声音特征信息作为训练样本,根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练的方法为:
计算被划分为高频语音数据的语音数据条数与每次迭代中参与训练的高频语音数据条数的商QH,将所有高频语音数据平均划分为QH组;
针对每组高频语音数据,选择NL条语音数据加入到该组高频语音数据,将该权重参数作为本次迭代过程中所有建模项的权重参数,将该组语音数据的声音特征信息作为训练样本,对语音识别模型进行一次迭代训练;其中,每条低频语音数据参与训练的迭代次数不超过低频语音数据的重用次数,且每次迭代中参与训练的NL条低频语音数据互不相同。
9.根据权利要求1所述的方法,其特征在于,
预先设置每次迭代中参与训练的语音数据条数batch_size;
所述权重参数为一向量,该向量中包括建模字典中所有建模项的权重参数;
根据该滑动窗口中所有建模项的权重确定一权重参数的方法为:针对建模字典中的每个建模项,如果该建模项属于该滑动窗口,则将所述向量中该建模项的权重参数设置为该建模项的权重,如果该建模项不属于该滑动窗口,则若该建模项的权重小于预设权重阈值,则将所述向量中该建模项的权重参数设置为该建模项的权重,若该建模项的权重不小于预设权重阈值,则将所述向量中该建模项的权重参数设置为预设权重阈值;
将所有语音数据的声音特征信息作为训练样本,执行基于该权重参数的语音识别模型训练的方法为:
根据语音数据总条数和预先设置的batch_size确定一轮训练所需的迭代次数,根据该迭代次数将所有语音数据平均划分为多组;
针对每组语音数据,将所述向量中各建模项的权重参数作为本次迭代过程中各建模项的权重参数,将该组语音数据的声音特征信息作为训练样本,对语音识别模型进行一次迭代训练。
10.根据权利要求1所述的方法,其特征在于,
预先设置每次迭代中参与训练的高频语音数据条数NH和低频语音数据条数NL;
所述权重参数为一向量,该向量中包括建模字典中所有建模项的权重参数;
根据该滑动窗口中所有建模项调整后的权重确定权重参数的方法为:针对建模字典中的每个建模项,如果该建模项属于该滑动窗口,则将所述向量中该建模项的权重参数设置为该建模项调整后的权重,如果该建模项不属于该滑动窗口,则若该建模项调整后的权重小于W,则将所述向量中该建模项的权重参数设置为该建模项调整后的权重,若该建模项的权重不小于W,则将所述向量中该建模项的权重参数设置为权重值W;其中,W是该滑动窗口中各建模项调整后的权重中的最大值;
将所有语音数据的声音特征信息作为训练样本,根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练的方法为:
计算被划分为高频语音数据的语音数据条数与每次迭代中参与训练的高频语音数据条数的商QH,将所有高频语音数据平均划分为QH组;
针对每组高频语音数据,选择NL条低频语音数据加入到该组高频语音数据中,将所述向量中各建模项的权重参数作为本次迭代过程中各建模项的权重参数,将该组语音数据的声音特征信息作为训练样本,对语音识别模型进行一次迭代训练;其中,每条低频语音数据参与训练的迭代次数不超过低频语音数据的重用次数,且每次迭代中参与训练的NL条低频语音数据互不相同。
11.根据权利要求1-10任一权项所述的方法,其特征在于,
所述建模粒度为音素、音节、或字。
12.一种语音识别模型的训练装置,其特征在于,该装置包括:
配置单元,用于预先基于设定的建模粒度配置建模字典,建模字典中包括该建模粒度下的所有建模项;
获取单元,用于获取多条语音数据及每条语音数据的语音文本;
提取单元,用于提取每条语音数据的声音特征信息;
统计单元,用于根据所有语音数据的语音文本统计建模字典中每个建模项的出现频率和权重,将所有建模项按照出现频率从高到低排序构成频率表;
判断单元,用于利用滑动窗口在所述频率表中按照预设步长滑动,并对滑动到的每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断;
第一训练单元,用于如果判断单元判断该滑动窗口适用于第一训练阶段,则根据该滑动窗口中所有建模项的权重确定一权重参数,将所有语音数据的声音特征信息作为训练样本,执行基于该权重参数的语音识别模型训练;
第二训练单元,用于如果判断单元判断该滑动窗口适用于第二训练阶段,则根据该滑动窗口确定低频语音数据及其重用次数,根据低频语音数据的重用次数调整建模字典中所有建模项的权重,根据该滑动窗口中所有建模项调整后的权重确定一权重参数,将所有语音数据的声音特征信息作为训练样本,根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练。
13.根据权利要求12所述的装置,其特征在于,
所述统计单元,根据所有语音数据的语音文本统计建模字典中每个建模项的出现频率和权重时,用于:
对每个建模项,统计语音样本中包含该建模项的语音数据的条数,将统计结果作为该建模项的出现频率,并采用公式weight=n_sample/class_per_count计算该建模项的权重;其中,weight为该建模项的权重,n_sample为语音数据总条数,class_per_count为该建模项的出现频率。
14.根据权利要求12所述的装置,其特征在于,
所述判断单元,对滑动到的每个滑动窗口进行适用于第一训练阶段或第二训练阶段的判断,包括:
统计包含该滑动窗口中至少一个建模项的语音数据的条数,计算统计结果与语音数据总条数的比值,如果该比值大于预设比例阈值,则确定该滑动窗口适用于第一训练阶段,否则,确定该滑动窗口适用于第二训练阶段。
15.根据权利要求14所述的装置,其特征在于,
所述第二训练单元,根据该滑动窗口确定低频语音数据时,用于:将包含该滑动窗口中的至少一个建模项的各语音数据确定为低频语音数据,其它各语音数据则作为高频语音数据。
16.根据权利要求15所述的装置,其特征在于,
所述配置单元,用于预先设置每次迭代中参与训练的高频语音数据条数和低频语音数据条数;
所述第二训练单元,确定低频语音数据的重用次数时,用于:
计算被划分为高频语音数据的语音数据条数与每次迭代中参与训练的高频语音数据条数的商QH;
计算被划分为低频语音数据的语音数据条数与每次迭代中参与训练的低频语音数据条数的商QL;
计算QH与QL的商,将该商值向上取整后得到的值确定为低频语音数据的重用次数。
17.根据权利要求16所述的装置,其特征在于,
所述第二训练单元,根据该滑动窗口将所有语音数据划分为低频语音数据和高频语音数据并确定低频语音数据的重用次数之后,根据低频语音数据的重用次数调整建模字典中所有建模项的权重时,用于:
对每个建模项,统计包含该建模项的语音数据条数,如果该建模项属于该滑动窗口,则将包含该建模项的语音数据条数与低频语音数据的重用次数的乘积作为该建模项的出现频率,否则,将包含该建模项的语音数据条数作为该建模项的出现频率;
采用公式weight’=(m_count+N×n_count)/class_per_count’计算该建模项调整后的权重;其中,weight’为该建模项调整后的权重,m_count为被划分为高频语音数据的语音数据条数,N为低频语音数据的重用次数,n_count为被划分为低频语音数据的语音数据条数,class_per_count’为该建模项的出现频率。
18.根据权利要求12所述的装置,其特征在于,
所述配置单元,预先设置每次迭代中参与训练的语音数据条数batch_size;
所述权重参数为一标量;
所述第一训练单元,根据该滑动窗口中所有建模项的权重确定一权重参数的方法为:将该滑动窗口中所有建模项的权重的平均值确定为该权重参数;
所述第一训练单元,将所有语音数据的声音特征信息作为训练样本,执行基于该权重参数的语音识别模型训练时,用于:
根据语音数据的总条数和预先设置的batch_size确定一轮训练所需的迭代次数,根据该迭代次数将所有语音数据平均划分为多组;
针对每组语音数据,将该权重参数作为本次迭代过程中所有建模项的权重参数,将该组语音数据的声音特征信息作为训练样本对语音识别模型进行一次迭代训练。
19.根据权利要求12所述的装置,其特征在于,
所述配置单元,用于预先设置每次迭代中参与训练的高频语音数据条数NH和低频语音数据条数NL;
所述权重参数为一标量;
所述第二训练单元,根据该滑动窗口中所有建模项调整后的权重确定一权重参数时,用于:将该滑动窗口中所有建模项调整后的权重的平均值确定为该权重参数;
所述第二训练单元,将所有语音数据的声音特征信息作为训练样本,根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练时,用于:
计算被划分为高频语音数据的语音数据条数与每次迭代中参与训练的高频语音数据条数的商QH,将所有高频语音数据平均划分为QH组;
针对每组高频语音数据,选择NL条语音数据加入到该组高频语音数据,将该权重参数作为本次迭代过程中所有建模项的权重参数,将该组语音数据的声音特征信息作为训练样本,对语音识别模型进行一次迭代训练;其中,每条低频语音数据参与训练的迭代次数不超过低频语音数据的重用次数,且每次迭代中参与训练的NL条低频语音数据互不相同。
20.根据权利要求12所述的装置,其特征在于,
所述配置单元,用于预先设置每次迭代中参与训练的语音数据条数batch_size;
所述权重参数为一向量,该向量中包括建模字典中所有建模项的权重参数;
所述第一训练单元,根据该滑动窗口中所有建模项的权重确定一权重参数时,用于:针对建模字典中的每个建模项,如果该建模项属于该滑动窗口,则将所述向量中该建模项的权重参数设置为该建模项的权重,如果该建模项不属于该滑动窗口,则若该建模项的权重小于预设权重阈值,则将所述向量中该建模项的权重参数设置为该建模项的权重,若该建模项的权重不小于预设权重阈值,则将所述向量中该建模项的权重参数设置为预设权重阈值;
所述第一训练单元,将所有语音数据的声音特征信息作为训练样本,执行基于该权重参数的语音识别模型训练时,用于:
根据语音数据总条数和预先设置的batch_size确定一轮训练所需的迭代次数,根据该迭代次数将所有语音数据平均划分为多组;
针对每组语音数据,将所述向量中各建模项的权重参数作为本次迭代过程中各建模项的权重参数,将该组语音数据的声音特征信息作为训练样本,对语音识别模型进行一次迭代训练。
21.根据权利要求12所述的装置,其特征在于,
所述配置单元,用于预先设置每次迭代中参与训练的高频语音数据条数NH和低频语音数据条数NL;
所述权重参数为一向量,该向量中包括建模字典中所有建模项的权重参数;
所述第二训练单元,根据该滑动窗口中所有建模项调整后的权重确定权重参数时,用于:针对建模字典中的每个建模项,如果该建模项属于该滑动窗口,则将所述向量中该建模项的权重参数设置为该建模项调整后的权重,如果该建模项不属于该滑动窗口,则若该建模项调整后的权重小于W,则将所述向量中该建模项的权重参数设置为该建模项调整后的权重,若该建模项的权重不小于W,则将所述向量中该建模项的权重参数设置为权重值W;其中,W是该滑动窗口中各建模项调整后的权重中的最大值;
所述第二训练单元,将所有语音数据的声音特征信息作为训练样本,根据低频语音数据的重用次数执行基于该权重参数的语音识别模型训练时,用于:
计算被划分为高频语音数据的语音数据条数与每次迭代中参与训练的高频语音数据条数的商QH,将所有高频语音数据平均划分为QH组;
针对每组高频语音数据,选择NL条低频语音数据加入到该组高频语音数据中,将所述向量中各建模项的权重参数作为本次迭代过程中各建模项的权重参数,将该组语音数据的声音特征信息作为训练样本,对语音识别模型进行一次迭代训练;其中,每条低频语音数据参与训练的迭代次数不超过低频语音数据的重用次数,且每次迭代中参与训练的NL条低频语音数据互不相同。
22.根据权利要求12-21任一权项所述的装置,其特征在于,
所述建模粒度为音素、音节、或字。
23.一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通过总线相连的存储器;所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序;其特征在于,所述至少一个处理器执行所述一个或多个计算机程序时实现权利要求1至11任一权项所述的方法步骤。
24.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一个或多个计算机程序,所述一个或多个计算机程序被处理器执行时实现权利要求1至11中任一权项所述的方法。
CN201910193085.2A 2019-03-14 2019-03-14 一种语音识别模型的训练方法和装置 Active CN111768761B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910193085.2A CN111768761B (zh) 2019-03-14 2019-03-14 一种语音识别模型的训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910193085.2A CN111768761B (zh) 2019-03-14 2019-03-14 一种语音识别模型的训练方法和装置

Publications (2)

Publication Number Publication Date
CN111768761A true CN111768761A (zh) 2020-10-13
CN111768761B CN111768761B (zh) 2024-03-01

Family

ID=72718532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910193085.2A Active CN111768761B (zh) 2019-03-14 2019-03-14 一种语音识别模型的训练方法和装置

Country Status (1)

Country Link
CN (1) CN111768761B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365901A (zh) * 2020-11-03 2021-02-12 武汉工程大学 一种机械音频故障检测方法及装置
CN113870848A (zh) * 2021-12-02 2021-12-31 深圳市友杰智新科技有限公司 语音建模单元的构建方法、装置和计算机设备
CN115293255A (zh) * 2022-08-02 2022-11-04 河北雄安荣乌高速公路有限公司 高速公路交通事故风险模型构建及风险判别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140358539A1 (en) * 2013-05-29 2014-12-04 Tencent Technology (Shenzhen) Company Limited Method and apparatus for building a language model
US20170092268A1 (en) * 2015-09-28 2017-03-30 Trausti Thor Kristjansson Methods for speech enhancement and speech recognition using neural networks
CN107871497A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 语音识别方法和装置
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
CN108630190A (zh) * 2018-05-18 2018-10-09 百度在线网络技术(北京)有限公司 用于生成语音合成模型的方法和装置
WO2019032202A1 (en) * 2017-08-11 2019-02-14 Microsoft Technology Licensing, Llc ADAPTATION OF DOMAIN IN VOICE RECOGNITION BY LEARNING TEACHER / STUDENT
CN109448749A (zh) * 2018-12-19 2019-03-08 中国科学院自动化研究所 基于有监督学习听觉注意的语音提取方法、系统、装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140358539A1 (en) * 2013-05-29 2014-12-04 Tencent Technology (Shenzhen) Company Limited Method and apparatus for building a language model
US20170092268A1 (en) * 2015-09-28 2017-03-30 Trausti Thor Kristjansson Methods for speech enhancement and speech recognition using neural networks
CN107871497A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 语音识别方法和装置
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
WO2019032202A1 (en) * 2017-08-11 2019-02-14 Microsoft Technology Licensing, Llc ADAPTATION OF DOMAIN IN VOICE RECOGNITION BY LEARNING TEACHER / STUDENT
CN108630190A (zh) * 2018-05-18 2018-10-09 百度在线网络技术(北京)有限公司 用于生成语音合成模型的方法和装置
CN109448749A (zh) * 2018-12-19 2019-03-08 中国科学院自动化研究所 基于有监督学习听觉注意的语音提取方法、系统、装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PREETI SHARMA 等: "Intelligent Voice Recognition System Based on Acoustic and Speaking Fundamental Frequency Characteristics", 《JOURNAL OF ENGINEERING》, vol. 1, no. 2, pages 1 - 8 *
余华 等: "改进卷积输入的端到端普通话语音识别", 《数据采集与处理》, vol. 33, no. 5, pages 793 - 800 *
秦楚雄 等: "低资源语音识别中融合多流特征的卷积神经网络声学建模方法", 计算机应用, vol. 36, no. 09, pages 2609 - 2615 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365901A (zh) * 2020-11-03 2021-02-12 武汉工程大学 一种机械音频故障检测方法及装置
CN113870848A (zh) * 2021-12-02 2021-12-31 深圳市友杰智新科技有限公司 语音建模单元的构建方法、装置和计算机设备
CN113870848B (zh) * 2021-12-02 2022-04-26 深圳市友杰智新科技有限公司 语音建模单元的构建方法、装置和计算机设备
CN115293255A (zh) * 2022-08-02 2022-11-04 河北雄安荣乌高速公路有限公司 高速公路交通事故风险模型构建及风险判别方法
CN115293255B (zh) * 2022-08-02 2023-05-05 河北雄安荣乌高速公路有限公司 高速公路交通事故风险模型构建及风险判别方法

Also Published As

Publication number Publication date
CN111768761B (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
US10332507B2 (en) Method and device for waking up via speech based on artificial intelligence
Cai et al. A novel learnable dictionary encoding layer for end-to-end language identification
Zhang et al. Boosted deep neural networks and multi-resolution cochleagram features for voice activity detection
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
Ding et al. Autospeech: Neural architecture search for speaker recognition
CN110164452A (zh) 一种声纹识别的方法、模型训练的方法以及服务器
CN111768761A (zh) 一种语音识别模型的训练方法和装置
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及系统
CN110349597B (zh) 一种语音检测方法及装置
CN111126564A (zh) 一种神经网络结构搜索方法、装置及设备
CN110517664A (zh) 多方言识别方法、装置、设备及可读存储介质
CN111159404B (zh) 文本的分类方法及装置
CN110019779B (zh) 一种文本分类方法、模型训练方法及装置
CN105895082A (zh) 声学模型训练方法、语音识别方法及装置
CN110297888A (zh) 一种基于前缀树与循环神经网络的领域分类方法
CN106384587B (zh) 一种语音识别方法及系统
CN104077598A (zh) 一种基于语音模糊聚类的情感识别方法
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
McLaren et al. Softsad: Integrated frame-based speech confidence for speaker recognition
CN113505225A (zh) 一种基于多层注意力机制的小样本医疗关系分类方法
Ng et al. Contrastive speech mixup for low-resource keyword spotting
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
CN116644339B (zh) 一种信息归类方法及系统
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
Saeidi et al. Particle swarm optimization for sorted adapted gaussian mixture models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2nd floor, Block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176

Applicant before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

CB02 Change of applicant information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant