CN110310623A

CN110310623A - 样本生成方法、模型训练方法、装置、介质及电子设备

Info

Publication number: CN110310623A
Application number: CN201910473083.9A
Authority: CN
Inventors: 梁昆
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2019-10-08
Anticipated expiration: 2037-09-20
Also published as: CN110310623B; CN107481718B; CN107481718A

Abstract

本申请是201710854125.4的分案申请，公开了一种样本生成方法、模型训练方法、装置、介质及电子设备。其中，样本生成方法包括：获取已发送的通过语音方式输入的短信和/或已存储的通过语音方式输入的备忘录，根据所述短信和/或备忘录的正文内容获取用户输入的标准的语音数据样本；获取所述标准的语音数据样本的语音特征矢量序列；根据所述短信和/或备忘录的历史语音数据确定个性化的无实际含义的语音特征以及所述语音特征的出现位置；基于所述出现位置向所述语音特征矢量序列中添加所述语音特征，得到筛选模型的训练样本。采用上述技术方案可以有效地减少语音识别过程中的计算量，提高了识别速度。

Description

样本生成方法、模型训练方法、装置、介质及电子设备

本申请是分案申请，原申请的申请号为201710854125.4，申请日为2017年9月20日，发明名称为“语音识别方法、装置、存储介质及电子设备”。

技术领域

本申请实施例涉及语音识别技术，尤其涉及一种样本生成方法、模型训练方法、装置、介质及电子设备。

背景技术

随着应用于电子设备的科技技术的迅猛发展，电子设备已经拥有了强大的处理能力，并逐渐成为人们生活、文娱及工作必不可少的重要工具。

以智能手机为例，为了在驾驶车辆、手提物品或者其它不方便通过触摸屏操作智能手机的场景下，用户也能方便地操作智能手机，目前的智能手机大都配置了语音助手功能。通过语音助手可以将用户输入的语音数据转换为文字。然而，目前的语音识别方案在进行语音识别时，存在计算量大，识别速度慢的缺陷。

发明内容

本申请实施例提供一种样本生成方法、模型训练方法、装置、介质及电子设备，可以减少语音识别过程中的计算量，提高识别速度。

第一方面，本申请实施例提供了一种语音识别方法，包括：

获取第一语音数据；

将所述第一语音数据输入预先构建的筛选模型进行筛选，获取所述筛选模型输出的滤除设定语音特征的语音片段，其中，所述筛选模型由添加无实际含义的语音特征的语音数据样本训练得到；

识别所述语音片段得到对应的文字。

第二方面，本申请实施例还提供了一种语音识别装置，该装置包括：

语音获取模块，用于获取第一语音数据；

语音筛选模块，用于将所述第一语音数据输入预先构建的筛选模型进行筛选，获取所述筛选模型输出的滤除设定语音特征的语音片段，其中，所述筛选模型由添加无实际含义的语音特征的语音数据样本训练得到；

语音识别模块，用于识别所述语音片段得到对应的文字。

第三方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例所述的语音识别方法。

第四方面，本申请实施例还提供了一种电子设备，包括用于采集第一语音数据的语音采集器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例所述的语音识别方法。

本申请提供一种语音识别方案，通过获取第一语音数据；将第一语音数据输入预先构建的筛选模型进行筛选，获取所述筛选模型输出的滤除设定语音特征的语音片段；识别语音片段得到对应的文字。上述技术方案在语音识别前，将所获取的第一语音数据输入了筛选模型。由于筛选模型的训练样本是添加有无实际含义的语音特征的语音数据样本，将第一语音数据输入筛选模型进行计算，可以滤除第一语音数据包含的无实际含义的音素，得到不包含无实际含义的音素的语音片段。从而，由筛选模型输出的语音片段的数据量小于第一语音数据的数据量。再对数据量减小后的语音片段进行识别，可以有效地减少语音识别过程中的计算量，提高了识别速度。

附图说明

图1是本申请实施例提供的一种语音识别方法的流程图；

图2是本申请实施例提供的单个神经元的基本结构示意图；

图3是本申请实施例提供的另一种语音识别方法的流程图；

图4是本申请实施例提供的又一种语音识别方法的流程图；

图5是本申请实施例提供的一种语音识别装置的结构框图；

图6是本申请实施例提供的一种电子设备的结构框图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

相关技术中，语音识别的方式通常包括端点检测、特征提取和匹配运算。其中，为了精准地找到语音开始和结束的时刻，通常采用双门限检测算法。同时使用短时过零率和短时平均能量来分别检测语音数据，综合采用上述方式确定语音信号的端点(开始时刻和结束时刻)。语音数据的特征提取的实质是把语音数据从模拟信号转换为数字信号，用反映语音数据特点的一系列特征参数代表语音数据。由于梅尔频谱倒谱系数(Mel FrequencyCepstral Coefficents，简称为MFCC)是根据人耳的听觉模型提出的，因其接近于人的听觉特征，能够很好的提高识别性能。因此，以MFCC参数的提取方式为例说明特征提取流程。MFCC参数的提取方式包括以下几个步骤：采用预设的窗函数，根据固定的帧长和帧移对音频信号进行分帧，例如，帧长可以是25ms，帧移可以是10ms；经过快速傅里叶变换(fastFourier transform，简称FFT)将时域信号变为信号的功率谱；再采用一组梅尔滤波器对上述频率谱进行处理后得到梅尔频谱；在梅尔频谱上进行倒谱分析(包括取对数及离散余弦变换)，得到MFCC参数。将各个声音帧的MFCC参数作为该声音帧的语音特征矢量序列。将各个声音帧的语音特征矢量序列均输入隐式马尔可夫模型，并获取隐式马尔可夫模型输出的与至少一帧声音帧匹配的状态(即比较声音帧与状态匹配的概率，将最大概率对应的状态作为与声音帧匹配的状态)。顺序获取三个状态组成音素，根据所述音素确定单词的发音，从而实现语音识别。然而，上述语音识别的方案无法区别具有实际含义的音素和无实际含义的音素(例如用户表述习惯中的“这个”、“那个”、“怎么说呢”及“就是说”等)，从而导致语音识别过程中计算量比较大，语音识别速度慢。

图1为本申请实施例提供的一种语音识别方法的流程图，该方法可以由语音识别装置来执行，其中，该装置可由软件和/或硬件实现，一般可集成在电子设备中。如图1所示，该方法包括：

步骤110、获取第一语音数据。

其中，第一语音数据包括用户输入的语音信号。例如，用户在使用短信应用中的语音输入功能时输入的语音信号。又如，用户在使用备忘录应用中的语音输入功能时输入的语音信号。又如，用户在使用邮件应用中的语音输入功能时输入的语音信号。再如，用户在使用即时通信应用的语音输入功能时输入的语音信号等。

电子设备上集成有语音采集器，通过语音采集器可以获取第一语音数据。其中，语音采集器包括送话器，以及蓝牙耳机、红外耳机等无线耳机。示例性地，以智能手机为例，当用户开启短信应用的语音输入功能时，短信输入方式可以采用语音输入代替手动输入，其实现过程可以是，用户通过向智能手机输入语音指示，由智能手机将该语音指示对应的语音信号转为文字并显示在短信应用界面。对用户输入的语音指示对应的语音信号进行预处理，可以得到第一语音数据。其中，上述预处理包括滤波和模数转换等。需要说明的是，由于用户在说话时往往不自觉的带入口语化的表达，可能导致第一语音数据中包括“这个”、“那个”、“怎么说呢”及“就是说”等无实际意义的词汇。

步骤120、将所述第一语音数据输入预先构建的筛选模型进行筛选，获取所述筛选模型输出的滤除设定语音特征的语音片段。

其中，所述筛选模型由添加无实际含义的语音特征的语音数据样本训练得到。示例性地，以筛选模型为神经网络模型为例，筛选模型的训练过程包括：

模型初始化，包括设置隐藏层的数目以及输入层、隐藏层和输出层各层的节点数，各层之间的连接权重，以及初始化隐藏层和输出层的阈值等，初步得到神经网络模型的框架。

语音识别，根据神经网络模型包括的公式计算隐藏层的输出参数和输出层的输出参数，根据上一层的计算结果、两层之间的连接权重和自身节点的外部偏置值，计算神经网络模型的输出。

误差计算，采用监督式学习方式对神经网络模型中的参数进行调整。获取用户的历史发送短消息中采用语音输入方式输入的语音数据及对应的文字，由于用户确认发出的短消息是经调整后不具有无实际含义的词汇且符合用户表述习惯的数据，可以将其作为标准的语音数据样本。相应地，语音数据样本对应的期望输出是上述语音数据对应的文字的语音(或发音)。通过向该语音数据样本中添加无实际含义的语音特征的方式获取训练样本。其中，获取无实际含义的语音特征的方式可以是通过统计设定数量的样本群体的表述习惯，分析得到出现概率较高的无实际意义的词汇作为语音特征。还可以是由用户自行选择其常用的无实际意义的词汇，或者自动统计该用户常用的无实际意义的词汇作为语音特征等等。

对神经网络模型的实际输出和期望输出进行计算，得到实际输出和期望输出之间的误差信号。然后，根据该误差信号对神经网络模型中各个神经元的连接权重和外部偏置值进行更新。图2示出本申请实施例提供的单个神经元的基本结构示意图，图2中ω_i1为神经元i与其所在层的上一层中神经元之间的连接权重，也可以理解为输入x₁的权重；θ_i为该神经元的外部偏置。根据网络预测误差，神经网络中误差反向传递修改各个神经元的连接权重和外部偏置值。判断算法迭代是否结束，若是，则完成筛选模型的构建。

将第一语音数据输入构建好的筛选模型，对于第一语音数据中无实际含义的发音对应的路径，其连接权重较小，输入参数在神经网络模型的隐层之间，或隐层与输出层传递的过程中，由于乘以该连接权重得到逐渐缩小的输入参数，经过多次计算后，第一语音数据中无实际含义的语音特征(例如音素)被滤除。筛选模型的输出结果为滤除无实际含义的语音特征的语音片段。

步骤130、识别所述语音片段得到对应的文字。

计算语音片段与预设的参考模板进行距离比对，将语音片段中各声音帧与参考模板中距离最短的发音作为该声音帧的发音，各个声音帧的发音的组合即为该语音片段的语音。在获知该语音片段的语音后，可以查询预设的字典，确定所述语音对应的文字。

本实施例的技术方案，通过在语音识别前，将所获取的第一语音数据输入了筛选模型。由于筛选模型的训练样本是添加有无实际含义的语音特征的语音数据样本，将第一语音数据输入筛选模型进行计算，可以滤除第一语音数据包含的无实际含义的音素，得到不包含无实际含义的音素的语音片段。从而，由筛选模型输出的语音片段的数据量小于第一语音数据的数据量。再对数据量减小后的语音片段进行识别，可以有效地减少语音识别过程中的计算量，提高了识别速度。

图3是本申请实施例提供的另一种语音识别方法的流程图。如图3所示，该方法包括：

步骤301、获取第一语音数据。

步骤302、判断所述第一语音数据对应的用户是否为注册用户，若是，则执行步骤303，否则执行步骤306。

在检测到第一语音数据时，控制电子设备的摄像头开启，拍摄至少一帧用户图像。通过对用户图像进行图像处理，图像识别，确定输入第一语音数据的用户是否为注册用户。其中，可以通过图像匹配的方式确定输入第一语音数据的用户是否为注册用户。示例性地，在用户注册时，获取用户图像，作为匹配模板。在检测到第一语音数据时，获取用户图像，并将用户图像与匹配模板进行匹配，从而，可以确定第一语音数据对应的用户是否为注册用户。

步骤303、获取至少一个注册用户的历史语音数据，根据所述历史语音数据确定各个注册用户的语速及停顿间隔。

在第一语音数据对应的用户是注册用户时，获取该注册用户的历史语音数据。其中，历史语音数据包括用户的历史通话数据、历史语音控制数据以及历史语音消息等。通过分析历史语音数据可以确定各个注册用户的平均语速及平均停顿间隔。其中，平均语速及平均停顿间隔均为加权计算得到。还可以进一步确定各个注册用户分别在不同场景下的语速及停顿间隔。

步骤304、根据所述语速及停顿习惯查询预设的分帧策略集合，确定与所述注册用户对应的分帧策略。

其中，分帧策略包括窗函数的选择、帧长的取值和帧移的取值，且所述分帧策略与不同用户的语言习惯相关联。分帧策略集合是分帧策略的集合，其中存储语速区间及停顿间隔区间与窗函数、帧长及帧移的对应关系。

根据上述步骤确定的语速及停顿间隔查询分帧策略集合中存储的语速区间及停顿间隔区间，定位语速及停顿间隔对应的区间，将该区间对应的窗函数、帧长及帧移作为注册用户输入的当前语音数据的分帧策略。

步骤305、根据注册用户对应的分帧策略，对所述第一语音数据进行分帧，得到至少两个第二语音数据，然后，执行步骤307。

由于语音数据只在较短的时间内呈现平稳性，因此需要将语音数据划分为一个一个的短时段，即声音帧。

示例性地，采用上述步骤中确定的分帧策略包括的窗函数，按照分帧策略包括的帧移处理第一语音数据得到至少两个第二语音数据。其中，窗函数的窗长等于该分帧策略的帧长。在得到至少两个第二语音数据后，转至执行步骤307。第一语音数据的划分与注册用户的语速和停顿间隔相关，因此，分帧后得到的第二语音数据的帧长随注册用户的语速和停顿间隔而变化，帧长并非固定不变，可以减少将具有实际意义的语音与不具有实际意义的语音划分在同一声音帧内，有利于提高语音识别的效率。

步骤306、根据默认的分帧策略，对所述第一语音数据进行分帧，得到至少两个第二语音数据。

在第一语音数据对应的用户不是注册用户时，采用默认的窗函数，按照默认的帧移处理第一语音数据得到至少两个第二语音数据。其中，窗函数的窗长为默认帧长。分帧后得到的第二语音数据的帧长是固定不变的，将具有实际意义的语音和不具有实际意义的语音划分为一个声音帧的情况较多。

步骤307、提取所述第二语音数据对应的第一语音特征矢量序列。

其中，第一语音特征矢量序列包括MFCC特征。从第二语音数据中提取MFCC特征的方式包括：通过一系列梅尔滤波器对第二语音数据的频谱图进行滤波处理，得到梅尔频谱；对所述梅尔频谱进行倒谱分析，得到梅尔频率倒谱系数，将所述梅尔频率倒谱系数作为输入筛选模型的动态特征向量，即第一语音特征矢量序列。

步骤308、对所述第一语音特征矢量序列进行归一化处理后，输入预先构建的循环神经网络模型进行筛选。

可选的，在将第一语音特征矢量序列输入预先构建的循环神经网络模型之前，还可以对第一语音特征矢量序列进行归一化处理，可以理解的是，归一化处理的步骤并不是必须执行的步骤。其中，归一化处理是把所有第一语音特征矢量序列分别映射为[0，1]或[-1，1]之间的数，可以消除输入数据的单位不同和范围差距对语音识别的影响，降低语音识别误差。

在对第一语音特征矢量序列进行归一化处理后，输入预先构建的神经网络模型进行筛选，其中，该神经网络模型为循环神经网络模型。

步骤309、获取所述循环神经网络模型的输出结果，其中，所述输出结果为滤除无实际含义的音素的第二语音特征矢量序列。

其中，音素是语音中的最小单位，依据音节里的发音动作分析，一个动作构成一个音素，音素包括元音和辅音。

由于循环神经网络模型是通过对添加无实际含义的音素的训练样本进行学习及训练构建而成，其输出为滤除无实际含义的音素的语音片段，因此，在将第一语音特征矢量序列输入循环神经网络模型后，输出的语音片段为滤除无实际含义的音素的第二语音特征矢量序列。

步骤310、判断第二语音特征矢量序列与预设的参考模板的长度是否相等，若是，则执行步骤313，否则执行步骤311。

获取第二语音特征矢量序列的长度，将其与预设的参考模板的长度进行比较。若长度不相同，则执行步骤311。若长度相同，则执行步骤313。

步骤311、采用动态时间规整算法计算所述第二语音特征矢量序列与参考模板的帧匹配距离。

其中，动态时间规整算法(dynamic time warping，简称DTW)是一种衡量两个时间序列之间的相似度的方法，主要应用在语音识别领域来识别两段语音是否表示同一个单词。

示例性地，若第二语音特征矢量序列与预设的参考模板的长度不同，则可以通过DTW算法计算第二语音特征矢量序列与参考模板的帧匹配距离矩阵，在帧匹配距离矩阵中找出一条最佳路径，该最佳路径为最小匹配距离对应的路径。

步骤312、确定最小帧匹配距离对应的发音，然后，执行步骤314。

确定作为最小帧匹配距离对应的端点的参考模板内的语音及第二语音特征矢量序列，将该参考模板内的语音作为该第二语音特征矢量序列的发音。

步骤313、直接匹配第二语音特征矢量序列与参考模板，确定所述语音片段对应的发音。

若第二语音特征矢量序列与预设的参考模板的长度相同，则直接匹配第二语音特征矢量序列与参考模板，确定语音片段对应的发音。

步骤314、根据所述发音匹配对应的文字，作为语音识别结果。

本实施例的技术方案，通过在语音识别前，根据用户的语速及停顿间隔确定分帧策略，采用个性化的分帧策略对第一语音数据进行分帧处理，实现个性化的分帧，有效的减少将具有实际含义的语音特征与不具有实际含义的语音特征划分在一帧中的声音帧的数量。将分帧处理后的第二语音数据对应的第一语音特征矢量序列输入筛选模型，可以进一步提高语音识别效率。

图4是本申请实施例提供的又一种语音识别方法的流程图。如图4所示，该方法包括：

步骤401、判断是否满足模型更新条件，若是，则执行步骤402，否则，执行步骤408。

其中，模型更新条件可以是系统时间达到预设时间，还可以是满足预设更新周期。例如，设置模型更新条件是每周五晚12点进行筛选模型更新，则当检测到系统时间为周五晚12点时，确定当前满足模型更新条件。又如，设置模型更新条件是每7天更新一次，则检测到距离上次模型更新的时间满足更新周期时，确定当前满足模型更新条件。

步骤402、获取已发送的通过语音方式输入的短信，和/或已存储的通过语音方式输入的备忘录。

获取采用语音输入方式的已发送短信，及已存储的备忘录。由于用户确认发出的短信可以认为是经调整后不具有无实际含义的词汇且符合用户表述习惯的数据，可以将其作为标准的语音数据样本。对于已保存的备忘录，也可以认为其是经过调整后不具有无实际含义的词汇且符合用户表述习惯的数据，也可以将其作为标准的语音数据样本。

预先保存通过语音输入方式的已发送短信的正文内容对应的语音数据的语音特征矢量序列，并对应保存用户口述输入的语音数据，将用户口述输入的语音数据作为历史语音数据。例如，以通过语音输入方式发送短信为例，用户口述输入的语音数据是“关于这个问题，怎么说呢，确实不好解决”，而经处理后实际发出的短消息是“关于这个问题，确实不好解决”。对应存储用户口述输入的语音数据的语音特征矢量序列，以及实际发出的短消息对应的语音数据。

步骤403、获取所述短信和/或备忘录的正文内容对应的语音数据的语音特征矢量序列。

获取已发送的短信的正文内容中的语音数据的语音特征矢量序列。可选的，还可以是获取已存储的备忘录的正文内容中的语音数据的语音特征矢量序列。

步骤404、获取所述短信和/或备忘录的历史语音数据。

获取已发送的短信对应的用户口述输入的内容，作为历史语音数据。可选的，还可以是获取已存储的备忘录对应的用户口述输入的内容，作为历史语音数据。

步骤405、根据所述历史语音数据确定个性化的无实际含义的音素及所述音素的出现位置。

分析历史语音数据，可以得出某一用户的语言习惯，即无实际含义的因素及其出现位置。例如，该用户在语音输入时，喜欢在句中间说“怎么说呢”这种无实际含义的词汇。

步骤406、根据所述出现位置向所述语音特征矢量序列中添加所述音素作为训练样本，并以所述语音特征矢量序列作为期望输出，采用监督式学习方式对所述筛选模型进行训练。

对训练样本进行归一化处理，可以消除输入数据的单位不同和范围差距对语音识别的影响，同时，还有利于将输入数据映射到激活函数的有效阈值，降低了网络训练误差和网络训练时间。

步骤407、根据训练结果调整所述筛选模型的参数，所述参数包括连接权重和外部偏置值。

通过分析训练样本与期望输出可以确定网络预测误差。根据神经网络模型中误差由后(输出层)向前(输入层)传递的方式，分别修改各个神经元的连接权重和外部偏置值。

步骤408、获取第一语音数据。

若获取第一语音数据时，上述模型更新过程尚未结束，则不识别第一语音数据，提示用户当前正在进行筛选模型的更新操作。

步骤409、将所述第一语音数据输入预先构建的筛选模型进行筛选，获取所述筛选模型输出的滤除设定语音特征的语音片段。

若获取第一语音数据时，未在执行模型更新操作，则将第一语音数据输入筛选模型，通过模型对该第一语音数据进行筛选，得到滤除无实际含义的语音特征的语音片段。

步骤410、识别所述语音片段得到对应的文字。

步骤411、判断所述文字是否为命令信息，若是，则执行步骤412，否则，执行步骤413。

预先通过白名单存储文字组合与命令信息的关联关系。在识别出语音片段对应的文字时，根据该文字的文字组合查询该白名单。若在该白名单中查询到对应的文字组合，则确定语音片段对应的文字代表命令信息，执行步骤412。若未在该白名单中查询到对应的文字组合，则提示用户选择是否为命令信息。若用户选择该语音片段对应的文字代表命令信息，则将该用户确定为命令信息的文字组合添加至该白名单，并执行步骤412。若用户选择该语音片段对应的文字不代表命令信息，则执行步骤413。

步骤412、执行所述命令信息对应的操作。

步骤413、在用户界面中显示所述文字。

本实施例的技术方案，通过在满足筛选模型的更新条件时，采用已发送的通过语音方式输入的短信和/或已存储的通过语音方式输入的备忘录作为训练样本，对筛选模型进行训练，可以使筛选模型的输出适应用户变化的表述习惯，有效地减小误识别率及漏检率。

图5是本申请实施例提供的一种语音识别装置的结构框图。该装置可有软件和/或硬件实现，一般集成在电子设备中。如图5所示，该装置可以包括：

语音获取模块510，用于获取第一语音数据。

语音筛选模块520，用于将所述第一语音数据输入预先构建的筛选模型进行筛选，获取所述筛选模型输出的滤除设定语音特征的语音片段，其中，所述筛选模型由添加无实际含义的语音特征的语音数据样本训练得到。

语音识别模块530，用于识别所述语音片段得到对应的文字。

本申请实施例提供一种语音识别装置，在语音识别前，将所获取的第一语音数据输入了筛选模型。由于筛选模型的训练样本是添加有无实际含义的语音特征的语音数据样本，将第一语音数据输入筛选模型进行计算，可以滤除第一语音数据包含的无实际含义的音素，得到不包含无实际含义的音素的语音片段。从而，由筛选模型输出的语音片段的数据量小于第一语音数据的数据量。再对数据量减小后的语音片段进行识别，可以有效地减少语音识别过程中的计算量，提高了识别速度。

可选的，还包括：

用户判断模块，用于在检测到第一语音数据时，判断所述第一语音数据对应的用户是否为注册用户；

以及，还包括：

分帧模块，用于在将所述第一语音数据输入预先构建的筛选模型进行筛选之前，根据判断结果确定对应的分帧策略，根据所述分帧策略对所述第一语音数据进行分帧，得到至少两个第二语音数据；

其中，所述分帧策略包括窗函数的选择、帧长的取值和帧移的取值，且所述分帧策略与不同用户的语言习惯相关联。

可选的，分帧模块具体用于：

获取至少一个注册用户的历史语音数据，根据所述历史语音数据确定各个注册用户的语速及停顿间隔；

根据所述语速及停顿习惯查询预设的分帧策略集合，确定与所述注册用户对应的分帧策略。

可选的，语音筛选模块520具体用于：

提取所述第二语音数据对应的第一语音特征矢量序列；

对所述第一语音特征矢量序列进行归一化处理后，输入预先构建的循环神经网络模型进行筛选；

获取所述循环神经网络模型的输出结果，其中，所述输出结果为滤除无实际含义的音素的第二语音特征矢量序列。

可选的，语音识别模块530具体用于：

判断所述第二语音特征矢量序列与预设的参考模板的长度是否相等；

在不相等时，采用动态时间规整算法计算所述第二语音特征矢量序列与参考模板的帧匹配距离；

确定最小帧匹配距离对应的发音，将所述发音匹配的文字作为语音识别结果。

可选的，还包括：

文字处理模块，用于在识别所述语音片段得到对应的文字之后，判断所述文字是否为命令信息；

若是，则执行所述命令信息对应的操作；

若否，则在用户界面中显示所述文字。

可选的，还包括：

模型更新模块，用于在满足模型更新条件时，获取已发送的通过语音方式输入的短信，和/或已存储的通过语音方式输入的备忘录；

获取所述短信和/或备忘录的正文内容对应的语音数据的语音特征矢量序列；

获取所述短信和/或备忘录的历史语音数据；

根据所述历史语音数据确定个性化的无实际含义的音素及所述音素的出现位置；

根据所述出现位置向所述语音特征矢量序列中添加所述音素作为训练样本，并以所述语音特征矢量序列作为期望输出，采用监督式学习方式对所述筛选模型进行训练；

根据训练结果调整所述筛选模型的参数，所述参数包括连接权重和外部偏置值。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种语音识别方法，该方法包括：

获取第一语音数据；

识别所述语音片段得到对应的文字。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的语音识别操作，还可以执行本申请任意实施例所提供的语音识别方法中的相关操作。

本申请实施例提供了一种电子设备，该电子设备中可集成本申请实施例提供的语音识别装置。其中，电子设备包括智能手机、平板电脑、掌上游戏机、笔记本电脑及智能手表等。图6是本申请实施例提供的一种电子设备的结构框图。如图6所示，该电子设备可以包括：存储器601、中央处理器(Central Processing Unit，CPU)602(又称处理器，以下简称CPU)、语音采集器606和触摸屏611。所述触摸屏611，用于将用户操作转换成电信号输入至所述处理器，并显示可视输出信号；所述语音采集器606，用于采集第一语音数据；所述存储器601，用于存储计算机程序；所述CPU602读取并执行所述存储器601中存储的计算机程序。所述CPU602在执行所述计算机程序时实现以下步骤：获取第一语音数据；将所述第一语音数据输入预先构建的筛选模型进行筛选，获取所述筛选模型输出的滤除设定语音特征的语音片段，其中，所述筛选模型由添加无实际含义的语音特征的语音数据样本训练得到；识别所述语音片段得到对应的文字。

所述电子设备还包括：外设接口603、RF(Radio Frequency，射频)电路605、电源管理芯片608、输入/输出(I/O)子系统609、其他输入/控制设备610以及外部端口604，这些部件通过一个或多个通信总线或信号线607来通信。

应该理解的是，图示电子设备600仅仅是电子设备的一个范例，并且电子设备600可以具有比图中所示出的更多的或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

下面就本实施例提供的集成有语音识别装置的电子设备进行详细的描述，该电子设备以手机为例。

存储器601，所述存储器601可以被CPU602、外设接口603等访问，所述存储器601可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

外设接口603，所述外设接口603可以将设备的输入和输出外设连接到CPU602和存储器601。

I/O子系统609，所述I/O子系统609可以将设备上的输入输出外设，例如触摸屏611和其他输入/控制设备610，连接到外设接口603。I/O子系统609可以包括显示控制器6091和用于控制其他输入/控制设备610的一个或多个输入控制器6092。其中，一个或多个输入控制器6092从其他输入/控制设备610接收电信号或者向其他输入/控制设备610发送电信号，其他输入/控制设备610可以包括物理按钮(按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮。值得说明的是，输入控制器6092可以与以下任一个连接：键盘、红外端口、USB接口以及诸如鼠标的指示设备。

I/O子系统609中的显示控制器6091从触摸屏611接收电信号或者向触摸屏611发送电信号。触摸屏611检测触摸屏上的接触，显示控制器6091将检测到的接触转换为与显示在触摸屏611上的用户界面对象的交互，即实现人机交互，显示在触摸屏611上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标等。值得说明的是，设备还可以包括光鼠，光鼠是不显示可视输出的触摸敏感表面，或者是由触摸屏模组形成的触摸敏感表面的延伸。

RF电路605，主要用于建立手机与无线网络(即网络侧)的通信，实现手机与无线网络的数据接收和发送。例如收发短信息、电子邮件等。具体地，RF电路605接收并发送RF信号，RF信号也称为电磁信号，RF电路605将电信号转换为电磁信号或将电磁信号转换为电信号，并且通过该电磁信号与通信网络以及其他设备进行通信。RF电路605可以包括用于执行这些功能的已知电路，其包括但不限于天线系统、RF收发机、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、CODEC(COder-DECoder，编译码器)芯片组、用户标识模块(Subscriber Identity Module，SIM)等等。

语音采集器606，包括送话器，以及蓝牙耳机、红外耳机等无线耳机，主要用于接收音频数据，将该音频数据转换为电信号。

电源管理芯片608，用于为CPU602、I/O子系统及外设接口所连接的硬件进行供电及电源管理。

本申请实施例提供的电子设备，通过在语音识别前，将所获取的第一语音数据输入了筛选模型。由于筛选模型的训练样本是添加有无实际含义的语音特征的语音数据样本，将第一语音数据输入筛选模型进行计算，可以滤除第一语音数据包含的无实际含义的音素，得到不包含无实际含义的音素的语音片段。从而，由筛选模型输出的语音片段的数据量小于第一语音数据的数据量。再对数据量减小后的语音片段进行识别，可以有效地减少语音识别过程中的计算量，提高了识别速度。

上述实施例中提供的语音识别装置、存储介质及电子设备可执行本申请任意实施例所提供的语音识别方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的语音识别方法。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种样本生成方法，其特征在于，包括：

获取已发送的通过语音方式输入的短信和/或已存储的通过语音方式输入的备忘录，根据所述短信和/或备忘录的正文内容获取用户输入的标准的语音数据样本；

获取所述标准的语音数据样本的语音特征矢量序列；

根据所述短信和/或备忘录的历史语音数据确定个性化的无实际含义的语音特征以及所述语音特征的出现位置；

基于所述出现位置向所述语音特征矢量序列中添加所述语音特征，得到筛选模型的训练样本。

2.根据权利要求1所述的方法，其特征在于，获取所述标准的语音数据样本的语音特征矢量序列，包括：

采用设定的分帧策略对所述标准的语音数据样本进行分帧处理，得到至少两个语音片段，分别提取各个语音片段的语音特征矢量序列。

3.根据权利要求2所述的方法，其特征在于，设定的分帧策略包括：窗函数的选择、帧长的取值和帧移的取值，且所述分帧策略与不同用户的语言习惯相关联。

4.根据权利要求2所述的方法，其特征在于，在采用设定的分帧策略对所述标准语音数据进行分帧处理之前，还包括：

根据所述用户的语速及停顿间隔查询预设的分帧策略集合，确定与所述用户对应的分帧策略，其中，分帧策略集合是分帧策略的集合，其中存储语速区间及停顿间隔区间与窗函数、帧长及帧移的对应关系；分帧策略包括窗函数的选择、帧长的取值和帧移的取值。

5.根据权利要求2所述的方法，其特征在于，采用设定的分帧策略对所述标准的语音数据样本进行分帧处理，得到至少两个语音片段，分别提取各个语音片段的语音特征矢量序列，包括：

按照设定的分帧策略包括的帧移处理所述标准的语音数据样本，得到至少两个语音片段；

确定各个语音片段的梅尔频率倒谱系数，作为各个所述语音片段的语音特征矢量序列。

6.一种模型训练方法，其特征在于，包括：

获取训练样本，其中，所述训练样本采用如权利要求1至5中任一项所述的样本生成方法生成；

以各个语音片段的语音特征矢量序列为模型的期望输出，采用所述训练样本对预设的模型框架进行训练；

根据训练结果调整所述筛选模型的参数，得到筛选模型。

7.一种样本生成装置，其特征在于，包括：

标准数据获取模块，用于获取已发送的通过语音方式输入的短信和/或已存储的通过语音方式输入的备忘录，根据所述短信和/或备忘录的正文内容获取用户输入的标准的语音数据样本；

矢量序列提取模块，用于获取所述标准的语音数据样本的语音特征矢量序列；

历史数据分析模块，用于根据所述短信和/或备忘录的历史语音数据确定个性化的无实际含义的语音特征以及所述语音特征的出现位置；

训练样本生成模块，用于基于所述出现位置向所述语音特征矢量序列中添加所述语音特征，得到筛选模型的训练样本。

8.一种模型训练装置，其特征在于，包括：

训练样本获取模块，用于获取训练样本，其中，所述训练样本采用如权利要求1至5中任一项所述的样本生成方法生成；

模型训练模块，用于以各个语音片段的语音特征矢量序列为模型的期望输出，采用所述训练样本对预设的模型框架进行训练；

参数调整模块，用于根据训练结果调整所述筛选模型的参数，得到筛选模型。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5中任一所述的样本生成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求6所述的模型训练方法。

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一所述的样本生成方法。

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求6所述的模型训练方法。