CN111161747B

CN111161747B - 基于Tensorflow唤醒模型的预测方法、装置和计算机设备

Info

Publication number: CN111161747B
Application number: CN202010257364.3A
Authority: CN
Inventors: 王天喜; 王广新; 杨汉丹
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2020-07-28
Anticipated expiration: 2040-04-03
Also published as: CN111161747A

Abstract

本申请揭示了基于Tensorflow唤醒模型的预测方法，包括：将语音数据拆分成按照所述语音数据形成时序依次排布的多个帧音频数据段；依据所述语音数据的形成时序将相邻的各所述帧音频数据段进行部分重合，组合成唤醒模型的预测数据，其中，所述预测数据保持了所述语音数据的形成时序；分别提取各所述预测数据对应的特征值，形成唤醒模型的输入数据；将各所述输入数据依次输入至所述唤醒模型进行预测，得到预测结果。通过部分数据重合的方式，延续唤醒模型估算唤醒词的识别趋势，提高识别唤醒词的准确度。

Description

基于Tensorflow唤醒模型的预测方法、装置和计算机设备

技术领域

本申请涉及到计算机领域，特别是涉及到基于Tensorflow唤醒模型的预测方法、装置和计算机设备。

背景技术

在智能产品中有一项重要的AI能力，就是语音唤醒。智能设备开启并自动加载好资源，这时它处于休眠状态。当用户说出特定的唤醒词时，设备就会被唤醒，自动切换到工作状态等待用户接下来的指令。但现有语音唤醒中正唤醒准确率不高，不能满足智能产品实时被唤醒的需求。

发明内容

本申请的主要目的为提供基于Tensorflow唤醒模型的预测方法，旨在解决现有语音唤醒不能满足智能产品实时被唤醒的需求的技术问题。

本申请提出一种基于Tensorflow唤醒模型的预测方法，包括：

将语音数据拆分成按照所述语音数据形成时序依次排布的多个帧音频数据段；

依据所述语音数据的形成时序将相邻的各所述帧音频数据段进行部分重合，组合成唤醒模型的预测数据，其中，所述预测数据保持了所述语音数据的形成时序；

分别提取预测数据对应的特征值，形成唤醒模型的输入数据；

将各所述输入数据依次输入至所述唤醒模型进行预测，得到预测结果。

优选地，所述依据所述语音数据的形成时序将相邻的各所述帧音频数据段进行部分重合，组合成唤醒模型的预测数据的步骤，包括：

按照所述语音数据的形成时序，将开始时刻至第一时刻对应的音频字节作为第一预测数据，其中，所述第一预测数据包含于所有所述预测数据中，所述开始时刻和所述第一时刻属于同一个帧音频数据段；

按照所述语音数据的形成时序，将第二时刻至第三时刻对应的音频字节作为第二预测数据，其中，所述第二预测数据包含于所有所述预测数据中，所述第二时刻位于所述第一时刻之前，所述第三时刻位于所述第一时刻之后，所述第二时刻和所述第三时刻分别属于相邻的两个帧音频数据段；

按照所述第一预测数据以及所述第二预测数据的形成过程，依次形成所述唤醒模型的所有预测数据。

优选地，所述按照所述语音数据的形成时序，将第二时刻至第三时刻对应的音频字节作为第二预测数据的步骤，包括：

在所述第一预测数据中，确定排布于中间位置处的指定音频字节；

获取所述指定音频字节对应的形成时刻；

将所述指定音频字节对应的形成时刻，作为所述第二时刻；

从所述指定音频字节起，按照所述语音数据的形成时序依次计数排在所述指定音频字节之后的音频字节，至所述计数等于所述指定数量时终止；

确定所述计数等于所述指定数量时对应的终止音频字节；

将所述终止音频字节对应的形成时刻，作为所述第三时刻。

优选地，所述将各所述预测数据依次输入至所述唤醒模型进行预测，得到预测结果的步骤之后，包括：

将所有所述预测结果分别保存于第一指定长度的预测平滑队列中；

将所述预测平滑队列中超过预设阈值的预测结果的唤醒标记记为1，将未超过预设阈值的预测结果的唤醒标记记为0；

将所有所述唤醒标记按照所述语音数据的形成时序，映射于第二指定长度的检验队列中；

依据所述检验队列输出所述唤醒结果。

优选地，所述预测结果对应的预测分析内容存储于预测日志，所述预测分析内容包括所述预测结果中的唤醒词的数量以及唤醒词的位置，所述依据所述检验队列输出所述唤醒结果的步骤之后，包括：

统计所述预测日志中各所述预测结果分别对应的唤醒词的数量以及唤醒词的位置；

将各所述预测结果分别对应的唤醒词的数量以及唤醒词的位置，依次与预先输入的所述语音数据中包含的总唤醒词数量以及所有唤醒词的位置进行对比，得到正唤醒率和误唤醒率；

根据所述正唤醒率和所述误唤醒率，量化所述唤醒结果对应的唤醒能力值。

优选地，所述依据所述检验队列输出所述唤醒结果的步骤之后，包括：

获取所述第一指定长度对应的第一区间、所述第二指定长度对应的第二区间以及所述预设阈值对应的第三区间；

通过确定所述第一指定长度、所述第二指定长度和所述预设阈值中的任意两个参量为固定参量，确定所述唤醒能力值最大时所述固定参量之外的剩余参量对应的优选区间，其中，所述优选区间包含于所述第一区间，或所述优选区间包含于所述第二区间，或所述优选区间包含于所述第三区间。

优选地，通过确定所述第一指定长度、所述第二指定长度和所述预设阈值中的任意两个参量为固定参量，确定所述唤醒能力值最大时所述固定参量之外的剩余参量对应的优选区间的步骤，包括：

确定所述第二指定长度和所述预设阈值为固定参量，所述第一指定长度以指定变化步长从所述第一区间的最小值，依次变化至所述第一区间的最大值；

获取各变化后的第一指定长度分别对应的唤醒能力值，并确定唤醒能力值最大时，变化后的第一指定长度所对应的特定数据；

将所述特定数据作为所述预测平滑队列对应的优选区间；

依据所述预测平滑队列对应的优选区间的确定过程，分别确定所述预设阈值、所述检验队列对应的优选区间。

本申请还提供了一种基于Tensorflow唤醒模型的预测装置，包括：

拆分模块，用于将语音数据拆分成按照所述语音数据形成时序依次排布的多个帧音频数据段；

组合模块，用于依据所述语音数据的形成时序将相邻的各所述帧音频数据段进行部分重合，组合成唤醒模型的预测数据，其中，所述预测数据保持了所述语音数据的形成时序；

提取模块，用于分别提取预测数据对应的特征值，形成唤醒模型的输入数据；

输入模块，用于将各所述输入数据依次输入至所述唤醒模型进行预测，得到预测结果。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

本申请为保证唤醒模型识别趋势的延续性，将拆分的帧音频数据段按照语音数据生成时序从前至后依次排布，并通过将前一帧音频数据段的时序后半部分，与后一帧音频数据段的时序前半部分，重新组合成一个新的预测数据，使相邻预测数据之间保持一定的重复度，然后依次提取预测数据的特征值，形成按照语音数据的生成时序的输入数据，并输入唤醒模型进行唤醒预测，以通过部分数据重合的方式，延续唤醒模型估算唤醒词的识别趋势，提高识别唤醒词的准确度。

附图说明

图1 本申请一实施例的基于Tensorflow唤醒模型的预测方法流程示意图；

图2本申请一实施例的基于Tensorflow唤醒模型的预测装置结构示意图；

图3本申请一实施例的计算机设备内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例的基于Tensorflow唤醒模型的预测方法，包括：

S1：将语音数据拆分成按照所述语音数据形成时序依次排布的多个帧音频数据段；

S2：依据所述语音数据的形成时序将相邻的各所述帧音频数据段进行部分重合，组合成唤醒模型的预测数据，其中，所述预测数据保持了所述语音数据的形成时序；

S3：分别提取各所述预测数据对应的特征值，形成唤醒模型的输入数据；

S4：将各所述输入数据依次输入至所述唤醒模型进行预测，得到预测结果。

本实施例中的唤醒模型为基于Tensorflow框架的深度网络结构，降低了开发难度。基于Tensorflow的唤醒模型训练后用于语音唤醒领域估算是否为唤醒词的概率。唤醒模型每次能够处理的数据量是固定的，如语音数据采样率16000hz，16bit，mono，唤醒模型每次处理1s的数据。在语音唤醒领域为了提高正唤醒率、降低误唤醒率，需要对唤醒模型输入数据进行前置预处理，即提取语音数据的特征值。首先语音数据经过拆分为一帧帧的帧音频数据段，然后再将相邻的帧音频数据段进行部分重合形成预测数据，然后进行特征值提取，形成输入数据。如1秒的音频拆分成50帧，每帧20ms，则每次预提取20ms语音数据的特征值，待50帧特征值均提取完成。本申请为保证唤醒模型识别趋势的延续性，将拆分的帧音频数据段按照语音数据生成时序从前至后依次排布，并通过将前一帧音频数据段的时序后半部分，与后一帧音频数据段的时序前半部分，重新组合成一个新的预测数据，使相邻预测数据之间保持一定的重复度，然后依次提取预测数据的特征值，形成按照语音数据的生成时序的输入数据，并输入唤醒模型进行唤醒预测。举例地，语音数据[ABCDEFGHIJKL]对应的帧语音数据段依次排布为[AB]、[CD]、[EF]、[GH]、[IJ]、[KL]，每一组代表1S的音频数据，则预测数据的分组依次为[AB]、[BC]、[CD]、[DE]、[EF]、[FG]、[GH]、[HI]、[IJ]、[Jk]、[KL]，并依次进行特征提取，以通过部分数据重合的方式，延续唤醒模型估算唤醒词的识别趋势，提高识别唤醒词的准确度，并通过依次对上述各预测数据提取特征值，形成特征值组合，即唤醒模型的输入数据。本申请通过在Android平台上加载唤醒模型的模型文件，通过Tensorflow提供的API接口，对语音数据对应的特征值进行预测，提高唤醒模型的扩展性。上述模型文件保存的是基于Tensorflow框架的深度网络结构的各项权重值，以保证正确调用唤醒模型。本申请中的语音数据包括采用样本语音数据，上述采用样本语音数据具有与其对应的样本结果，可以明确样本语音数据中唤醒词的数据以及唤醒词出现位置，以测试评估唤醒模型的唤醒能力。通过样本语音数据和样本结果，可以得知唤醒模型对样本语音数据中的哪些唤醒词进行了唤醒反馈。提高唤醒模型正唤醒率、同时又降低误唤醒率。

进一步地，所述依据所述语音数据的形成时序将相邻的各所述帧音频数据段进行部分重合，组合成唤醒模型的预测数据的步骤S2，包括：

S21：按照所述语音数据的形成时序，将开始时刻至第一时刻对应的音频作为第一预测数据，其中，所述第一预测数据包含于所有所述预测数据中，所述开始时刻和所述第一时刻属于同一个帧音频数据段；

S22：按照所述语音数据的形成时序，将第二时刻至第三时刻对应的音频作为第二预测数据，其中，所述第二预测数据包含于所有所述预测数据中，所述第二时刻位于所述第一时刻之前，所述第三时刻位于所述第一时刻之后，所述第二时刻和所述第三时刻分别属于相邻的两个帧音频数据段；

S23：按照所述第一预测数据以及所述第二预测数据的形成过程，依次形成所述唤醒模型的所有预测数据。

本申请实施例通过语音数据的形成时序，对重合、重复的部分数据进行限定，本申请通过将依据语音时序，排序在第一个帧音频数据段的后部分字节与排在其后的第二个帧音频数据段的前部分字节重新组合为新的组合，以此类推形成所有的预测数据对应的音频字节组合。通过帧音频数据段对应的语音时序的时刻，进行精准区分，可提高唤醒精准度，又防止遗漏唤醒。两个相邻预测数据的重复百分比，可通过调节第二时刻进行控制，比如重复百分比的范围包括10%至90%。本实施例中各相邻预测数据的重复百分比相同。在本申请其他实施例中可通过设置不同的重复百分比，实现计算和唤醒效果的优化。比如按照语音时序，各相邻预测数据之间的重复百分比组件降低，以节省计算资源，提高响应效率。上述“第一”、“第二”等类似用语仅用于区分，不用于限定，其他处的类似用语作用相同，不赘述。

进一步地，所述按照所述语音数据的形成时序，将第二时刻至第三时刻对应的音频字节作为第二预测数据的步骤S32，包括：

S321：在所述第一预测数据中，确定排布于中间位置处的指定音频字节；

S322:获取所述指定音频字节对应的形成时刻；

S323:将所述指定音频字节对应的形成时刻，作为所述第二时刻；

S324:从所述指定音频字节起，按照所述语音数据的形成时序依次计数排在所述指定音频字节之后的音频字节，至所述计数等于所述指定数量时终止；

S325:确定所述计数等于所述指定数量时对应的终止音频字节；

S326:将所述终止音频字节对应的形成时刻，作为所述第三时刻。

本申请实施例中的重复百分比为50%。比如，为了更好的模型效果，每个预测数据经过特征值提取后，得到对应的特征值为a0,a1…。每次输入唤醒模型的特征值组合中特征值的数量为100个，以确保唤醒模型一次性进行识别确认。举例地，首次输入数据a0至a99给唤醒模型，第二次输入数据a49至a149给唤醒模型，之后每次输入唤醒模型的数据，均保持前一次预测数据的后半部分加上新的音频字节后，其特征值补齐数量至100个。通过这种方式，实现输入唤醒模型的数据重复百分比均为50%，且严格按照语音数据的形成时序进行重合，以方便实时的语音流式操作，同时在最大幅度提高模型识别唤醒词的概率的前提下，降低计算量。

进一步地，所述将各所述预测数据依次输入至所述唤醒模型进行预测，得到预测结果的步骤S4之后，包括：

S5:将所有所述预测结果分别保存于第一指定长度的预测平滑队列中；

S6:将所述预测平滑队列中超过预设阈值的预测结果的唤醒标记记为1，将未超过预设阈值的预测结果的唤醒标记记为0；

S7:将所有所述唤醒标记按照所述语音数据的形成时序，映射于第二指定长度的检验队列中；

S8:依据所述检验队列输出所述唤醒结果。

本实施例通过预测平滑队列和检验队列，可以防止唤醒模型对同一处的唤醒词重复给出唤醒结果，且可防止预测结果起伏波动过大，对唤醒结果造成影响。通常采用固定长度L的预测平滑队列来保存预测结果，并对预测结果设定预设阈值M，若预测平滑队列中的所有预测结果均超过预设阈值M，则本次预测平滑队列给出的唤醒标记1，则检验队列中相应地添加检验结果1，否则添加0。采用固定长度K的检验队列来保存上述唤醒标记，如果预测平滑队列给出的唤醒标记均为1，则在检验队列中映射添加一个1，否则添加映射0，当检验队列所有映射均为1，那么唤醒模型认为已经检测到唤醒词，给出的唤醒结果为检测到唤醒词，否则未检测到唤醒词。上述预测平滑队列为一滑动检测窗口，按照特征值组合依据语音数据的形成时序进行依次滑动，预测每个特征值组合中是否存在唤醒词。上述唤醒词为定制的词语，字数限定在3-5个字节之间。为了取得较好的唤醒效果，唤醒词应尽量覆盖多个不同的音节，同时避免使用只有元音音节的字，如：阿等字，且需规避相邻音节的发音差异小，如“小新星”就不适合做唤醒词。本申请通过使用不常用的词作为唤醒词，可以减少误唤醒。

进一步地，所述预测结果对应的预测分析内容存储于预测日志，所述预测分析内容包括所述预测结果中的唤醒词的数量以及唤醒词的位置，所述依据所述检验队列输出所述唤醒结果的步骤S8之后，包括：

S81：统计所述预测日志中各所述预测结果分别对应的唤醒词的数量以及唤醒词的位置；

S82：将各所述预测结果分别对应的唤醒词的数量以及唤醒词的位置，依次与预先输入的所述语音数据中包含的总唤醒词数量以及所有唤醒词的位置进行对比，得到正唤醒率和误唤醒率；

S83；根据所述正唤醒率和所述误唤醒率，量化所述唤醒结果对应的唤醒能力值。

本实施例中，对于唤醒模型每一个的特征值组合的预测分析内容都进行保存，最终得到唤醒预测的结果分析日志。预测分析内容包含唤醒词出现在语音数据中的预测位置，通过该日志和样本结果中总唤醒词的位置比较，可以得到正唤醒次数和误唤醒次数。上述样本结果包括预先输入的所述语音数据中包含的总唤醒词数量以及所有唤醒词的位置。上述唤醒包含正唤醒与误唤醒，正唤醒指该段语音数据中包含唤醒词并且唤醒模型给出唤醒结果为检测出唤醒词；误唤醒指该段语音数据中不包含唤醒词但是唤醒模型依然给出唤醒结果为检测出唤醒词，或该段语音数据中包含唤醒词但唤醒模型给出唤醒结果为未检测出唤醒词。正唤醒率为正唤醒的次数除以总次数，误唤醒率为误唤醒的次数除以总次数。唤醒模型的唤醒效果越好，那么其正唤醒率越高，同时误唤醒率很低。正唤醒率和误唤醒率可以量化的表示唤醒模型的唤醒能力。比如以正唤醒率表示唤醒能力，或通过正唤醒率/误唤醒率表示唤醒能力等等。

进一步地，所述依据所述检验队列输出所述唤醒结果的步骤S8之后，包括：

S801:获取所述第一指定长度对应的第一区间、所述第二指定长度对应的第二区间以及所述预设阈值对应的第三区间；

S802:通过确定所述第一指定长度、所述第二指定长度和所述预设阈值中的任意两个参量为固定参量，确定所述唤醒能力值最大时所述固定参量之外的剩余参量对应的优选区间，其中，所述优选区间包含于所述第一区间，或所述优选区间包含于所述第二区间，或所述优选区间包含于所述第三区间。

预测平滑队列的长度L、检验队列的长度K和预设阈值M的取值区间，均对唤醒模型的唤醒能力有很大的影响。本实施例为了得到预测平滑队列的长度L、检验队列的长度K和预设阈值M的取值区间的最优解，对L、K、M的可能出现的区间进行统计分析，得到不同的组合方式。如L共有[L1, L2, L3, …, Lx]x种情况，K有[K1, K2, …, Ky]y种情况，M有[M1,M2, …, Mz]z种情况，即所有的可能情况有x*y*z种。在Android平台上运行预测评估时，每次输入预测样本语音数据时，自动依据配置文件修改对应的L、K、M的值，得到预测结果R进行保存，直到所有的可能情况全部测试完成。此时对R的结果进行分析，得到最优预测结果Ri，Ri对应的L、K、M的值即为最优解。本实施例通过对所有的参数情况进行排列组合，验证所有可能情况，在所有预测结果中找出最优预测结果和最优参数。即为了达到唤醒模型的最佳预测效果，需要根据样本语音数据对唤醒模型进行测试，并根据样本语音数据中的唤醒词的数量和位置，以及唤醒模型对这些唤醒词的唤醒效果来调整L、K和M的取值，以唤醒模型的唤醒效果达到最佳。本实施例通过变动L、K和M中的一个参量，固定另外两个参量，依次通过固定步幅变化，确定变动参量对应的最佳取值或取值区间。通过逐一变化参量进行快速自动测试，找出L、M和K的最佳取值区间，实现唤醒模型的最佳唤醒效果和最优评估。基于Tensorflow唤醒模型的预测更新后或模型文件中的权重参量修改后，都将对L和K的取值有影响，那么相应的L和K的取值也需要重新进行测试调整，以达到唤醒能力最佳。

进一步地，通过确定所述第一指定长度、所述第二指定长度和所述预设阈值中的任意两个参量为固定参量，确定所述唤醒能力值最大时所述固定参量之外的剩余参量对应的优选区间的步骤S802，包括：

S8021：确定所述第二指定长度和所述预设阈值为固定参量，所述第一指定长度以指定变化步长从所述第一区间的最小值，依次变化至所述第一区间的最大值；

S8021：获取各变化后的第一指定长度分别对应的唤醒能力值，并确定唤醒能力值最大时，变化后的第一指定长度所对应的特定数据；

S8021：将所述特定数据作为所述预测平滑队列对应的优选区间；

S8021：依据所述预测平滑队列对应的优选区间的确定过程，分别确定所述预设阈值、所述检验队列对应的优选区间。

本实施例以确定第二指定长度和预设阈值为固定参量，第一指定长度以指定变化步长从第一区间的最小值，依次变化至第一区间的最大值，确定预测平滑队列对应的优选区间为例。确定检验队列、预设阈值分别对应的优选区间的过程，与上述雷同，不赘述。本申请先通过大步长变化确定优选区间，然后通过小步长进一步优化，在优选区间内确定更精准的最佳区间或最佳值。如，预测结果队列L共有[3，6，9，12，15，18，21]7种情况，检验队列K有[2，4，6，8，10]5种情况，M有[0.1，0.2，0.3，0.4，0.5，0.6，0.7，0.8，0.9]这9种情况，通过测试7*5*9次，得到所有参数组合对应的唤醒效果。对比发现，当L取值在6～12，K取值在6～10，M取值在0.6～0.8之间时，唤醒效果明显优于其他参数下的唤醒效果。此时可在确定的区间范围内，重新划分参数，如L取[6，7，8，9，10，11，12]，K取[6，7，8，9，10]，M取[0.6，0.65，0.7，0.75，0.8]，通过固定两个参量依次变化一个参量的方式，在减小变化步长的条件下进一步验证预测，得出最佳唤醒效果对应的最佳参数，提高唤醒精准度。

参照图2，本申请一实施例的基于Tensorflow唤醒模型的预测装置，包括：

拆分模块1，用于将语音数据拆分成按照所述语音数据形成时序依次排布的多个帧音频数据段；

组合模块2，用于依据所述语音数据的形成时序将相邻的各所述帧音频数据段进行部分重合，组合成唤醒模型的预测数据，其中，所述预测数据保持了所述语音数据的形成时序；

提取模块3，用于分别提取预测数据对应的特征值，形成唤醒模型的输入数据；

输入模块4，用于将各所述输入数据依次输入至所述唤醒模型进行预测，得到预测结果。

本实施例中的唤醒模型为基于Tensorflow框架的深度网络结构，降低了开发难度。基于Tensorflow的唤醒模型训练后用于语音唤醒领域估算是否为唤醒词的概率。唤醒模型每次能够处理的数据量是固定的，如语音数据采样率16000hz，16bit，mono，唤醒模型每次处理1s的数据。在语音唤醒领域为了提高正唤醒率、降低误唤醒率，需要对唤醒模型输入数据进行前置预处理，即提取语音数据的特征值。首先语音数据经过拆分为一帧帧的帧音频数据段，然后再将相邻的帧音频数据段进行部分重合形成预测数据，然后进行特征值提取，形成输入数据。如1秒的音频拆分成50帧，每帧20ms，则每次预提取20ms语音数据的特征值，待50帧特征值均提取完成。本申请为保证唤醒模型识别趋势的延续性，将拆分的帧音频数据段按照语音数据生成时序从前至后依次排布，并通过将前一帧音频数据段的时序后半部分，与后一帧音频数据段的时序前半部分，重新组合成一个新的预测数据，使相邻预测数据之间保持一定的重复度，然后依次提取预测数据的特征值，形成按照语音数据的生成时序的输入数据，并输入唤醒模型进行唤醒预测。语音数据[ABCDEFGHIJKL]对应的帧语音数据段依次排布为[AB]、[CD]、[EF]、[GH]、[IJ]、[KL]，每一组代表1S的音频数据，则预测数据的分组依次为[AB]、[BC]、[CD]、[DE]、[EF]、[FG]、[GH]、[HI]、[IJ]、[Jk]、[KL]，并依次进行特征提取，以通过部分数据重合的方式，延续唤醒模型估算唤醒词的识别趋势，提高识别唤醒词的准确度，并通过依次对上述各预测数据提取特征值，形成特征值组合，即唤醒模型的输入数据。本申请通过在Android平台上加载唤醒模型的模型文件，通过Tensorflow提供的API接口，对语音数据对应的特征值进行预测，提高唤醒模型的扩展性。上述模型文件保存的是基于Tensorflow框架的深度网络结构的各项权重值，以保证正确调用唤醒模型。本申请中的语音数据包括采用样本语音数据，上述采用样本语音数据具有与其对应的样本结果，可以明确样本语音数据中唤醒词的数据以及唤醒词出现位置，以测试评估唤醒模型的唤醒能力。通过样本语音数据和样本结果，可以得知唤醒模型对样本语音数据中的哪些唤醒词进行了唤醒反馈。提高唤醒模型正唤醒率、同时又降低误唤醒率。

进一步地，组合模块2，包括：

第一作为单元，用于按照所述语音数据的形成时序，将开始时刻至第一时刻对应的音频作为第一预测数据，其中，所述第一预测数据包含于所有所述预测数据中，所述开始时刻和所述第一时刻属于同一个帧音频数据段；

第二作为单元，用于按照所述语音数据的形成时序，将第二时刻至第三时刻对应的音频作为第二预测数据，其中，所述第二预测数据包含于所有所述预测数据中，所述第二时刻位于所述第一时刻之前，所述第三时刻位于所述第一时刻之后，所述第二时刻和所述第三时刻分别属于相邻的两个帧音频数据段；

形成单元，用于按照所述第一预测数据以及所述第二预测数据的形成过程，依次形成所述唤醒模型的所有预测数据。

进一步地，第二作为单元，包括：

第一确定子单元，用于在所述第一预测数据中，确定排布于中间位置处的指定音频字节；

获取子单元，用于获取所述指定音频字节对应的形成时刻；

第一作为子单元，用于将所述指定音频字节对应的形成时刻，作为所述第二时刻；

计数子单元，用于从所述指定音频字节起，按照所述语音数据的形成时序依次计数排在所述指定音频字节之后的音频字节，至所述计数等于所述指定数量时终止；

第二确定子单元，用于确定所述计数等于所述指定数量时对应的终止音频字节；

第二作为子单元，用于将所述终止音频字节对应的形成时刻，作为所述第三时刻。

进一步地，基于Tensorflow唤醒模型的预测装置，包括：

保存模块，用于将所有所述预测结果分别保存于第一指定长度的预测平滑队列中；

标记模块，用于将所述预测平滑队列中超过预设阈值的预测结果的唤醒标记记为1，将未超过预设阈值的预测结果的唤醒标记记为0；

映射模块，用于将所有所述唤醒标记按照所述语音数据的形成时序，映射于第二指定长度的检验队列中；

输出模块，用于依据所述检验队列输出所述唤醒结果。

进一步地，所述预测结果对应的预测分析内容存储于预测日志，所述预测分析内容包括所述预测结果中的唤醒词的数量以及唤醒词的位置，基于Tensorflow唤醒模型的预测装置，包括：

统计模块，用于统计所述预测日志中各所述预测结果分别对应的唤醒词的数量以及唤醒词的位置；

对比模块，用于将各所述预测结果分别对应的唤醒词的数量以及唤醒词的位置，依次与预先输入的所述语音数据中包含的总唤醒词数量以及所有唤醒词的位置进行对比，得到正唤醒率和误唤醒率；

量化模块，用于根据所述正唤醒率和所述误唤醒率，量化所述唤醒结果对应的唤醒能力值。

进一步地，基于Tensorflow唤醒模型的预测装置，包括：

获取模块，用于获取所述第一指定长度对应的第一区间、所述第二指定长度对应的第二区间以及所述预设阈值对应的第三区间；

确定模块，用于通过确定所述第一指定长度、所述第二指定长度和所述预设阈值中的任意两个参量为固定参量，确定所述唤醒能力值最大时所述固定参量之外的剩余参量对应的优选区间，其中，所述优选区间包含于所述第一区间，或所述优选区间包含于所述第二区间，或所述优选区间包含于所述第三区间。

进一步地，确定模块，包括：

第三确定子单元，用于确定所述第二指定长度和所述预设阈值为固定参量，所述第一指定长度以指定变化步长从所述第一区间的最小值，依次变化至所述第一区间的最大值；

第四确定子单元，用于获取各变化后的第一指定长度分别对应的唤醒能力值，并确定唤醒能力值最大时，变化后的第一指定长度所对应的特定数据；

第三作为子单元，用于将所述特定数据作为所述预测平滑队列对应的优选区间；

第五确定子单元，用于依据所述预测平滑队列对应的优选区间的确定过程，分别确定所述预设阈值、所述检验队列对应的优选区间。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于Tensorflow唤醒模型的预测过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于Tensorflow唤醒模型的预测方法。

上述处理器执行上述基于Tensorflow唤醒模型的预测方法，包括：将语音数据拆分成按照所述语音数据形成时序依次排布的多个帧音频数据段；依据所述语音数据的形成时序将相邻的各所述帧音频数据段进行部分重合，组合成唤醒模型的预测数据，其中，所述预测数据保持了所述语音数据的形成时序；分别提取各所述预测数据对应的特征值，形成唤醒模型的输入数据；将各所述输入数据依次输入至所述唤醒模型进行预测，得到预测结果。

上述计算机设备，为保证唤醒模型识别趋势的延续性，将拆分的帧音频数据段按照语音数据生成时序从前至后依次排布，并通过将前一帧音频数据段的时序后半部分，与后一帧音频数据段的时序前半部分，重新组合成一个新的预测数据，使相邻预测数据之间保持一定的重复度，然后依次提取预测数据的特征值，形成按照语音数据的生成时序的输入数据，并输入唤醒模型进行唤醒预测，以通过部分数据重合的方式，延续唤醒模型估算唤醒词的识别趋势，提高识别唤醒词的准确度。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现基于Tensorflow唤醒模型的预测方法，包括将语音数据拆分成按照所述语音数据形成时序依次排布的多个帧音频数据段；依据所述语音数据的形成时序将相邻的各所述帧音频数据段进行部分重合，组合成唤醒模型的预测数据，其中，所述预测数据保持了所述语音数据的形成时序；分别提取各所述预测数据对应的特征值，形成唤醒模型的输入数据；将各所述输入数据依次输入至所述唤醒模型进行预测，得到预测结果。

上述计算机可读存储介质，为保证唤醒模型识别趋势的延续性，将拆分的帧音频数据段按照语音数据生成时序从前至后依次排布，并通过将前一帧音频数据段的时序后半部分，与后一帧音频数据段的时序前半部分，重新组合成一个新的预测数据，使相邻预测数据之间保持一定的重复度，然后依次提取预测数据的特征值，形成按照语音数据的生成时序的输入数据，并输入唤醒模型进行唤醒预测，以通过部分数据重合的方式，延续唤醒模型估算唤醒词的识别趋势，提高识别唤醒词的准确度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于Tensorflow唤醒模型的预测方法，其特征在于，包括：

分别提取各所述预测数据对应的特征值，形成唤醒模型的输入数据；

将各所述输入数据依次输入至所述唤醒模型进行预测，得到预测结果；

所述将各所述预测数据依次输入至所述唤醒模型进行预测，得到预测结果的步骤之后，包括：

依据所述检验队列输出唤醒结果。

2.根据权利要求1所述的基于Tensorflow唤醒模型的预测方法，其特征在于，所述依据所述语音数据的形成时序将相邻的各所述帧音频数据段进行部分重合，组合成唤醒模型的预测数据的步骤，包括：

3.根据权利要求2所述的基于Tensorflow唤醒模型的预测方法，其特征在于，所述按照所述语音数据的形成时序，将第二时刻至第三时刻对应的音频字节作为第二预测数据的步骤，包括：

获取所述指定音频字节对应的形成时刻；

将所述指定音频字节对应的形成时刻，作为所述第二时刻；

从所述指定音频字节起，按照所述语音数据的形成时序依次计数排在所述指定音频字节之后的音频字节，至所述计数等于指定数量时终止；

确定所述计数等于所述指定数量时对应的终止音频字节；

将所述终止音频字节对应的形成时刻，作为所述第三时刻。

4.根据权利要求1所述的基于Tensorflow唤醒模型的预测方法，其特征在于，所述预测结果对应的预测分析内容存储于预测日志，所述预测分析内容包括所述预测结果中的唤醒词的数量以及唤醒词的位置，所述依据所述检验队列输出唤醒结果的步骤之后，包括：

5.根据权利要求4所述的基于Tensorflow唤醒模型的预测方法，其特征在于，所述依据所述检验队列输出唤醒结果的步骤之后，包括：

6.根据权利要求5所述的基于Tensorflow唤醒模型的预测方法，其特征在于，通过确定所述第一指定长度、所述第二指定长度和所述预设阈值中的任意两个参量为固定参量，确定所述唤醒能力值最大时所述固定参量之外的剩余参量对应的优选区间的步骤，包括：

将所述特定数据作为所述预测平滑队列对应的优选区间；

7.一种基于Tensorflow唤醒模型的预测装置，其特征在于，包括：

提取模块，用于分别提取所述预测数据对应的特征值，形成唤醒模型的输入数据；

输入模块，用于将各所述输入数据依次输入至所述唤醒模型进行预测，得到预测结果；

输出模块，用于依据所述检验队列输出唤醒结果。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。