CN113450771B

CN113450771B - 唤醒方法、模型训练方法和装置

Info

Publication number: CN113450771B
Application number: CN202110802602.9A
Authority: CN
Inventors: 郝奇
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Software Technology Co Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2022-09-27
Anticipated expiration: 2041-07-15
Also published as: CN113450771A

Abstract

本申请公开了一种唤醒方法、模型训练方法和装置，属于通信技术领域。方法包括：采集语音信号；将语音信号输入预设机器学习模型，确定与语音信号对应的场景类别和音素类别，以及音素类别对应的分类的概率；根据场景类别确定与场景类别对应的分数阈值；根据音素类别和音素类别对应的分类的概率确定语音信号的得分；在得分大于分数阈值的情况下，执行与语音信号对应的唤醒操作，如此，通过单一预设机器学习模型对语音信号进行识别，能够同时实现场景识别和唤醒词识别，并且基于预设机器学习模型的输出，将得分与阈值进行比对，从而保证不同场景下合适的唤醒率和误唤醒率。

Description

唤醒方法、模型训练方法和装置

技术领域

本申请属于通信技术领域，具体涉及一种唤醒方法、模型训练方法和装置。

背景技术

随着通信技术的不断发展，越来越多的智能设备具备语音唤醒功能。

在传统技术中，由于场景不同，往往需要设置多个语音模型库，不同语音模型库存储不同场景的语音模型。传统技术中需要训练多个场景的语音模型，设置多个阈值，因此在使用过程中，需要对语音信号进行多次识别匹配，不但整体过程复杂，而且对于模型来说，复杂场景识别不准确。

发明内容

本申请实施例的目的是提供一种唤醒方法、模型训练方法和装置，通过单一模型能够同时实现场景识别和唤醒词识别。

第一方面，本申请实施例提供了一种唤醒方法，所述方法包括：

采集语音信号；

将所述语音信号输入预设机器学习模型，确定与所述语音信号对应的场景类别和音素类别，以及所述音素类别对应的分类的概率；

根据所述场景类别确定与所述场景类别对应的分数阈值；

根据所述音素类别和所述音素类别对应的分类的概率确定所述语音信号的得分；

在所述得分大于所述分数阈值的情况下，执行与所述语音信号对应的唤醒操作。

第二方面，本申请实施例提供了一种模型训练方法，所述方法包括：

获取带有音素标签的语音样本和带有场景标签的噪音样本；

将所述语音样本和所述噪音样本进行混合，以形成带噪语音样本；

将所述带噪语音样本输入第一机器学习模型，获得所述带噪语音样本对应的预测音素标签和预测场景标签；

根据损失函数，对所述第一机器学习模型进行训练，直至满足收敛条件，所述损失函数包括第一损失函数和第二损失函数，所述第一损失函数指示所述预测音素标签和所述音素标签的相似度，所述第二损失函数指示所述预测场景标签和所述场景标签的相似度。

第三方面，本申请实施例提供了一种唤醒装置，所述装置包括：

采集模块，用于采集语音信号；

输入模块，用于将所述语音信号输入预设机器学习模型，确定与所述语音信号对应的场景类别和音素类别，以及所述音素类别对应的分类的概率；

第一确定模块，用于根据所述场景类别确定与所述场景类别对应的分数阈值；

第二确定模块，用于根据所述音素类别和所述音素类别对应的分类的概率确定所述语音信号的得分；

执行模块，用于在所述得分大于所述分数阈值的情况下，执行与所述语音信号对应的唤醒操作。

第四方面，本申请实施例提供了一种模型训练装置，所述装置包括：

获取模块，用于获取带有音素标签的语音样本和带有场景标签的噪音样本；

混合模块，用于将所述语音样本和所述噪音样本进行混合，以形成带噪语音样本；

输入模块，用于将所述带噪语音样本输入第一机器学习模型，确定所述带噪语音样本对应的预测音素标签和预测场景标签；

训练模块，用于根据损失函数，对所述第一机器学习模型进行训练，直至满足收敛条件，所述损失函数包括第一损失函数和第二损失函数，所述第一损失函数指示所述预测音素标签和所述音素标签的相似度，所述第二损失函数指示所述预测场景标签和所述场景标签的相似度。

第五方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面或第二方面所述的方法的步骤。

第六方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面或第二方面所述的方法的步骤。

第七方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面或第二方面所述的方法。

在本申请实施例中，通过采集语音信号，然后将所述语音信号输入预设机器学习模型，从而确定与语音信号对应的场景类别和音素类别，以及与所述音素类别对应的分类的概率，接着根据场景类别确定与所述场景类别对应的分数阈值，以及根据所述音素类别和所述音素类别对应的分类的概率确定语音信号的得分，在得分大于分数阈值的情况下，表示语音信号中存在唤醒词，进而执行与语音信号对应的唤醒操作，如此，通过单一预设机器学习模型对语音信号进行识别，能够同时实现场景识别和唤醒词识别，并且基于预设机器学习模型的输出，将得分与分数阈值进行比对，从而保证不同场景下合适的唤醒率和误唤醒率。

附图说明

图1是本申请实施例提供的唤醒方法的流程示意图；

图2是本申请实施例提供的场景分类模块和音素分类模块的构成示意图；

图3是本申请实施例提供的计算语音信号得分的流程示意图；

图4是本申请实施例提供的模型训练方法的流程示意图；

图5是本申请实施例提供的唤醒装置的结构示意图；

图6是本申请实施例提供的模型训练装置的结构示意图；

图7是本申请实施例提供的电子设备的硬件结构示意图；

图8是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的唤醒方法进行详细地说明。

如图1所示，本申请实施例提供了一种唤醒方法，所述方法由电子设备执行，所述方法包括以下步骤：

步骤101，采集语音信号。

具体地，可通过电子设备中的声音采集装置采集语音信号，例如，可通过电子设备上的麦克风采集语音信号，其中，语音信号包括场景信息和语音信息。场景信息为用户发出语音信号所处的环境，场景信息例如可以为办公室场景、会议室场景或者汽车内场景等。

可选地，在其中一些实施例中，为便于提高模型对语音信号处理效率，在将语音信号输入预设机器学习模型之前，还需要对语音信号进行预处理。

预处理包括分帧、加窗以及傅里叶变化等。具体地，首先对语音信号进行分帧操作，由于语音信号在宏观上是不平稳的，在微观上是平稳的，具有短时平稳性(10-30ms内可以认为语音信息近似不变)，由于后续需要进行傅里叶变换，而傅里叶变换要求输入的信号是平稳的，因此可以将语音信号分为一些短段来进行处理，每一个短段成为一帧，例如，可以按照时间顺序将语音信号划分为多个语音帧，每帧内包括预设时间段内的语音信号，其中，在进行分帧的时候，帧与帧之间可以相互重叠一部分。

接着对语音帧进行加窗操作，例如对语音帧加上汉明窗，加窗即将语音帧与一个窗函数相乘，加窗的目的是为了后续进行傅里叶变换，使全局更加连续，避免出现吉布斯效应。对语音帧加窗之后，使得原本没有周期性的语音信号呈现出周期性函数的部分特征。最后对语音帧进行短时离散傅里叶变换，得到当前语音帧对应的频域信号。

步骤102，将所述语音信号输入预设机器学习模型，确定与所述语音信号对应的场景类别和音素类别，以及所述音素类别对应的分类的概率。

在其中一些实施例中，预设机器学习模型可以为神经网络模型，预设机器学习模型用于场景识别和唤醒词识别，预设机器学习模型可以是在其他设备上事先训练好，然后加载在电子设备里运行。具体地，将语音信号输入预设机器学习模型，预设机器学习模型通过前向计算，获得场景类别、音素类别以及所述音素类别对应的分类的概率。其中，前向计算为给定一组输入，计算输出的过程。

在其中一些实施例中，预设机器学习模型包括场景分类模块和音素分类模块，所述场景分类模块用于确定场景类别，所述音素分类模块用于确定音素类别。

在本申请实施例中，场景分类模块位于预设机器学习模型的前部，因此学习到的特征为全局的特征，这和噪声信号基本遍布整个频带是吻合的。而音素分类模块位于预设机器学习模型的后部，具有较深的网络结构，可以学习到较为局部的特征，这和语音信号的特性也是吻合的。

具体地，将语音信号输入预设机器学习模型，通过预设机器学习模型中的场景分类模块对语音信号中的场景信息进行识别，从而确定场景类别，同时，通过预设机器学习模型中的音素分类模块对语音信号中的音素类别进行识别，从而确定音素类别。为便于理解音素类别，下面将进行举例说明，示例性的，语音信号为小V小V，发音为：xiao wei xiaowei,其中x,iao,w,ei即为音素类别，只要不是该音素的其他发音，我们定义为Filler,如果是静音，我们定义为SIL，因此，预设机器学习模型的音素类别分为6个：x,iao,w,ei,Filler,SIL。

由于在分类任务中，预设机器学习模型的最后一层一般会加入一个softmax层,Softmax函数把输出映射成区间在(0,1)的值，并且做了归一化处理，所有元素的和累加起来等于1，可以直接当作概率对待，选取概率最大的分类作为预测的目标，即选取概率最大的分类作为音素类别，该最大概率即为所述音素类别对应的分类的概率。

在其中一些实施例中，所述场景分类模块和所述音素分类模块由至少两层神经网络结构和函数构成，所述场景分类模块的输出数据通过残差网络的形式输入至所述音素分类模块。

具体地，至少两层神经网络结构例如可以使用DNN深度神经网络、RNN循环神经网络、CNN卷积神经网络或者LSTM长短期记忆网络等网络结构。函数例如可以使用tanh激活函数、ReLU激活函数或者sigmod核函数等。如图2所示，在本申请实施例中，场景分类模块由DNN tanh、RNN ReLU以及DNN sigmod构成，音素分类模块由RNN ReLU、RNN ReLU以及DNNsigmod构成。由于需要考虑场景噪声对语音信息产生的影响，因此在预设机器学习模型中，将场景分类模块的输出数据通过残差网络的形式输入至音素分类模块中，这使得音素分类模块考虑的信息更加全面。可以理解的是，在实际使用过程中，用户一般会长时间处于某一特定场景中，噪声信号可以认为是稳定存在的，不会出现各种场景频繁的切换，因此为了使得机器学习模型输出更加稳定，可以对场景分类模块的场景类别输出进行平滑处理。

步骤103，根据所述场景类别确定与所述场景类别对应的分数阈值。

在本申请实施例中，由于各种场景下最终计算的唤醒词打分不一样，因此需要根据场景类别选定不同的分数阈值。例如，在安静的场景下，预设机器学习模型对唤醒词的打分非常高，为了避免误唤醒，因此需要将分数阈值设置的比较高；而在开车过程中，预设机器学习模型对唤醒词的打分比较低，因此可以设置较低的分数阈值，以保证合格的唤醒率。

步骤104，根据所述音素类别和所述音素类别对应的分类的概率确定所述语音信号的得分。

在其中一些实施例中，语音信号的得分可以根据key-filler方案，通过维特比算法计算得到。key-filler方案构建了KEY-HMM和FILLER-HMM，HMM是指隐马尔可夫模型，HMM的状态转移由训练数据集确定，即所有音素的状态转移矩阵，HMM的发射概率由神经网络获得，因此，通过维特比算法可以计算出两个HMM序列的似然估计，此概率即是两个序列的得分。

在其中一些实施例中，所述音素类别包括唤醒词序列和非唤醒词序列，作为步骤104的一种具体实现方式，如图3所示，所述方法包括：

步骤301，将所述音素类别输入声学模型，确定所述音素类别对应的发音单元，每个发音单元对应一个HMM状态。

在本申请实施例中，语音信号的得分是根据key-filler方案，通过维特比算法计算得到的。其中，key-filler方案包括声学模型和HMM解码网络两部分，其中，声学模型可以使用DNN、CNN或者LSTM等网络结构，输出单元包括所有可能的发音单元，所述发音单元可以选择音节或者音素，在本申请实施例中，发音单元为音素，且每一个发音单元对应一个HMM状态，多个HMM状态组成一个识别路径。

步骤302，根据维特比算法使用所述音素类别对应的分类的概率在HMM解码网络中查找最大似然状态路径，确定唤醒词序列得分和非唤醒词序列得分。

在本申请实施例中，最大似然状态路径为最优解码路径。HMM解码网络由KEY-HMM和FILLER-HMM组成，其中，KEY-HMM是由组成唤醒词的所有发音单元对应的HMM状态串联组成，FILLER-HMM是由一组非唤醒词发音单元对应的HMM状态组成。由于多个HMM状态组成一个识别路径，因此使用机器学习模型所产生的音素类别对应的分类的概率，即发射概率对所有HMM状态组成的路径进行解码。具体地，将音素类别按照固定窗大小送入HMM解码网络，根据维特比算法使用音素类别对应的分类的概率在HMM解码网络中查找最大似然状态路径，从而确定唤醒词序列得分和非唤醒词序列得分。需要说明的是，在HMM解码网络中进行解码，由于每一条解码路径仅表示特定的唤醒词，因此，当该HMM解码网路中包含该语言信号中的唤醒词时，HMM解码网络中对应该唤醒词的解码路径的得分会较高，反之亦然。可以理解的是，在其他实施例中，还可以采用其他现有方式计算唤醒词序列得分和非唤醒词序列得分。

步骤303，将所述唤醒词序列得分和所述非唤醒词序列得分的似然比大小作为所述语音信号的得分。

在本申请实施例中，通过计算唤醒词序列得分和非唤醒词序列得分的似然比大小作为语音信号的得分，其中，似然比是反应真实性的一种指标。具体地，通过将唤醒词序列得分除以非唤醒词序列得分，从而得到语音信号的最终得分。

步骤105，在所述得分大于所述分数阈值的情况下，执行与所述语音信号对应的唤醒操作。

具体地，如果语音信号的得分大于分数阈值，则表示语音信号中存在唤醒词，进而执行与语音信号对应的唤醒操作。其中，分数阈值可根据实际场景设置，例如，安静的场景下，分数阈值可以设置的较高，从而能够避免误唤醒率，在喧闹的场景下，分数阈值可以设置的较低，从而能够保证合格的唤醒率。

如图4所示，本申请实施例还提供了一种模型训练方法，所述方法由电子设备执行，所述方法包括：

步骤401，获取带有音素标签的语音样本和带有场景标签的噪音样本。

在本申请实施例中，带有音素标签的语音样本为干净语音样本，带有场景标签的噪音样本为纯噪声样本。具体地，可以从数据库的训练数据集中随机获取带有音素标签的语音样本和带有场景标签的噪音样本。

步骤402，将所述语音样本和所述噪音样本进行混合，以形成带噪语音样本。

在本申请实施例中，由于是利用一个模型同时实现场景识别和唤醒词识别，因此需要将语音样本和噪音样本进行混合，形成带噪语音样本。需要说明的是，由于语音样本和噪音样本是带有标签的，因此，将两者进行混合后，形成的带噪语音样本也是带有标签的，即所述音素标签和所述场景标签。

步骤403，将所述带噪语音样本输入第一机器学习模型，确定所述带噪语音样本对应的预测音素标签和预测场景标签。

第一机器学习模型可以为神经网络模型，将语音样本和噪音样本进行混合，得到带噪语音样本后，利用带噪语音样本训练模型，目标是提高模型训练的准确度，进而提高场景识别和唤醒词识别的准确度。带噪语音样本越多，涵盖的情形就越多，从而模型的识别能力也就越高。具体地，将带噪语音样本输入第一机器学习模型，从而确定待噪语音样本对应的预测音素标签和预测场景标签。

步骤404，根据损失函数，对所述第一机器学习模型进行训练，直至满足收敛条件，所述损失函数包括第一损失函数和第二损失函数，所述第一损失函数指示所述预测音素标签和所述音素标签的相似度，所述第二损失函数指示所述预测场景标签和所述场景标签的相似度。

具体地，电子设备根据损失函数的函数值，并对损失函数的函数值进行梯度求导，以对第一机器学习模型的权重参数进行反向更新，以完成对第一机器学习模型的一次训练。电子设备对第一机器学习模型进行迭代训练，直到满足收敛条件，得到成熟的第一机器学习模型。收敛条件可以为训练次数达到了预设次数，或者损失函数的波动值小于或者等于预设阈值。损失函数是用于衡量模型预测的好坏，损失函数越小，模型越好。

其中，损失函数包括第一损失函数和第二损失函数，所述第一损失函数指示预测音素标签和音素标签的相似度，所述第二损失函数指示预测场景标签和场景标签的相似度。示例性的，基于第一机器学习模型的唤醒词识别任务中，分类目标函数仅有一个，即对当前帧的音素类别进行分类，第一损失函数例如可以为Lp(t,f)，由于本申请考虑了语音信号中的场景信息，第二损失函数可以为Lc(t,f)，因此损失函数为L(t，f)＝α*Lp(t，f)+(1-α)*Lc(t，f)，其中，t为时间，f为频点，α为常数且α∈(0,1)。损失函数采用交叉熵损失，在训练过程中可以根据实际数据分布情况对α进行选择，为了保证二者平衡，一般α取值0.5。

在本申请实施例中，通过获取带有音素标签的语音样本和带有场景标签的噪音样本，将语音样本和噪音样本进行混合，形成带噪语音样本，然后将带噪语音样本输入第一机器学习模型，确定带噪语音样本对应的预测音素标签和预测场景标签，接着根据损失函数，对第一机器学习模型进行训练，直到满足收敛条件，获得成熟的第一机器学习模型，后续即可利用所述第一机器学习模型进行场景识别和唤醒词识别。

在其他一些实施例中，所述第一机器学习模型包括场景分类模块和音素分类模块，所述场景分类模块用于确定场景类别，所述音素分类模块用于确定音素类别。

在本申请实施例中，场景分类模块位于第一机器学习模型的前部，因此学习到的特征为全局的特征，这和噪声信号基本遍布整个频带是吻合的。而音素分类模块位于第一机器学习模型的后部，具有较深的网络结构，可以学习到较为局部的特征，这和语音信号的也行也是吻合的。

在一些实施例中，所述场景分类模块和所述音素分类模块由至少两层神经网络结构和函数构成，所述场景分类模块的输出数据通过残差网络的形式输入至所述音素分类模块。

在本申请实施例中，至少两层神经网络结构例如可以使用DNN深度神经网络、RNN循环神经网络、CNN卷积神经网络或者LSTM长短期记忆网络等网络结构。函数例如可以使用tanh激活函数、ReLU激活函数或者sigmod核函数等。请参阅图2，场景分类模块由DNN tanh、RNN ReLU以及DNN sigmod构成，音素分类模块由RNN ReLU、RNN ReLU以及DNN sigmod构成。由于需要考虑场景噪声对语音信息产生的影响，因此在第一机器学习模型中，将场景分类模块的输出数据通过残差网络的形式输入至音素分类模块中，这使得音素分类模块考虑的信息更加全面。可以理解的是，在实际使用过程中，用户一般会长时间处于某一特定场景中，噪声信号可以认为是稳定存在的，不会出现各种场景频繁的切换，因此为了使得第一机器学习模型输出更加稳定，可以对场景分类模块的场景类别输出进行平滑处理。

应该理解的是，虽然图1、图3-图4流程图中各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行，这些步骤可以以其它的顺序执行。而且，图1、图3-图4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本申请实施例提供的唤醒方法，执行主体可以为唤醒装置，或者该唤醒装置中的用于执行唤醒方法的控制模块。本申请实施例中以唤醒装置执行唤醒方法为例，说明本申请实施例提供的唤醒装置。

请参照图5，图5是本申请实施例提供的唤醒装置的结构示意图。

如图5所示，唤醒装置500包括：

采集模块501，用于采集语音信号；

输入模块502，用于将所述语音信号输入预设机器学习模型，确定与所述语音信号对应的场景类别和音素类别，以及所述音素类别对应的分类的概率；

第一确定模块503，用于根据所述场景类别确定与所述场景类别对应的分数阈值；

第二确定模块504，用于根据所述音素类别和所述音素类别对应的分类的概率确定所述语音信号的得分；

执行模块505，用于在所述得分大于所述分数阈值的情况下，执行与所述语音信号对应的唤醒操作。

可选地，在装置的其他实施例中，第二确定模块504具体用于：

将所述音素类别输入声学模型，确定所述音素类别对应的发音单元，每个发音单元对应一个HMM状态；

根据维特比算法使用所述音素类别对应的分类的概率在HMM解码网络中查找最大似然状态路径，确定唤醒词序列得分和非唤醒词序列得分；

将所述唤醒词序列得分和所述非唤醒词序列得分的似然比大小作为所述语音信号的得分。

可选地，在装置的其他实施例中，所述预设机器学习模型包括场景分类模块和音素分类模块，所述场景分类模块用于确定场景类别，所述音素分类模块用于确定音素类别。

可选地，在装置的其他实施例中，所述场景分类模块和所述音素分类模块由至少两层神经网络结构和函数构成，所述场景分类模块的输出输出通过残差网络的形式输入至所述音素分类模块。

可选地，在装置的其他实施例中，所述音素类别包括唤醒词序列和非唤醒词序列。

本申请实施例提供的唤醒装置，通过采集模块采集语音信号，然后利用输入模块将语音信号输入预设机器学习模型，确定与所述语音信号对应的场景类别和音素类别，以及所述音素类别对应的分类的概率，接着通过第一确定模块根据所述场景类别确定与所述场景类别对应的分数阈值，同时利用第二确定模块根据所述音素类别和所述音素类别对应的分类的概率确定所述语音信号的得分，在所述得分大于所述分数阈值的情况下，通过执行模块执行与所述语音信号对应的唤醒操作，如此，通过单一预设机器学习模型对语音信号进行识别，能够同时实现场景识别和唤醒词识别，并且基于预设机器学习模型的输出，将得分与分数阈值进行比对，从而保证不同场景下合适的唤醒率和误唤醒率。

需要说明的是，本申请实施例提供的模型训练方法，执行主体可以为模型训练装置，或者该模型训练装置中的用于执行模型训练方法的控制模块。本申请实施例中以模型训练装置执行模型训练方法为例，说明本申请实施例提供的模型训练装置。

请参阅图6，图6是本申请实施例通过的模型训练装置的结构示意图。

如图6所示，模型训练装置600包括：

获取模块601，用于获取带有音素标签的语音样本和带有场景标签的噪音样本；

混合模块602，用于将所述语音样本和所述噪音样本进行混合，以形成带噪语音样本；

输入模块603，用于将所述带噪语音样本输入第一机器学习模型，确定所述带噪语音样本对应的预测音素标签和预测场景标签；

训练模块604，用于根据损失函数，对所述第一机器学习模型进行训练，直至满足收敛条件，所述损失函数包括第一损失函数和第二损失函数，所述第一损失函数指示所述预测音素标签和所述音素标签的相似度，所述第二损失函数指示所述预测场景标签和所述场景标签的相似度。

可选地，在装置的其他实施例中，所述第一机器学习模型包括场景分类模块和音素分类模块，所述场景分类模块用于确定场景类别，所述音素分类模块用于确定音素类别。

可选地，在装置的其他实施例中，所述场景分类模块和所述音素分类模块由至少两层神经网络结构和函数构成，所述场景分类模块的输出数据通过残差网络的形式输入至所述音素分类模块。

在本申请实施例提供的模型训练装置，通过获取模块获取带有音素标签的语音样本和带有场景标签的噪音样本，然后通过混合模块将所述语音样本和所述噪音样本进行混合，以形成带噪语音样本，接着通过输入模块将所述带噪语音样本输入第一机器学习模型，确定所述带噪语音样本对应的预测音素标签和预测场景标签，最后通过训练模块根据损失函数，对所述第一机器学习模型进行训练，直至满足收敛条件，从而得到成熟的第一机器学习模型，后续即可利用所述第一机器学习模型进行场景识别和唤醒词识别。

本申请实施例中的唤醒装置和模型训练装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digitalassistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的唤醒装置和模型训练装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的唤醒装置和模型训练装置能够实现图1、图3-图4的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图7所示，本申请实施例还提供了一种电子设备700，包括处理器701，存储器702，存储在存储器702上并可在所述处理器701上运行的程序或指令，该程序或指令被处理器701执行时实现上述唤醒方法实施例的各个过程，或者，模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图8为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备800包括但不限于：射频单元801、网络模块802、音频输出单元803、输入单元804、传感器805、显示单元806、用户输入单元807、接口单元808、存储器809、以及处理器810等部件。

本领域技术人员可以理解，电子设备800还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器810逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，输入单元804，用于采集语音信号；

处理器810，用于将所述语音信号输入预设机器学习模型，确定与所述语音信号对应的场景类别和音素类别，以及所述音素类别对应的分类的概率；

以及，根据所述场景类别确定与所述场景类别对应的分数阈值；

以及，根据所述音素类别和所述音素类别对应的分类的概率确定所述语音信号的得分；

以及，在所述得分大于所述分数阈值的情况下，执行与所述语音信号对应的唤醒操作。

可选地，所述音素类别包括唤醒词序列和非唤醒词序列，

处理器810，具体用于：

可选地，所述预设机器学习模型包括场景分类模块和音素分类模块，所述场景分类模块用于确定场景类别，所述音素分类模块用于确定音素类别。

可选地，所述场景分类模块和所述音素分类模块由至少两层神经网络结构和函数构成，所述场景分类模块的输出数据通过残差网络的形式输入至所述音素分类模块。

本申请实施例提供的电子设备，可以采集语音信号，然后将所述语音信号输入预设机器学习模型，确定与所述语音信号对应的场景类别和音素类别，以及所述音素类别对应的分类的概率，接着根据所述场景类别确定与所述场景类别对应的分数阈值，同时根据所述音素类别和所述音素类别对应的分类的概率确定所述语音信号的得分，在所述得分大于所述分数阈值的情况下，执行与所述语音信号对应的唤醒操作，如此，通过单一预设机器学习模型对语音信号进行识别，能够同时实现场景识别和唤醒词识别，并且基于预设机器学习模型的输出，将得分与阈值进行比对，从而保证不同场景下合适的唤醒率和误唤醒率。

另外，处理器810，还用于：

可选地，所述第一机器学习模型包括场景分类模块和音素分类模块，所述场景分类模块用于确定场景类别，所述音素分类模块用于确定音素类别。

本申请实施例提供的电子设备，通过获取带有音素标签的语音样本和带有场景标签的噪音样本，将语音样本和噪音样本进行混合，形成带噪语音样本，然后将带噪语音样本输入第一机器学习模型，确定带噪语音样本对应的预测音素标签和预测场景标签，接着根据损失函数，对第一机器学习模型进行训练，直到满足收敛条件，获得成熟的第一机器学习模型，后续即可利用所述第一机器学习模型进行场景识别和唤醒词识别。

应理解的是，本申请实施例中，输入单元804可以包括图形处理器(GraphicsProcessing Unit，GPU)8041和麦克风8042，图形处理器8041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元806可包括显示面板8061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板8061。用户输入单元807包括触控面板8071以及其他输入设备8072。触控面板8071，也称为触摸屏。触控面板8071可包括触摸检测装置和触摸控制器两个部分。其他输入设备8072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器809可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器810可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器810中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述唤醒方法实施例的各个过程，或者，该程序或指令被处理器执行时实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述唤醒方法实施例的各个过程，或者模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种唤醒方法，其特征在于，所述方法包括：

采集语音信号；

根据所述场景类别确定与所述场景类别对应的分数阈值；

在所述得分大于所述分数阈值的情况下，执行与所述语音信号对应的唤醒操作；

所述预设机器学习模型采用训练的第一机器学习模型，所述第一机器学习模型通过以下方式训练得到：

根据损失函数，对所述第一机器学习模型进行训练，直至满足收敛条件，所述损失函数包括第一损失函数和第二损失函数，所述第一损失函数指示预测音素标签和音素标签的相似度，所述第二损失函数指示预测场景标签和场景标签的相似度；其中，所述预测音素标签和所述预测场景标签通过将带噪语音样本输入第一机器学习模型确定，所述带噪语音样本为将带有音素标签的语音样本和带有场景标签的噪音样本进行混合得到的样本。

2.根据权利要求1所述的方法，其特征在于，所述预设机器学习模型包括场景分类模块和音素分类模块，所述场景分类模块用于确定场景类别，所述音素分类模块用于确定音素类别。

3.根据权利要求2所述的方法，其特征在于，所述场景分类模块和所述音素分类模块由至少两层神经网络结构和函数构成，所述场景分类模块的输出数据通过残差网络的形式输入至所述音素分类模块。

4.根据权利要求3所述的方法，其特征在于，所述音素类别包括唤醒词序列和非唤醒词序列，

所述根据所述音素类别和所述音素类别对应的分类的概率确定所述语音信号的得分，包括：

5.一种模型训练方法，其特征在于，所述方法包括：

获取带有音素标签的语音样本和带有场景标签的噪音样本；

将所述带噪语音样本输入第一机器学习模型，确定所述带噪语音样本对应的预测音素标签和预测场景标签；

6.一种唤醒装置，其特征在于，所述装置包括：

采集模块，用于采集语音信号；

7.根据权利要求6所述的装置，其特征在于，所述预设机器学习模型包括场景分类模块和音素分类模块，所述场景分类模块用于确定场景类别，所述音素分类模块用于确定音素类别。

8.根据权利要求7所述的装置，其特征在于，所述场景分类模块和所述音素分类模块由至少两层神经网络结构和函数构成，所述场景分类模块的输出数据通过残差网络的形式输入至所述音素分类模块。

9.根据权利要求8所述的装置，其特征在于，所述音素类别包括唤醒词序列和非唤醒词序列，

所述第二确定模块具体用于：

10.一种模型训练装置，其特征在于，所述装置包括：