CN112820273A

CN112820273A - 唤醒判别方法和装置、存储介质及电子设备

Info

Publication number: CN112820273A
Application number: CN202011639491.6A
Authority: CN
Inventors: 赵培
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-18
Anticipated expiration: 2040-12-31
Also published as: CN112820273B

Abstract

本发明公开了一种唤醒判别方法和装置、存储介质及电子设备。其中，该方法包括：在目标设备的唤醒模型从音频信号中识别出唤醒词的情况下，控制目标设备由等待状态调整为判决状态；根据音频信号的音频特征，确定音频信号的场景标签，调用与场景标签匹配的目标判决模型；根据目标设备在判决状态接收的交互信号的交互特征，目标判决模型对音频信号进行判定；在音频信号通过目标判决模型的判定的情况下，控制目标设备由判决状态调整为唤醒状态。本发明解决了环境因素导致的唤醒正确率低的技术问题。

Description

唤醒判别方法和装置、存储介质及电子设备

技术领域

本发明涉及智能设备领域，具体而言，涉及一种唤醒判别方法和装置、存储介质及电子设备。

背景技术

当前智能设备在生活中的使用越来越普及，具备唤醒功能的智能设备通常需要在接收到语音唤醒时，才会从等待状态进入到就绪状态，从而能够基于语音交互接收到的指令执行相应的工作。

语音唤醒的接收通道通常会将接收到的音频信号输入唤醒模型中，由唤醒模型对信号进行唤醒判断，从而确定是否控制智能设备进入就绪状态。由于语音唤醒的接收通道采集的音频信号中会携带环境背景的噪声，从而导致语音唤醒模块在对音频信号进行识别时，受到环境噪声的影响，出现误唤醒或者唤醒不成功，从而使得唤醒正确率低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种唤醒判别方法和装置、存储介质及电子设备，以至少解决环境因素导致的唤醒正确率低的技术问题。

根据本发明实施例的一个方面，提供了一种唤醒判别方法，包括：在目标设备的唤醒模型从音频信号中识别出唤醒词的情况下，控制上述目标设备由等待状态调整为判决状态；根据上述音频信号的音频特征，确定上述音频信号的场景标签，调用与上述场景标签匹配的目标判决模型；根据上述目标设备在上述判决状态接收的交互信号的交互特征，上述目标判决模型对上述音频信号进行判定；在上述音频信号通过上述目标判决模型的判定的情况下，控制上述目标设备由上述判决状态调整为唤醒状态。

根据本发明实施例的另一方面，还提供了一种唤醒判别装置，包括：第一调整模块，用于在目标设备的唤醒模型从音频信号中识别出唤醒词的情况下，控制上述目标设备由等待状态调整为判决状态；调用模块，用于根据上述音频信号的音频特征，确定上述音频信号的场景标签，调用与上述场景标签匹配的目标判决模型；判定模块，用于根据上述目标设备在上述判决状态接收的交互信号的交互特征，上述目标判决模型对上述音频信号进行判定；第二调整模块，用于在上述音频信号通过上述目标判决模型的判定的情况下，控制上述目标设备由上述判决状态调整为唤醒状态。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述唤醒判别方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的唤醒判别方法。

在本发明实施例中，采用目标设备在唤醒模型从音频信号中识别出唤醒词的情况下，根据音频信号的音频特征确定场景标签，从而调用与场景标签对应的目标判决模型，在交互信号包含操作信息的情况下，确定音频信号通过目标判决模型的判定，在音频信号判定通过的情况下才唤醒目标设备的方式，通过与音频信号场景匹配的目标判决模型，根据交互信号的有效性对音频信号进行再次判决，从而根据不同场景调用不同的目标判断模型，根据场景针对性地对音频信号进行二次判断，达到了在不同场景下，确定交互无效时，判定音频信号为误唤醒信号，从而减少对目标设备的误唤醒目的，从而实现了提高对目标设备的唤醒正确率的技术效果，进而解决了环境因素导致的唤醒正确率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的唤醒判别方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的唤醒判别方法的流程示意图；

图3是根据本发明实施例的又一种可选的唤醒判别方法的流程示意图；

图4是根据本发明实施例的又一种可选的唤醒判别方法的流程示意图；

图5是根据本发明实施例的又一种可选的唤醒判别方法的流程示意图；

图6是根据本发明实施例的一种可选的唤醒判别装置的结构示意图；

图7是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种唤醒判别方法，可选地，作为一种可选的实施方式，上述唤醒判别方法可以但不限于应用于如图1所示的环境中。终端设备102通过网络110与服务器112进行数据交互。

终端设备102通过收集待处理的音频信号，终端设备102中的唤醒模型对收集到的音频信号进行唤醒词识别，在识别出唤醒词的情况下，将目标设备由等待状态调整为判决状态。根据包含唤醒词的音频信号的音频特征确定音频信号对应的场景标签，并调用存储在终端设备102中与场景标签对应的目标判决模型。在目标设备在判决状态接收的交互信号中识别出操作信息的情况下，确定音频信号通过目标判决模型的判定。在音频信号通过目标判决模型的判定的情况下，控制目标设备由判决状态调整为唤醒状态。

终端设备102在确定目标判决模型对音频信号的判定结果之后，将音频信号和判定结果通过网络110传输给服务器112，并保存在服务器112中的数据库114中。数据库114中存储的数据可以应用于对唤醒模型和场景对应的判决模型的更新。

可选地，在本实施例中，上述终端设备102可以是具备通过音频信号调整设备运行状态的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能家居设备：智能电视、智能洗衣机、智能空调、智能开关等。上述网络110可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器112可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

作为一种可选的实施方式，如图2所示，上述唤醒判别方法包括：

S202，在目标设备的唤醒模型从音频信号中识别出唤醒词的情况下，控制目标设备由等待状态调整为判决状态；

S204，根据音频信号的音频特征，确定音频信号的场景标签，调用与场景标签匹配的目标判决模型；

S206，根据目标设备在判决状态接收的交互信号的交互特征，目标判决模型对音频信号进行判定；

S208，在音频信号通过目标判决模型的判定的情况下，控制目标设备由判决状态调整为唤醒状态。

可选地，在目标设备的唤醒模型对音频信号进行唤醒词识别之前，还包括：通过目标设备收集待处理的音频信号。

可选地，目标设备可以是具备通过音频信号调整设备运行状态的设备，可以但不限于是便于携带的智能移动设备，例如手机、平板电脑等，不便于携带的智能家居设备，例如智能音箱、智能开关等。

可选地，音频信号可以是通过目标设备的语音采集模块或语音采集通道获取的音频形式的信号，可以是实时获取或定时获取。

可选地，唤醒词可以是预先设定用于将目标设备从待机的等待状态调整为运行状态的语音词汇。唤醒词的长度和重复值要求同样是预设设定的，在此不做任何限定。

可选地，唤醒模型可以但是不限于是将音频信号解析为文字从而进行唤醒词识别的模型，利用音频信号的语音解析进行唤醒词语音识别的模型。唤醒模型可以但不限于是存在的目标设备本地存储空间中，是存储在与目标设备对应的服务器中、进行实时唤醒识别，是在目标设备本地存储空间存储离线数据包、通过网络连接服务器进行离线数据包更新。

可选地，音频信号的音频特征可以是用于指示音频信号音频内容的特征，除音频内容以外属性的特征。音频内容的特征可以但不限于是信号强度特征，信号噪音特征，信号延续特征。除音频内容以外属性的特征可以但不限于是信号时间特征，信号地点特征。

可选地，场景标签可以是预先设定的场景对应的目标判决模型的标识，场景与场景标签、目标判决模型一一对应。场景可以是用于指示目标设备当前所处环境，包括当前时间信息和当前空间信息。

可选地，判决状态可以但不限于是目标设备能够在目标时间段内进行音频交互的类唤醒状态，目标时间段可以但不限于目标设备从结束等待状态时刻开始的一个时间段。

可选地，处于判决状态的目标设备与处于唤醒状态的目标设备的交互能力以及音频处理能力保持一致。

可选地，目标判决模型可以是场景判决模型中具体场景对应的子模型，也可以是与具体场景对应的独立模型。

在本发明实施例中，采用目标设备的唤醒模型对收集的音频信号进行唤醒词识别，在唤醒模型从音频信号中识别出唤醒词的情况下，根据音频信号的音频特征确定场景标签，从而调用与场景标签对应的目标判决模型，在交互信号包含操作信息的情况下，确定音频信号通过目标判决模型的判定，在音频信号判定通过的情况下才唤醒目标设备的方式，通过与音频信号场景匹配的目标判决模型，根据交互信号的有效性对音频信号进行再次判决，从而根据不同场景调用不同的目标判断模型，根据场景针对性地对音频信号进行二次判断，达到了在不同场景下，确定交互无效时，判定音频信号为误唤醒信号，从而减少对目标设备的误唤醒目的，从而实现了提高对目标设备的唤醒正确率的技术效果，进而解决了环境因素导致的唤醒正确率低的技术问题。

可选地，在目标设备的唤醒模型未从音频信号中识别出唤醒词的情况下，目标设备保持等待状态。

可选地，在目标设备处于判决状态的情况下，通过对音频信号的音频特征进行判断，从而根据音频特征确定音频信号的场景标签。在目标设备处于等待状态和唤醒状态下，对于音频信号的音频特征不做判断。

作为一种可选的实施方式，根据音频信号的音频特征，确定音频信号的场景标签包括：

提取音频信号的音频特征；

根据音频信号的音频特征确定音频信号的场景标签。

可选地，提取音频信号的音频特征可以但不限于包括提取用于指示音频信号所包含的音频内容的特征，提取用于指示音频信号除包含的音频内容以外的属性特征。音频内容的特征提取与属性特征的提取可以同步进行。

可选地，提取音频信号的音频特征可以但不限于提取音频信号的时间特征、地点特征、音频信号中的环境噪声特征。信号时间特征可以但不限于是原始产生时间，根据原始产生时间确定的所属时间段，根据原始产生时间确定的所属时间场景。原始产生时间可以但不限于以时间记录的形式显示和记录。根据原始产生时间确定的所属时间段可以但不限于是早晨、上午、中午、下午、傍晚、晚上、深夜。根据原始产生时间确定的所属时间场景可以但不限于是白天、夜晚、深夜。

可选地，信号地点特征可以但不限于是原始产生地点，根据原始产生地点确定的所属地点类别，根据原始产生地点确定的所属地点场景。原始产生地点可以但不限于以位置形式显示和记录，例如坐标。根据原始产生地点确定的所属地点类别可以但不限于是室内、户外、公共区域、家庭、商场。根据原始产生地点确定的所属地点场景可以但不限于是公共场所、家庭。

可选地，环境噪声特征可以但不限于是原始环境噪音信号，原始环境噪声信号确定的噪音类别，原始环境噪音确定的噪音场景。原始环境噪声信号确定的噪音类别可以但不限于是根据噪音特征划分为预设的类别，例如：安静、正常、喧嚣。原始环境噪音确定的噪音场景可以但不限于是根据噪音特征所属类别确定的噪音子标签，例如：低噪音、一般、高噪音。

可选地，在音频特征大于一个的情况下，根据音频信号的音频特征确定音频信号的场景标签可以是按照音频特征设定顺序依次确定场景标签中的子标签，从而确定场景标签。

可选地，音频特征设定顺序可以但不限于属性特征排序相比于音频内容特征排序靠前。属性特征中时间特征和地点特征的排序不做限定。在音频特征包括时间特征、地点特征、噪音特征的情况下，噪音特征位于设定顺序的末位，时间特征和地点特征按照设定的场景标签表述顺序确定。

可选地，在设定的音频特征中同时包括属性特征和音频内容特征的情况下，优先按照属性特征确定场景标签。在属性特征可以确定场景标签的情况下，音频内容特征可以用于确认场景标签。以音频特征包括时间特征、地点特征、噪音特征为例，时间特征和地点特征确定的场景标签的优先级高于噪音特征。因此在根据时间特征和地点特征已经确定了场景标签的情况下，根据噪音特征确认音频信号是否符合场景标签。

可选地，以音频特征包括时间特征、地点特征、噪音特征，音频特征的设定顺序依次为时间特征、地点特征、噪音特征为例，根据音频特征确定场景标签的流程可以但不限如图3所示。执行S302，提取音频信号的时间特征、地点特征、噪音特征。在提取到时间特征原始产生时间的情况下，执行S304，确定原始产生时间所属时间段确定的时间子标签：白天。在确定了时间子标签的情况下，执行S306，确定原始产生地点所属地点场景的地点子标签：商场。在确定了地点子标签的情况下，执行S308，确定噪音特征所对应的噪音子标签：高噪音。在确定了噪音子标签的情况下，执行S310，根据时间子标签和地点子标签确定音频信号的场景标签是：白天商场。在确定了场景标签的情况下，执行S312，根据噪音子标签：高噪音确认音频信号符合场景标签。

在本申请实施例中，通过从音频信号中提取音频特征，根据音频特征中包含的各个特征依次确定音频信号的场景标签，从而根据音频信号确定音频信号对应的场景，在对应的场景下对音频信号进行再次判别，并且在场景标签确定的流程中，通过音频信号的属性特征进行标签确定，根据音频内容特征进行标签的确认，从而保证了场景标签确定的准确性，从而减少了因场景差异带来的唤醒误判断，提高唤醒判断的准确率。

可选地，利用在场景中收集的多个样本音频信号对初始化判决模型进行训练，以得到目标判决模型包括：

针对不同场景分别执行以下操作，直至得到与各个场景分别匹配的判决模型：

收集在当前场景中产生的多个样本音频信号；

根据样本音频信号对应的交互特征，将样本音频信号划分为正样本音频信号和负样本音频信号；

将正样本音频信号和负样本信号输入初始化判决模型进行训练，以得到当前场景匹配的判决模型。

可选地，初始化判决模型可以是未经过正样本音频信号和负样本音频信号进行训练的声音分类建模模型。在此对具体使用的建模模型并不做任何限定，可以采用可以实现声音分类的任何模型。例如：高斯混合模型(Gaussian Mixture Model，简称GMM)。

可选地，当前场景可以是上述场景标签对应的场景，收集与场景标签对应的样本音频信号。

可选地，根据样本音频信号对应的交互特征，将样本音频信号划分为正样本音频信号和负样本音频信号包括：

在样本音频信号对应的交互特征指示与用户对象完成交互操作的情况下，确定样本音频信号为正样本音频信号；

在样本音频信号对应的交互特征指示并未与用户对象完成交互操作的情况下，确定样本音频信号为负样本音频信号。

可选地，样本音频信号根据交互特征确定所归属的信号集。样本音频信号对应的信号集可以但不限于是正样本音频信号集和负样本音频信号集。在根据交互特征确定该样本音频信号为正样本音频信号的情况下，将该样本音频信号划分至正样本音频信号集中。在根据交互特征确定该样本音频信号为负样本音频信号的情况下，将该样本音频信号划分至负样本音频信号集中。正样本音频信号集中包括该场景下全部正样本音频信号。负样本音频信号集中包括该场景下全部负样本音频信号。

可选地，如图4所示，在收集在当前场景中产生的多个样本音频信号之后，还包括：

S402，根据样本音频信号确定对应的样本交互信号；

S404，获取样本交互信号中包含的交互信息，其中，交互信息用于指示目标设备执行相应的交互操作；

S406，根据交互操作的执行有效性确定交互特征。

可选地，样本交互信号可以是在目标设备在根据样本音频信号触发后接收的、用于用户对象与目标设备交互的音频信号。样本交互信号中包含用户对象用于指示有目标设备进行交互操作的交互信息。

可选地，交互操作的执行有效性可以但不限于是根据交互信息是否指示有效的交互操作，交互信息指示的有效的交互操作是否被执行。交互信息指示有效的交互操作可以是目标设备可以从交互信号中解析出的交互信息，指示的操作是否是可以被执行的交互操作。例如，根据交互信号解析出的交互信息是：播放一首儿歌，指示的交互操作是播放儿歌，是目标设备可以执行的操作，则交互信息指示有效的交互操作。如果根据交互信号解析出的交互信息是：去那边看一看，指示的交互操作是移动位置，这是目标设备不可以执行的操作，则交互信息指示无效的交互操作。

可选地，交互特征可以是交互信息指示的交互操作的有效性。在交互信息中指示的有效的交互操作的情况下，交互特征为有效。在交互信息中指示的无效的交互操作的情况下，交互特征为无效。

可选地，交互特征为有效即指示与用户对象完成交互操作的样本音频信号划分为正样本音频信号，交互特征为无效即指示未与用户对象完成交互操作的样本音频信号划分为负样本音频信号。

可选地，根据样本音频信号划分正样本音频信号和负样本音频信号的流程如图5所示。在获取到样本音频信号的情况下，执行S502，获取与样本音频信号对应的样本交互信号。在获取到样本交互信号的情况下，执行S504，确定样本交互信号中包含的交互信息所指示的交互操作。在获取到交互信息所指示的交互操作的情况下，执行S506，判断交互操作是否为有效的交互操作。在判断交互操作是有效的交互操作，即交互操作能够被目标设备执行的情况下，执行S508，确定交互特征为有效，样本音频信号为正样本音频信号。在判断交互操作是无效的交互操作，即交互操作不是能够被目标设备执行的情况下，执行S510，确定交互特征为无效，样本音频信号为负样本音频信号。

在本申请实施例中，将样本音频信号划分为正样本音频信号和负样本音频信号后，对初始判决模型进行训练，以实现根据样本音频信号对应的样本交互信号中交互操作的有效性确定交互特征，从而分别利用正样本音频信号和负样本音频信号对模型进行训练，使得训练得到的目标判断模型能够根据场景下的交互特征对音频信号进行再次判断，对于音频信号是否能够唤醒目标设备进行再次判断，提高了通过目标判决模型对于音频信号是否能在该场景下进行唤醒进行再次判断，从而提高唤醒准确率。

作为一种可选的实施方式，目标设备在判决状态接收的交互信号的交互特征包括：

获取交互信号中包含的交互信息，其中，交互信息用于指示目标设备执行相应的交互操作；

根据交互操作的执行有效性确定交互特征。

可选地，交互信息可以但不限于是目标设备从交互信号中解析出的信息中包含的用于指示目标设备进行操作的信息。交互信号的解析可以但不限于是目标设备基于语音解析功能对于音频解析出的文字信息。

可选地，交互操作可以但不限于是交互信息中包含的指示目标设备进行的具体操作。

可选地，交互特征可以但不限于指示交互操作的可执行有效性。在交互信息中指示的交互操作是目标设备可以执行的操作的情况下，交互特征为有效。在交互信息中指示的交互操作是目标设备不可以执行的操作的情况下，交互特征为无效。

可选地，可执行有效性可以但不限于是目标设备具备操作能力、能够执行的有效性，并不一定是目标设备执行完毕的操作。例如，以目标设备是智能电视为例，播放电视剧是智能电视能够执行的操作，则交互特征为有效，并不一定需要智能电视完成电视剧的播放才被定义为交互特征有效。

作为一种可选地实施方式，目标判决模型对所述音频信号进行判定包括：

在交互特征为有效的情况下，确定音频信号通过目标判决模型的判定；

在交互特征为无效的情况下，确定音频信号未通过目标判决模型的判定。

可选地，目标判决模型根据音频信号对应的交互信号的交互特征对音频信号进行判定。

可选地，交互信号可以但不限于是目标设备在判决状态一段时间内收集到的信号。交互特征有效可以但不限于是在一段时间内收集到的交互信号的交互信息中存在可以被执行的交互操作。

作为一种可选地实施方式，上述方法还包括：

在音频信号未通过目标判决模型的判定的情况下，控制目标设备由判决状态调整为等待状态；

利用音频信号更新负音频信号集，其中，负音频信号集包括未通过目标判决模型的音频信号，负音频信号集包括样本音频信号中的负样本音频信号。

作为一种可选地实施方式，上述方法还包括：

在音频信号通过目标判决模型的判定的情况下，利用音频信号更新正音频信号集，其中，正音频信号集中包括通过目标判决模型的音频信号，正音频信号集中包括样本音频信号中的正样本音频信号。

可选地，目标判决模型可以但不限于包括正音频信号集和负音频信号集。正音频信号集包括识别出唤醒词且通过目标判决模型判定的音频信号。负音频信号集包括识别出唤醒词且未通过判决模型判定的音频信号。

可选地，正音频信号集包括正样本音频信号构成的正样本音频信号集。负音频信号集包括负样本音频信号构成的负样本音频信号集。

可选地，将识别出唤醒词的音频信号根据目标判决模型的判定结果划分添加至正音频信号集或负音频信号集中，并更新对应的信号集。

作为一种可选的实施方式，在根据音频信号更新负音频信号集之后，还包括：

在负音频信号集达到目标阈值后，利用更新后的负音频信号集更新目标判决模型。

可选地，在正音频信号集达到目标阈值后，利用更新后的整音频信号集更新目标判决模型。

可选地，目标阈值可以但不限于是时间阈值、数量阈值。时间阈值可以但不限于是指示目标判决模型更新的时间周期。数量阈值可以但不限于是指示音频信号积累的用于目标判决模型的更新数量。

可选地，在目标阈值是时间阈值的情况下，根据更新后的正音频信号集和更新后的负音频信号集对目标判决模型进行更新，以使更新后的目标判决模型能够正确判定新增入信号集中的音频信号。

可选地，在目标阈值是数量阈值的情况下，在正音频信号集达到目标阈值或负音频信号集达到目标阈值时，利用当前更新后的正音频信号集和当前更新后的负音频信号集对目标判决模型进行更新，以使更新后的目标判决模型能够正确判定新增入信号集中的音频信号。

在本申请实施例中，利用将得到判定结果的音频信号保存至正语音信号集或负语音信号集中，并更新目标判决模型的信号集，在达到目标阈值的情况下，对目标判决模型进行更新，以使目标判决模型能够正确判定在实际应用中获取到的音频信号，从而通过更新信号集的方式，提高目标判决模型的准确性，从而实现提高唤醒准确率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述唤醒判别方法的唤醒判别装置。如图6所示，该装置包括：

第一调整模块602，用于在目标设备的唤醒模型从音频信号中识别出唤醒词的情况下，控制目标设备由等待状态调整为判决状态；

调用模块604，用于根据音频信号的音频特征，确定音频信号的场景标签，调用与场景标签匹配的目标判决模型；

判定模块606，用于根据目标设备在判决状态接收的交互信号的交互也正，目标判决模型对音频信号进行判定；

第二调整模块608，用于在音频信号通过目标判决模型的判定的情况下，控制目标设备由判决状态调整为唤醒状态。

在本申请实施例中，采用目标设备的唤醒模型对收集的音频信号进行唤醒词识别，在唤醒模型从音频信号中识别出唤醒词的情况下，根据音频信号的音频特征确定场景标签，从而调用与场景标签对应的目标判决模型，在交互信号包含操作信息的情况下，确定音频信号通过目标判决模型的判定，在音频信号判定通过的情况下才唤醒目标设备的方式，通过与音频信号场景匹配的目标判决模型，根据交互信号的有效性对音频信号进行再次判决，从而根据不同场景调用不同的目标判断模型，根据场景针对性地对音频信号进行二次判断，达到了在不同场景下，确定交互无效时，判定音频信号为误唤醒信号，从而减少对目标设备的误唤醒目的，从而实现了提高对目标设备的唤醒正确率的技术效果，进而解决了环境因素导致的唤醒正确率低的技术问题。

可选地，上述唤醒判别装置还包括收集模块，收集模块用于通过目标设备收集待处理的音频信号。

可选地，调用模块604还包括：

提取单元，用于提取音频信号的音频特征；

确定单元，用于根据音频信号的音频特征确定音频信号的场景标签。

可选地，上述唤醒判别装置还包括训练模块，训练模块用于：

收集在当前场景中产生的多个样本音频信号；

可选地，训练模块还用于：

根据样本音频信号确定对应的样本交互信号；

获取样本交互信号中包含的交互信息，其中，交互信息用于指示目标设备执行相应的交互操作；

根据交互操作的执行有效性确定交互特征。

可选地，上述判别模块还包括：

获取单元，用于获取交互信号中包含的交互信息，其中，交互信息用于指示目标设备执行相应的交互操作；

特征单元，用于根据交互操作的执行有效性确定交互特征。

可选地，上述判别模块还用于：

可选地，上述唤醒判别装置还包括第三调整模块，第三调整模块用于：

可选地，上述唤醒判别装置还包括添加模块，添加模块用于：

可选地，上述唤醒判别装置还包括更新模块，更新模块用于：

可选地，更新模块还用于：在正音频信号集达到目标阈值后，利用更新后的整音频信号集更新目标判决模型。

根据本发明实施例的又一个方面，还提供了一种用于实施上述唤醒判别方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图7所示，该电子设备包括存储器702和处理器704，该存储器702中存储有计算机程序，该处理器704被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，在目标设备的唤醒模型从音频信号中识别出唤醒词的情况下，控制目标设备由等待状态调整为判决状态；

S2，根据音频信号的音频特征，确定音频信号的场景标签，调用与场景标签匹配的目标判决模型；

S3，根据目标设备在判决状态接收的交互信号的交互特征，目标判决模型对音频信号进行判定；

S4，在音频信号通过目标判决模型的判定的情况下，控制目标设备由判决状态调整为唤醒状态。

可选地，本领域普通技术人员可以理解，图7所示的结构仅为示意，电子设备也可以是智能手机、平板电脑、掌上电脑以及移动互联网设备、PAD、智能家居设备等能够进行语音交互的终端设备。图7其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图7中所示更多或者更少的组件(如网络接口等)，或者具有与图7所示不同的配置。

其中，存储器702可用于存储软件程序以及模块，如本发明实施例中的唤醒判别方法和装置对应的程序指令/模块，处理器704通过运行存储在存储器702内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的唤醒判别方法。存储器702可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器702可进一步包括相对于处理器704远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器702具体可以但不限于用于上述音频信号以及场景标签和目标判决模型等信息。作为一种示例，如图7所示，上述存储器702中可以但不限于包括上述唤醒判别装置中的第一调整模块602，调用模块604，判定模块606和第二调整模块608。此外，还可以包括但不限于上述唤醒判别装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置706包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置706为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器708，用于显示上述音频信号以及场景标签等信息；和连接总线710，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述唤醒判别方面的各种可选实现方式中提供的方法。其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种唤醒判别方法，其特征在于，包括：

在目标设备的唤醒模型从音频信号中识别出唤醒词的情况下，控制所述目标设备由等待状态调整为判决状态；

根据所述音频信号的音频特征，确定所述音频信号对应的场景标签，调用与所述场景标签匹配的目标判决模型；

根据所述目标设备在所述判决状态接收的交互信号的交互特征，所述目标判决模型对所述音频信号进行判定；

在所述音频信号通过所述目标判决模型的判定的情况下，控制所述目标设备由所述判决状态调整为唤醒状态。

2.根据权利要求1所述的方法，其特征在于，所述根据所述音频信号的音频特征，确定所述音频信号对应的场景标签包括：

提取所述音频信号的音频特征；

根据所述音频信号的音频特征确定所述音频信号的场景标签。

3.根据权利要求1所述的方法，其特征在于，所述目标设备在所述判决状态接收的交互信号的交互特征包括：

获取所述交互信号中包含的交互信息，其中，所述交互信息用于指示所述目标设备执行相应的交互操作；

根据所述交互操作的执行有效性确定所述交互特征。

4.根据权利要求3所述的方法，其特征在于，所述目标判决模型对所述音频信号进行判定包括：

在所述交互特征为有效的情况下，确定所述音频信号通过所述目标判决模型的判定；

在所述交互特征为无效的情况下，确定所述音频信号未通过所述目标判决模型的判定。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述音频信号未通过所述目标判决模型的判定的情况下，控制所述目标设备由所述判决状态调整为所述等待状态；

利用所述音频信号更新负音频信号集，其中，所述负音频信号集包括未通过所述目标判决模型的音频信号，所述负音频信号集包括负样本音频信号。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述音频信号通过所述目标判决模型的判定的情况下，利用所述音频信号更新正音频信号集，其中，所述正音频信号集中包括通过所述目标判决模型的音频信号，所述正音频信号集中包括正样本音频信号。

7.根据权利要求5所述的方法，其特征在于，在所述利用所述音频信号更新负音频信号集之后，还包括：

在所述负音频信号集达到目标阈值后，利用更新后的所述负音频信号集更新所述目标判决模型。

8.一种唤醒判别装置，其特征在于：

第一调整模块，用于在目标设备的唤醒模型从音频信号中识别出唤醒词的情况下，控制所述目标设备由等待状态调整为判决状态；

调用模块，用于根据所述音频信号的音频特征，确定所述音频信号的场景标签，调用与所述场景标签匹配的目标判决模型；

判定模块，用于根据所述目标设备在所述判决状态接收的交互信号的交互特征，所述目标判决模型对所述音频信号进行判定；

第二调整模块，用于在所述音频信号通过所述目标判决模型的判定的情况下，控制所述目标设备由所述判决状态调整为唤醒状态。

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。