CN110265011A

CN110265011A - 一种电子设备的交互方法及其电子设备

Info

Publication number: CN110265011A
Application number: CN201910495964.0A
Authority: CN
Inventors: 聂颖; 徐泓洋; 聂镭
Original assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Current assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2019-09-20
Anticipated expiration: 2039-06-10
Also published as: CN110265011B

Abstract

本发明公开了一种电子设备的交互方法及其电子设备，旨在实现电子设备在待机状态下的无目的性的交互，提高电子设备交互方式的趣味性，满足用户的要求。在本发明实施例中，首先判断电子设备是否处于待机状态；若判断结果为所述电子设备处于待机状态，启动所述声音采集模块实时采集环境的声音信号；然后从所述采集的声音信号提取声音特征参数，并将所述声音特征参数输入预先训练好的声音识别模型中，进行声音信号类型的识别；最后根据所述声音识别模型识别后输出的声音信号类型，生成所述电子设备的操作指令。

Description

一种电子设备的交互方法及其电子设备

技术领域

本发明涉及电子技术领域，特别涉及一种电子设备的交互方法及其电子设备。

背景技术

随着科技的发展，各种电子设备，例如手机、电视、电脑、各种家电产品等，已成为人们生活中不可或缺的一部分，给人们的生活带来了极大的便利与乐趣，大大提高了人们的生活质量和工作效率。

这些电子设备在使用的过程中，都需要用到交互的技术。传统的交互方式一般是用户通过屏幕提示进行相应操作，要么通过按键进行输入，要么是直接用手或者笔对屏幕进行操作，传统的交互方式操作繁琐，需要多次按键才能进入目的功能模块。

近年来，出现了语音交互技术。语音交互是基于语音输入的新一代交互模式，通过说话就可以对电子设备进行操作。然而，通过语音交互依然停留在“用户语音唤醒设备—>设备进行命令词识别—>设备根据命令词进行操作”的模式，这种语音交互方式，相对于传统的按键交互和触屏交互，确实带来了一些操作上的便捷，但是上述交互技术中，其交互的对象为用户和电子设备，其目的性非常强，交互的趣味性差，无法满足用户的要求。

发明内容

针对上述的问题和现状，本文提出了一种电子设备的交互方法及其电子设备，旨在实现电子设备在待机状态下的无目的性的交互，提高电子设备交互方式的趣味性，满足用户的要求。

为实现上述目的，本发明实施例提供一种电子设备的交互方法，包括：

判断电子设备是否处于待机状态；

若判断结果为所述电子设备处于待机状态，启动所述声音采集模块实时采集环境的声音信号；

从所述采集的声音信号提取声音特征参数，并将所述声音特征参数输入预先训练好的声音识别模型中，进行声音信号类型的识别；

根据所述声音识别模型识别后输出的声音信号类型，生成所述电子设备的操作指令。

为实现上述目的，本发明实施例还提供了一种电子设备，包括：

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的交互程序，所述交互程序被所述处理器执行时实现以上所述的交互方法的步骤。

本发明实施例的有益效果在于：首先判断电子设备是否处于待机状态；若判断结果为所述电子设备处于待机状态，启动所述声音采集模块实时采集环境的声音信号；然后从所述采集的声音信号提取声音特征参数，并将所述声音特征参数输入预先训练好的声音识别模型中，进行声音信号类型的识别；最后根据所述声音识别模型识别后输出的声音信号类型，生成所述电子设备的操作指令。可见，本发明实施例实现了电子设备在待机状态下的无目的性的交互，提高了电子设备交互方式的趣味性，满足了用户的要求。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点更为清楚，在附图中：

图1是本发明的一个实施例提供的一种电子设备的交互方法的流程框图。

图2是本发明的一个实施例提供的一种电子设备的交互方法的流程框图。

图3是本发明实施例涉及的硬件运行环境的电子设备结构示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下方对本发明的细节描述中，详尽描述了一些特定的细节部分，为了避免混淆本发明的实质，公敌的方法、过程、流程、元件并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书的“包括”、“包含”等类似词语应当解释为包含的含义而还是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明中的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

下面参考附图描述本发明实施例的电子设备的交互方法及其电子设备。

首先，对本发明实施例的电子设备的交互方法进行说明。

图1是本发明的一个实施例提供的一种电子设备的交互方法的流程框图。如图1所示，本发明实施例的电子设备的交互方法，应用于电子设备，所述电子设备包括声音采集模块和显示模块，包括以下步骤：

S100，判断电子设备是否处于待机状态；

S200，若判断结果为所述电子设备处于待机状态，启动所述声音采集模块实时采集环境的声音信号；

S300，从所述采集的声音信号提取声音特征参数，并将所述声音特征参数输入预先训练好的声音识别模型中，进行声音信号类型的识别；

S400，根据所述声音识别模型识别后输出的声音信号类型，生成所述电子设备的操作指令。

下面按各个步骤分别进行具体的说明。

S100，判断电子设备是否处于待机状态；

在本发明实施例中，首先需要判断电子设备是否处于待机状态。当判断电子设备处于待机状态时，才执行本发明实施例中的交互方法。其中，所述待机状态，具体说就是电子设备的显示模块未亮或者电子设备为锁屏状态时。区别于现有技术中强目的性的交互技术，本发明实施例中的技术方案是在电子设备在待机状态下进行的无目的性的交互方法，其可以提高电子设备交互方式的趣味性。

需要说明的是，所述电子设备可以是手机、平板电脑，或者其它的智能电子设备。

在本实施例中，当判断电子设备处于待机状态时，启动所述声音采集模块实时采集环境的声音信号，其中，所述声音采集模块为麦克风，其可以是内置，也可以是外置的。音频数据将以音频流的方式进行采集。

如图2所示，在本发明的另一些实施例中，所述电子设备还包括前置摄像头，步骤S200若判断结果为所述电子设备处于待机状态，启动所述声音采集模块实时采集环境的声音信号，还可以包括以下步骤：

S201，若判断结果为电子设备处于待机状态，启动前置摄像头检测所述电子设备正面的环境光强度，判断所述电子设备的显示模块被遮挡情况；

S202，当判断结果为所述显示模块没有被遮挡时，启动电子设备的声音采集模块实时采集环境的声音信号。

在本实施例中，当判断结果电子设备处于待机状态时，启动前置摄像头检测所述电子设备正面的环境光强度，判断所述电子设备的显示模块被遮挡情况，当判断结果为所述显示模块没有被遮挡时，启动电子设备的声音采集模块实时采集环境的声音信号；当判断结果为所述显示模块被遮挡时，电子设备保持或者重新进入待机状态。当电子设备的显示模块（也即屏幕）处理被遮挡时，其可能是处理屏幕朝向桌面或者屏幕被其它物品覆盖，此种情况下，用户一般是不想被电子设备打扰到。因此，当判断电子设备的显示模块被遮挡时，则电子设备保持或者重新进入待机状态，一方面不会打扰到用户，另一方面，也可以节省电子设备的电源消耗。

在本实施例中，需要先将采集到的声音信号提取特征参数。首先，对采集到的声音信号进行预加重、分帧、加窗等预处理操作，排除采集声音信号的设备所带来的混叠、高次谐波失真、高频等等因素对语音信号质量的影响，保证后续声音信号处理得到的声音信号更均匀、平滑，为声音信号的特征提取提供优质的特征参数，提高声音信号处理的质量。

声音特征参数提取就是要尽量取出或削减声音信号中与识别无关的信息的影响，减少后续识别阶段需处理的数据量，生成表征声音信号中携带的目标信息的特征参数。根据语音特征的不同用途，需要提取不同的特征参数，从而保证识别的准确率。常用的语音特征参数有LPCC 和MFCC。LPCC 参数是根据声管模型建立的特征参数, 主要反映声道响应。MFCC 参数是基于人的听觉特性利用人听觉的临界带效应, 在Mel 标度频率域提取出来的倒谱特征参数。在本发明实施例中，优选采用MFCC算法提取声音信号的特征参数。MFCC算法过程如下：

（1）快速傅里叶变换(FFT)；

（2）将实际频率尺度转换为Mel频率尺度；

（3）配置三角形滤波器组并计算每一个三角形滤波器对信号幅度谱滤波后的输出；

（4）对所有滤波器输出作对数运算，再进一步做离散余弦变换(DCT)，即可得到MFCC。

在本实施例中，在提取了声音信号的声音特征参数结果，将所述声音特征参数输入预先训练好的声音识别模型中，进行声音信号类型的识别。其中，所述声音识别模型可以采用深度学习的方法，比如DNN、CNN、RNN等网络模型进行识别，这些网络模型的具体网络结构为现有技术，在此不再赘述。在具体的网络模型训练时，可以按环境音、人声、动物声三类对环境的声音进行定义，在训练完成后，所识别的声音类型也是这三类。也可以直接进行多分类，把所有的环境声音类型按照各自类别单独归为一类，比如敲击桌子的声音、打响指的声音、拍手的声音、敲击键盘的声音、喝水声、摸东西的摩擦声、脚步声、叹气声、笑声、开门声、敲门声、风声、放东西的碰撞声和桌椅的咯吱声等。这样就会有非常多的声音类型，在训练好的网络模型的识别结果也是某个具体声音类型中的概率。然而分类越多，网络模型的训练难度越大，所需采集的声音训练样本数据量越大，网络模型也会越复杂，而对应的硬件运行环境中的硬件性能要求越高。在本发明实施例中，采用分级识别，即分为两级识别，首先通过一个一级网络模型识别出被识别的声音为三类声音中的哪一类，然后再用另外一个二级网络模型识别出被识别的声音为具体的哪一类声音类型。相对于现有技术中的声音识别模型，本发明通过两级分类识别，可以降低声音识别模型的复杂度，同时降低硬件的性能要求。

在对声音识别网络进行训练前，需要按声音类型对应准备好相应的音频数据（即训练样本数据集），每个声音类型分类需要准备50个音频文件以上。训练样本数据集的样本数据越多，所训练的声音识别模型的效果越好，但一个声音识别模型的音频总量限制的1万个音频文件以内。对于一些具有相似性的声音类型，需要增加更多样本数据。音频的基本格式要求：音频文件类型为支持wav格式，音频文件大小限制在4M以内，单个音频时长在10s以内。此外，训练集音频需要和实际场景要识别的音频环境一致，举例：如果实际场景要识别的声音都是手机采集的，那训练的音频文件也需要同样的场景获得，而不要采用网上随便下载的音频。最后，考虑实际应用场景可能有的种种可能性，每个分类的音频需要覆盖实际场景里面可能有的可能性，如噪音干扰、多种可能的采集设备，训练集覆盖的场景越多，模型的泛化能力越强。

需要说明的是，所述声音识别模型除了采用深度学习的方法，也可以采用声音信号处理的方式进行识别分析。

在本发明的一些实施例中，所述步骤S300中从所述采集的声音信号提取声音特征参数之前，所述交互方法还包括：

S10，计算所述声音信号的发声源与所述电子设备的距离值；

S20，计算所述声音信号的音量值；

S31，判断所述距离值与所述音量值是否在预设范围内；

S32，若判断结果为所述距离值与所述音量值都在预设范围内，则从所述采集的声音信号提取声音特征参数。

在本实施例中，首先要判断采集的声音信号是否在要求范围内。其中一个范围是距离范围，即所述声音信号的发声源与所述电子设备的距离值，可以采用声源定位的方法计算该距离值，这个距离并不一定要求非常的精确，通常10-20米以内的就视为满足条件。另外一个范围是音量范围，即所述声音信号的音量值，音量值要求为 30db-60db的音量。通过判断采集声音的距离范围和音量范围，将电子设备的无目的交互限定一定的范围内，避免了用户不在有效的交互范围内，使得电子设备的无目的交互没有意义，同时耗费电子设备的电量。S400，根据所述声音识别模型识别后输出的声音信号类型，生成所述电子设备的操作指令。

在实施例中，在根据所述声音识别模型识别后输出的声音信号类型后，生成所述电子设备的操作指令。具体地，所述操作指令为电子设备根据识别出的声音信号而生成的对应的交互指令。

在本发明的一些实施例中，步骤S400中的所述操作指令包括至少以下中的一种或多种：根据所述声音信号，通过预先训练的音乐生成模型，生成相应的音乐片段；或者，在所述显示模块实时显示所述声音信息的波形动态变化图；或者，按预先方式对用户进行提醒；或者，在所述显示模块显示预先设置的卡通动画或者卡通人物表情或者符号表情。下面具体举例说明。

在本发明的一些实施例中，所述操作指令为：根据所述声音信号，通过预先训练的音乐生成模型，生成相应的音乐片段。

具体地，当识别出的声音信号类型为连续敲击桌子、连续拍手、连续打响指或者以上任意组合时，并且上述声音的持续时间要求符合预设时间长度（例如10秒以上，但考虑到算法性能的表现，声音的时间长度最好控制在 30秒以内），则通过预先训练的音乐生成模型，生成相应的音乐片段，该音乐片段是与电子设备所采集到的声音信号的节奏相应的音乐片段。或者，可以生成音乐的同时在电子设备的显示模块中实时显示该声音的波形动态变化图。在生成音乐后，通过电子设备的扬声器对该音乐进行播放。通过上述电子设备在待机状态下的生成音乐的交互方式，可以使得用户随时捕捉音乐灵感，随心创作音乐。

在本实施例中，所述音乐生成模型可采用HMM模型，也可以采用可以处理时序问题的生成模型，比如RNN等，从音乐中提取由声音构造音乐的模式。音乐生成模型为现有技术，例如最近的论文《Song from PI: A musically plausible network for pop musicgeneration》中就提出了一个生成流行音乐的新框架，因此，对于音乐生成模型，本文就不再详细描述。

在本发明的一些实施例中，所述操作指令为：在所述显示模块实时显示所述声音信息的波形动态变化图；

具体地，在识别出的某些声音信号类型，如音乐、鼾声、或者笑声，可以在所述显示模块实时显示所述声音信息的波形动态变化图。具体实现方法为现有技术，本文就不再详细描述。

在本发明的一些实施例中，所述操作指令为：按预先方式对用户进行提醒；

具体地，在识别出的某些声音信号类型，如小孩子哭声或者敲门声的声音，可以按预设的方式对用户进行提醒，例如通过合成的语音提醒或者震动的方式提醒，又或者播放提醒的音乐，或者在显示模块上显示相应的提醒画面等。

在本发明的一些实施例中，所述操作指令为：在所述显示模块显示预先设置的卡通动画或者卡通人物表情或者符号表情。

具体地，在识别出的某些声音信号类型时，在所述显示模块显示预先设置的卡通动画或者卡通人物表情或者符号表情。例如短暂的敲击桌面声音或者敲门声的声音，在屏幕上进行一个好奇的表情进行展示。例如当检测到用户敲击键盘的声音，可以显示一些富有乐趣的画面，可以是小人跑步，也可以是波形律动，根据键盘声的敲击大小进行操作。例如当检测到用户走动的时候，可以出现一对可爱的卡通眼睛根据生源的移动转移视线。例如当检测到用户桌椅的咯吱声时，可以在屏幕上显示不堪其重等的符号表情等。又比如当识别出是猫猫从设备旁边经过的时候，可以在屏幕上显示一双卡通的眼睛，根据声源位置的变换进行实现转移；当识别出狗的声音时，可以在屏幕上显示出害怕的眼神等。如此不一而足，增加了电子设备在待机状态下无目的交互的乐趣。

然而，如果用户家里饲养了动物，考虑到动物活动比较频繁，长时间的触发设备响应会造成电子设备的耗电量加剧，因此，用户可以自行关闭某些声音信号类型的待机状态下的交互，以节约电子设备的用电量。

在本发明的其它一些实施例中，所述操作指令可以为上述中的一种或多种，在此不再详细描述。

在本发明的一些实施例中，所述电子设备的操作指令包含所述显示模块的操作指令时，将所述显示模块设置为黑白显示模式。考虑到本发明方案所提出的交互技术是实时不间断的运行，势必会造成电子设备的耗电量增加，所以在显示模块上显示的时候就需要考虑减少耗电的措施，因此可以采用黑白色来进行显示，以达到电子设备节能的效果。当然，如果电池容量足够大，并不在意电量问题，也可以进行彩屏进行显示。

在本发明实施例中，首先判断电子设备是否处于待机状态；若判断结果为所述电子设备处于待机状态，启动所述声音采集模块实时采集环境的声音信号；然后从所述采集的声音信号提取声音特征参数，并将所述声音特征参数输入预先训练好的声音识别模型中，进行声音信号类型的识别；最后根据所述声音识别模型识别后输出的声音信号类型，生成所述电子设备的操作指令。可见，本发明实施例实现了电子设备在待机状态下的无目的性的交互，提高了电子设备交互方式的趣味性，满足了用户的要求。

此外，发明另一方面实施例还提出的一种电子设备，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的交互程序，所述交互程序被所述处理器执行时实现以上所述的任一个交互方法的步骤。

在本发明的一些实施例中，在所述的一种电子设备中，所述交互程序被所述处理器执行时，所述存储器对所述交互程序运行过程产生的交互数据进行保存并标识用户ID，通过电子设备的通信模块将所述交互数据上传到云端服务器。

具体地，用户在使用采用本发明提供的电子设备时会留下交互的数据，这些数据使得该交互过程得到一个偏向于该特定用户的适应。如果用户更换设备后，还想要保留个性化的交互方式，可以建立用户专属的账号ID，将用户的个性交互数据与账号ID对接，上传至云端服务器，当用户更换设备后只要重新登录账号ID，该交互的数据就自动迁移到新设备上。

最后，图3是本发明实施例方案涉及的硬件运行环境的电子设备结构示意图。

如图3所示，该电子设备可以包括：处理器1001，例如CPU，通信总线1002、通信模块1003以及存储器1004。其中，通信总线1002用于实现这些组件之间的连接通信。网络接口1003可选的为无线接口（如WI-FI接口）、蓝牙接口以及ZIGBEE等无线网络接口。存储器1004可以是高速RAM存储器，也可以是稳定的存储器（non-volatile memory），例如磁盘存储器。存储器1004可选的还可以是独立于前述处理器1001的存储装置。

本发明实施中的通信模块1003包括可与云端服务器进行通信的WIFI模块或者蓝牙模块。

本领域技术人员可以理解，图3中示出的硬件运行环境的电子设备结构并不构成对硬件运行环境的电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图3所示，作为一种计算机存储介质的存储器1004中可以包括操作系统以及交互程序。

在图3所示的硬件运行环境的电子设备中，处理器1001可以用于调用存储器1004中存储的交互程序，并执行实现上述具体实施例中任一所述的交互方法的步骤。

综上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照上述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对上述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种电子设备的交互方法，其应用于电子设备，所述电子设备包括声音采集模块和显示模块，其特征在于，所述交互方法包括：

判断电子设备是否处于待机状态；

2.根据权利要求1的所述方法，其特征在于，所述操作指令包括至少以下中的一种或多种：

根据所述声音信号，通过预先训练的音乐生成模型，生成相应的音乐片段；或者，

在所述显示模块实时显示所述声音信息的波形动态变化图；或者，

按预先方式对用户进行提醒；或者，

在所述显示模块显示预先设置的卡通动画或者卡通人物表情或者符号表情。

3.根据权利要求2的所述方法，其特征在于，所述根据所述声音信号，通过预先训练的音乐生成模型，生成相应的音乐片段，包括：

当所述声音信号类型为连续敲击桌子、连续拍手、连续打响指或者以上任意组合，并且所述声音信号的持续时长在10秒以上时，通过预先训练的音乐生成模型，生成相应的音乐片段。

4.根据权利要求2-3任一所述的方法，其特征在于，所述音乐生成模型为HMM模型或者RNN模型。

5.根据权利要求1的所述方法，其特征在于，所述电子设备还包括前置摄像头，及，所述若判断结果为电子设备处于待机状态，启动电子设备的声音采集模块实时采集环境的声音信号，包括：

若判断结果为电子设备处于待机状态，启动前置摄像头检测所述电子设备正面的环境光强度，判断所述电子设备的显示模块被遮挡情况；

当判断结果为所述显示模块没有被遮挡时，启动电子设备的声音采集模块实时采集环境的声音信号；当判断结果为所述显示模块被遮挡时，电子设备保持或者重新进入待机状态。

6.根据权利要求1的所述方法，其特征在于，所述从所述采集的声音信号提取声音特征参数之前，所述交互方法还包括：

计算所述声音信号的发声源与所述电子设备的距离值；

计算所述声音信号的音量值；

判断所述距离值与所述音量值是否在预设范围内；

若判断结果为所述距离值与所述音量值都在预设范围内，则从所述采集的声音信号提取声音特征参数。

7.根据权利要求6的所述方法，其特征在于，所述距离值通过声源定位的方法计算得到。

8.根据权利要求1-7的所述方法，其特征在于，所述电子设备的操作指令包含所述显示模块的操作指令时，将所述显示模块设置为黑白显示模式。

9.一种电子设备，其特征在于，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的交互程序，所述交互程序被所述处理器执行时实现如权利要求1-8中任一项所述的交互方法的步骤。

10.如权利要求9所述的电子设备，其特征在于，所述交互程序被所述处理器执行时，所述存储器对所述交互程序运行过程产生的交互数据进行保存并标识用户ID，通过电子设备的通信模块将所述交互数据上传到云端服务器。