CN111599361A

CN111599361A - 一种唤醒方法、装置、计算机存储介质及空调器

Info

Publication number: CN111599361A
Application number: CN202010406233.7A
Authority: CN
Inventors: 贾鸿本
Original assignee: Aux Air Conditioning Co Ltd; Ningbo Aux Electric Co Ltd
Current assignee: Aux Air Conditioning Co Ltd; Ningbo Aux Electric Co Ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2020-08-28

Abstract

本发明提供了一种唤醒方法，包括：获取语音唤醒词，该语音唤醒词对应于预定口型；将发出语音唤醒词的声源的位置与用户的位置进行比对，以及，将用户的口型与预定口型进行比对；当声源的位置与用户的位置匹配，以及，用户口型与预定口型匹配时，执行唤醒操作。该方法可通过比较声源位置与用户位置初步判定唤醒词是否由用户发出，并结合口型进一步确认唤醒词是否由用户发出，可有效避免对唤醒词的误识别导致空调器误唤醒的问题。

Description

一种唤醒方法、装置、计算机存储介质及空调器

技术领域

本发明涉及空调技术领域，具体而言，涉及一种唤醒方法、装置、计算机存储介质及空调器。

背景技术

智能空调一般具有语音控制功能，用户可以通过说话来控制空调开关机，调节运行模式、设定温度、设定风速等。目前，带有语音控制功能的空调均设置有唤醒机制，需要先唤醒空调后才能识别语音，该设计可防止用户在日常使用空调的过程中出现误操作的情况，比如，在使用空调时无意间发出语音指令，把空调的模式误更改、误开关机等。唤醒机制的优点是，在不需要语音控制空调时，可以使空调的语音模块处于待机状态，减少待机功耗。

在实际生活中，由于环境干扰，比如电视机声音干扰等，存在对语音模块误唤醒的情况。目前，将唤醒灵敏度降低是一种解决方式，但该方法无法从根本上解决原因，不仅依旧可能存在误唤醒的情况，还可能影响用户的正常使用，识别不到用户发出的指令。通过人体传感器检测人体位置判断唤醒命令是否是用户发出使另一种解决方式，但该方法在用户位置与声源干扰位置较近时，该方法无法排除干扰声源。

发明内容

本发明的主要目的在于提供一种唤醒方法和空调器，以减少语音控制空调存在误唤醒的情况。

本发明一方面提供一种唤醒方法，包括：获取语音唤醒词，该语音唤醒词对应于预设的唤醒口型；将发出所述语音唤醒词的声源的位置与用户的位置进行比对，以及，将用户的口型与所述预设的唤醒口型进行比对；当所述声源的位置与所述用户的位置匹配，以及，所述用户的口型与所述预设的唤醒口型匹配时，执行唤醒操作。

由此，可通过比对声源位置和用户位置确认唤醒词是否从用户的方向发出，再通过识别用户的口型进一步确认是否是用户发出了唤醒词，避免对空调器的误唤醒。

可选地，所述获取语音唤醒词，包括：接收用户的语音信号，所述语音信号由麦克风阵列接收；检测所述语音信号中的语音唤醒词。

由此，空调器可实时接收室内的声音信号，及时获得唤醒词。

可选地，所述将发出所述语音唤醒词的声源的位置与用户的位置进行比对，包括：根据所述语音信号到达所述麦克风阵列中各麦克风的时间差，计算所述声源的位置；获取用户图像；根据所述用户图像，获取所述用户的位置；将所述声源的位置与所述用户的位置进行比对，判断所述声源的位置是否与所述用户的位置匹配。

由此，可获得声源位置和用户位置，判断唤醒词是否有可能是用户发出。

可选地，所述根据所述用户图像，获取所述用户的位置，包括：将所述用户图像表示的实际空间划分为多个区域；识别所述用户在所述用户图像中所在区域；将所述用户所在区域的位置作为所述用户的位置。

由此，根据用户图像，可获得用户当前所在的位置。

可选地，所述将发出所述语音唤醒词的声源的位置与用户的位置进行比对，以及，将用户的口型与所述预设的唤醒口型进行比对，包括：将发出所述语音唤醒词的声源的位置与用户的位置进行比对；若所述声源的位置与所述用户的位置不匹配，则不将用户的口型与所述预设的唤醒口型进行比对；若所述声源的位置与所述用户的位置匹配，则将用户的口型与所述预设的唤醒口型进行比对。

由此，当声源位置与用户位置不匹配时，可判断唤醒词不由用户发出，停止进一步对用户的口型进行识别，可减少运算量，防止运算资源和存储资源的浪费，当声源位置与用户位置匹配时，通过再通过识别用户口型来确认是否时用户发出唤醒词，防止对空调误唤醒。

可选地，所述所述将发出所述语音唤醒词的声源的位置与用户的位置进行比对，以及，将用户的口型与所述预设的唤醒口型进行比对，还包括：获取用户图像；根据所述用户图像，识别所述用户图像中用户的口型；将所述用户的口型与所述预设的唤醒口型进行比对，判断所述用户的口型是否与所述预设的唤醒口型匹配。

由此，可根据口型确认唤醒词是否由用户发出。

可选地，所述唤醒动作包括向用户发出唤醒反馈音。

由此，可唤醒空调器开始工作，并提醒用户空调器已被唤醒。

本发明另一方面还提供了一种唤醒装置，应用于如第一方面任意一项所述的唤醒方法，包括：唤醒词获取模块，用于获取语音唤醒词，该语音唤醒词对应于预设的唤醒口型；比对模块，用于将发出所述语音唤醒词的声源的位置与用户的位置进行比对，以及，将用户的口型与所述预设的唤醒口型进行比对；唤醒模块，用于当所述声源的位置与所述用户的位置匹配，以及，所述用户的口型与所述预设的唤醒口型匹配时，执行唤醒操作。

本发明另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现第一方面任一项所述的唤醒方法中的各个步骤。

本发明另一方面提供一种空调器，包括：存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如第一方面任一项所述的唤醒方法。

所述空调器、唤醒装置、计算机可读存储介质与上述唤醒方法具有的优势相同，此处不再赘述。

附图说明

图1示意性示出了本发明一实施例提供的一种唤醒方法的流程图；

图2示意性示出了本发明一实施例提供的获取用户所在位置的示意图；

图3示意性示出了本发明一实施例提供的麦克风阵列接收语音信号的示意图；

图4示意性示出了本发明一实施例提供的另一种唤醒方法的流程图；

图5示意性示出了本发明另一实施例提供的唤醒装置的结构示意图；

图6示意性示出了本发明另一实施例提供的空调器各模块的结构示意图。

具体实施方式

为使得本发明的申请目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示意性示出了本发明一实施例提供的唤醒方法的流程图。本实施例中以空调器为应用场景，参阅图1，同时结合图2-图6，对本实施例中的出唤醒方法进行详细说明。

参阅图1，本发明一实施例提供的唤醒方法包括S110～S130。

S110，获取语音唤醒词，该语音唤醒词对应于预设的唤醒口型。

在本实施例中，空调器在待机状态时，实时监控所处环境内的声音，等待用户发出指令，用户需先发出唤醒词唤醒空调器，待空调器被唤醒后，空调器才能接收用户控制空调器运作的其他指令，该设计可以防止因室内噪声，如电视、广播的声音，被空调器误将噪声识别为用户发出的指令，导致空调器根据噪声进行错误的运作。

在本实施例中，当空调器上电初始化后，进入待机模式，并实时监控用户发出的语音信号，在检测到语音唤醒词之前，首先应识别用户语音，从用户语音中检测语音唤醒词，包括步骤S101～S102。

S101，接收用户的语音信号，所述语音信号由麦克风阵列接收。

在本实施例中，空调器监控的是室内所有声音，包括电视声、脚步声、多个用户之间的交谈声、室外传进室内的人声等，空调器接收到这些声音后，需从中提取出人声作为有效的语音信号，减少外界干扰，降低误识别的概率。

可以理解的，该麦克风阵列的麦克风数量为2个以上，可按“一”字排列为多排，也可不按“一”字排列。

S102，检测所述语音信号中的语音唤醒词。

在本实施例中，语音唤醒词可能存在于用户发出的多种句式的语音信号中，通过自然语言处理、声纹对比等技术手段，可以从语音信号中提取出语音唤醒词，以准确获取语音唤醒词。

可以理解的，语音唤醒词可以包含多种形式，例如，语音唤醒词可以同时包括“你好”、“开机”、“启动”等语音指令，也可以由用户自定义。

S120，将发出所述语音唤醒词的声源的位置与用户的位置进行比对，以及，将用户的口型与所述预设的唤醒口型进行比对。

在本实施例中，如果用户发出了唤醒词，则声源的位置与用户的位置相同，且用户的口型应为预设的唤醒口型，即比对声源的位置和用户的位置，又比对用户的口型和预设的唤醒口型，通过这两重对比可防止对将其他声音误识别为用户发出的唤醒词，导致对空调的误识别。

可选地，将声源的位子与用户的位置进行对比，以及，将用户的口型与预设的唤醒口型进行对比，两个步骤的执行可以不分先后。

在本实施例中，先将声源的位置与用户的位置进行比对，再将用户的口型与预设的唤醒口型进行对比，包括S121～S123。

S121，将发出所述语音唤醒词的声源的位置与用户的位置进行比对。

在本实施例中，将声源位置和用户所在位置均发送给空调器的控制器，使空调器判断这两个位置是否为同一位置，以确定语音唤醒词是否是用户发出的，若声源位置与用户的位置相同，说明唤醒词是由用户所在的方位传来的，可能是用户发出了该唤醒词。具体的，S121包括S1211～S1214。

S1211，根据所述语音信号到达所述麦克风阵列中各麦克风的时间差，计算所述声源的位置.

参阅图3，在本实施例中，语音信号通过麦克风阵列接收，根据所述语音信号到达所述麦克风阵列中各麦克风的时间差，计算所述声源位置。如图3所示，由于各麦克风的位置不同，语音信号(图左所示直线箭头)到达各麦克风的时间和角度均可能不同，各麦克风接收到的语音信号形成的波形(图右所示波浪线)不同，根据各麦克风接收到的语音信号的时间差的组合，可判断语音信号的声源方向或声源的位置。

可选地，空调器还可以根据语音信号的强度大小，结合麦克风阵列获得语音信号的时间差，得到声源的具体位置。

S1212，获取用户图像。

在本实施例中，通过摄像头获取用户图像，用户图像是指当前空调器所在空间内的图像，用于记录用户活动，摄像头可以为空调器本身配置的额专用摄像头，也可以为用户日常使用的其他摄像头，该摄像头可通过网络与空调器进行数据传输。

S1213，根据所述用户图像，获取所述用户的位置。

参阅图2，在本实施例中，将所述用户图像表示的实际空间划分为多个区域，识别所述用户在所述用户图像中所在区域，将所述用户所在区域的位置作为所述用户的位置。例如，如图2所示，用户图像被划分为8个区域，通过算法分析，可确定用户在该空间中的区域2和区域3之间的位置，进一步的，根据用户在图像中轮廓和显示的大小，可确定用户的具体位置。

可选地，摄像头获取到用户图像后，可由摄像头将用户图像上传到服务器，由服务器执行相应的识别算法确定用户位置，再将用户位置反馈给摄像头，也可直接由摄像头本地进行运算，获得用户位置。服务器的存储空间大，运算能力强，可快速的获得用户的位置。

可以理解的，摄像头拍摄的图像可以为视频，也可以为图片。

S1214，将所述声源的位置与所述用户的位置进行比对，判断所述声源的位置是否与所述用户的位置匹配。

在本实施例中，当声源的位置与用户的位置匹配时，再执行S123，当声源位置与用户的位置不匹配时，执行S122。

S122，若所述声源的位置与所述用户的位置不匹配，则不将用户的口型与所述预设的唤醒口型进行比对。

在本实施例中，若所述声源的位置与所述用户的位置不匹配，说明唤醒词不是用户发出的，不执行识别用户口型、将用户口型与预设的唤醒口型比对等动作，可节约空调的控制器、摄像头的计算资源和存储资源。

S123，若所述声源的位置与所述用户的位置匹配，则将用户的口型与所述预设的唤醒口型进行比对。

在本实施例中，将用户的口型与唤醒口型比对前，还包括S1231～1233。

S1231，获取用户图像。

在本实施例中，该用户图像与识别用户位置的图像为同一图像。

S1231，根据所述用户图像，识别所述用户图像中用户的口型。

在本实施例中，摄像头在拍摄到用户图像后，可将该图像传送至服务器，使服务器对该用户图像进行处理，获得图像中用户的口型的相关数据，如口型的形状、大小以及图片等。服务器的存储空间大，运算能力强，可快速的获得用户的口型的相关数据。

可选地，摄像头在拍摄到用户图像后，在本地识别用户图像中的用户的口型，获取用户的口型的相关数据，需要摄像头本地存储空间大，具有运算能力较强的芯片。

S1231，将所述用户的口型与所述预设的唤醒口型进行比对，判断所述用户的口型是否与所述预设的唤醒口型匹配。

在本实施例中，获取到用户的口型数据后，将用户的口型的相关数据与预置的唤醒口型的数据比较，例如，计算口型数据的相似度、比对口型图像的相似度等，确认用户的口型是否为唤醒口型。

可以理解的，预置的口型数据由多个口型数据训练得到，数量为一个以上。

可选地，预置的口型数据存储在摄像机本地，也可以存储在服务器上，或其他可存储介质上。

S130，当所述声源的位置与所述用户的位置匹配，以及，所述用户的口型与所述预设的唤醒口型匹配时，执行唤醒操作。

在本实施例中，当所述声源的位置与所述用户的位置匹配，用户的口型与所述预设的唤醒口型匹配时，确定该语音唤醒词是用户发出的，则执行唤醒操作，使空调器相应用户接下来的语音指令。

在本实施例中，唤醒操作包括向用户发出唤醒反馈音，以提示用户空调已被唤醒，可以接受用户其他语音指令，在发出唤醒反馈音的同时，空调器开始运作。

在本实施例中，若所述声源位置与所述用户的位置相同，所述口型不为唤醒口型，说明唤醒词虽然从用户所在的方位发出，但不是用户发出的用于唤醒空调器的指令，则不执行唤醒操作，避免对空调的误唤醒。

参阅图4，图4示意性示出了本公开实施例提供的唤醒方法的另一种执行方式，包括步骤S410～S450。

S410，获取语音唤醒词，该语音唤醒词对应于预设的唤醒口型；

S420，获取用户的口型。

S430，将用户的口型与所述预设的唤醒口型进行比对。

S440，若用户的口型与所述预设的唤醒口型匹配，则获取所述语音唤醒词的声源的位置与用户的位置。

S450，将所述语音唤醒词的声源的位置与用户的位置进行比对。

S460，当所述声源的位置与所述用户的位置匹配，执行唤醒操作。

在本实施例中，先判定该用户的口型是否为唤醒词口型，在判定用户的位置是否与发出唤醒词的声源的位置相同，与图1所示的方法相比，执行步骤有所不同，但具体实施方式相同，实现的效果相同，均为通过用户的位置、口型和声源的位置的比对确定唤醒词是否由用户发出，避免对空调器的误唤醒。

参阅图5，本发明另一实施例提供了一种唤醒装置500，包括唤醒词获取模块510、比对模块520、唤醒模块530，具体描述如下。该装置可以执行如图1、图4所示的唤醒方法。

唤醒词获取模块510，用于获取语音唤醒词，该语音唤醒词对应于预设的唤醒口型；

比对模块520，用于将发出所述语音唤醒词的声源的位置与用户的位置进行比对，以及，将用户的口型与所述预设的唤醒口型进行比对；

唤醒模块530，用于当所述声源的位置与所述用户的位置匹配，以及，所述用户的口型与所述预设的唤醒口型匹配时，执行唤醒操作。

在本实施例中，唤醒词获取模块510检测到语音唤醒词时，唤醒对比模块520，对比模块520根据包含该语音唤醒词的语音信号到达麦克风阵列的时间差，获取发出所述语音唤醒词的声源的位置，以及，根据摄像头拍摄到的用户图像，获取到用户的位置，并将声源的位置和用户的位置比对，当声源的位置和用户的位置匹配时，对比模块520根据用户图像，获取用户的口型的相关数据，并将该数据与预置的唤醒词口型数据比对，当该口型数据与阈值的口型数据匹配上，证明该口型数据为唤醒词口型，对比模块520向唤醒模块530发送唤醒指令；唤醒模块530唤醒空调器其他工作模块，并向用户发出反馈音，以提示用户可以继续下达指令。

可以理解的是，唤醒词获取模块510、比对模块520、唤醒模块530可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，唤醒词获取模块510、比对模块520、唤醒模块530中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式的适当组合来实现。或者，唤醒词获取模块510、比对模块520、唤醒模块530中的至少一个可以至少被部分地实现为计算机程序模块，当该程序被计算机运行时，可以执行相应模块的功能。

本公开另一实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，实现图1中的任一项的方法中的各个步骤。

本发明另一实施例提供了一种空调器，存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如图1任一项所述的唤醒方法，可防止语音控制空调器时出现误唤醒的情况。

参阅图6，在本实施例中，空调器由麦克风阵列601、语音模块602、摄像头模块603、控制模块604、播报模块605、及负载模块606组成。麦克风阵列601用于接收空调器所在室内的声音信号；语音模块602用于接收麦克风阵列601传递的声音信号，并识别声音信号中的语音信号，检测语音信号中是否包含语音唤醒词，以及，获取声源的位置；摄像头模块603，用于拍摄用户的图像，以及，获取用户的位置和口型；控制模块604，用于比对用户的位置和声源的位置是否相同，以及，识别用户的口型是否为唤醒词口型，用户的位置和声源的位置相同，且识别用户的口型是唤醒词口型时，控制负责模块606工作，控制播报模块605播报唤醒反馈音；播报模块605，用于当确认用户发出唤醒词后，播报唤醒反馈音；负载模块606，用于制热或制冷。

可选地，语音模块602、摄像头模块603和控制器604均可以分为离线和在线两种工作模式，例如，摄像头模块603拍摄到用户的图像后，可本地分析用户图像，获取用户的位置和口型，该方式为离线工作模式，需要摄像头本身具备有运算能力的芯片和存储用户图像的内存，该方式获取用户的位置和口型的速度较快，不受网络限制，但仍受内存大小的限制(内存越大，可存储用于对比的图像模板和数据越多，识别用户的位置和口型的精度越高)，识别能力有限；也可将用户图像通过网络传送给服务器，使服务器根据用户图像获取用户的位置和口型，该方式为在线工作模式，需要将摄像头与网络连接，需要摄像头具备通信能力，由于服务器的存储空间更大，运算能力更强，可更加精准的识别用户位置和口型，使摄像头本身的芯片运算能力不需要太强、内存不用太大，节约了空调器的硬件成本，但其运行效率会受网络限制。

可以理解的，该空调器能实现的获取用户的位置、声源的位置、用户的口型、对比用户和声源的位置、对比用户的口型和预置的唤醒词口型等功能，可根据实际情况，选择性的分为在线和离线的工作模式，即可选择语音模块602、摄像头模块603和控制器604等模块的部分功能通过在线模式实现，部分功能通过离线的方式。

本实施例提供的空调器的优点与上述实施例提供的唤醒方法相同，在此不做赘述。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种唤醒方法，其特征在于，包括：

获取语音唤醒词，该语音唤醒词对应于预设的唤醒口型；

将发出所述语音唤醒词的声源的位置与用户的位置进行比对，以及，将用户的口型与所述预设的唤醒口型进行比对；

当所述声源的位置与所述用户的位置匹配，以及，所述用户的口型与所述预设的唤醒口型匹配时，执行唤醒操作。

2.根据权利要求1所述的唤醒方法，其特征在于，所述获取语音唤醒词，包括：

接收用户的语音信号，所述语音信号由麦克风阵列接收；

检测所述语音信号中的语音唤醒词。

3.根据权利要求2述的唤醒方法，其特征在于，所述将发出所述语音唤醒词的声源的位置与用户的位置进行比对，包括：

根据所述语音信号到达所述麦克风阵列中各麦克风的时间差，计算所述声源的位置；

获取用户图像；

根据所述用户图像，获取所述用户的位置；

将所述声源的位置与所述用户的位置进行比对，判断所述声源的位置是否与所述用户的位置匹配。

4.根据权利要求3所述的唤醒方法，其特征在于，所述根据所述用户图像，获取所述用户的位置，包括：

将所述用户图像表示的实际空间划分为多个区域；

识别所述用户在所述用户图像中所在区域；

将所述用户所在区域的位置作为所述用户的位置。

5.根据权利要求1所述的唤醒方法，其特征在于，所述将发出所述语音唤醒词的声源的位置与用户的位置进行比对，以及，将用户的口型与所述预设的唤醒口型进行比对，包括：

将发出所述语音唤醒词的声源的位置与用户的位置进行比对；

若所述声源的位置与所述用户的位置不匹配，则不将用户的口型与所述预设的唤醒口型进行比对；

若所述声源的位置与所述用户的位置匹配，则将用户的口型与所述预设的唤醒口型进行比对。

6.根据权利要求1所述的唤醒方法，其特征在于，所述将发出所述语音唤醒词的声源的位置与用户的位置进行比对，以及，将用户的口型与所述预设的唤醒口型进行比对，还包括：

获取用户图像；

根据所述用户图像，识别所述用户图像中用户的口型；

将所述用户的口型与所述预设的唤醒口型进行比对，判断所述用户的口型是否与所述预设的唤醒口型匹配。

7.根据权利要求1所述的唤醒方法，其特征在于，所述唤醒操作包括向用户发出唤醒反馈音。

8.一种唤醒装置，其特征在于，应用于如权利要求1至7任意一项所述的唤醒方法，包括：

唤醒词获取模块，用于获取语音唤醒词，该语音唤醒词对应于预设的唤醒口型；

比对模块，用于将发出所述语音唤醒词的声源的位置与用户的位置进行比对，以及，将用户的口型与所述预设的唤醒口型进行比对；

唤醒模块，用于当所述声源的位置与所述用户的位置匹配，以及，所述用户的口型与所述预设的唤醒口型匹配时，执行唤醒操作。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至7中的任一项所述的唤醒方法中的各个步骤。

10.一种空调器，包括：存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1-7任一项所述的唤醒方法。