CN110719544A

CN110719544A - 提供vui特定回应的方法及其应用在智能音箱

Info

Publication number: CN110719544A
Application number: CN201810756067.6A
Authority: CN
Inventors: 刘旭东
Original assignee: Huizhou Difenni Acoustics Technology Co Ltd
Current assignee: Huizhou Difenni Acoustics Technology Co Ltd
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2020-01-21
Also published as: GB201909950D0; US20200020335A1; GB2577157A; DE102019118800A1

Abstract

一种提供VUI特定回应的方法，包含声音输入步骤、生理信息判断步骤、搜寻步骤、及反馈信息输出步骤。声音输入步骤接收声音指令。生理信息判断步骤存取声音数据库中的声音档案并辨识声音指令是否异常，当判断声音指令异常时产生搜寻指令，并将声音指令及搜寻指令共同传送出。搜寻步骤根据声音指令及搜寻指令搜寻对应的反馈，并产生第一反馈信息及第二反馈信息。反馈信息输出步骤输出第一反馈信息及第二反馈信息。透过声音样本收集、持续互动，判断生理信息的异常，并提供反馈，解决了声音识别困难而终止运行的状况，并提供良好的用户界面体验。

Description

提供VUI特定回应的方法及其应用在智能音箱

技术领域

本发明涉及声音输入领域，尤其涉及提供VUI特定回应的方法及其应用在智能音箱。

背景技术

近年随着无线网络、智能型手机、云端连网、以及物连网的技术发展，各种控制的方式，例如图形用户界面或声音控制等，不断的产生以符合使用者的需求。

图形用户界面(GUI)采用图形方式显示的计算机操作用户界面。现今更有声音用户界面(VUI)提供用户以声音输入的方式来操作指令。简单来说，这些界面都是为了服务用户，给用户更好的直接交互的界面。

声音用户界面主要是根据所接收的声音，辩识该声音(转成文字)，根据文字内容执行相应指令。也就是目前的声音用户界面是仅作到“声音助手”的功能。

发明内容

声音用户界面(VUI)接收语音时，不仅仅可以进行识别语言文字，还可接收和语音(语言)无关的“声音”。这些声音(音频结构)与语言(内容语义)结合，其实代表着用户说话时的生理(或心理)状态，例如喜、怒、哀、乐、生病、健康等等。

因此本申请提供一种提供VUI特定回应的方法，包含声音输入步骤、生理信息判断步骤、搜寻步骤、以及反馈信息输出步骤。声音输入步骤接收声音指令。生理信息判断步骤辨识声音指令是否异常，当判断声音指令异常时产生搜寻指令，并将声音指令及搜寻指令传送出。搜寻步骤根据声音指令及搜寻指令搜寻对应的反馈，并分别产生第一反馈信息及第二反馈信息。反馈信息输出步骤输出第一反馈信息及第二反馈信息。

在一些实施例中，一种提供VUI特定回应的方法更包含储存步骤，储存声音指令于声音数据库中。

更进一步地，在一些实施例中，一种提供VUI特定回应的方法更包含标示步骤，当判断声音指令异常时，将声音指令附加标示，再进入储存步骤，将附加标示后之声音指令储存于声音数据库中。更进一步地，在一些实施例中，更可依据后续声音指令，修改储存于声音数据库中声音指令的标示。

在一些实施例中，生理信息判断步骤是比较声音指令与声音档案的基准波形以判断声音指令是否异常。

在此也提供一种智能音箱，智能音箱包括声音指令输入单元、声音数据库、生理信息判断单元、数据处理单元、信息传送接收单元以及反馈信息输出模块。

声音指令输入单元接收声音指令，并将声音指令加以传送出。声音数据库接收并储存声音指令，声音数据库电性连接声音指令输入单元，更储存有复数个声音档案。生理信息判断单元接收声音指令，辨识声音指令是否异常，当生理信息判断单元判断声音指令异常时产生搜寻指令，并将搜寻指令与声音指令传送出。数据处理单元电性连接生理信息判断单元，接收声音指令及搜寻指令，并将声音指令及搜寻指令编码后传送出。信息传送接收单元电性连接数据处理单元，传送编码后的声音指令及搜寻指令，并接收对应于声音指令及搜寻指令的第一反馈信息及第二反馈信息，并将第一反馈信息及第二反馈信息传送至数据处理单元进行译码。反馈信息输出模块电性连接数据处理单元，接收来自数据处理单元译码后的第一反馈信息及第二反馈信息，并加以输出。

在一些实施例中，生理信息判断单元判断波形，比较声音指令与声音档案的波形以判断声音指令是否异常。

在一些实施例中，信息传送接收单元无线连接云端服务器，第一反馈信息及第二反馈信息是云端服务器分别依据编码后的声音指令及搜寻指令所对应产生。

在一些实施例中，反馈信息输出模块包含声音输出单元，将第一反馈信息及第二反馈信息转换成声音信息后加以播放出。更进一步地，在一些实施例中，反馈信息输出模块更包含显示单元，将第一反馈信息及第二反馈信息转换成文字信息或图像信息后加以显示出。

对于此，通过声音样本的收集、并通过智能音箱在声音指令输入时，判断产生声音指令的用户之声音的偏差量，判断用户生理是否有任何异常的状况，从而能进行后续的判断及反馈机制，从而改善了传统上辨识困难的问题，并能使得使用者有更实时的反馈或建议，进而达到更好的用户界面体验。

附图说明

图1是智能音箱在用户生理异常状态的方块示意图。

图2是智能音箱在用户生理正常状态的方块示意图。

图3是提供VUI特定回应的方法的流程图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

图1是智能音箱在异常状态的方块示意图。如图1所示，智能音箱1包括声音指令输入单元10、声音数据库20、生理信息判断单元30、数据处理单元40、信息传送接收单元50、以及反馈信息输出模块60。

声音指令输入单元(例如麦克风)10接收来自外部的声音指令C_V。声音数据库20电性连接声音指令输入单元10，接收并储存声音指令C_V，声音数据库20更储存有复数个声音档案。

更详细地，声音数据库20可以储存使用者预先录制的复数个声音档案，这些声音档案包括使用者正常状态(例如健康)下录制的，也包括异常状态(例如生病)下录制的，作为后续判断的基础。进一步地，也可以是将储存每次由用户产生的声音指令C_V来作为声音档案。生理信息判断单元30电性连接声音指令输入单元10，接收声音指令C_V，并存取声音档案以辨识声音指令C_V是否异常。当生理信息判断单元30判断声音指令C_V异常时产生搜寻指令C_S，并将搜寻指令C_S及声音指令C_V传送出。

数据处理单元40电性连接生理信息判断单元30，接收声音指令C_V及搜寻指令C_S，将声音指令C_V及搜寻指令C_S编码后传送出。信息传送接收单元50电性连接数据处理单元40，传送编码后的声音指令C_V及搜寻指令C_S，例如，传送至云端服务器500。接着，信息传送接收单元50接收来自云端服务器500对应于声音指令C_V及搜寻指令C_S所产生的第一反馈信息F₁及第二反馈信息F₂，再将第一反馈信息F₁及第二反馈信息F₂传送至数据处理单元40进行译码。反馈信息输出模块60电性连接数据处理单元40，接收来自数据处理单元40译码后的第一反馈信息F₁及第二反馈信息F₂，并加以输出。在此，数据处理单元40所谓的编码，可将声音指令C_V，例如将.wmv檔，压缩成.mp3檔、或是转换为无损格式.flac文件，亦可以转换成文本文件.txt格式，以利于云端服务器500或计算机进行解读，以上仅为示例，而不限于此。进一步地，译码可以以反向的方式，达到反馈信息输出模块60可解读的格式。

上述的实施方式仅为示例，而不限于此，例如，并非一定需要透过传送至云端服务器500产生的第一反馈信息F₁及第二反馈信息F₂，此接技术亦可以透过安装于智能音箱1内的计算机来进行。

在此，举例来详细地说明，生理信息判断单元30可以为波形判断装置等，生理信息判断单元30可以存取声音数据库20中多个声音档案而拼贴出基准波形，并与声音指令C_S的基准波形进行比对，以判断声音指令C_V是否异常，从而判断用户的生理是否有异常的状况。例如，在使用者感冒的状态，由于声带及周边器官产生肿胀的变化，导致声带震动时波形改变，因而，用户感冒时产生的声音指令C_V会与先前未感冒状态声音档案而拼贴出基准波形有所差。另外，更可基于差异的偏差瓶颈值，来认定声音指令C_V为异常。例如波形偏差量差异超过40％，则生理信息判断单元30判断声音指令C_V为异常。以上仅为示例，而不限于此。

搜寻指令C_S可以依据声音的变化，产生欲搜寻的信息指令，例如，搜寻前几天的天候、温度、附近的医院位置等。然而，以上仅为示例，而不限于此。例如，也可以透过频段分析判断产生声音指令C_V的用户是否为同一人。进一步地，通过储存声音指令C_V可以使得声音数据库20中的声音样本数量增加，能使基准波形能进一步地修正，使得判断是否异常能够更加地精确。

图2是智能音箱在用户生理正常状态的方块示意图。参见图1及图2，在生理信息判断单元30判断声音指令C_V正常时不产生搜寻指令C_S，数据处理单元40仅进行声音指令C_V及由对息传送接收单元50所接受之对应声音指令C_V的第一反馈信息F₁进行编码及译码。以上仅为示例。

举例而言，请同时参见图1，当使用者对智能音箱1发出「早安，今天会下雨吗？」的声音指令Cv时，声音指令输入单元(例如麦克风)10接收该声音指令Cv。智能音箱1的生理信息判断单元30判断用户的声音指令Cv中的波形，与基准波形的偏差量超出瓶颈值时，更产生「前两天温度为何？」、以及「附近的医院门诊的时间？」的搜寻指令C_S，并由数据处理单元40进行编码后、透过信息传送接收单元50传送至云端服务器500。云端服务器500搜寻相关信息后，对应声音指令C_V产生第一反馈信息F₁，例如，「今日下午两点后会下雨，请携带雨具」，并针对搜寻指令C_S产生第一反馈信息F2，例如，「声音听起来怪怪的呢，前两天温度较低，是感冒了吗？」、「这附近的医院将于早上9点开始门诊」并加以输出。

又举例来说，请同时参见图2，当使用者对智能音箱1发出「早安，今天温度几度呢？」的声音指令Cv时，且智能音箱1判断用户的声音指令Cv中的波形正常时，并由数据处理单元40进行编码后、透过信息传送接收单元50传送至云端服务器500。云端服务器500搜寻相关信息后，对对应声音指令C_V产生第一反馈信息F₁，例如，「今日平均温度约在33度，最高温度能高达36度，请多补充水分」，再加以输出。

进一步地，在一些实施例中，反馈信息输出模块60包含声音输出单元61，将第一反馈信息F₁及第二反馈信息F₂转换成声音信息V_F1及V_F2后加以播放出。换言之，智能音箱1具有完全以声音用户界面(voice user interface，VUI)。更进一步地，在一些实施例中，反馈信息输出模块60更包含显示单元63，将第一反馈信息F₁及第二反馈信息F₂转换成文字信息或图像信息后加以显示出。换言之，在此些实施例中，智能音箱1具有声音及图像混合式的用户界面(voice graphical hybrid user interface)。

数据处理单元40更电性连接声音数据库20，当生理信息判断单元30判断声音指令异常时，数据处理单元40对声音指令C_V附加标示，将附加标示的储存声音指令C_VT作为声音档案而储存于声音数据库20中。举例而言，当生理信息判断单元30判断声音指令C_V异常时，数据处理单元40更可在加上「沙哑」或「感冒」标示的储存声音指令C_VT，再储存于声音数据库20中，如此，未来若遇到类似的状况，生理信息判断单元30更可依据标示来判读，使整个判读声音指令C_V正常、异常的速度能更快、更精准。藉由喂养、收集大量的声音指令C_V进而达成智能音箱1自我学习(Machine Learning)的功效。更进一步地，声音数据库20更可以设置于云端服务器500之中，而能达到更大的声音档案储存量。

更进一步地，数据处理单元40更可依据后续声音指令C_V，修改储存于声音数据库20中声音指令的标示。例如，数据处理单元40更可在储存声音指令C_V加上「感冒」的标示，且当反馈信息输出模块60所输出之第二反馈信息F₂「声音听起来怪怪的呢，前两天温度较低，是感冒了吗？」时，若使用者紧接着产生「只是晚睡」的后续声音指令时，可以理解「感冒」的标示并非正确，数据处理单元40更依据「只是晚睡」的后续声音指令，将附加有「感冒」标示之声音指令C_VT中的标示「感冒」修改为「晚睡」。从而，能进一步地将不同的波形，更细致地辨识为不同的状态，而能在产生第二反馈信息F₂能越加精确地反应到使用者的状态。如此，不仅能克服传统上声音改变无法进行声音控制的问题，更能让使用者感到贴心的状态，而能大幅地改善是用者经验。

图3是提供VUI特定回应的方法的流程图。如图3所示，提供VUI特定回应的方法S1包含声音输入步骤S10、生理信息判断步骤S20、搜寻步骤S30、以及反馈信息输出步骤S40。同时参见图1，声音输入步骤S10系接收声音指令C_V。生理信息判断步骤S20存取声音数据库20中的声音档案并辨识声音指令C_V是否异常，当判断声音指令C_V异常时产生搜寻指令C_S，并将声音指令C_V及搜寻指令C_S传送出。

搜寻步骤S30根据声音指令C_V及搜寻指令C_S搜寻对应的反馈，并分别产生第一反馈信息F₁及第二反馈信息F₂。反馈信息输出步骤S40输出第一反馈信息F₁及第二反馈信息F₂。透过声音判断预先储存的声音档案及声音指令C_V，以此可以解决难以识别声音来源就无法操作的问题，同时，能透过搜寻指令C_S来获得声音指令C_V变异的相关性，或是提供进一步地协助，而使得使用者能获得更加的使用者体验。

更进一步地，在一些实施例中，提供VUI特定回应的方法S1更包含储存步骤S50，储存声音指令C_V于声音数据库20中，透过声音档案的样本累计，能使得判断声音指令C_V变异能更为准确。进一步可以透过样本喂养的学习，达到自动学习，可以更进一步地透过声音的变异来更细致地分辨出各种生理状态的差异。在此，图3中虽然呈现储存步骤S50在生理信息判断步骤S20之前，然而，这仅为示例，而不限于此，储存步骤S50可以仅在声音输入步骤S10之后，与其他的步骤并不限于特定的先后次序。

更进一步地，在一些实施例中，提供VUI特定回应的方法S1更包含标示步骤S60，若判断声音指令C_V异常时，将声音指令C_V附加标示，再进入储存步骤S50，将附加标示后之声音指令C_VT储存于声音数据库20中。更进一步地，在一些实施例中，更可依据后续声音指令C_V，修改储存于声音数据库20中声音指令的标示。透过附加标示，可以进一步地将声音档案分类，从而在搜寻指令C_S的产生，关连性可以更相近，而达到用户更加的用户界面体验。

对于此，能通过智能音箱1在声音指令C_V输入时，可以透过声音样本的收集，以及持续与使用者互动，透过声音指令C_V的比较来判断出用户的生理信息是否有任何异常的状况，从而能进行后续的判断及反馈机制，以此解决了声音识别困难而终止运行的状况，更能够过更实时的反馈或建议，进而使得用户有更加的用户界面体验。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种提供VUI特定回应的方法，其特征在于，包含：

接收声音指令；

辨识所述声音指令是否异常，当判断所述声音指令异常时产生搜寻指令，并将所述声音指令及所述搜寻指令传送出；

根据所述声音指令及所述搜寻指令搜寻对应的反馈，并分别产生第一反馈信息及第二反馈信息；以及

输出所述第一反馈信息及所述第二反馈信息。

2.如权利要求1所述的方法，其特征在于：

更包含储存所述声音指令于所述声音数据库中。

3.如权利要求2所述的方法，其特征在于：

更包含若判断所述声音指令异常时，将所述声音指令附加标示，再进入所述储存步骤，将附加标示后之所述声音指令储存于所述声音数据库中。

4.如权利要求3所述的方法，其特征在于：

更包含修改储存于所述声音数据库中所述声音指令的标示。

5.如权利要求1所述的方法，其特征在于：

所述生理信息判断步骤是比较所述声音指令与所述声音档案的基准波形以判断所述声音指令是否异常。

6.一种智能音箱，包括：

声音指令输入单元，接收声音指令，并将所述声音指令加以传送出；

声音数据库，电性连接所述声音指令输入单元，接收并储存所述声音指令，所述声音数据库更储存有复数个声音档案；

生理信息判断单元，电性连接所述声音指令输入单元，接收所述声音指令，辨识所述声音指令是否异常，当所述生理信息判断单元判断所述声音指令异常时产生搜寻指令，并将所述搜寻指令及所述声音指令传送出；

数据处理单元，电性连接所述生理信息判断单元，接收所述声音指令及所述搜寻指令，并将所述声音指令及所述搜寻指令编码后传送出；

信息传送接收单元，电性连接所述数据处理单元，接收对应于所述声音指令及所述搜寻指令的第一反馈信息及第二反馈信息，并将所述第一反馈信息及所述第二反馈信息传送至所述数据处理单元进行译码；以及

反馈信息输出模块，，电性连接所述数据处理单元，接收来自所述数据处理单元译码后的所述第一反馈信息及所述第二反馈信息，并加以输出。

7.如权利要求6所述的智能音箱，其特征在于：

所述生理信息判断单元判断波形，比较所述声音指令与所述声音档案的波形以判断所述声音指令是否异常。

8.如权利要求6所述的智能音箱，其特征在于：

所述信息传送接收单元无线连接云端服务器，所述第一反馈信息及所述第二反馈信息是所述云端服务器分别依据编码后的所述声音指令及所述搜寻指令所对应产生。

9.如权利要求6所述的智能音箱，其特征在于：

所述反馈信息输出模块包含声音输出单元，将所述第一反馈信息及所述第二反馈信息转换成声音信息后加以播放出。

10.如权利要求9所述的智能音箱，其特征在于：

所述反馈信息输出模块更包含显示单元，将所述第一反馈信息及所述第二反馈信息转换成文字信息或图像信息后加以显示出。