CN111798850B

CN111798850B - 用语音操作设备的方法和系统及服务器

Info

Publication number: CN111798850B
Application number: CN202010777932.2A
Authority: CN
Inventors: 黄石磊; 刘轶; 程刚
Original assignee: Shenzhen Raisound Technology Co ltd
Current assignee: Shenzhen Raisound Technology Co ltd
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2024-03-01
Anticipated expiration: 2040-08-05
Also published as: CN111798850A

Abstract

本发明公开了一种用语音操作设备的方法和系统及服务器。所述系统包括：移动终端和服务器；所述移动终端，用于采集用户语音，将采集的语音数据和用户标识UID发送到所述服务器；所述服务器，用于接收所述移动终端发送的语音数据和UID，对所述语音数据进行识别，对识别结果进行解析，获取唤醒词、设备标识DID和指令，如果检测到唤醒词和所述UID设定的唤醒词一致，则响应于所述语音数据，向所述DID表示的目标设备发送所述指令，以指示所述目标设备执行相应的操作。本发明解决了多个设备场景下语音唤醒存在干扰和唤醒词难以记忆的问题。

Description

用语音操作设备的方法和系统及服务器

技术领域

本发明涉及语音识别技术领域，具体涉及一种用语音操作设备的方法和系统及服务器。

背景技术

语音识别(Speech Recognition)技术，也被称为自动语音识别(AutomaticSpeech Recognition，ASR)，其目标是将语音中的内容(Content)转换为计算机可读的输入，例如按键、二进制编码或者字符序列(text)并进行相应的操作。

语音唤醒在学术上被称为keyword spotting(简称KWS)，一个定义：在连续语流中实时检测出说话人特定片段。这里要注意，检测的“实时性”是一个关键点，语音唤醒的目的就是将设备从休眠状态激活至运行状态，所以唤醒词说出之后，能立刻被检测出来，用户的体验才会更好。评价语音唤醒的效果，通行的指标有四个方面，即唤醒率、误唤醒、响应时间和功耗水平。

语音唤醒可以看做是语音识别的一个特定的应用场景，一般而言，语音唤醒可以看成是一个特定词(针对一个特定系统或者设备)的语音识别任务(其他的词无论是否识别出来都被忽略)；而通常的语音识别都暗含着是多个词的识别任务，例如语音命令控制，可能包含几十到上百词，连续语音识别(LVCSR)甚至包含几十万词汇。

语音识别的主流技术是基于隐马尔科夫模型(Hidden Markov Model,HMM)，常用的是连续分布的HMM模型，称为CDHMM。在语音识别任务中，一般需要声学模型(AcousticModel)和语言模型(Language Model)。声学模型是语音识别系统中最为重要的部分之一，主流系统多采用HMM模型进行建模。语言模型可分为统计语言模型以及现在常用的神经网络语言模型。当前语音识别逐渐转向WFST(weighted finaite-state transducer，加权有限状态转换器)+深度神经网络的框架。HMM模型很容易表示成WFST的形式。

语音操控设备，一般是用户通过语音发出指令，系统通过语音识别进行判断指令内容，进而进行相应的动作。这里至少需要语音识别技术，有的情况下也包括语音唤醒。语音唤醒也是广义的语音识别的一种技术应用。

单个设备的语音指令操作已经是成熟的方案，但是多个设备同时语音操控，特别是语音唤醒是具有挑战的。语音唤醒的一个难点，就是多个设备同时在场的情况下如何唤醒。例如一个挑战性的场景是，在医院通过语音指令来操纵医疗设备，特别是在医院隔离病区医生双手没空的情况下语音控制多个医疗设备，进行相关操作。由于每个设备具有特定的唤醒词，不同设备需要通过不同的唤醒词激活，但是如果设备过多，那么唤醒词的记忆是个问题。而且针对某些场景，会有同类型设备(例如医院的多人病房，每个患者都会有同样的医疗设备)，那么设置唤醒词将很麻烦，因为一般而言同一类设备会具有相同的唤醒词，会出现相互干扰，导致同时唤醒的问题。

发明内容

本发明目的在于提供一种用语音操作设备的方法和系统及服务器，用于解决多个设备场景下语音唤醒存在干扰和唤醒词难以记忆的问题。

为实现上述目的，本发明采用的技术方案如下。

第一方面，提供一种用语音操作设备的系统，用于操控多个设备，包括：移动终端和服务器；所述移动终端，用于采集用户语音，将采集的语音数据和用户标识UID发送到服务器；所述服务器，用于接收所述移动终端发送的语音数据和UID，对所述语音数据进行识别，对识别结果进行解析，获取唤醒词、设备标识DID和指令，如果检测到唤醒词和所述UID设定的唤醒词一致，则响应于所述语音数据，向所述DID表示的目标设备发送所述指令，以指示所述目标设备执行相应的操作。

在一种可能的实现方式中，所述服务器，还用于对所述语音数据进行声纹识别，当所述语音数据的声纹属于所述UID时，才对识别结果进行解析并进行响应的操作。

在一种可能的实现方式中，所述移动终端还用于向所述服务器发送自身的定位数据；所述服务器，还用于根据所述移动终端的定位数据和所述目标设备的定位数据，进行位置筛选，当所述移动终端与所述目标设备的距离在设定范围内时，才响应于所述语音数据，向所述目标设备发送所述指令。

第二方面，提供一种用语音操作设备的方法，用于操控多个设备，包括：移动终端采集用户语音，将采集的语音数据和用户标识UID发送到服务器；服务器接收移动终端发送的语音数据和UID，对所述语音数据进行识别，对识别结果进行解析，获取唤醒词、设备标识DID和指令；如果检测到唤醒词和所述UID设定的唤醒词一致，则响应于所述语音数据，向所述DID表示的目标设备发送所述指令，以指示所述目标设备执行相应的操作。

在一种可能的实现方式中，所述方法还包括：服务器对所述语音数据进行声纹识别，当所述语音数据的声纹属于所述UID时，才对识别结果进行解析并进行响应的操作。

在一种可能的实现方式中，所述方法还包括：所述移动终端向所述服务器发送自身的定位数据；所述服务器根据所述移动终端的定位数据和所述目标设备的定位数据，进行位置筛选，当所述移动终端与所述目标设备的距离在设定范围内时，才响应于所述语音数据，向所述目标设备发送所述指令。

第三方面，提供一种服务器，包括：接收模块，用于接收移动终端发送的语音数据和用户标识UID；语音识别模块，用于对所述语音数据进行识别；结果解析模块，用于对所述语音识别模块的识别结果进行解析，获取唤醒词、设备标识DID和指令，检测唤醒词和所述UID设定的唤醒词是否一致；发送模块，用于如果检测到唤醒词和所述UID设定的唤醒词一致，则响应于所述语音数据，向所述DID表示的目标设备发送所述指令，以指示所述目标设备执行相应的操作。

在一种可能的实现方式中，所述服务器还包括：声纹识别模块；所述声纹识别模块，用于对所述语音数据进行声纹识别，判断所述语音数据的声纹是否属于所述UID；所述结果解析模块，还用于当所述语音数据的声纹属于所述UID时，才对识别结果进行解析。

在一种可能的实现方式中，所述服务器还包括：位置筛选模块；所述接收模块，还用于接收所述移动终端发送的定位数据；所述位置筛选模块，用于根据所述移动终端的定位数据和所述目标设备的定位数据，进行位置筛选，判断所述移动终端与所述目标设备的距离是否在设定范围内；所述发送模块，还用于当所述移动终端与所述目标设备的距离在设定范围内时，才响应于所述语音数据，向所述目标设备发送所述指令。

从以上技术方案可以看出，本发明实施例具有以下优点：

1.用户通过移动终端和服务器，唤醒和操控设备，唤醒本身不依赖需要操作的设备，同一个设备可以有多个唤醒词(针对不同用户)，因为唤醒操作取决于针对用户定义的唤醒词，唤醒词是绑定于用户的。

2.每个有权限的用户可以操作多个设备，且不需要为每个设备单独定义唤醒词，由于每个用户的唤醒词是固定且一般情况下是单一的，用户直接说出设备标识DID就可以操作不同的设备了，而且由于根据设计，用户一般紧接着唤醒词说出DID(唤醒词的识别准确率一般非常高)，因此对于DID的识别可以做到比较高(因为在语音操作过程中，设备标识DID相对唤醒词在语音流中的位置固定，用户配合的情况下，进行解码的搜索空间很小)；同时也免去用户记忆各个设备的唤醒词。

3.与设备距离无关，一般唤醒采用待控制设备安装语音采集装置，在本方案中则采用由用户随身携带的移动终端进行语音采集。可选的，可以进一步在要进行语音控制的设备安装语音反馈装置。本方案中，可以将移动终端的语音采集麦克风设置为与用户距离很小(例如为一个佩戴式的设备)，那么可以避免在设备处安装语音采集设备的时候，采集点与用户(说话人)一般距离较远，而且可能遮挡，采集效果不好，以及还存在的距离近声音大，距离远就采集不到的问题。

4.同时，采用每个用户携带各自的移动终端作为语音采集设备，还有潜在的好处是相互干扰较小，即使两个用户在同一个房间(假设有一定距离)，如果同时说出各自的唤醒词的时候，对于本人的设备，还是本人的声音较大，干扰人(另一个用户)的声音较小。进一步的，即两个人很近，用户A的声音被用户B的采集设备收集，可以进行声纹识别处理，因此，系统不会误触发(即使两个用户设置的唤醒词相同也没有关系)。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明一个实施例提供的一种用语音操作设备的系统的结构示意图；

图2是本发明一个实施例中用户与设备的距离示意图；

图3是本发明一个实施例提供的一种用语音操作设备的方法的流程示意图；

图4是本发明一个实施例提供的一种服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同的对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面通过具体实施例，分别进行详细的说明。

请参考图1，本发明的一个实施例，提供一种用语音操作设备的系统，用于操控多个设备。该系统包括：移动终端10和服务器20以及多个设备30。

所述移动终端10，是一种用户端(人)设备，跟随使用者移动，例如可以采用智能手机。移动终端10用于采集用户语音，将采集的语音数据和用户标识(User identification，UID)发送到服务器20；进一步的，还用于向服务器20发送自身的定位数据。

移动终端10可包括如下模块：

语音采集模块11、定位模块12和第一通信模块13。

a)语音采集模块11，用于采集用户语音，可以是一种佩戴在用户身上的设备，例如颈挂式麦克风，特点是保持与用户嘴部/头部的距离，并且采用近场拾音，对距离较远的噪声具有一定的抑制能力。

b)定位模块12，用于定位移动终端的位置，获取移动终端的定位数据，可用于判断多个设备中距离用户较近的设备，定位模块可采用已有技术，例如基于wifi或者蓝牙的室内定位。

c)第一通信模块13，用于发送语音数据和定位数据以及UID到服务器20。其中，UID可以预先存储在移动终端中。第一通信模块13可以采用已有的各种通信方式，例如wifi、4G/5G、专网、光通信等，一般可以采用工作场所的具有加密能力的网络，以保障数据安全。

所述服务器20，可采用计算机设备如服务器，其一方面与各个用户的移动终端通信连接，一方面与系统中需要操控的多个设备通信连接。服务器20主要用于对移动终端发送过来的信息进行处理，包括使用语音识别技术进行唤醒和命令控制的解析，并把相关设备的操作信息下发到不同设备。

所述服务器20，用于接收所述移动终端发送的语音数据和UID，对所述语音数据进行识别，对识别结果进行解析，获取唤醒词、设备标识DID(Device identification)和指令，如果检测到唤醒词和所述UID设定的唤醒词一致，则响应于所述语音数据，向所述DID表示的目标设备发送所述指令，以指示所述目标设备30执行相应的操作。

所述服务器20，还用于对所述语音数据进行声纹识别，当所述语音数据的声纹属于所述UID时，才对识别结果进行解析并进行响应的操作。声纹识别是生物识别技术的一种，也称为说话人识别，包括说话人辨认和说话人确认。声纹识别就是把声信号转换成电信号，再用计算机进行识别。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。它一般分为说话人确认(SpeakerVerification，SV)和说话人辨认(speaker identification，SI)，本文中用到的主要是说话人确认。

所述服务器20，还用于根据所述移动终端的定位数据和所述目标设备的定位数据，进行位置筛选，当所述移动终端与所述目标设备的距离在设定范围内时，才响应于所述语音数据，向所述目标设备发送所述指令。

所述服务器20，可包括：处理器21、存储器(图中未示出)、第二通信模块22和第三通信模块23。存储器中存储有一个或多个程序，处理器21可通过执行存储器中存储的一个或多个程序，运行多个功能模块，多个功能模块(即程序模块)例如可包括：语音识别模块、结果解析模块和位置筛选模块。

其中：

a)第二通信模块22，和移动终端10的第一通信模块12进行通信，用于接收所述移动终端10发送的语音数据、定位数据和UID。

b)第三通信模块23，用于和各个设备通信，用于将所述指令发送给所述DID表示的目标设备。

c)语音识别模块，用于对所述语音数据进行识别解码，包括进行声纹识别，判断所述语音数据的声纹是否属于所述UID。

d)位置筛选模块，用于根据所述移动终端的定位数据和所述目标设备的定位数据，进行位置筛选，判断所述移动终端与所述目标设备的距离是否在设定范围内。例如，根据距离远近，筛选出移动终端附近的、可以语音控制的设备；或者，筛选出目标设备附近的、可语音控制该目标设备的移动终端。

e)结果解析模块，用于对语音识别模块的识别结果进行解析，获取指令信息，包括唤醒词、DID和指令等，如果检测到唤醒词和UID一致，则响应于所述语音数据，向所述DID表示的目标设备发送所述指令。

其中，唤醒词由用户预先设置，服务器中可预先存储UID与唤醒词的关联关系。进一步的，解析之前可以先进行声纹识别，在识别出所述语音数据的声纹属于所述UID时，才执行后续动作。进一步的，响应所述语音数据发送所述指令之前，需要先确认所述移动终端与所述目标设备的距离在设定范围内。

所述设备30，用于接收所述服务器发送的所述指令，响应于所述指令进行相应的操作，并且在需要时进行反馈。

设备30例如可以是医疗设备，可以进一步包括多个医疗模块，每个医疗模块可具有如下的几个子模块：

a)第四通信模块31，用于和服务器进行通信，接收服务器发送的指令；

b)动作模块32，用于执行相应的操作，对应医疗设备的某个功能；

c)反馈模块(图中未示出)，用于反馈医疗设备当前执行情况。

下面，对本发明系统的工作过程说明如下。

s1.信息采集

移动终端可包括录音设备作为语音采集模块。移动终端通过录音设备，采集用户语音；以及，通过定位模块定位用户所处位置，获取定位数据。移动终端可将用户语音和定位数据以及UID进行编码，发送到第一通信模块。

其中，语音采集模块和定位模块可采用现有技术实现。UID是用于标识用户的信息，可预先存储在移动终端内。

可选的，移动终端还可以包括VAD(Voice activity detection活动话音检测)模块，用于进行活动话音检测。当然，也可以在服务器端进行活动话音检测。

s2.传输数据

语音数据和定位数据，通过第一通信模块传输到服务器，这里可以使用现有的网络手段你，例如wifi，虚拟专用网络，4G或者5G等。

s3.接收数据

服务器接收移动终端发送的数据，这里数据一般是实时流式数据，因为语音唤醒和语音指令一般需要快速响应。

s4.语音识别

语音识别和语音唤醒可以合二为一，通过语音识别模块和结果解析模块联合动作。这个步骤一般包括如下的具体过程。

s4.1活动话音检测(VAD)，这个步骤也可以在移动终端实现。

s4.2语音识别模块，或称为识别解码器(decoder)，用于将语音转化为文字信息，这里文字信息包括唤醒词、指令信息等，有些指令可能还带有参数、信息输入内容等。识别解码器涉及到声学模型AM(Acoustic model)、语言模型LM(Language model)、发音字典(Dictionary)，这里可以使用语音识别中已有的加模技术。识别解码器也是使用的语音识别的已有技术。

s4.3同时服务器中可以加入一个声纹确认功能，保证只有针对已知UID的语音指令可以被执行。

s5.解析结果

服务器需要对语音识别的基本结果进行解析，也就是根据语音识别模块输出的结果进行相应的动作。这个步骤一般包括如下的具体过程。

s5.1这里，用户语音会以一个唤醒词(或称为激活词)开头，可包括：“唤醒词+DID+指令”。例如“小瑞小瑞，19床输液机，加大流量”，“小瑞小瑞”为唤醒词，“19床输液机”为DID，“加大流量”为指令。

但是这个激活词“小瑞小瑞”是和用户关联，而不是和设备关联。这样的话，每个用户可以对同一个设备使用不同的(各自的)激活词。

设备不需要特别的激活词，可以使用一个普通的DID，例如“19床输液机”，医生几乎和平时指挥他的助手来操作设备的口令完全一致。

s5.2首先结果解析模块需要知道UID，因为每个用户使用自己的唤醒词，同时由于移动终端可以和用户绑定，实际上结果解析模块在处理音频的时候是知道已知UID的。

s5.3如果系统处于未激活状态，检测到用户说出了该用户的唤醒词，则系统进入激活的状态，那么系统接下来会响应用户的指令。

s5.4如果系统处于未激活状态，且没有检测到唤醒词，那么系统会舍弃识别结果。

s5.5如果系统处于激活状态，且没有超过一定的激活时间，系统仍然处于激活状态，则会响应系统的输入。

s5.6系统处于激活状态，用户说出DID，则进入指定设备状态，这时响应的指令和信息会传输到相关设备。

s5.7系统处于激活状态，检测到用户一直在输入语音信息，使用声纹识别技术，标记语音是否是已知用户的语音，如果是的话才解析，如果不是的话不解析。

S5.8系统处于激活状态是指；系统认为检测到激活词，系统准备接受指令；或者保持准备接受指令状态；或者已经接收到指令，进行进一步处理。

S5.9系统处于非激活状态是指：系统初始状态；已经在非激活状态时，系统检测一定的语音，但是没有发现激活词；或者发现激活词，但是有关指令解析不成功；系统处于激活状态，但是没有可以解析的输入超过一定的时间；或者系统解析指令，已经完场将指令发送到对应设备。

s6.设备位置筛选

位置筛选主要是针对用户可激活的设备筛选，例如在医院的病房范围，在用户(医生)附近的设备才有可能被语音激活。

这里需要设备的位置信息，设备一般来说位置是固定的(除非某些设备可以移动)，设备的定位数据可以预先存到服务器或在位置改变时发送给服务器。

这里也需要用户(医生)的位置信息，可以由移动终端上报定位数据给服务器。

服务器依照一定的规则来确定用户可以操作那些设备，请参考图2，例如用户(医生)在,19床附近，那么只有19床的设备可以被语音操控。也可以直接计算用户(医生)和设备之间的距离。

s7.发送指令

服务器根据用户语音的解析结果，以及设备位置筛选模块的结果，决定是否需要给指定设备(目标设备)发送指令。

如果无需发送指令，可以直接给用户反馈错误信息。

如果需要发送指令，则像指定设备发送指定的指令。

s8.接收指令

指定设备根据服务器第三通信模块发送的指令，接收指令。

s9.执行动作

指定设备接收到指令之后，做出响应的动作。

s10.反馈信息

某些动作不是通常可见的指令，还需要通过设备或者用户的移动端设备发送反馈信息。例如指定设备会发出语音提示，或者用户(医生)佩戴的设备发出语音提示。

下面，结合一个实例，对本发明系统的工作过程做进一步说明如下。

在一个实现实例中，医生佩戴一个专用的移动终端，实际为一个智能手机，装有医院装用的程序进行加密通信，通过4G无线通信系统，连接到医院的专门网络，服务器位于医院的机房，各个医疗设备也是通过加密的网络连接到医院的专门网络。

移动终端配有附件，一个是领夹式麦克风，用于采集医生的语音，另一个是一个耳机，用于医生听到移动终端的反馈声音。移动终端还配有室内定位模块，可以实时获得医生所在的位置，可以精确到房间(病房)和在房间具体位置(例如可以定位具体在几号病床附近)。如果定位有误差，医生也可以主动设置自己所处的位置，例如通过智能手机读取19号病床上的NFC标签/条形码，确定医生在操作19床病人有关设备。

p1.信息采集

用户医生(UID为D001)随意说话，可以直接和病人和其他医生/护士交谈，也可以下达操作指令。例如：

“小瑞小瑞，19床输液机加快”

“小瑞小瑞，19床病床抬高”

“小瑞小瑞，19床采集体温”

“小兰小兰，19床病床抬高”

“小瑞小瑞，17床病床抬高”

“李医生，请看一下这个病人的用药情况”

假设旁边另一个医生(UID为D002)说出“小瑞小瑞，19床采集体温”，被UID为D001的用户的移动终端采集输入到系统中。

通过录音设备，采集用户语音(假设是16kHz，16bit的PCM编码)，以及发送用户所处位置的定位数据，并进行编码发送。这里还包括用户信息，也就是需要知道UID为D001。

假设没有在移动终端进行VAD(Voice activity detection活动话音检测),移动终端采集到的所有声音都发送到后台服务器，在服务器进行全程记录，并在服务器端进行VAD。

p2.传输数据

语音数据和定位数据，通过移动终端的4G移动通信网络，并经过医院的对外通信网关(Gateway)传输到医院内网数据中心的服务器上。

p3.接收数据

服务器收到数据，这里数据一般是实时流式数据，同时进行实时保存，假设数据包是200毫秒一个数据包。

p4.语音识别

语音识别和语音唤醒可以合二为一，通过语音识别模块和结果解析模块联合动作。这个步骤一般包括如下的具体过程

p4.1 VAD，活动话音检测，如果没有检测到话音，则只是保存语音，而不是进行后续处理。如果检测到活动语音，则进行解码操作。这里VAD操作使用已有技术，例如使用能量加过零率来计算。

p4.2识别解码器(decoder)，用于将语音转化为文字信息，这里文字信息包括唤醒词、指令信息等，有些指令可能还带有参数、信息输入内容等。

在这个例子中，可使用基于加权有限状态自动机(weighted finaite-statetransducer,WFST)的解码器，并使用深度神经网络(DNN)进行特征提取。

识别解码器涉及到声学模型AM(Acoustic model)、语言模型LM(Languagemodel)、发音字典Dictionary，这里使用的是语音识别中已有的加模技术。

p4.3声纹识别可以使用现有的识别技术，例如使用基于GMM的说话人确认技术。

p5.解析结果

需要对语音识别的基本结果进行解析，也就是根据识别器输出的结果进行相应的动作。

p5.1这里，用户的指令信息会一个唤醒词(激活词)开头：“激活词+设备名称ID+指令”，例如“小瑞小瑞，19床输液机，加大流量”。

p5.2首先结果解析模块需要知道UID，这里用户的UID为D001，因为每个用户使用自己的唤醒词。

P5.3如果系统处于未激活状态，检测到用户说出了该用户的唤醒词，则系统处于激活的状态，那么系统接下来会响应用户的指令。

这里用户绑定的激活词为“小瑞小瑞”，那么用户说“小兰小兰……”的时候，系统会忽略他的指令。

当然，用户在说其他内容的时候，也会忽略这个指令，例如用用户与其他同时讨论19床病情的时候。

注意，这个激活词是需要是一个正常情况下不常见的用于，保证在通常场景对话的时候不会出现这个词。

根据前述的例子：

“小瑞小瑞，19床输液机加快”：系统在接收到“小瑞小瑞”的时候，进入激活状态；

“小瑞小瑞，19床病床抬高”：系统在接收到“小瑞小瑞”的时候，进入激活状态；

“小瑞小瑞，19床采集体温”：系统在接收到“小瑞小瑞”的时候，进入激活状态；

“小兰小兰，19床病床抬高”:系统因为始终没有接收到“小瑞小瑞”的时候，不会激活状态；

“小瑞小瑞，17床病床抬高”：系统在接收到“小瑞小瑞”的时候，进入激活状态；

“李医生，请看一下这个病人的用药情况……”系统因为始终没有接收到“小瑞小瑞”的时候，不会进入激活状态；

傍边另一个医生(UID为D002)说的“小瑞小瑞，19床采集体温”，因为通过声纹确认，发现不是D001用户的语音，不激活。

p5.4如果系统处于未激活状态，且没有检测到唤醒词，那么系统会舍弃识别结果。

p5.5如果系统处于激活状态，且没有超过一定的激活时间(例如5秒)，系统仍然处于激活状态，则会响应系统的输入。

例如：用户在说出“小瑞小瑞“后，暂停了4秒，再说”19床采集体温”：系统在接收到“小瑞小瑞”的时候，进入激活状态，并会保持激活状态。但是如果暂停了6秒，系统会重新回到未激活状态，这时候再说”19床采集体温”，系统会忽略这个输入。

p5.6系统处于激活状态，用户说出DID，则进入指定设备状态，这时响应的指令和信息会传输到相关设备。

例如：

“小瑞小瑞，19床输液机加快”：系统进入激活状态，并解析到“19床输液机”这个设备，并解析出指令“加快”；

“小瑞小瑞，19床病床抬高”：系统进入激活状态，并解析到“19床病床”这个设备，并解析出指令“抬高”；

“小瑞小瑞，19床采集体温”：系统进入激活状态，并解析到“19床采集提问”这个指令，对应着“体温采集设备”；

“小兰小兰，19床病床抬高”:系统未激活；

“小瑞小瑞，17床病床抬高”：系统进入激活状态，并解析到“17床病床”这个设备，并解析出指令“抬高”；

“李医生，请看一下这个病人的用药情况。。。”系统不会激活

傍边另一个医生(ID为D002)说的“小瑞小瑞，19床采集体温”，系统不会激活。

p5.7系统处于激活状态是指；系统认为检测到激活词，系统准备接受指令；或者保持准备接受指令状态；或者已经接收到指令，进行进一步处理。

p5.8系统处于非激活状态是指：系统初始状态；已经在非激活状态时，系统检测一定的语音，但是没有发现激活词；或者发现激活词，但是有关指令解析不成功；系统处于激活状态，但是没有可以解析的输入超过一定的时间；或者系统解析指令，已经完场将指令发送到对应设备。

p6.设备位置筛选

依照一定的规则来确定用户可以操作那些设备，如图2所示，例如用户(医生)在19床附近，那么只有19床的设备可以被语音操控。也可以直接计算用户(医生)和设备之间的距离。

例如：

“小瑞小瑞，19床输液机加快”：这个设备允许操作；

“小瑞小瑞，19床病床抬高”：这个设备允许操作；

“小瑞小瑞，19床采集体温”：这个设备允许操作；

“小兰小兰，19床病床抬高”:系统未激活；

“小瑞小瑞，17床病床抬高”：系统进入激活状态，并解析到“17床病床”这个设备，这个设备不允许操作；

“李医生，请看一下这个病人的用药情况……”系统不会激活；

傍边另一个医生(UID为D002)说的“小瑞小瑞，19床采集体温”，系统不会激活。

p7.发送指令

根据用户指令的解析结果，以及设备位置筛选模块的结果，决定是否需要给指定设备发送指令。

如果无需发送指令，可以直接给用户反馈错误信息。

如果需要发送指令，则需要像指定设备发送指定的指令。

“小瑞小瑞，19床输液机加快”：19床输液机反馈语音“19床输液机加快到每分钟15毫升”，并闪烁；

“小瑞小瑞，19床病床抬高”：19床床病设备反馈语音“19床床病抬高”，并闪烁；

“小瑞小瑞，19床采集体温”：19床病床体温采集设备反馈语音“19床体温采集进行中……体温36.8度，体温正常”，并闪烁；

“小兰小兰，19床病床抬高”:系统忽略指令，无反馈；

“小瑞小瑞，17床病床抬高”：智能终端(佩戴的耳机)直接给用户反馈语音“暂无法操作17床设备”，并闪烁；

“李医生，请看一下这个病人的用药情况……”系统忽略指令，无反馈，不影响医生讨论病情；

傍边另一个医生(UID为D002)说的“小瑞小瑞，19床采集体温”，系统忽略指令，无反馈，不影响本用户使用。

指定设备根据通信模块的指令，接收指令并动作。

“小瑞小瑞，19床输液机加快”：19床输液机加快到每分钟xxx毫升；

“小瑞小瑞，19床病床抬高”：“19床床病抬高”；

“小瑞小瑞，19床采集体温”：19床病床体温采集设备采集体温；

“小兰小兰，19床病床抬高”:系统忽略指令，无反馈；

“小瑞小瑞，17床病床抬高”：系统无动作；

以上，对本发明提供的用语音操作设备的系统及其工作原理进行了说明。

为便于实施本发明，下面还提供相应的方法。

请参考图3，本发明的一个实施例，提供一种用语音操作设备的方法。该方法由如图1所示的系统实施，用于操控多个设备。该方法可包括以下步骤：

31、移动终端采集用户语音，将采集的语音数据和UID以及定位数据发送到服务器；

32、服务器接收移动终端发送的语音数据和UID，对所述语音数据进行识别，包括进行声纹识别，当语音数据的声纹属于所述UID时，执行步骤33。

33、服务器对识别结果进行解析，获取唤醒词、DID和指令；

34、服务器根据所述移动终端的定位数据和所述目标设备的定位数据，进行位置筛选，当所述移动终端与所述目标设备的距离在设定范围内时，执行步骤35；

35、服务器如果检测到唤醒词和所述UID设定的唤醒词一致，则响应于所述语音数据，向所述DID表示的目标设备发送所述指令，以指示所述目标设备执行相应的操作。

根据需要，目标设备可以进行反馈，例如语音反馈。用户可根据语音反馈发出进一步的语音指令。

请参考图4，本发明的一个实施例，还提供一种服务器，包括：

接收模块41，用于接收移动终端发送的语音数据和用户标识UID；

语音识别模块42，用于对所述语音数据进行识别；

结果解析模块43，用于对所述语音识别模块的识别结果进行解析，获取唤醒词、设备标识DID和指令，检测唤醒词和所述UID设定的唤醒词是否一致；

发送模块44，用于如果检测到唤醒词和所述UID设定的唤醒词一致，则响应于所述语音数据，向所述DID表示的目标设备发送所述指令，以指示所述目标设备执行相应的操作。

一些实施例中，该服务器还可以进一步包括：声纹识别模块45；

所述声纹识别模块45，用于对所述语音数据进行声纹识别，判断所述语音数据的声纹是否属于所述UID；

所述结果解析模块43，还用于当所述语音数据的声纹属于所述UID时，才对识别结果进行解析。

一些实施例中，该服务器还可以进一步包括：位置筛选模块46；

所述接收模块41，还用于接收所述移动终端发送的定位数据；

所述位置筛选模块46，用于根据所述移动终端的定位数据和所述目标设备的定位数据，进行位置筛选，判断所述移动终端与所述目标设备的距离是否在设定范围内；

所述接收模块44，还用于当所述移动终端与所述目标设备的距离在设定范围内时，才响应于所述语音数据，向所述目标设备发送所述指令。

综上，本发明实施例公开了一种用语音操作设备的方法和系统及服务器，用于解决多个设备场景下语音唤醒存在干扰和唤醒词难以记忆的问题。从以上技术方案可以看出，本发明实施例具有以下优点。

1.用户通过移动终端和服务器唤醒和操控设备，唤醒本身不依赖需要操作的设备，同一个设备可以有多个唤醒词(针对不同用户)，因为唤醒操作取决于针对用户定义的唤醒词，唤醒词是绑定于用户的。

4.同时采用每个用户携带各自的移动终端作为语音采集设备，还有潜在的好处是相互干扰较小，即使两个用户在同一个房间(假设有一定距离)，如果同时说出各自的唤醒词的时候，对于本人的设备，还是本人的声音较大，干扰人(另一个用户)的声音较小。进一步的，即两个人很近，用户A的声音被用户B的采集设备收集，可以进行声纹识别处理，因此，系统不会误触发(即使两个用户设置的唤醒词相同也没有关系)。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

上述实施例仅用以说明本发明的技术方案，而非对其限制；本领域的普通技术人员应当理解：其依然可以对上述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用语音操作设备的系统，用于操控多个设备，其特征在于，包括：

移动终端和服务器；

所述移动终端，用于采集用户语音，将采集的语音数据和用户标识UID发送到所述服务器；

所述服务器，用于接收所述移动终端发送的语音数据和UID，对所述语音数据进行识别，对识别结果进行解析，获取唤醒词、设备标识DID和指令，如果检测到唤醒词和所述UID设定的唤醒词一致，则响应于所述语音数据，向所述DID表示的目标设备发送所述指令，以指示所述目标设备执行相应的操作；其中，所述唤醒词和用户关联，而不是和设备关联；

所述服务器还用于根据所述移动终端的定位数据和所述目标设备的定位数据，进行位置筛选，当所述移动终端与所述目标设备的距离在设定范围内时，才响应于所述语音数据，向所述目标设备发送所述指令。

2.根据权利要求1所述的系统，其特征在于，

所述服务器，还用于对所述语音数据进行声纹识别，当所述语音数据的声纹属于所述UID时，才对识别结果进行解析并进行响应的操作。

3.根据权利要求2所述的系统，其特征在于，

所述移动终端还用于向所述服务器发送自身的定位数据。

4.一种用语音操作设备的方法，用于操控多个设备，其特征在于，包括：

移动终端采集用户语音，将采集的语音数据和用户标识UID发送到服务器；

服务器接收移动终端发送的语音数据和UID，对所述语音数据进行识别，对识别结果进行解析，获取唤醒词、设备标识DID和指令；如果检测到唤醒词和所述UID设定的唤醒词一致，则响应于所述语音数据，向所述DID表示的目标设备发送所述指令，以指示所述目标设备执行相应的操作；其中，所述唤醒词和用户关联，而不是和设备关联；

所述服务器根据所述移动终端的定位数据和所述目标设备的定位数据，进行位置筛选，当所述移动终端与所述目标设备的距离在设定范围内时，才响应于所述语音数据，向所述目标设备发送所述指令。

5.根据权利要求4所述的方法，其特征在于，还包括：

服务器对所述语音数据进行声纹识别，当所述语音数据的声纹属于所述UID时，才对识别结果进行解析并进行响应的操作。

6.根据权利要求4所述的方法，其特征在于，还包括：

所述移动终端向所述服务器发送自身的定位数据。

7.一种服务器，其特征在于，包括：

接收模块，用于接收移动终端发送的语音数据和用户标识UID；

语音识别模块，用于对所述语音数据进行识别；

结果解析模块，用于对所述语音识别模块的识别结果进行解析，获取唤醒词、设备标识DID和指令，检测唤醒词和所述UID设定的唤醒词是否一致；

发送模块，用于如果检测到唤醒词和所述UID设定的唤醒词一致，则响应于所述语音数据，向所述DID表示的目标设备发送所述指令，以指示所述目标设备执行相应的操作；其中，所述唤醒词和用户关联，而不是和设备关联；

所述服务器还包括位置筛选模块，用于根据所述移动终端的定位数据和所述目标设备的定位数据，判断所述移动终端与所述目标设备的距离是否在设定范围内；

所述发送模块，还用于当所述移动终端与所述目标设备的距离在设定范围内时，才响应于所述语音数据，向所述目标设备发送所述指令。

8.根据权利要求7所述的服务器，其特征在于，还包括：声纹识别模块；

所述声纹识别模块，用于对所述语音数据进行声纹识别，判断所述语音数据的声纹是否属于所述UID；

所述结果解析模块，还用于当所述语音数据的声纹属于所述UID时，才对识别结果进行解析。

9.根据权利要求7所述的服务器，其特征在于，还包括：

所述接收模块，还用于接收所述移动终端发送的定位数据。