CN111048086B - 多设备间的语音唤醒方法、和自协商的语音唤醒方法、装置及系统 - Google Patents

多设备间的语音唤醒方法、和自协商的语音唤醒方法、装置及系统 Download PDF

Info

Publication number
CN111048086B
CN111048086B CN201911347016.9A CN201911347016A CN111048086B CN 111048086 B CN111048086 B CN 111048086B CN 201911347016 A CN201911347016 A CN 201911347016A CN 111048086 B CN111048086 B CN 111048086B
Authority
CN
China
Prior art keywords
equipment
audio data
awakening
characteristic value
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911347016.9A
Other languages
English (en)
Other versions
CN111048086A (zh
Inventor
马永建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN201911347016.9A priority Critical patent/CN111048086B/zh
Publication of CN111048086A publication Critical patent/CN111048086A/zh
Application granted granted Critical
Publication of CN111048086B publication Critical patent/CN111048086B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种多设备间的语音唤醒方法以及多设备自协商的语音唤醒方法、装置及系统,其通过在局域网内提供多设备语音唤醒解决方案,解决了多台设备同时唤醒的问题。而且,本发明的技术方案能够基于服务注册的信息进行服务发现,从而及时感知设备的加入,进而来协商确定主从设备关系,基于自协商确定的主从设备关系进行决策处理,不需要部署服务器,降低成本。此外,本发明的技术方案通过及时的服务发现和连接关系建立,从而将网络延迟被控制在有限的时间内,大大的提高了设备间的唤醒率,提高唤醒时用户体验的流畅性。

Description

多设备间的语音唤醒方法、和自协商的语音唤醒方法、装置及 系统
技术领域
本发明涉及设备唤醒技术领域,特别是一种多设备自协商的语音唤醒方法和系统、一种多设备间的语音唤醒方法、及一种适用于多设备语音唤醒的决策服务装置。
背景技术
随着科技水平的发展,通过语音唤醒的交互方式来唤醒设备进行相应处理已经越来越普遍,随之而来的是多个可以被语音唤醒的设备先后被唤醒或者同时被唤醒的问题。为了解决该问题,目前已有的技术是通过在云端进行唤醒决策,并根据决策结果向相应的设备反馈决策信息,从而将对应的设备唤醒。但这种实现方式存在诸多缺陷,例如包括如下缺陷:
一、由于该方式高度依赖外部网络和服务器,因而如果出现服务器宕机或掉网,所有的设备都不可用;二、由于是跨网交互,因而会存在延迟问题;三、部署专门的服务器成本较高;四、当设备很多时,在网络延迟的影响下很难进行正确的设备语音唤醒操作。
发明内容
为了解决上述问题,发明人构思通过在局域网内提供解决方案,来改善依赖云端决策服务时可能产生的各种缺陷。
根据本发明的第一个方面,提供了一种多设备间自协商的语音唤醒方法,包括如下步骤:
响应于接收到的服务注册信息,确定待连接设备,建立与待连接设备的通信连接;
根据通过通信连接接收到的其他设备的设备信息,设定本设备的设备状态;
响应于接收到的语音指令,获取本设备采集的音频数据的特征值,并根据本设备的设备状态进行唤醒决策处理,其包括
在本设备的设备状态为从设备时,将获取的本设备的音频数据的特征值发送给与之建立有通信连接的其他设备;
在本设备的设备状态为主设备时,获取来自其他设备的音频数据的特征值,并将获取到的所有设备的音频数据特征值进行比较,确定待唤醒设备,并向其输出唤醒指令。
通过基于服务注册和通知的方式进行服务发现,从而及时感知设备的加入,进而建立多台设备间的网络互联。之后,基于设备信息来协商确定设备的状态,以自协商确定主从设备关系,基于自协商确定的主从设备关系进行决策处理,彻底改善了旧有的中控决策模式,不再需要部署服务器,减低成本。而且,通过及时的服务发现和设备间长连接关系建立,从而将网络延迟被控制在有限的时间内,大大的提高了设备间的唤醒响应速度。另外,通过比较各个设备发送的音频数据的特征值,能够有效基于设备在唤醒时刻的响应速度、空间距离、环境情况等进行决策,提高唤醒时用户体验的流畅性(即从用户说出唤醒词到特定设备做出响应的速度)。
根据本发明的第二个方面,还提供了一种多设备间的语音唤醒方法,包括如下步骤:
设定局域网内各设备的设备状态;
响应于接收到的语音指令,获取本设备的音频数据的特征值,并根据本设备的设备状态进行唤醒决策处理,其包括
在本设备的设备状态为从设备时,将获取的本设备的音频数据的特征值发送给本局域网内已设定的主设备;
在本设备的设备状态为主设备时,接收其他设备的音频数据的特征值,并将获取到的所有设备的音频数据特征值进行比较,确定待唤醒设备并向之输出唤醒指令。
通过该方法,可以基于需求设定各个设备的设备状态,从而确定主从设备关系,之后基于设定的主从设备状态进行唤醒的决策处理,无须中控设备或服务器,节约成本。而且通过比较各个设备发送的音频数据的特征值,能够有效基于设备在唤醒时刻的响应速度、空间距离、环境情况等进行决策,提高唤醒时用户体验的流畅性(即从用户说出唤醒词到特定设备做出响应的速度)。
根据本发明的第三个方面,提供一种适用于多设备语音唤醒的决策服务装置,其包括:
服务发现模块,用于响应于接收到的服务注册信息,确定待连接设备,建立与待连接设备的通信连接;
自协商模块,用于根据通过通信连接接收到的其他设备的设备信息,设定本设备的设备状态;
特征值获取模块,用于获取本设备采集的音频数据的特征值;
发送模块,用于将特征值获取模块获取的音频数据的特征值发送给与之连接的其他设备;
决策模块,用于获取来自其他设备的音频数据的特征值,并将获取到的所有设备的音频数据特征值进行比较,确定待唤醒设备并向之输出唤醒指令;和
接收模块,用于接收决策模块发送的唤醒指令,根据唤醒指令进行唤醒响应处理;
其中,自协商模块还用于在特征值获取模块获取到本设备的音频数据特征值后,根据本设备的设备状态调用发送模块或决策模块进行相应处理。
通过该装置可以实现及时的服务发现,并且能够基于服务发现通过自协商来确定设备主从状态,进而基于主从状态来进行唤醒决策处理,改变现有的中控决策模式,不再需要部署中控设备和服务器,节约实现成本。并且,通过及时的服务发现和通信建立,能够大幅减少网络延时。另外,本装置还通过比较所有相关设备的特征值来进行决策,充分考虑设备的响应速度、空间距离等状况,提高唤醒的流畅性,进而大幅提高用户体验。
根据本发明的第四个方面,还提供了一种多设备自协商语音唤醒系统,其包括至少一个提供有语音唤醒模块的智能设备,智能设备上均设置有上述的适用于多设备语音唤醒的决策服务装置;其中,智能设备的语音唤醒模块配置为在接收到唤醒语音时,获取唤醒语音对应的音频数据输出至本智能设备上的决策服务装置的特征值获取模块;或根据接收到的本智能设备上的决策服务装置的接收模块的唤醒指令进行语音唤醒响应。该系统能够实现基于设备自协商来进行唤醒决策处理,不再需要依赖传统的中控模式,大幅提高响应速度和节约系统部署成本,并能够有效提高唤醒的流畅性,保证良好的用户体验。
附图说明
图1为本发明一实施方式的多设备自协商的语音唤醒方法流程图;
图2为本发明一实施方式的多设备间的语音唤醒方法流程图;
图3为本发明一实施方式的适用于多设备间的唤醒决策服务装置的原理框图;
图4为本发明一实施方式的多设备自协商的语音唤醒系统的原理框图;
图5为本发明一实施方式的电子设备原理示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/ 或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
下面结合附图对本发明作进一步详细的说明。
图1示意性地显示了根据本发明的一种用于多设备的自协商的语音唤醒方法流程图,如图1所示,本实施例包括如下步骤:
步骤S101:在设备接入局域网时,接入设备在局域网内进行服务注册和服务发现。
在实现自协商时,能够及时感知设备的变化,并及时做出协商调整是保证方案性能的关键。本实施例的自协商在局域网中进行实现,为了保证及时发现设备,在各个设备运行过程中,会对同一局域网内是否有设备动态加入与退出进行实时监测。其中,实时监测设备的加入与退出可以通过服务注册和服务发现来实现。其中,服务注册是指每个设备在接入局域网时,都会对同一局域网内的其他设备发送服务注册消息,其中,服务注册消息中包括有当前新加入的设备的地址信息如IP地址,以及当前新加入的设备是否具有决策能力,其中对决策能力的信息标记可以基于约定的协议来标识,例如通过标识字符标记(如“y”标识具有决策能力,“n”标识不具有决策能力),在其他实现例中该决策能力也可以通过指定的设备信息进行体现,如CPU占用率达到设定阈值则不具备决策能力,没达到则具备,此时需要在服务注册消息中写入设备的CPU占有率。而服务发现则是在接入设备接入局域网时,会基于其发送服务注册消息的通信链路,进行服务监听,以及时发现设备接入时发送的服务注册消息。
步骤S102:响应于接收到的服务注册信息,确定待连接设备,建立与待连接设备的通信连接。
局域网内的已有设备通过监听和接收新加入的设备的服务注册消息即通过在与服务注册的同一通信链路地址进行服务发现,并对其进行解析,即可获取到新加入设备的服务注册消息。根据该服务注册消息,就可以确定待连接设备,示例性地将具有决策能力的新加入设备判定为待连接设备,之后就可以基于服务注册消息中的IP地址与该设备建立持久的TCP通信连接,并基于该持久通信连接进行后续的通信交互。
其中,进行服务注册和服务发现的方式可以采用UDP广播的方式或 UDP组播的方式或mDNS组播的方式或SSDP(Simple Service Discovery Protocol,简单服务发现协议)的方式实现。以SSDP(Simple Service Discovery Protocol)简单服务发现协议为例,可以采用基于通知和发现路由的多播发现方式实现。这样,设备就可以设置为在保留的多播地址上进行服务注册和服务发现,同时每个设备也在此地址上监听alive(保活)消息和bye(断连)消息。由此可以有效监听设备的加入与退出。
步骤S103:根据通过该通信连接接收到的其他设备的设备信息,设定本设备的设备状态。
当设备建立连接后,主动获取与之建立了上述持久通信连接的设备的设备信息,示例性地设备信息包括CPU信息、计算能力、当前负载、空间信息等,根据设备信息判断设备处理能力,从而协商决定主从设备关系。具体可以是在仅有一个设备时,即没有与之连接的其他设备时,直接将本设备的设备状态设定为主设备;而对于存在其他与之连接的设备时,比较本设备与接收到的另一设备的设备处理能力,如果本设备的设备处理能力较低,则直接将本设备的设备状态设定为从设备,如果本设备的设备处理能力较高,则继续比较本设备与另一相连的其他设备的设备处理能力,直至依次完成所有相连的设备之间的比较,就可以将设备处理能力最高的设备的设备状态确定为主设备,而将其余设备的设备状态确定为从设备,通过该方式进行协商时,每个设备仅仅需要关系自己的设备状态,无需关心其他设备的设备状态,实现简单。其中,比较的设备处理能力可以根据需求来指定,例如比较CPU占有率、比较计算能力、比较当前负载或空间信息等,也可以结合多个指标进行综合比较,本发明实施例对此不进行限制,将获取的各设备信息与当前设备信息按指定的设备处理能力评价策略进行逐项对比,确定出主从设备关系即可。
步骤S104:响应于接收到的语音指令,获取本设备采集的音频数据的特征值,并根据本设备的设备状态进行唤醒决策处理。
本发明实施例基于音频数据的特征值进行唤醒决策处理。这样,每个设备在接收到用户语音进行语音唤醒处理后,如果确定该语音指令是自己匹配的唤醒词,就会首先针对该语音指令获取音频数据的特征值,具体实现过程可以是:首先对获取的语音指令对应的音频数据进行语音信号的处理,例如回声消除、波束成型、降噪等,由此可以去除影响语音唤醒的噪音,之后对该音频数据进行分析,分析其是否通过该音频可以被唤醒(即进行唤醒判断),若根据设备内部的预存的语音指令比对后可以被唤醒,再对此音频进行首尾切割,并对音频切割后的音频数据进行分析及特征值(也叫熵值)提取,该首尾切割的方式和特征值提取的方式可以参照现有技术实现。也就是说,每个设备都基于原有的语音唤醒处理进行唤醒监听,不同的是,在本发明实施例提供的多设备都具备语音唤醒功能的场景下,每个设备在监听到自己的唤醒语音时,会首先针对自己的拾音内容即音频数据进行特征值的提取,之后,会基于本发明实施例提供的唤醒决策处理方案进行决策处理。其中,具体进行的唤醒决策处理包括在本设备的设备状态为从设备时,将获取的本设备的音频数据的特征值发送给与之建立有上述持久通信连接的其他设备;在本设备的设备状态为主设备时,获取来自其他设备的音频数据的特征值,并将获取到的所有设备的音频数据特征值进行比较(包括主设备自身采集的音频数据的特征值),确定待唤醒设备,并向其输出唤醒指令。而相应的待唤醒设备就可以基于接收到的唤醒指令进行对用户唤醒语音的响应,实现在多个可唤醒设备同时存在的场合下,对设备的准确、快速的唤醒。示例性地,将获取到的所有设备的音频数据特征值进行比较确定待唤醒设备可以时将音频数据特征值最大的设备确定为待唤醒设备,而对于仅仅只有一个设备的场合,则可以直接将自己(此时根据前文叙述可知该设备自己为主设备)确定为待唤醒设备。
根据本实施例提供的方法可以实现:在单台设备工作时,设备被语音唤醒后能够自我决策给出唤醒响应;在多台设备工作时,设备被语音唤醒后由决策服务进行决策,根据特征值比较后指定某台设备作出响应。而且,通过在局域网内进行服务发现和监听设备连接,唤醒决策服务运行的主设备由多设备自我协商确定,无需人工干预,且不需要中控主机和服务器,降低成本,避免由于依赖主机容易导致整个方案因主机问题而瘫痪不可用的缺陷。另外,通过上述决策方法也可以将网络延迟被控制在有限的时间内,大大的提高设备间的唤醒响应速率。
由于人与设备间的距离、空间、环境及设备性能的差异性,对于用户的某次语音唤醒操作,每台设备的行为(响应、速度)存在差异性,可能的情况包括设备能否被唤醒、设备语音唤醒的响应速度有快有慢,所以需要设置一种采集机制来保证音频数据收集的合理性及正确性,避免同一次唤醒误判断;同时必须考虑到用户体验的流畅性(即从用户说出唤醒词到特定设备做出响应的速度)。由此,作为一种优选实现例,在设备获取音频数据的特征值进行决策时,还对获取的特征值进行时间窗口划分,将其划分为采样窗口特征值和非采样窗口特征值,即通过采样窗口方式获取不同设备的特征值,具体可以实现为以固定时间的采样窗口加上固定时间的非采样窗口的方式来收集多台设备的特征值信息。这样,将获取到的所有设备的音频数据特征值进行比较,确定待唤醒设备,就相应实现为仅仅将获取到的所有采样窗口特征值进行比较,根据比较结果确定待唤醒设备。由于唤醒时刻的随机性,所以应该在某次用户唤醒发生时在收到第一个特征值信息后才开始采样,同时并启动定时器进行定时采样,在固定的定时时间后进行大小判断。但是在采样时间之外,有可能收到同一次语音唤醒的特征值。所以需要加一个固定时间的非采样窗口来过滤这些特征值信息,避免重复开启采样过程,其中,采样窗口与非采样窗口的时间可以结合需求根据设备处理性能、网络环境、唤醒词等情况进行选择。这样,就可以仅仅对设定的采样窗口时间段接收到的唤醒进行决策处理,而忽略延时过于长的设备发来的唤醒音频,保证当次的唤醒响应速度,减少对当前唤醒的响应延时,同时基于非采样窗口的过渡时间段,能够有效将不同的两次唤醒隔离,从而避免对同一次唤醒的误操作和对下一次唤醒的及时响应。为了有效避免对同一次唤醒的误操作和保证能够对下一次唤醒进行及时响应,尤其时保证两次不同唤醒连续发生时对下一次唤醒的响应速度,采样窗口和非采样窗口的时间总和设定为不大于允许用户连续唤醒的时间间隔。
由于设备一般是通过无线网络接入方式接入互联网,由于各种原因,设备都是有可能出现断连的情况;考虑到现在大部分智能设备都是不自带电池的,设备也可能存在断电情况,所以需要实时维护多设备之间的网络连接。由此,作为一种优选实现方式,上述方法还可以包括如下:在建立的通信连接上设置PING-PONG保活机制。相应地,在进行语音唤醒决策处理的过程中,设备之间基于PING-PONG保活机制实时检测设备的连接情况,并在判断连接断开时,根据服务发现的状态判断设备是否退出,由于服务发现时会通过服务监听的方式进行超时监测,基于超时监测的状态就可以判断其通信链路的通断情况,进而可以基于服务发现的监听状态判断设备是否退出。也就是,作为优选实现例,还可以通过PING-PONG的方式监听主设备和从设备的连接状态,当通过PING-PONG的方式检测到存在设备断连的情况时,则进而检查服务发现的监听链路的连接是否发生断连,如果也断连,并且通过预定次数的主动连接依然无法连接上,则认为该设备断连;否则,重新建立与其他设备的连接。当当前设备与已连接的设备断开,则其它连接的设备会按照上述方法进行自协商判断确定主从设备关系。由此可以达到无需中控设备、无需人工参与、操作简单的效果,就算主设备断电断连后,其他设备也自动协商重新选定主设备,以保证整个设备系统的稳定。且通过本方案可以实现双重保活机制,保证整个网络中设备的连接状态是稳定的、及时有效的。
图2示意性地显示了本发明一种实时方式的多设备间的语音唤醒方法,该方案也能够实现局域网内多设备同时唤醒时的决策服务,其与图1 所示的方法的不同在于,该方案可以基于需求人工设定主从设备关系,并基于设定的主从设备关系进行决策服务和唤醒响应,如图2所示,本发明实施例的方法包括如下步骤:
步骤S201:设定局域网内各设备的设备状态。示例性地,可以实现为通过在设备上人工选择设备的设备状态,从而确定局域网内各个设备的主主从设备关系。例如,通过设备上装载的app的用户界面,将设备设定为主设备或从设备,同时对设定为从设备的设备,在进行设备状态设定的同时设置与之关联的主设备的IP地址。这样,每个设备在进行语音唤醒响应处理时,就可以基于该设定判断自己的设备状态(例如通过与用户界面上对应的状态标志位的值来判断)。
步骤S202:响应于接收到的语音指令,获取本设备的音频数据的特征值,并根据本设备的设备状态进行唤醒决策处理。该步骤的实现方式可以参照图1所示实施例的步骤S104,不同仅在于在进行唤醒决策处理时,在本设备的设备状态为从设备时,由于主设备是已知确定的,因而从设备是根据设定的主设备的IP地址将获取的音频数据的特征值发送给本局域网内已设定的主设备,而不是像图1的自协商方案中那样将特征值发送给所有的与之建立了通信连接的其他设备,以由主设备自己进行响应处理(自协商模式中其他从设备会自动忽略来自从设备的特征值消息)。
该发明实施例的方案能够非常简单地实现局域网内的唤醒决策处理,且能避免网络延时带来的不良,保证用户唤醒的流畅性。但由于需要人工参与来设定设备状态,在主机断电后不能自动建立连接和重新选择主设备,因而对用户来说不如自协商那样友好。
其中,需要说明的是,上述提及的设定采样窗口以及建立双保活监测机制的优选实施方式,也同样适用图2所示的实施例,故在此不赘述。
图3示意性地显示了一种实施方式的适用于多设备语音唤醒的决策服务装置3,如图3所示,其包括:
服务注册模块30,用于在设备接入局域网时,向同一局域网内的其他设备进行服务注册;
服务发现模块31,用于响应于接收到的服务注册信息,确定待连接设备,建立与待连接设备的通信连接;
自协商模块32,用于根据通过通信连接接收到的其他设备的设备信息,设定本设备的设备状态;
特征值获取模块33,用于获取本设备采集的音频数据的特征值;
发送模块34,用于将特征值获取模块获取的音频数据的特征值发送给与之连接的其他设备;
决策模块35,用于获取来自其他设备的音频数据的特征值,并将获取到的所有设备的音频数据特征值进行比较,确定待唤醒设备并向之输出唤醒指令;和
接收模块36,用于接收决策模块发送的唤醒指令,根据唤醒指令进行唤醒响应处理;
其中,自协商模块还用于在特征值获取模块获取到本设备的音频数据特征值后,根据本设备的设备状态调用发送模块或决策模块进行相应处理。
图4示意性地显示了一种实施方式的多设备自协商语音唤醒系统,其包括至少一个提供有语音唤醒模块20的智能设备2,智能设备2上均设置有上述的适用于多设备语音唤醒的决策服务装置3。
这样,在将智能设备接入局域网时,就可以通过启动其上的决策服务装置,来调用服务注册模块30完成服务注册,并通过调用服务发现模块31 来监听和建立与新加入的具有决策能力(本实施例可以实现为安装了决策服务装置的设备)智能设备的通信连接。之后,在用户在该局域网范围内发出了语音指令时,智能设备的语音唤醒模块20会通过唤醒监听来进行是否能够被唤醒的判断,在捕获到与之配置的唤醒词匹配的用户语音指令时(即发现当前用户语音指令是能够唤醒该智能设备时),会获取唤醒语音对应的音频数据输出至本智能设备上的所述决策服务装置3(在其他实现例中,也可以是由语音唤醒模块20直接计算特征值后输出该特征值获取模块 33)。该决策服务装置3就会通过其特征值获取模块33获取到本设备上捕获到的唤醒语音的特征值(具体获取特征值的方式与前文相同,为:对此音频数据进行首尾切割,并对音频切割后的音频数据进行分析及特征值提取,该首尾切割的方式和特征值提取的方式可以参照现有技术实现),此时自协商模块32会根据设备状态,在设备状态为从设备时,调用发送模块34 将本设备捕获到的唤醒语音对应的特征值发送给与之建立了通信连接的其他设备。作为从设备的其他设备在接收到包含设备的音频数据特征值的消息时,会忽略该消息,而作为主设备的其他设备则会通过其决策模块35对该消息的解析,来获取来自其他设备的音频数据特征值,并通过比较所有接收到的音频数据特征值的大小来确定需要进行唤醒响应的设备即待唤醒设备。而自协商模块33在判断本设备的设备状态为主设备时,则调用决策模块35来获取其他设备的音频数据特征值,并将所有音频数据特征值(包括自身的音频数据特征值)进行比较从而确定待唤醒设备。在确定了待唤醒设备时,主设备的决策模块35根据协议内容生成符合协议格式的唤醒指令发给相应的设备,而相应的设备则通过其接收模块36接收该唤醒指令进行语音唤醒响应。当然,如果系统中仅仅只有一个设备时,则时将自身设定为主设备,并将唤醒指令发送给自己,由该唯一的设备进行唤醒响应。
作为一种优选实现方式,如图3所示决策模块35实现为包括:
第一采样单元35A,用于设定第一采样时间,并将在第一采样时间内获取到的音频数据的特征值标记为采样窗口特征值;
第二采样单元35B,用于设定第二采样时间,并将在第二采样时间内获取到的音频数据的特征值标记为非采样窗口特征值;和
比较单元35C,用于获取采样窗口特征值进行比较,根据比较结果确定待唤醒设备并向之输出唤醒指令。
优选地,智能设备之间还可以通过PING-PONG的方式来监听设备间的连接状态,由此实现基于PING-PONG方式和服务发现监听的双保活机制。
其中,上述的各模块具体的实现方式可以参照上述方法部分的描述,在此不进行赘述。
通过本发明实施例的装置和系统可以实现:在单台设备工作时,设备被语音唤醒后能够自我决策给出唤醒响应;在多台设备工作时,设备被语音唤醒后由决策服务进行决策,根据特征值比较后指定某台设备作出响应。而且,通过在局域网内进行服务发现和监听设备连接,唤醒决策服务运行的主设备由多设备自我协商确定,无需人工干预,且不需要中控主机和服务器,降低成本,避免由于依赖主机容易导致整个方案因主机问题而瘫痪不可用的缺陷。另外,通过上述决策方法也可以将网络延迟被控制在有限的时间内,大大的提高设备间的唤醒响应速率。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述用于多设备自协商的语音唤醒的方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当所程序指令被计算机执行时,使计算机执行上述用于多设备自协商的语音唤醒的方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被所述至少一个处理器执行,以使至少一个处理器能够执行上述用于多设备自协商的语音唤醒的方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时能够执行上述用于多设备自协商的语音唤醒的方法。
上述本发明实施例的用于多设备自协商的语音唤醒的装置可用于执行本发明实施例的用于多设备自协商的语音唤醒的方法,并相应的达到上述本发明实施例的实现用于多设备自协商的语音唤醒的方法所达到的技术效果,这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (13)

1.多设备间自协商的语音唤醒方法,其特征在于,包括如下步骤:
响应于接收到的服务注册信息,确定待连接设备,建立与待连接设备的通信连接;
根据通过所述通信连接接收到的其他设备的设备信息,设定本设备的设备状态;
响应于接收到的语音指令,获取本设备采集的音频数据的特征值,并根据本设备的设备状态进行唤醒决策处理,其包括
在本设备的设备状态为从设备时,将获取的本设备的音频数据的特征值发送给与之建立有通信连接的其他设备;
在本设备的设备状态为主设备时,获取来自其他设备的音频数据的特征值,并将获取到的所有设备的音频数据特征值进行比较,确定待唤醒设备,并向其输出唤醒指令。
2.根据权利要求1所述的语音唤醒方法,其特征在于,还包括如下步骤:
在设备接入局域网时,接入设备在局域网内进行服务注册和服务监听。
3.根据权利要求1所述的语音唤醒方法,其特征在于,所述方法还包括
对获取的音频数据的特征值进行时间窗口划分,将其划分为采样窗口特征值和非采样窗口特征值;其中,
所述将获取到的所有设备的音频数据特征值进行比较,确定待唤醒设备实现为仅仅将获取到的所有采样窗口特征值进行比较,根据比较结果确定待唤醒设备。
4.根据权利要求3所述的语音唤醒方法,其特征在于,所述采样窗口和非采样窗口的时间总和设定为不大于允许用户连续唤醒的时间间隔。
5.根据权利要求1所述的语音唤醒方法,其特征在于,还包括
在建立与待连接设备的通信连接之后,还在所述通信连接上通过PING-PONG的方式监听主设备和从设备之间的连接状态;
所述语音唤醒方法还包括
在基于PING-PONG方式检测到设备间的通信连接断开时,根据服务监听的状态判断设备是否退出。
6.多设备间的语音唤醒方法,其特征在于,包括如下步骤:
设定局域网内各设备的设备状态;
响应于接收到的语音指令,获取本设备采集的音频数据的特征值,并根据本设备的设备状态进行唤醒决策处理,其包括
在本设备的设备状态为从设备时,将获取本设备的音频数据的特征值发送给本局域网内已设定的主设备;
在本设备的设备状态为主设备时,接收其他设备的音频数据的特征值,并将获取到的所有设备的音频数据特征值进行比较,确定待唤醒设备并向之输出唤醒指令。
7.根据权利要求6所述的语音唤醒方法,其特征在于,还包括
对获取的特征值进行时间窗口划分,将其划分为采样窗口特征值和非采样窗口特征值;其中,
所述将获取到的所有设备的音频数据特征值进行比较,确定待唤醒设备实现为仅仅将获取到的所有采样窗口特征值进行比较,根据比较结果确定待唤醒设备。
8.根据权利要求7所述的语音唤醒方法,其特征在于,所述采样窗口和非采样窗口的时间总和设定为不大于允许用户连续唤醒的时间间隔。
9.根据权利要求6至8任意一项所述的方法,其特征在于,还包括如下步骤:
通过PING-PONG的方式监听主设备和从设备之间的连接状态。
10.适用于多设备语音唤醒的决策服务装置,其特征在于,包括:
服务发现模块,用于响应于接收到的服务注册信息,确定待连接设备,建立与待连接设备的通信连接;
自协商模块,用于根据通过所述通信连接接收到的其他设备的设备信息,设定本设备的设备状态;
特征值获取模块,用于获取本设备采集的音频数据的特征值;
发送模块,用于将特征值获取模块获取的音频数据的特征值发送给与之连接的其他设备;
决策模块,用于获取来自其他设备的音频数据的特征值,并将获取到的所有设备的音频数据特征值进行比较,确定待唤醒设备并向之输出唤醒指令;和
接收模块,用于接收决策模块发送的唤醒指令,根据唤醒指令进行唤醒响应处理;
其中,所述自协商模块还用于在特征值获取模块获取到本设备的音频数据特征值后,根据本设备的设备状态调用发送模块或决策模块进行相应处理。
11.根据权利要求10所述的装置,其特征在于,还包括:
服务注册模块,用于在设备接入局域网时,向同一局域网内的其他设备进行服务注册。
12.根据权利要求11所述的装置,其特征在于,决策模块包括:
第一采样单元,用于设定第一采样时间,并将在第一采样时间内获取到的音频数据的特征值标记为采样窗口特征值;
第二采样单元,用于设定第二采样时间,并将在第二采样时间内获取到的音频数据的特征值标记为非采样窗口特征值;和
比较单元,用于获取采样窗口特征值进行比较,根据比较结果确定待唤醒设备并向之输出唤醒指令。
13.多设备自协商语音唤醒系统,其特征在于,包括至少一个提供有语音唤醒模块的智能设备,所述智能设备上均设置有权利要求10至12任一项所述的适用于多设备语音唤醒的决策服务装置;其中,
所述智能设备的语音唤醒模块配置为在接收到唤醒语音时,获取唤醒语音对应的音频数据输出至本智能设备上的所述决策服务装置的特征值获取模块;或根据接收到的本智能设备上的决策服务装置的接收模块的唤醒指令进行语音唤醒响应。
CN201911347016.9A 2019-12-24 2019-12-24 多设备间的语音唤醒方法、和自协商的语音唤醒方法、装置及系统 Active CN111048086B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911347016.9A CN111048086B (zh) 2019-12-24 2019-12-24 多设备间的语音唤醒方法、和自协商的语音唤醒方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911347016.9A CN111048086B (zh) 2019-12-24 2019-12-24 多设备间的语音唤醒方法、和自协商的语音唤醒方法、装置及系统

Publications (2)

Publication Number Publication Date
CN111048086A CN111048086A (zh) 2020-04-21
CN111048086B true CN111048086B (zh) 2022-10-21

Family

ID=70238805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911347016.9A Active CN111048086B (zh) 2019-12-24 2019-12-24 多设备间的语音唤醒方法、和自协商的语音唤醒方法、装置及系统

Country Status (1)

Country Link
CN (1) CN111048086B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634885A (zh) * 2020-05-18 2021-04-09 北京如影智能科技有限公司 一种跨局域网的语音唤醒方法和装置
CN111613221A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 一种就近唤醒方法、装置和系统
CN111724780B (zh) * 2020-06-12 2023-06-30 北京小米松果电子有限公司 设备的唤醒方法及装置、电子设备、存储介质
CN112420041B (zh) * 2020-11-19 2023-08-29 深圳市欧瑞博科技股份有限公司 智能设备唤醒阈值的控制方法、装置、智能设备及存储介质
CN113689857B (zh) * 2021-08-20 2024-04-26 北京小米移动软件有限公司 语音协同唤醒方法、装置、电子设备及存储介质
CN114168208A (zh) * 2021-12-07 2022-03-11 思必驰科技股份有限公司 唤醒决策方法及电子设备和存储介质
CN115457955A (zh) * 2022-07-29 2022-12-09 青岛海尔科技有限公司 分布式唤醒的决策方法、装置、存储介质及电子装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
CN108766432A (zh) * 2018-07-02 2018-11-06 珠海格力电器股份有限公司 一种控制家电间协同工作的方法
CN109754798B (zh) * 2018-12-20 2021-10-15 歌尔股份有限公司 多音箱同步控制方法、系统及音箱

Also Published As

Publication number Publication date
CN111048086A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111048086B (zh) 多设备间的语音唤醒方法、和自协商的语音唤醒方法、装置及系统
US9693252B1 (en) Detecting device presence for a layer 3 connection using layer 2 discovery information
EP3010289B1 (en) Method and apparatus for controlling signal transmission and computer program product
KR101928602B1 (ko) 웨이크 패턴 관리 기법
US8467303B2 (en) Method and apparatus for preventing network conflict
CN109617731A (zh) 一种多网关环境下自适应的网关角色配置方法及装置
US20230247388A1 (en) Communication system, method and device for miniature intelligent sensor
EP2448366A2 (en) Method for determining a group owner in a wireless network
CN109040295B (zh) 异常断线的确定方法及装置、终端及存储介质
US10251130B2 (en) Adaptive and static keep alive message detection and simulation
CN112738834A (zh) 一种mesh组网网络应急管理方法和电子设备
EP2391061A1 (en) Method, apparatus and system for configuring master-slave network devices
WO2014112811A1 (en) Method and apparatus for controlling traffic in electronic device
CN105340214A (zh) 用于唤醒使能应用的模式合并
CN110933171A (zh) 一种服务器异步通信方法、装置、设备及计算机存储介质
JP2014082602A (ja) 通信装置及びその制御方法
CN105515937B (zh) 一种即时通讯方法、终端、服务器以及系统
CN112653865A (zh) 视频通话处理方法、装置和电子设备
CN112003943A (zh) 语音数据同步方法和装置
BR102012028349B1 (pt) Método para gerenciar recursos de rádio móvel para aperfeiçoamento de recepção de pacotes
CN108712783B (zh) 一种capwap隧道建立方法及装置
US11729289B2 (en) Push message communication apparatus
CN112616176A (zh) 设备的唤醒方法及装置、控制方法及装置
CN109756972A (zh) 一种唤醒应用程序的方法、网络侧设备及终端
US10069671B2 (en) Method and apparatus for processing abnormality of application proxy client

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant