CN115966207A - 控制方法、装置、局域网、电子设备和存储介质 - Google Patents
控制方法、装置、局域网、电子设备和存储介质 Download PDFInfo
- Publication number
- CN115966207A CN115966207A CN202211730367.XA CN202211730367A CN115966207A CN 115966207 A CN115966207 A CN 115966207A CN 202211730367 A CN202211730367 A CN 202211730367A CN 115966207 A CN115966207 A CN 115966207A
- Authority
- CN
- China
- Prior art keywords
- terminal
- user voice
- response
- terminals
- area network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种控制方法、装置、局域网、电子设备和存储介质,其中方法包括:接收所述局域网中任意终端采集并发送的用户语音;基于所述局域网中各终端的终端信息,以及所述用户语音,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作;所述决策终端是基于所述各终端的终端算力确定的。本发明提供的方法、装置、局域网、电子设备和存储介质,通过接收局域网中任意终端采集并发送的用户语音,基于局域网中各终端的终端信息,以及用户语音,决策终端从各终端中确定出响应终端,并控制响应终端执行用户语音的响应操作,能够更加快速、灵活地实现多终端之间的整体联动。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种控制方法、装置、局域网、电子设备和存储介质。
背景技术
随着人工智能技术的发展,智能家居走进了越来越多的家庭中,而且一个家庭内的智能家居终端的品种以及数量往往有多个,并且不同终端的能力、属性都会有差异。
为了实现智能家居终端之间的协同工作,目前将多个终端配置组成网络,多个终端之间通过传统能量值方案,判断出距离声源近的终端作为交互终端,进而将该终端作为被控终端,用于执行交互。
但是,将多个终端完成组网只用于解决一呼百应的问题,没有将组网内各终端的能力加以统筹,在执行方面仍然是单兵作战,所以,整体灵活度低,展现不够智能。
发明内容
本发明提供一种控制方法、装置、局域网、电子设备和存储介质,用以解决现有技术中多终端组网不够智能和灵活的缺陷。
本发明提供一种控制方法,该方法应用于局域网中的决策终端,方法包括:
接收所述局域网中任意终端采集并发送的用户语音;
基于所述局域网中各终端的终端信息,以及所述用户语音,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作;
所述决策终端是基于所述各终端的终端算力确定的。
根据本发明提供的一种控制方法,所述接收所述局域网中任意终端采集并发送的用户语音,之前还包括:
向所述各终端发送同步信号,以使所述各终端基于所述同步信号进行时钟同步;
所述基于所述局域网中各终端的终端信息,以及所述用户语音,从所述各终端中确定出响应终端,包括:
基于从不同终端处接收同一用户语音的接收时间,以及所述不同终端的终端位置,确定所述用户语音对应说话人的说话人位置;
基于所述局域网中各终端的终端信息、所述用户语音,以及所述说话人位置,从所述各终端中确定出响应终端。
根据本发明提供的一种控制方法,所述基于从不同终端处接收同一用户语音的接收时间,以及所述不同终端的终端位置,确定所述用户语音对应说话人的说话人位置,包括:
基于从不同终端处接收同一用户语音的接收时间之间的时间差,确定所述不同终端与所述说话人之间的距离差;
基于所述不同终端与所述说话人之间的距离差,以及所述不同终端的终端位置,确定所述说话人位置。
根据本发明提供的一种控制方法,所述基于所述局域网中各终端的终端信息、所述用户语音,以及所述说话人位置,从所述各终端中确定出响应终端,包括:
基于所述说话人位置,以及所述各终端的终端位置,从所述各终端中确定出热区终端;
基于各热区终端的终端信息,以及所述用户语音,从所述各热区终端中确定出所述响应终端。
根据本发明提供的一种控制方法,所述终端信息包括终端的可实现功能、当前运行状态以及历史运行数据中的至少一种。
本发明还提供一种控制方法,该方法应用于局域网中的任意终端,方法包括:
采集用户语音;
将所述用户语音传输至决策终端,以供所述决策终端基于所述用户语音,以及所述局域网中各终端的终端信息,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作;
所述决策终端是基于所述各终端的终端算力确定的。
根据本发明提供的一种控制方法,还包括:
接收所述决策终端发送的同步信号;
基于所述同步信号进行时钟同步。
本发明还提供一种控制装置,该装置应用于局域网中的决策终端,该装置包括:
接收单元,接收所述局域网中任意终端采集并发送的用户语音;
响应单元,基于所述局域网中各终端的终端信息,以及所述用户语音,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作;
所述决策终端是基于所述各终端的终端算力确定的。
本发明还提供一种控制装置,该装置应用于局域网中的任意终端,该装置包括:
采集单元,采集用户语音;
传输单元,将所述用户语音传输至决策终端,以供所述决策终端基于所述用户语音,以及所述局域网中各终端的终端信息,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作;
所述决策终端是基于所述各终端的终端算力确定的。
本发明还提供一种局域网,包括互联的至少两个终端,所述至少两个终端中包括基于各终端的终端算力确定的决策终端;
所述至少两个终端中的任意终端用于采集用户语音,并将所述用户语音传输至所述决策终端;
所述决策终端用于接收所述用户语音,并基于所述各终端的终端信息,以及所述用户语音,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的控制方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的控制方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的控制方法。
本发明提供的控制方法、装置、局域网、电子设备和存储介质,通过接收局域网中任意终端采集并发送的用户语音,基于局域网中各终端的终端信息,以及用户语音,决策终端从各终端中确定出响应终端,并控制响应终端执行用户语音的响应操作,能够更加快速、灵活地实现多终端间的整体联动。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的应用于决策终端的控制方法的流程示意图;
图2是本发明提供的确定响应终端的流程示意图之一;
图3是本发明提供的应用于任意终端的控制方法的流程示意图;
图4是本发明提供的控制方法的流程示意图;
图5是本发明提供的确定响应终端的流程示意图之二;
图6是本发明提供的应用于局域网中的决策终端的控制装置的结构示意图;
图7是本发明提供的应用于局域网中的任意终端的控制装置的结构示意图;
图8是本发明提供的局域网内各终端的关联示意图;
图9是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中将多个终端完成组网只用于解决一呼百应的问题,并没有将组网中终端的能力加以统筹,所以,各终端在执行方面仍然是单兵作战,整体展现不够智能和灵活。
针对上述问题,本发明提供一种控制方法,以实现灵活协同的多终端之间的控制。图1为本发明提供的应用于决策终端的控制方法的流程示意图,如图1所示,该方法包括:
步骤110,接收所述局域网中任意终端采集并发送的用户语音;
具体地,在一定范围的物理空间内,存在多个智能的终端,比如,在家里各个区域存在智能冰箱、智能电视、智能音响等终端。这些终端之间可以通过路由器、智能网关等网关设备实现局域网连接,此处的局域网,具体可以采用自适应组网等其他网络技术实现。
局域网中,可以包含多个终端,且其中存在一个承担决策角色的终端,即决策终端。此处的决策终端,是根据局域网内所有终端的终端算力确定的,终端算力可以反映该终端处理数据的能力。通常,一个局域网内的所有终端中,将终端算力最强的终端作为决策终端。同样的,决策终端也具备其他任意终端具有的能力,比如采集用户语音。由于决策终端的终端算力比其他终端更强,可以接收其他终端发送的用户语音,并根据用户语音,计算并控制其他终端实现针对用户语音的响应。此处,从各终端中选出决策终端,可以通过各终端的处理器核心数量、计算频率、存储容量进行加权求和得到各终端的终端算力,将各终端的终端算力进行排序,取终端算力最大的终端作为决策终端。可以理解的是,决策终端,即本发明实施例提供的控制方法的执行主体。
在此局域网范围内的任意终端,都可以采集用户语音,并将采集所得的用户语音发送给决策终端。相应地,决策终端可以接收局域网内任意终端采集并发送的用户语音。比如,用户站在房间说请打开客厅的电视,播放电影,此时房间的智能音响可以采集到用户语音,并将采集的用户语音发送到决策终端。此处,局域网内的任意终端将在采集到的用户语音传输到决策终端,可以是任意终端通过语音采集设备采集到用户语音后,对用户语音的声音信号进行波束成形处理,通过检测特征,然后分析处理得到数据,并将数据上传到决策终端。又或者,直接将采集到的用户语音发送到决策终端,由决策终端进行用户语音的特征分析。
步骤120,基于所述局域网中各终端的终端信息,以及所述用户语音,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作。
具体地,决策终端在接收到用户语音之后,可以根据局域网内所有终端的终端信息,以及接收到的用户语音的内容,从各终端中确定出响应终端,并控制响应终端执行针对用户语音的响应操作。
此处,终端信息用于反映终端的相关情况,进而反映终端本身是否能够执行用户语音对应的响应操作,终端信息可以包括终端属性、终端历史信息、终端状态信息中的至少一种。其中,终端属性可以是终端的注册信息,比如,终端名称、终端型号、终端类型、终端具备的功能、处理器核心数量、计算频率、存储容量等信息;终端历史信息可以是终端在距离当前某一周期内的历史使用记录,比如,近一天、一周的历史使用记录;终端状态信息可以是终端当前的状态信息,比如,终端在线且正在工作、终端在线且空闲、终端离线、终端故障中等反映终端当前状态信息。可以理解的是,终端的属性,能够反映终端具备的能力,比如智能电视可以播放视频和音频、智能音箱可以播放音频等,决策终端可以根据用户语音中的内容和各终端属性所反映的终端具备的能力,初步确定能够执行用户语音的指示的终端作为响应终端。终端历史信息,能够反映对应终端在过去一段时间的工作状态,在出现多个终端都可以作为响应终端时,可以根据各终端的历史信息,选择最常用的终端比不常用的终端更可靠。或者,针对用户语音中涉及到历史操作的情况,例如“播放昨天播过的电视剧”,终端历史信息能够作为用户语音所指示的内容的补充,并且作为响应终端筛选的依据,例如从多个具备播放功能的终端中选出昨天执行过播放操作的终端作为响应终端。终端状态信息,能够反映当前终端的状态,例如可以优先选取终端状态为在线且空闲的终端作为响应终端。
另外,此处的响应终端,指的是可以直接执行用户语音中所包含的指令的终端,或者,在不能直接执行用户语音中所包含的指令的情况下,用于与用户语音交互的终端。并且,根据用户语音内容中的指令信息,响应终端可以是一个或者多个。比如,用户语音中包含播放视频,则智能音箱和智能电视都可以作为响应终端,由智能音箱承载视频中的音频播放任务,智能电视承载视频播放任务。此处,响应终端执行用户语音中的指令,可以是决策终端控制响应终端做出对应的响应操作,比如可以通过决策终端向响应终端发送包含响应操作信息的指令,响应终端接收到决策终端的响应指令,则根据响应指令执行对应的响应操作。通过决策终端控制响应终端执行对应的响应操作,相较于采集到用户语音的终端自行进行数据处理,从而确定并控制响应终端而言,响应速度更快,响应结果的准确性更高。并且,由于同时采集到用户语音的终端可能有多个,通过决策终端汇总进行数据处理,相较于每个采集到用户语音的终端均进行数据处理,也能够节省局域网整体的计算资源。
另外,此处的响应操作,可以是根据终端自身具备的功能和接收到的响应指令,执行对应的操作。比如,智能音箱执行播放音乐的操作。又可以是,用于与说话人进行语音交互的操作。比如,比如当前说话人在没有智能电视的卧室,卧室的智能音箱采集到内容为想要跳健美操的用户语音,则此时卧室的智能音箱可以作为响应终端与说话人进行交互,引导说话人到客厅去进行跳健美操。当说话人到客厅后,客厅的智能音箱采集到内容为已经到客厅了的用户语音,则此时客厅的智能音箱和智能电视可以一起作为响应终端,其中智能音箱承载视频中的音频播放任务,智能电视承载视频播放任务。
本发明实施例提供的方法,通过接收局域网中任意终端采集并发送的用户语音,基于局域网中各终端的终端信息,以及用户语音,决策终端从各终端中确定出响应终端,并控制响应终端执行用户语音的响应操作,能够更加快速、灵活地实现多终端之间的整体联动。
在确定响应终端时,还可以参考用户语音所对应说话人的说话人位置,从而进一步优化用户体验。现有技术在说话人定位方面,使用传统能量值技术方案,其精度较差,在传统的家居噪音场景下表现的尤甚,这就直接导致说话人定位错误,以至于后续的交互、控制都会出现错误。
为了解决这一问题,本发明实施例中提出在局域网中各终端时钟同步的前提下,基于接收到各终端分别发送的同一个用户语音的时间差,定位说话人位置的方法。
基于上述任一实施例,步骤110中,所述接收所述局域网中任意终端采集并发送的用户语音,之前还包括:
向所述各终端发送同步信号,以使所述各终端基于所述同步信号进行时钟同步。
通常各个终端可能存在终端时钟不同步的情况,为实现多个终端之间整体的联动,需要各个终端的时钟同步。具体地,决策终端可以向局域网内的各个终端发送同步信号,各终端接收到同步信号后,以接收到同步信号的时间更新各自终端的时钟,进而完成各终端的时钟同步。可以理解的是,局域网内任意终端都集成了一个同步信号的无线发送和接收设备,比如射频发送和接收设备。由于通过无线形式传递,所以同步信号接收设备产生的各终端接收同步信号时间误差非常小,即,可以看作为各终端会同时采集到同步信号,进而各终端完成时钟同步。
基于上述任一实施例,图2为本发明提供的确定响应终端的流程示意图之一,如图2所示,步骤120包括:
步骤210,基于从不同终端处接收同一用户语音的接收时间,以及所述不同终端的终端位置,确定所述用户语音对应说话人的说话人位置;
具体地,由于说话人与各终端的距离不同,所以各终端采集到说话人的同一用户语音的时间是不同的,各终端将采集到的同一用户语音发送到决策终端的时间也是不同的。相应地,针对决策终端而言,决策终端接收到不同终端发送的同一用户语音的接收时间也不相同。比如,说话人站在房间内发出唤醒词和指令,说“哈喽,我想学健美操”,此时房间的智能音箱和智能电视等其他终端,都可以采集到说话人的用户语音,但是采集到的时间是不同的,例如说话人更接近智能音箱时,智能音箱相较于智能电视采集到用户语音的时间更早一些,于是智能音箱将用户语音发送到决策终端的时间也比智能电视更早一些,相应地,决策终端会先接收到智能音箱发送的用户语音,后接收到智能电视发送的用户语音。可以理解的是,在各终端时钟同步的前提下,决策终端接收到不同终端处发送的同一用户语音的接收时间中,越早的接收时间对应的终端,距离说话人越近。
根据从各终端处接收同一用户语音的接收时间的不同,能够初步判断说话人距离各终端的远近。在此基础上,结合各终端的终端位置,即可确定出用户语音对应说话人的说话人位置。
步骤220,基于所述局域网中各终端的终端信息、所述用户语音,以及所述说话人位置,从所述各终端中确定出响应终端。
具体地,通过局域网中各终端的终端信息、用户语音,可以确定响应终端,为进一步提高确定响应终端的可靠性,还可以根据说话人的位置进行确定。此处,说话人的位置可以反映说话人与各终端的距离。可以理解的是,若根据各终端的终端信息和用户语音确定出多个终端,都可以作为响应终端。此时,选择距离说话人更近的终端作为响应终端更加合理。
本发明实施例提供的方法,在各终端时钟同步的前提下,基于从不同终端处接收同一用户语音的接收时间,进行说话人定位,实现了精准可靠的说话人定位,在此基础上结合说话人位置确定响应终端,能够进一步提高多终端协同下人机交互的合理性和可靠性。
基于上述任一实施例,步骤210包括:
基于从不同终端处接收同一用户语音的接收时间之间的时间差,确定所述不同终端与所述说话人之间的距离差;
基于所述不同终端与所述说话人之间的距离差,以及所述不同终端的终端位置,确定所述说话人位置。
具体地,在从不同终端处分别接收到同一用户语音之后,可以计算不同终端处的接收时间之间的时间差。可以理解的是,由于说话人与各终端的距离不同,各终端实现语音采集、传输的时间之间存在时间差,相应地决策终端接收到该用户语音的接收时间也存在时间差,而这一时间差,也可以用于反映不同终端与说话人之间的距离的差异。比如,决策终端可以将此同步信号作为等待接收用户语音的开始时间点。因为不同终端距离说话人的距离不一致,所以各终端从时钟同步时刻起接收到的用户语音会产生不同的时差。将决策终端接收到不同终端发送的该用户语音的接收时间记为T1、T2、…、Tn,通过比较T1、T2、…、Tn之间的时间差,即可计算得到不同终端对应说话人之间的距离差,比如,决策终端接收到智能电视传输的用户语音相较于接收到智能空调传输的用户语音之间的时间差为3秒,则通过计算,可以确定智能电视与说话人的距离相较于智能空调与说话人的距离之间的距离差为3米。
在得到不同终端与说话人的距离差后,可以通过不同终端与所述说话人之间的距离差,以及终端的终端位置,确定说话人位置。此处确定说话人的位置,可以反映为各终端与说话人之间的距离,也可以反映为说话人在预设房间坐标系下的位置坐标,还可以反映为说话人目前所在的房间等,本发明实施例对此不作具体限定。
本发明实施例提供的方法,基于从不同终端处接收同一用户语音的接收时间之间的时间差,确定不同终端与所述说话人之间的距离差,再基于不同终端与说话人之间的距离差,以及不同终端的终端位置,确定说话人位置,相较于当前方案采用的传统能量值技术方案,确保在家居噪音场景下仍然能够实现精准定位。
基于上述任一实施例,步骤220包括:
基于所述说话人位置,以及所述各终端的终端位置,从所述各终端中确定出热区终端;
基于各热区终端的终端信息,以及所述用户语音,从所述各热区终端中确定出所述响应终端。
具体地,根据说话人位置和各终端的终端位置,可以确定出说话人附近的各终端,即为热区终端。此处,热区终端可以是说话人所在区域内的终端,例如说话人所在房间内的终端。可以理解的是,一般说话人会在终端附近,与终端进行语音交流,所以距离说话人位置近的终端,相较于距离说话人位置远的终端,可以响应说话人的用户语音中的指令的可能性更大,则将说话人附近的终端,初步确定为更可能响应用户语音的热区终端。此处,确定热区终端,可以是通过各终端内部集成的TDOA(Time Difference Of Arrival,到达时间差)算法,配合同步信号,可以精确的计算出用户语音到达不同终端的距离差,从而可以定位出热点区域,即热区终端。
在得到各热区终端之后,即可基于各热区终端的终端信息,即各热区终端的终端属性、终端历史信息、终端状态信息中的至少一种,并且结合用户语音,从各热区终端中确定出响应终端。其中确定响应终端的方式,可以是根据终端属性、终端历史信息、终端状态信息,以及用户语音中的包含的指令信息,根据优先级从高到低逐步筛选得到。比如,首先根据终端状态信息,筛选在线且空闲的终端。接着,根据用户语音中包含的指令对应的终端,以及终端属性,筛选出可以响应用户语音的中的指令的终端,或者可以用于与用户交流的终端。最后,可以根据终端历史信息,确定多个热区终端中,用户使用频率最多的终端,作为响应终端。
本发明实施例提供的方法,通过基于说话人位置,以及各终端的终端位置,从各终端中确定出热区终端,再从各热区终端中确定出响应终端,应用说话人位置进行响应终端筛选,能够得到更贴近实际应用场景的人机交互应用,从而优化用户体验。
基于上述任一实施例,所述终端信息包括终端的可实现功能、当前运行状态以及历史运行数据中的至少一种。
具体地,终端信息包含终端的可实现功能、当前运行状态以及历史运行数据中的至少一种,通过其中的至少一种,反映终端的相关情况,进而反映终端本身是否能够执行用户语音对应的响应操作。
此处,终端的可实现功能可以通过终端的注册信息反映,比如,终端名称、终端型号、终端类型、终端具备的功能、处理器核心数量、计算频率、存储容量等信息;终端当前的运行状态,比如,终端在线且正在工作、终端在线且空闲、终端离线、终端故障中等可以反映终端当前是否支持对用户语音的响应操作的状态;终端的历史运行数据,可以是终端在距离当前某一周期内的历史使用记录。比如,近一天、一周的历史使用记录。
可以理解的是,终端的可实现功能,能够反映终端具备的能力,比如智能电视可以播放视频和音频、智能音箱可以播放音频等,决策终端可以根据用户语音中的内容和各终端属性所反映的终端具备的能力,初步确定能够执行用户语音的指示的终端作为响应终端。终端的当前运行状态,能够反映当前终端的状态,例如可以优先选取终端在线且空闲时作为响应终端。终端的历史运行数据,能够反映对应终端在过去一段时间的工作状态,在出现多个终端都可以作为响应终端时,可以根据各终端的历史信息,选择最常用的终端比不常用的终端更可靠,或者针对用户语音中涉及到历史操作的情况,例如“播放昨天播过的电视剧”,终端历史信息能够作为用户语音所指示的内容的补充,并且作为响应终端筛选的依据,例如从多个具备播放功能的终端中选出昨天执行过播放操作的终端作为响应终端。
在局域网内,根据各终端的终端算力确定的决策终端,用于接收局域网中任意终端采集并发送的用户语音,并且,基于局域网中各终端的终端信息,以及用户语音,从各终端中确定出响应终端,并控制响应终端执行用户语音的响应操作。并且,局域网内的包含决策终端在内的任一终端,也需要作为决策终端的控制对象,完成多终端之间的整体联动。
基于上述问题,图3为本发明提供的应用于任意终端的控制方法的流程示意图,如图3所示,该方法包括:
步骤310,采集用户语音;
具体地,任意终端采集用户语音可以通过麦克风阵列等语音采集设备进行采集。
步骤320,将所述用户语音传输至决策终端,以供所述决策终端基于所述用户语音,以及所述局域网中各终端的终端信息,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作;
所述决策终端是基于所述各终端的终端算力确定的。
具体地,局域网内的任意终端在采集到用户语音后,将采集到的用户语音传输到决策终端,以供决策终端基于用户语音,以及局域网中各终端的终端信息,从各终端中确定出响应终端,并控制响应终端执行用户语音的响应操作。此处的决策终端是当前在线终端中,终端算力最强的终端。局域网内的任意终端将在采集到的用户语音传输到决策终端,可以是任意终端通过语音采集设备采集到用户语音后,对用户语音的声音信号进行波束成形处理,通过检测特征,然后分析处理得到数据,并将数据上传到决策终端。
此处,终端信息用于反映终端的相关情况,进而反映终端本身是否能够执行用户语音对应的响应操作,终端信息可以包括终端属性、终端历史信息、终端状态信息中的至少一种。其中,终端属性可以是终端的注册信息,比如,终端名称、终端型号、终端类型、终端具备的功能、处理器核心数量、计算频率、存储容量等信息;终端历史信息可以是终端在距离当前某一周期内的历史使用记录,比如,近一天、一周的历史使用记录;终端状态信息可以是终端当前的状态信息,比如,终端在线且正在工作、终端在线且空闲、终端离线、终端故障中等反映终端当前状态信息。可以理解的是,终端的属性,能够反映终端具备的能力,比如智能电视可以播放视频和音频、智能音箱可以播放音频等,决策终端可以根据用户语音中的内容和各终端属性所反映的终端具备的能力,初步确定能够执行用户语音的指示的终端作为响应终端。终端历史信息,能够反映对应终端在过去一段时间的工作状态,在出现多个终端都可以作为响应终端时,可以根据各终端的历史信息,选择最常用的终端比不常用的终端更可靠,或者针对用户语音中涉及到历史操作的情况,例如“播放昨天播过的电视剧”,终端历史信息能够作为用户语音所指示的内容的补充,并且作为响应终端筛选的依据,例如从多个具备播放功能的终端中选出昨天执行过播放操作的终端作为响应终端。终端状态信息,能够反映当前终端的状态,例如可以优先选取终端在线且空闲时作为响应终端。
另外,此处的响应终端,指的是可以直接执行用户语音中所包含的指令的终端,或者,在不能直接执行用户语音中所包含的指令的情况下,用于与用户语音交互的终端。并且,根据用户语音内容中的指令信息,响应终端可以是一个或者多个。比如,用户语音中包含播放视频,则智能音箱和智能电视都可以作为响应终端,由智能音箱承载视频中的音频播放任务,智能电视承载视频播放任务。此处,响应终端执行用户语音中的指令,可以是决策终端控制响应终端做出对应的响应操作,比如可以通过决策终端向响应终端发送包含响应操作信息的指令,响应终端接收到决策终端的响应指令,则根据响应指令执行对应的响应操作。通过决策终端控制响应终端执行对应的响应操作,相较于采集到用户语音的终端自行进行数据处理从而确定并控制响应终端而言,响应速度更快,响应结果的准确性更高,并且,由于同时采集到用户语音的终端可能有多个,通过决策终端汇总进行数据处理,相较于每个采集到用户语音的终端均进行数据处理,也能够节省局域网整体的计算资源。
另外,此处的响应操作,可以是根据终端自身具备的功能和接收到的响应指令,执行对应的操作。比如,智能音箱执行播放音乐的操作。又可以是,用于与说话人进行语音交互的操作。比如,比如当前说话人在没有智能电视的卧室,卧室的智能音箱采集到内容为想要跳健美操的用户语音,则此时卧室的智能音箱可以作为响应终端与说话人进行交互,引导说话人到客厅去进行跳健美操。当说话人到客厅后,客厅的智能音箱采集到内容为已经到客厅了的用户语音,则此时客厅的智能音箱和智能电视可以一起作为响应终端,其中智能音箱承载视频中的音频播放任务,智能电视承载视频播放任务。
本发明实施例提供的方法,通过局域网内任意终端采集用户语音,并将用户语音传输至决策终端,以供决策终端基于用户语音,以及局域网中各终端的终端信息,从各终端中确定出响应终端,并控制响应终端执行用户语音的响应操作,提升了局域网下各终端对用户语音时的数据处理效率,能够更加灵活的实现各终端之间的整体联动。
基于上述任一实施例,步骤310之前,还包括:
接收所述决策终端发送的同步信号;
基于所述同步信号进行时钟同步。
具体地,局域网内的各个终端,为了确保各终端的时钟同步,用以根据采集用户语音的时间差,得到说话人位置关系。可以通过决策终端定时发送同步信息,则局域网内的任意终端需要接收此同步信号。可以理解的是,决策终端也可能作为响应终端,所以也需要接收同步信号。由于同步信号是由无线传输的方式进行发送,所以各终端接收到同步信号的时间默认是一致的,则将接收到同步信号的时间统一记为当前终端的时间,进而完成各终端的时钟同步。
在各终端时钟同步的基础之上,决策终端可以基于从各终端处接收同一用户语音的接收时间之间的时间差,进行确定不同终端与说话人之间的距离差,再结合不同终端的终端位置,进而确定说话人的位置。
基于上述任一实施例,图4为本发明提供的控制方法的流程示意图,如图4所示,该方法包括:
针对局域网中的各终端,可以通过自推举中心,结合自身的终端算力,推举出决策终端。决策终端离线时,自推举中心会感知到这一信息,并在当前自推举中心在线的终端中,重新推举终端算力最强的终端作为决策终端,同时,会注销掉已离线的终端。同样的,当离线的终端重现在线,或者有新的终端加入,自推举中心也会进行重新计算各终端的终端算力,重新推举决策终端,以便于在某一个时间段内,各终端的性能最优化,能进一步提升各终端之间的灵活联动。
在确定决策终端之后,局域网中的任意终端可以采集用户语音,将所述用户语音、以及各终端的终端信息传输至决策终端。
具体地,局域网中的任意终端可以通过麦克风阵列采集说话人发出的声音信号,并对声音信号进行波束成形处理,通过检测特征,然后分析处理得到数据,并将用户语音数据上传到决策终端。此处的局域网,可以是自适应组网。
接着,决策终端在接收到基于局域网中各终端的终端信息,以及所述用户语音数据,从各终端中确定出响应终端,并控制响应终端执行用户语音的响应操作。
具体地,可以是决策终端基于局域网中各终端的终端信息,以及所述用户语音,通过TDOA算法精确得出响应终端,根据响应终端的位置以及响应终端的注册信息以及状态信息和操作历史信息,形成响应终端的热点信息,依据热点信息完成对响应终端的指令的解析以及下发。
此处,从各终端中确定出响应终端,图5为本发明提供的确定响应终端的流程示意图之二,如图5所示,确定响应终端包括:
步骤510,接收局域网中任意终端采集并发送的用户语音。
具体地,当说话人发出用户语音后,局域网内的不同终端都可以采集到用户语音,比如决策终端,或者其他任意终端。任意终端采集到用户语音后,并将用户语音发送至决策终端,以供决策终端执行后续操作。
在步骤510之前,还包括:决策终端向各终端发送同步信号,使局域网内各终端基于同步信号进行时钟同步。
具体地,其中同步信号由一个发射端,比如决策终端定时产生并通过电磁波发送,每个终端都集成了一个同步信号无线接收端,由电磁波传递和射频接收设备产生的各终端接收同步信号时间误差非常小,所以可看作为各终端会同时采集到同步信号,进而完成时钟同步。
步骤520,热点定位,基于从不同终端处接收同一用户语音的接收时间,以及所述不同终端的终端位置,确定所述用户语音对应说话人的说话人位置;
步骤530,热点追踪,基于所述局域网中各终端的终端信息、所述用户语音,以及所述说话人位置,从所述各终端中确定出响应终端。
最后,任意终端中被确定为响应终端的终端执行响应操作。
基于上述任一实施例,图6为本发明提供的应用于局域网中的决策终端的控制装置的结构示意图,如图6所示,该装置包括:
接收单元610,接收所述局域网中任意终端采集并发送的用户语音;
响应单元620,基于所述局域网中各终端的终端信息,以及所述用户语音,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作;
所述决策终端是基于所述各终端的终端算力确定的。
本发明实施例提供的装置,通过接收局域网中任意终端采集并发送的用户语音,基于局域网中各终端的终端信息,以及用户语音,决策终端从各终端中确定出响应终端,并控制响应终端执行用户语音的响应操作,能够更加快速、灵活地实现多终端之间的整体联动。
基于上述任一实施例,接收单元之前还包括同步信号单元,同步信号单元具体用于:
向所述各终端发送同步信号,以使所述各终端基于所述同步信号进行时钟同步;
基于上述任一实施例,响应单元具体用于:
基于从不同终端处接收同一用户语音的接收时间,以及所述不同终端的终端位置,确定所述用户语音对应说话人的说话人位置;
基于所述局域网中各终端的终端信息、所述用户语音,以及所述说话人位置,从所述各终端中确定出响应终端。
基于上述任一实施例,响应单元具体用于:
基于从不同终端处接收同一用户语音的接收时间之间的时间差,确定所述不同终端与所述说话人之间的距离差;
基于所述不同终端与所述说话人之间的距离差,以及所述不同终端的终端位置,确定所述说话人位置。
基于上述任一实施例,响应单元具体用于:
基于所述说话人位置,以及所述各终端的终端位置,从所述各终端中确定出热区终端;
基于各热区终端的终端信息,以及所述用户语音,从所述各热区终端中确定出所述响应终端。
基于上述任一实施例,响应单元具体用于:
所述终端信息包括终端的可实现功能、当前运行状态以及历史运行数据中的至少一种。
基于上述实施例,图7为本发明提供的应用于局域网中的任意终端的控制装置的结构示意图,如图7所示,该装置包括:
采集单元710,采集用户语音;
传输单元720,将所述用户语音传输至决策终端,以供所述决策终端基于所述用户语音,以及所述局域网中各终端的终端信息,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作;
所述决策终端是基于所述各终端的终端算力确定的。
本发明实施例提供的装置,通过局域网内任意终端采集用户语音,并将用户语音传输至决策终端,以供决策终端基于用户语音,以及局域网中各终端的终端信息,从各终端中确定出响应终端,并控制响应终端执行用户语音的响应操作,提升了局域网下各终端对用户语音时的数据处理效率,能够更加灵活的实现各终端之间的整体联动。
基于上述任一实施例,采集单元之前还包括同步信号单元,同步信号单元具体用于:
接收所述决策终端发送的同步信号;
基于所述同步信号进行时钟同步。
基于上述任一实施例,图8为本发明提供的局域网内各终端的关联示意图,如图8所示,局域网包括:
互联的至少两个终端,所述至少两个终端中包括基于各终端的终端算力确定的决策终端;
所述至少两个终端中的任意终端用于采集用户语音,并将所述用户语音传输至所述决策终端;
所述决策终端用于接收所述用户语音,并基于所述各终端的终端信息,以及所述用户语音,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作。
具体地,局域网内至少包括两个通过局域网互相关联的两个终端,其中至少包括基于终端算力决定的一个决策终端。此处的局域网可以是自适应组网。
另外,至少两个终端中的任意终端用于采集用户语音,并将用户语音传输至决策终端。决策终端用于接收用户语音,并基于各终端的终端信息,以及用户语音,从各终端中确定出响应终端,并控制响应终端执行用户语音的响应操作。
例如在图8中,局域网中包含n个互联的终端,其中终端2为决策终端,各终端均可将采集得到的用户语音发送到终端2,由终端2基于各终端的终端信息以及用户语音,从n个终端中选取响应终端,并控制响应终端执行用户语音的响应操作。
图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行控制方法,该方法应用于局域网中的决策终端,该方法包括:接收所述局域网中任意终端采集并发送的用户语音;基于所述局域网中各终端的终端信息,以及所述用户语音,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作;所述决策终端是基于所述各终端的终端算力确定的。
处理器910可以调用存储器930中的逻辑指令,以执行控制方法,该方法应用于局域网中的任意终端,该方法包括:采集用户语音;将所述用户语音传输至决策终端,以供所述决策终端基于所述用户语音,以及所述局域网中各终端的终端信息,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作;所述决策终端是基于所述各终端的终端算力确定的。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的控制方法,该方法应用于局域网中的决策终端,该方法包括:接收所述局域网中任意终端采集并发送的用户语音;基于所述局域网中各终端的终端信息,以及所述用户语音,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作;所述决策终端是基于所述各终端的终端算力确定的。
所述计算机程序被处理器执行时,计算机还能够执行上述各方法所提供的控制方法,该方法应用于局域网中的任意终端,该方法包括:采集用户语音;将所述用户语音传输至决策终端,以供所述决策终端基于所述用户语音,以及所述局域网中各终端的终端信息,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作;所述决策终端是基于所述各终端的终端算力确定的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的控制方法,该方法应用于局域网中的决策终端,该方法包括:接收所述局域网中任意终端采集并发送的用户语音;基于所述局域网中各终端的终端信息,以及所述用户语音,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作;所述决策终端是基于所述各终端的终端算力确定的。
该计算机程序被处理器执行时还实现以执行上述各方法提供的控制方法,该方法应用于局域网中的任意终端,该方法包括:采集用户语音;将所述用户语音传输至决策终端,以供所述决策终端基于所述用户语音,以及所述局域网中各终端的终端信息,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作;所述决策终端是基于所述各终端的终端算力确定的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (12)
1.一种控制方法,其特征在于,所述方法应用于局域网中的决策终端,所述方法包括:
接收所述局域网中任意终端采集并发送的用户语音;
基于所述局域网中各终端的终端信息,以及所述用户语音,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作;
所述决策终端是基于所述各终端的终端算力确定的。
2.根据权利要求1所述的控制方法,其特征在于,所述接收所述局域网中任意终端采集并发送的用户语音,之前还包括:
向所述各终端发送同步信号,以使所述各终端基于所述同步信号进行时钟同步;
所述基于所述局域网中各终端的终端信息,以及所述用户语音,从所述各终端中确定出响应终端,包括:
基于从不同终端处接收同一用户语音的接收时间,以及所述不同终端的终端位置,确定所述用户语音对应说话人的说话人位置;
基于所述局域网中各终端的终端信息、所述用户语音,以及所述说话人位置,从所述各终端中确定出响应终端。
3.根据权利要求2所述的控制方法,其特征在于,所述基于从不同终端处接收同一用户语音的接收时间,以及所述不同终端的终端位置,确定所述用户语音对应说话人的说话人位置,包括:
基于从不同终端处接收同一用户语音的接收时间之间的时间差,确定所述不同终端与所述说话人之间的距离差;
基于所述不同终端与所述说话人之间的距离差,以及所述不同终端的终端位置,确定所述说话人位置。
4.根据权利要求2所述的控制方法,其特征在于,所述基于所述局域网中各终端的终端信息、所述用户语音,以及所述说话人位置,从所述各终端中确定出响应终端,包括:
基于所述说话人位置,以及所述各终端的终端位置,从所述各终端中确定出热区终端;
基于各热区终端的终端信息,以及所述用户语音,从所述各热区终端中确定出所述响应终端。
5.根据权利要求1至4中任一项所述的控制方法,其特征在于,所述终端信息包括终端的可实现功能、当前运行状态以及历史运行数据中的至少一种。
6.一种控制方法,其特征在于,所述方法应用于局域网中的任意终端,所述方法包括:
采集用户语音;
将所述用户语音传输至决策终端,以供所述决策终端基于所述用户语音,以及所述局域网中各终端的终端信息,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作;
所述决策终端是基于所述各终端的终端算力确定的。
7.根据权利要求6所述的控制方法,其特征在于,还包括:
接收所述决策终端发送的同步信号;
基于所述同步信号进行时钟同步。
8.一种控制装置,其特征在于,所述装置应用于局域网中的决策终端,该装置包括:
接收单元,接收所述局域网中任意终端采集并发送的用户语音;
响应单元,基于所述局域网中各终端的终端信息,以及所述用户语音,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作;
所述决策终端是基于所述各终端的终端算力确定的。
9.一种控制装置,其特征在于,所述装置应用于局域网中的任意终端,该装置包括:
采集单元,采集用户语音;
传输单元,将所述用户语音传输至决策终端,以供所述决策终端基于所述用户语音,以及所述局域网中各终端的终端信息,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作;
所述决策终端是基于所述各终端的终端算力确定的。
10.一种局域网,其特征在于,包括互联的至少两个终端,所述至少两个终端中包括基于各终端的终端算力确定的决策终端;
所述至少两个终端中的任意终端用于采集用户语音,并将所述用户语音传输至所述决策终端;
所述决策终端用于接收所述用户语音,并基于所述各终端的终端信息,以及所述用户语音,从所述各终端中确定出响应终端,并控制所述响应终端执行所述用户语音的响应操作。
11.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的控制方法。
12.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211730367.XA CN115966207A (zh) | 2022-12-30 | 2022-12-30 | 控制方法、装置、局域网、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211730367.XA CN115966207A (zh) | 2022-12-30 | 2022-12-30 | 控制方法、装置、局域网、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115966207A true CN115966207A (zh) | 2023-04-14 |
Family
ID=87357523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211730367.XA Pending CN115966207A (zh) | 2022-12-30 | 2022-12-30 | 控制方法、装置、局域网、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115966207A (zh) |
-
2022
- 2022-12-30 CN CN202211730367.XA patent/CN115966207A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110211580B (zh) | 多智能设备应答方法、装置、系统及存储介质 | |
US11282520B2 (en) | Method, apparatus and device for interaction of intelligent voice devices, and storage medium | |
CN106910500B (zh) | 对带麦克风阵列的设备进行语音控制的方法及设备 | |
EP3343559B1 (en) | De-reverberation control method and device thereof | |
CN109155130A (zh) | 处理来自分布式麦克风的语音 | |
CN110288997A (zh) | 用于声学组网的设备唤醒方法及系统 | |
CN109949801A (zh) | 一种基于耳机的智能家居设备语音控制方法及系统 | |
CN107274902A (zh) | 用于家电的语音控制装置和方法 | |
CN110265006A (zh) | 唤醒方法、主节点、从节点和存储介质 | |
CN109672966A (zh) | 一种语音拾取方法、装置和系统 | |
CN113470634A (zh) | 语音交互设备的控制方法、服务器及语音交互设备 | |
EP3761653A1 (en) | Playing control method and apparatus for device group, and playing system | |
CN108986810A (zh) | 一种通过耳机实现语音交互的方法及装置 | |
CN112188362B (zh) | 一种播放方法、装置和计算机可读存储介质 | |
CN113138559A (zh) | 设备交互方法、装置、电子设备及存储介质 | |
US20230262144A1 (en) | Collaboration Method and Intelligent Device Group | |
CN115966207A (zh) | 控制方法、装置、局域网、电子设备和存储介质 | |
CN112992137B (zh) | 语音交互方法和装置、存储介质及电子装置 | |
CN108235185A (zh) | 音源输入客户端设备、遥控器,以及播放音乐的系统 | |
US11893985B2 (en) | Systems and methods for voice exchange beacon devices | |
CN115547321A (zh) | 一种业务处理方法和服务器 | |
EP3557574A1 (en) | Voice control method, server, and voice exchange system | |
CN114863924B (zh) | 多设备语音控制的判断方法、智能家电和可读存储介质 | |
CN113079257B (zh) | 设备关联、网络通信、信息处理方法、装置以及设备 | |
US11917386B2 (en) | Estimating user location in a system including smart audio devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |