CN111416758A

CN111416758A - 智慧家居实时对讲系统及方法

Info

Publication number: CN111416758A
Application number: CN202010228947.3A
Authority: CN
Inventors: 王彦芳; 孟卫明; 高雪松; 唐至威; 蒋鹏民; 王月岭; 刘帅帅; 陈维强
Original assignee: Hisense Co Ltd
Current assignee: Hisense Group Co Ltd; Hisense Co Ltd
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2020-07-14

Abstract

本申请公开了一种智慧家居实时对讲系统及方法，所述系统包括：第一智感器，用于拾取音频流信息，和/或播放回应信息；家庭服务器，用于接收第一智感器发送的音频流信息，确定呼叫人信息及被呼叫对象的位置，并向被呼叫对象所在位置的第二智感器发送呼叫信息；以及接收第二智感器发送的回应信息，并向第一智感器发送回应信息；第二智感器，用于播放家庭服务器发送的呼叫信息，或拾取回应信息。本申请通过第一智感器、家庭服务器与第二智感器实现了大面积智慧家居环境中两个隔离或距离较远区域的实时通话，不需依赖于手机等通讯设备，且所有信息处理都在家庭服务器上完成，不会上传云端，有效保护了家庭隐私安全。

Description

智慧家居实时对讲系统及方法

技术领域

本申请涉及智慧家居技术领域，尤其涉及一种智慧家居实时对讲系统及方法。

背景技术

随着语音技术和网络技术的发展，智能音箱得到了快速的普及，并且在人们的日常生活中扮演越来越重要的角色。智能音箱在传统音箱上增加了麦克风阵列用来拾取语音，从而实现语音控制。智能音箱上使用的麦克风阵列支持远程拾音，适合远距离语音操作，音箱本身具有语音播放的功能，所以在智能音箱上实现语音通话将极大提升用户的通话体验。

目前人们可以通过智能家居设备拨打电话，比如通过智能音箱拨打手机或者通过手机拨打家中的智能音箱。为了支持语音通话，现有技术将音箱连接到手机，然后将手机上的通话转移到音箱上，利用音箱上的麦克风和扬声器来实现语音通话。

但是，上述方法导致离开手机后音箱无法实现语音通话功能，限制了音箱语音通话的使用场景。

发明内容

本申请提供了一种智慧家居实时对讲系统及方法，以解决目前智慧家居依赖于手机通讯设备实时通话，限制了音箱语音通话使用场景的问题。

为了解决上述技术问题，本申请实施例公开了如下技术方案：

第一方面，本申请实施例公开了一种智慧家居实时对讲系统，包括：

第一智感器，用于拾取音频流信息，和/或播放回应信息；

家庭服务器，用于接收所述第一智感器发送的音频流信息，确定呼叫人信息及被呼叫对象的位置，并向所述被呼叫对象所在位置的第二智感器发送呼叫信息；以及接收所述第二智感器发送的回应信息，并向所述第一智感器发送所述回应信息；

第二智感器，用于播放所述家庭服务器发送的所述呼叫信息，或拾取回应信息。

第二方面，本申请实施例还公开了一种智慧家居实时对讲方法，所述方法包括：

拾取呼叫人的音频流信息；

根据所述音频流信息确定呼叫人信息及被呼叫对象，并向所述被呼叫对象发送呼叫信息；

接收并播放所述呼叫信息；

拾取所述被呼叫对象的音频流信息；

根据所述音频流信息确定所述被呼叫对象的回应信息，并向所述呼叫人发送所述回应信息；

接收并播放所述回应信息。

第三方面，本申请实施例还公开了一种智慧家居实时对讲方法，所述方法包括：

接收第一智感器拾取的音频流信息，根据所述音频流信息确定呼叫人信息及被呼叫对象的位置，并向所述被呼叫对象所在位置的第二智感器发送呼叫信息，控制所述第二智感器进行相应的动作；

接收所述第二智感器拾取的音频流信息，根据所述音频流信息确定所述被呼叫对象的回应信息，并向所述第一智感器发送所述回应信息，控制所述第一智感器进行相应的动作。

与现有技术相比，本申请的有益效果为：

本申请公开了一种智慧家居实时对讲系统，该系统可用于大面积智慧家居环境，其包括第一智感器、家庭服务器与第二智感器，第一智感器能够拾取用户的音频流信息，并将该音频流信息发送至家庭服务器中；家庭服务器上可运行语音识别、语音合成、声纹识别等需要占用计算资源的算法及部分业务控制逻辑，根据第一智感器发送的音频流信息，确定呼叫人信息及被呼叫对象的位置，并向被呼叫对象所在位置的第二智感器发送呼叫信息；第二智感器播放家庭服务器发送的呼叫信息；被呼叫对象对呼叫信息做出回应时，第二智感器拾取音频流信息，并将该音频流信息发送至家庭服务器中；家庭服务器根据接收到的音频流信息向第一智感器发送回应信息；第一智感器播放家庭服务器发送的回应信息。本申请通过第一智感器、家庭服务器与第二智感器能够实现大面积智慧家居环境中两个隔离或距离较远区域的实时通话，不需依赖于手机等通讯设备，可应用于音箱系统中，且所有信息处理都在家庭服务器上完成，不会上传云端，能够有效保护家庭隐私安全。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为示例性的智能音箱与手机之间实时通话的示意图；

图2为本申请实施例提供的一种智慧家居实时对讲系统的结构框图；

图3为本申请实施例提供的智慧家居实时对讲系统的通讯链路控制流程图；

图4为本申请实施例提供的一种智慧家居实时对讲方法的流程图；

图5为本申请实施例提供的智慧家居实时对讲方法的一种具体实施例流程图；

图6为本申请实施例提供的智慧家居实时对讲方法的另一种具体实施例流程图；

图7为本申请实施例提供的智慧家居实时对讲方法的再一种具体实施例流程图；

图8为本申请时还顺利提供的另一种智慧家居实时对讲方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

随着网络技术和智能家居设备的发展，人们可以通过智能家居设备拨打电话，比如通过智能音箱拨打手机或者通过手机拨打家中的智能音箱。为了支持语音通话，如图1所示，现有技术将智能音箱连接到手机，然后将手机上的通话转移到音箱上，利用音箱上的麦克风和扬声器来实现语音通话。但是，通过手机实现智能音箱的语音通话，导致离开手机之后音箱无法实现语音通话功能，限制了音箱语音通话的使用场景。

为了解决上述问题，本申请实施例提供了一种智慧家居实时对讲系统，该智慧家居实时对讲系统可不依赖于手机等通讯设备实现实时通话，可以用于音箱系统中，但不限于音响系统，从而实现大面积平层或复式别墅中两个隔离或距离较远区域的实时对讲。

如图2所示，本申请实施例提供的智慧家居实时对讲系统包括第一智感器、家庭服务器与第二智感器，在大面积智慧家居环境中，可在每个空间内至少设置一套智感器，每个智感器包括拾音装置与播音装置。第一智感器通过消息总线与家庭服务器信号连接，第二智感器通过消息总线与家庭服务器连接，其中，

第一智感器用于拾取音频流信息，或播放回应信息。如用户在第一空间(空间A)发出声音，第一空间的第一智感器拾取该音频流信息，并将该音频流信息发送至家庭服务器。

家庭服务器用于接收第一智感器发送的音频流信息，根据该音频流信息确定呼叫人信息及被呼叫对象的位置，并向该被呼叫对象所在位置的第二智感器发送呼叫信息；以及接收第二智感器的回应信息，并向第一智感器发送回应信息。如家庭服务器接收到第一智感器发送的音频流信息，根据该音频流信息确定位于第一空间的用户及用户要呼叫的对象，如用户呼叫第二空间(空间B)或用户呼叫XX人，之后向被呼叫对象发送呼叫信息，如“XX呼叫，是否接入”。被呼叫对象对该呼叫信息做出回应，如被呼叫对象说“接通”，则被呼叫对象所在位置的第二智感器拾取该音频流信息，并将该音频流信息发送至家庭服务器，家庭服务器根据该音频流信息生成回应信息，并将该回应信息发送至第一智感器，控制第一智感器进行相应动作。

第二智感器用于播放家庭服务器发送的呼叫信息，或拾取回应信息。如家庭服务器向第二智感器发送“XX呼叫，是否接入”的呼叫信息，第二智感器播放该呼叫信息，告知第二空间的人员。第二空间的人员对该呼叫信息做出回应时，家庭服务器向用户所在第一空间的第一智感器发送“通话接通”的回应信息，第一智感器播放该回应信息。

本示例中，被呼叫对象可以是空间，如用户在客厅呼叫厨房，也可以是人员，如用户在不知道女儿在家庭那个角落的情况下呼叫女儿。

对于空间呼叫，用户在第一空间(源地址)下达呼叫空间的指令，如用户在客厅呼叫厨房，第一空间的第一智感器拾取到呼叫指令的音频流信息，将该音频流信息通过消息总线发送至家庭服务器；家庭服务器接收到第一智感器发送的音频流信息后，接收的音频流一方面经本地声纹识别获取当前呼叫人的身份信息(X1)，另一方面经过本地语音识别处理成文本信息，文本信息经过语义处理和意图分析后，确定当前用户意图是进行空间呼叫，且被呼叫空间为第二空间(目的地址)。获取到目的地址(第二空间)、源地址(第一空间)、呼叫人X1后，家庭服务器向第二空间的第二智感器发送呼叫信息，如“X1呼叫，是否接入”的呼叫信息。第二智感器播放该呼叫信息，告知该第二空间的人员“X1呼叫”，第二空间的人员听到播音后可对其做出相应应答。

第二空间的人员听到呼叫播音后，可能其应答并接受，如第二空间的人员做出“接通”的应答，则第二智感器拾取到应答的音频流信息，将该音频流信息通过消息总线发送至家庭服务器；家庭服务器接收到第二智感器发送的音频流信息后，打通第一空间与第二空间的通讯链路，并向第一空间的第一智感器发送双方通话已接通的回应信息；第一智感器播放该回应信息，进行第一空间与第二空间的实时对讲。

第二空间的人员听到呼叫播音后，可能其拒绝接受，如第二空间的人员做出“拒绝”的应答，则第二智感器拾取到应答的音频流信息，将该音频流信息通过消息总线发送至家庭服务器；家庭服务器接收到第二智感器发送的音频流信息后，根据该音频流信息向第一空间的第一智感器发送对方拒绝通话的回应信息；第二智感器播放该回应信息，告知第二空间拒绝通话。

第二空间的第二智感器播放该呼叫信息时，可能第二空间无人，无法对其进行应答，如此长时间第一智感器未拾取到音频流信息，家庭服务器长时间未接收到第二智感器发送的音频流信息，则家庭服务器向第一空间的第一智感器发送无应答的回应信息；第一智感器播放该回应信息，告知第二空间无应答。

对于人员呼叫，用户在第一空间(源地址)下达呼叫某人的指令，如用户在客厅呼叫女儿，第一空间的第一智感器拾取到呼叫指令的音频流信息，将该音频流信息通过消息总线发送至家庭服务器；家庭服务器接收到第一智感器发送的音频流信息后，接收的音频流一方面经本地声纹识别获取当前呼叫人身份信息(X1)，另一方面经过本地语音识别处理成文本信息，文本信息经过语义处理和意图分析后，确定当前用户意图是进行人员呼叫，且被呼叫人员为X2，如此需要确定被呼叫人员X2所在空间。

本示例中，在家庭服务器的数据库中查询被呼叫人X2最新的位置记录，从最新的位置记录中提取被呼叫人X2出现的位置(第二空间)，获得实时通话的目的地址。而家庭服务器中数据库记录人员位置信息有两种来源，一种是房屋内摄像头实时采集人脸信息，并经本地人脸识别获取人员信息，将该人员信息、采集到此人员信息的摄像头位置以及人脸信息采集时间写入数据库中；另一种是通过房屋内智感器获取音频流信息，并经本地声纹识别获取人员信息，将该人员信息、采集到此人员信息的智感器的位置信息以及采集音频流信息的时间写入数据库中。

获得目的地址(第二空间)、源地址(第一空间)、呼叫人X1与被呼叫人X2后，家庭服务器向第二空间的第二智感器发送呼叫信息，如“X1呼叫，是否接入”的呼叫信息。第二智感器播放该呼叫信息，告知该第二空间的人员“X1呼叫X2”，第二空间的人员听到播音后可对其做出相应应答。

第二空间的人员听到呼叫播音后，可能其应答并接受，如第二空间的人员做出“接通”的应答，则第二空间的第二智感器拾取到应答的音频流信息，将该音频流信息通过消息总线发送至家庭服务器；家庭服务器接收到第二智感器发送的音频流信息后，打通第一空间与第二空间的通讯链路，并向第一空间的第一智感器发送双方通话已接通的回应信息；第一智感器播放该回应信息，进行呼叫人X1与第二空间人员的实时对讲。

第二空间的人员听到呼叫播音后，可能其拒绝接受，如第二空间的人员做出“拒绝”的应答，则第二空间的第二智感器拾取到应答的音频流信息，将该音频流信息通过消息总线发送至家庭服务器；家庭服务器接收到第二智感器发送的音频流信息后，根据该音频流信息向第一空间的第一智感器发送对方拒绝通话的回应信息；第一智感器播放该回应信息，告知第二空间人员拒绝通话。

第二智感器播放该呼叫信息时，可能第二空间无人，无法对其进行应答，如此长时间第二智感器未拾取到音频流信息，家庭服务器长时间未接收到第二智感器发送的音频流信息，则家庭服务器向第一智感器发送无应答的回应信息；第一智感器播放该回应信息，告知第二空间人员无应答。

在家庭服务器的数据库中查询被呼叫人X2最新的位置记录时，可能并未查询到其位置记录，如此家庭服务器向第一空间的第一智感器发送查询不到X2位置的回应信息；第一智感器播放该回应信息，告知未找到被呼叫人X2。

第一空间的人员呼叫第二空间或呼叫人员时，其意图有可能是进行实时对讲，也可能只是呼叫，如用户在卧室发出“关闭客厅的灯”的指令。如图3所示，若是第一空间意图与第二空间或某人员进行实时对讲，则第一空间的第一智感器唤醒后，一方面拾取第一空间的音频流信息，并实时传送音频流信息(源地址、目的地址、二进制音频流)到家庭服务器的总线音频流topic，且实时音频流信息传输通过ActiveMQ中间件实现；另一方面音频流信息经本地语音识别、语义处理判断用户意图，如果是属于实时对讲业务范畴，则设置第一标志位，并提取实时对讲的目的地址，将目的地址和第一标志位填入总线音频流topic中，且经本地语音合成“XX呼叫，是否接收邀请”的呼叫信息。在第二空间(目的地址)的第二智感器端设置监听，当检测到总线音频流topic目的地址与此第二智感器地址一致时，则播放该呼叫信息。当另一方(目的地址)答复接通实时对讲时，第二智感器拾取音频流信息，该音频流经家庭服务器的本地语音识别、语义处理后，经本地语义合成“对方已接受邀请”的回应信息。在第一空间(源地址)的第一智感器设置监听，当检测到总线音频流topic的源地址与第一智感器地址一致时，则播放该回应信息，由此打通通讯链路，即第一空间、第二空间的目的地址、源地址已确定，再次由第一空间或第二空间的智感器向总线发送消息时，自动填写目的地址、源地址，实现第一空间与第二空间的实时对讲。本示例中，第一标志位可为flag＝1。

当检测到某一方有提及推出实时对讲命令时，即经本地语音识别、语义处理后确定某一方意图退出实时对讲，则设置第二标志位，经本地语音合成“对方已退出对讲”的提示信息，并向另一方的智感器发送该提示信息，打断第一空间与第二空间的通讯链路，即下一次再有音频流信息时，不再自动填充目的地址，实时对讲结束。本示例中，第二标志位可为flag＝0。

本示例，除了直接向第二空间发送呼叫信息，或将人员位置记录在数据库，在实时对讲时从数据库调取信息获取人员位置外，本申请提供的智感器还可包括摄像头，该摄像头可以上下左右实时移动，针对空间呼叫将不用在屋内无人时长时间等待，可以调用摄像头返回给用户被呼叫空间人员信息；针对人员呼叫，不用记录人员位置，可实时调用摄像头查找人员位置并返回给呼叫人员被呼叫人员的位置信息。

本申请实施例提供的智慧家居实时对讲系统包括第一智感器、家庭服务器与第二智感器，第一智感器能够将拾取的音频流信息通过消息总线发送到家庭服务器，家庭服务器上运行本地语音识别、本地语音合成、本地声纹识别等需要占用计算资源的算法及部分业务控制逻辑，即根据音频流信息生成相应的信息，并通过消息总线将生成的信息发送至第二智感器，通过第二智感器播放该信息。如此用户在大面积平层或复式别墅中两个隔离或距离较远区域进行空间呼叫或人员呼叫时，不需依赖于手机等通讯系统，可通过该实时对讲系统实现用户间的实时对讲，且所有信息都在家庭服务器上完成，不会上传云端，有效地保护了家庭隐私安全。

基于上述实施例所述的智慧家居实时对讲系统，本申请实施例还提供了一种智慧家居实时对讲方法。

如图4所示，本申请实施例提供的智慧家居实时对讲方法包括：

S100：拾取呼叫人的音频流信息。

在大面积智慧家居环境中，可在每个空间内至少设置一套智感器，每个智感器均通过消息总线与家庭服务器信号连接，且每个智感器可包括拾音装置与播音装置。当用户在第一空间发出指令时，第一空间的第一智感器被唤醒，拾取该指令的音频流信息，并将该音频流信息发送至家庭服务器。

S200：根据音频流信息确定呼叫人信息及被呼叫对象，并向被呼叫对象发送呼叫信息。

家庭服务器接收到第一智感器发送的音频流信息后，该音频流信息一方面经本地声纹识别获取当前呼叫人身份信息，另一方面经过本地语音识别处理成文本信息，文本信息经过语义处理和意图分析后确定用户意图是要与第二空间(目的地址)或人员X2将进行实时对讲，即获取源地址、目的地址、呼叫人等，之后向第二空间(被呼叫对象)发送呼叫信息。

S300：接收并播放呼叫信息。

第二空间的第二智感器接收到家庭服务器发送的呼叫信息后，对其进行播放，如第二智感器播放“XX呼叫，是否接入”的呼叫信息。

S400：拾取被呼叫对象的音频流信息。

第二空间(被呼叫对象)的人员听到该呼叫信息后，对该呼叫信息做出回应，第二空间(目的地址)的第二智感器被唤醒，拾取该回应的音频流信息，并将该音频流信息发送至家庭服务器。

S500：根据音频流信息确定被呼叫对象的回应信息，并向呼叫人发送回应信息。

家庭服务器接收到第二智感器的回应信息后，向第一智感器发送该回应信息。

S600：接收并播放回应信息。

第一智感器接收到家庭服务器发送的回应信息后，对其进行播放，如第一智感器播放“对方同意接入”的回应信息。

整个实时对讲场景分为两大类，一类是空间呼叫，如用户在客厅呼叫厨房，另一类是人员呼叫，如用户在不知道女儿在哪个角落的情况下呼叫女儿。如图5所示，以空间呼叫为例，本申请实施例提供的智慧家居实时对讲方法包括：

S101：空间A拾音。

S102：本地语音识别。

S103：语义分析。

S104：意图分析。

S105：判断是否是空间呼叫。

S106：若是空间呼叫，则确定被呼叫空间B。

S107：本地声纹识别。

S108：确定呼叫人X1。

S109：确定呼叫空间A。

S110：确定呼叫人X1，呼叫人空间A，被呼叫空间B。

S111：发送消息给空间B的智感器，告知“XX呼叫，是否接入”。

S112：空间B人员接受。

S113：打通空间A、B通讯链路。

S114：返回对方通话已接通提示信息给空间A的智感器。

S115：空间B人员拒绝。

S116：返回拒绝提示信息给空间A的智感器。

S117：长时间无应答。

S118：返回无应答提示信息给空间A的智感器。

S119：空间A的智感器播放提示信息。

用户在空间A呼叫空间B时，空间A的智感器拾取呼叫指令的音频流信息，拾取的音频流信息一方面经本地声纹识别获取当前呼叫人的身份信息(X1)，另一方面经过本地语音识别处理成文本信息，文本信息经过语义处理和意图分析确定当前用户意图是要与空间B(目的地址)实时对讲，已知目的地址、源地址、呼叫人，发送消息给目的地址(空间B)，告知“X1呼叫，是否接入”的呼叫信息，并在空间B的智感器上播放。空间B应答有三种情况：第一种是有人应答并接受，将打通空间A、B通讯链路，并返回给空间A双方通话已接通的提示信息，在空间A的智感器上播放；第二种是空间B有人应答并拒绝通话，此时返回给空间A对方已拒绝通话的提示信息，在空间A的智感器上播放；第三种是长时间无应答(时间长度自定义)，返回给空间A无应答的提示信息，在空间A的智感器上播放。

如图6所示，以人员呼叫为例，本申请实施例提供的智慧家居实时对讲方法包括：

S201：空间A拾音。

S202：本地语音识别。

S203：语义分析。

S204：意图分析。

S205：判断是否为人员呼叫。

S206：若为人员呼叫，则确定被呼叫人元X2。

S207：本地声纹识别。

S208：确定呼叫人X1。

S209：确定呼叫空间A。

S210：确定呼叫人X1，呼叫人空间A，被呼叫人X2。

S211：查询被呼叫人X2在数据库中最新的位置记录。

S212：判断是否查询到最新的位置记录。

S213：若查询到最新的位置记录，则从最新的位置记录中获取被呼叫人X2的位置信息B。

S214：发送消息给空间B的智感器，告知“XX呼叫，是否接入”。

S215：空间B人员接受。

S216：打通空间A、B通讯链路。

S217：返回双方通话已接通提示信息给空间A的智感器。

S218：空间B人员拒绝。

S219：返回拒绝提示信息给空间A的智感器。

S220：长时间无应答。

S221：返回无应答提示信息给空间A的智感器。

S222：若查询不到最新的位置记录，则返回查询不到X2位置信息的提示信息给空间A的智感器。

S233：空间A的智感器播放提示信息。

用户在空间A(源地址)下达呼叫人员的指令，空间A的智感器拾取呼叫指令的音频流信息，拾取的音频流一方面经本地声纹识别获取当前呼叫人身份信息(X1)，另一方面经过本地语音识别处理成文本信息，文本信息经过语义处理和意图分析确定当前用户意图是要与人员X2实时对讲，已知被呼叫人，查询被呼叫人在数据库汇总记录的最新一条记录，从记录中提取X2出现的位置(空间B)获得实时通话的目的地址，当确定了源地址、目的地址、呼叫人、被呼叫人，发送消息给目的地址(空间B)，告知“X1呼叫，是否接入”的呼叫信息，并在空间B的智感器上播放。空间B应答有三种情况：第一种是有人应答并接受，将打通空间A、空间B的通讯链路，并返回给空间A双方通话已接通的提示信息，在空间A的智感器上播放；第二种是空间B有人应答并拒绝通话，此时返回给空间A对方已拒绝通话的提示信息，在空间A的智感器上播放；第三种是长时间无应答(时间长度自定义)，返回给空间A无应答的提示信息，在空间A的智感器上播放。

如图7所示，以摄像头辅助空间呼叫和人员呼叫为例，本申请实施例提供的智慧家居实时对讲方法包括：

S301：拾音。

S302：本地语音识别。

S303：语义分析。

S304：意图分析。

S305：本地声纹识别。

S306：获取说话人称呼。

S307：确定为空间呼叫。

S308：调用对应空间摄像头。

S309：判断空间是否有人。

S310：若空间有人，则传达“XX呼叫，是否接入”的提示信息。

S311：若空间无人，则返回空间无人提示信息。

S312：判断是否接收提示信息。

S313：若接收，则打通通讯链路。

S314：若不接收，则返回拒绝提示信息。

S315：确定人员呼叫。

S316：调用各空间摄像头。

S317：判断是否找到人所在空间。

S318：若找到人所在空间，则在被呼叫人所在空间传达“XX呼叫，是否接入”的提示信息。

S319：若未找到人所在空间，则返回未找到人提示信息。

S320：判断是否接收提示信息。

S321：若接收提示信息，则打通通讯链路。

S322：若不接收提示信息，则返回拒绝提示信息。

用户在空间A呼叫时，空间A的智感器拾取呼叫指令的音频流信息，拾取的音频流信息一方面经本地声纹识别获取当前呼叫人的身份信息(X1)，另一方面经过本地语音识别处理成文本信息，若文本信息经过语义处理和意图分析确定当前用户意图是要与空间B(目的地址)实时对讲，则调用空间B的摄像头，通过摄像头上下左右实时移动来确定空间B是否有人，若有人，则向空间B传达“XX呼叫，是否接入”的呼叫信息，并在空间B的智感器上播放；若无人，则返回给空间A空间无人的提示信息，在空间A的智感器上播放。空间B应答有两种情况：一种是有人应答并接收，将打通空间A、空间B的通讯链路，并返回给空间A双方通话已接通的提示信息，在空间A的智感器上播放；另一种是有人应答并拒绝，则返回给空间A对方已拒绝通话的提示信息，在空间A的智感器上播放。

若文本信息经过语义处理和意图分析确定当前用户意图是要与人员X2实时对讲，则调用各空间的摄像头，通过摄像头上下左右实时移动来确定X2所在空间，若找到X2所在空间，则向空间B传达“XX呼叫，是否接入”的呼叫信息，并在空间B的智感器上播放；若未找到X2所在空间，则返回给空间A未找到人的提示信息，在空间A的智感器上播放。空间B应答有两种情况：一种是有人应答并接收，将打通空间A、空间B的通讯链路，并返回给空间A双方通话已接通的提示信息，在空间A的智感器上播放；另一种是有人应答并拒绝，则返回给空间A对方已拒绝通话的提示信息，在空间A的智感器上播放。

如图8所示，本申请实施例提供的智慧家居实时对讲方法包括：

S10：接收第一智感器拾取的音频流信息，根据音频流信息确定呼叫人信息及被呼叫对象的位置，并向被呼叫对象所在位置的第二智感器发送呼叫信息，控制第二智感器进行相应的动作。

S20：接收第二智感器拾取的音频流信息，根据音频流信息确定被呼叫对象的回应信息，并向第一智感器发送回应信息，控制第一智感器进行相应的动作。

本示例中，通过家庭服务器执行上述智慧家居实时对讲方法，通过家庭服务器接收第一智感器拾取的音频流信息，家庭服务器上可运行语音识别、语音合成、声纹识别等需要占用计算资源的算法及部分业务控制逻辑，根据接收的音频流信息，确定呼叫人信息及被呼叫对象的位置，并向被呼叫对象所在位置的第二智感器发送呼叫信息，控制第二智感器播放该呼叫信息；以及，接收第二智感器拾取的回应音频流信息，根据接收的音频流信息，确定被呼叫对象的回应信息，并向第一智感器发送回应信息，控制第一智感器播放该回应信息。本申请通过第一智感器、家庭服务器与第二智感器实现了大面积智慧家居环境中两个隔离或距离较远区域的实时通话，不需依赖于手机等通讯设备，可应用于音箱系统中，且所有信息处理都在家庭服务器上完成，不会上传云端，有效保护了家庭隐私安全。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的电路结构、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种电路结构、物品或者设备所固有的要素。在没有更多限制的情况下，有语句“包括一个……”限定的要素，并不排除在包括所述要素的电路结构、物品或者设备中还存在另外的相同要素。

本领域技术人员在考虑说明书及实践这里发明的公开后，将容易想到本申请的其他实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求的内容指出。

以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims

1.一种智慧家居实时对讲系统，其特征在于，包括：

第一智感器，用于拾取音频流信息，和/或播放回应信息；

2.根据权利要求1所述的智慧家居实时对讲系统，其特征在于，所述家庭服务器还被配置为，对所述音频流信息进行声纹识别，确定当前呼叫人的身份信息；以及对所述音频流信息进行语义处理和意图分析，判断是否为空间呼叫，若是空间呼叫，则确定被呼叫对象的位置，向所述被呼叫对象所在位置的第二智感器发送呼叫信息。

3.根据权利要求2所述的智慧家居实时对讲系统，其特征在于，所述家庭服务器还被配置为，接收所述第二智感器发送的回应信息，根据所述回应信息向所述呼叫人所在位置的第一智感器发送所述回应信息。

4.根据权利要求1所述的智慧家居实时对讲系统，其特征在于，所述家庭服务器还被配置为，对所述音频流信息进行声纹识别，确定当前呼叫人的身份信息；以及对所述音频流信息进行语义处理和意图分析，判断是否为人员呼叫，若是人员呼叫，则确定被呼叫人的位置，向所述被呼叫人所在位置的第二智感器发送呼叫信息。

5.根据权利要求4所述的智慧家居实时对讲系统，其特征在于，所述家庭服务器还被配置为，查询所述被呼叫人在所述家庭服务器内数据库中最新记录的位置信息，根据所述最新记录的位置信息确定所述被呼叫人的位置。

6.根据权利要求1所述的智慧家居实时对讲系统，其特征在于，所述第一智感器与所述第二智感器均包括拾音装置、播音装置与摄像头。

7.根据权利要求1所述的智慧家居实时对讲系统，其特征在于，所述家庭服务器还被配置为，接收所述第一智感器发送的音频流信息，获取呼叫人所在位置；对所述音频流信息进行语音识别与语义处理，判断是否为实时对讲；若是实时对讲，则设置第一标志位，提取实时对讲的被呼叫对象所在位置，并根据所述第一标志位与所述呼叫人所在位置生成呼叫信息，向所述被呼叫对象所在位置的第二智感器发送所述呼叫信息；以及接收所述第二智感器发送的回应信息，并向所述第一智感器发送所述回应信息。

8.根据权利要求7所述的智慧家居实时对讲系统，其特征在于，所述家庭服务器还被配置为，对所述音频流信息进行语音识别与语义处理，判断是否退出实时对讲，若退出实时对讲，则设置第二标志位，并根据所述第二标志位生成退出对讲信息，向所述第二智感器发送所述退出对讲信息，结束实时对讲。

9.一种智慧家居实时对讲方法，其特征在于，所述方法包括：

拾取呼叫人的音频流信息；

接收并播放所述呼叫信息；

拾取所述被呼叫对象的音频流信息；

接收并播放所述回应信息。

10.一种智慧家居实时对讲方法，其特征在于，所述方法包括：