CN115438157A

CN115438157A - 入口访问交互方法、设备和系统

Info

Publication number: CN115438157A
Application number: CN202110623582.9A
Authority: CN
Inventors: 侯永竞; 肖蒴
Original assignee: Alibaba Singapore Holdings Pte Ltd
Current assignee: Alibaba Innovation Co
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2022-12-06

Abstract

本公开提供了一种入口访问交互方法、设备和系统。该方法用于应对场所入口处的来访者，包括：获取来访者的访问请求输入；基于所述访问请求输入，利用至少一个深度学习模型单元获得至少意图信息和/或身份信息，并至少基于意图信息和/或身份信息获得应答信息；将所述应答信息转换为应答语音；播放应答语音。本公开提高了对于入口处来访者的访问交互的智能性和效率。

Description

入口访问交互方法、设备和系统

技术领域

本公开涉及智能设备领域，具体而言，涉及一种入口访问交互方法、设备和系统。

背景技术

目前，可视门铃取得了广泛应用。业界已有智能可视门铃的核心功能还主要体现在视觉方面，核心功能主要是：远程实时视频查看、远程音视频对讲、门铃自动发起的人形监测抓拍这三个视频类功能。少数可视门铃产品还支持用户通过应用远程进行语音留言等，但是语音方面的能力主要还是以音频对讲、留言播放和变音效果等不涉及语义理解的表象层面，交互效率低且不够智能化，距离真正能够理解用户语义并智能对话的“家门口助手”的定位还有很大的差距。

发明内容

有鉴于此，本公开的一个目的在于提高对于入口处来访者的访问交互的智能性和效率。

根据本公开的一方面，提供了一种入口访问交互方法，用于应对场所入口处的来访者，包括：

获取来访者的访问请求输入；

基于所述访问请求输入，利用至少一个深度学习模型单元获得至少意图信息和/或身份信息，并至少基于意图信息和/或身份信息获得应答信息；

将所述应答信息转换为应答语音；

播放应答语音。

可选地，所述访问请求输入包括音频和视频中的至少一个。

可选地，在所述访问请求输入包括音频和视频两者的情况下，所述利用至少一个深度学习模型单元获得至少意图信息和/或身份信息，并至少基于意图信息和/或身份信息获得应答信息包括：

利用第一深度学习模型单元从所述音频和视频中分别提取音频特征和视频特征；

基于音频特征和视频特征，利用第二深度学习模型单元确定意图信息和/或身份信息；

基于所述意图信息和/或身份信息，利用第二深度学习模型单元确定所述应答信息。

可选地，所述第一深度学习模型单元和所述第二深度学习模型单元的关系为以下之一：

所述第一深度学习模型单元位于访问交互设备端，所述第二深度学习模型单元位于与所述访问交互设备端通过无线通信协议连接的远程服务端；

所述第一深度学习模型单元和所述第二深度学习模型单元都位于访问交互设备端；

所述第一深度学习模型单元和所述第二深度学习模型单元都位于远程服务端。

可选地，所述基于音频特征和视频特征，利用第二深度学习模型单元确定意图信息和/或身份信息，进一步包括：

基于所述音频特征和视频特征中的至少一个，获取所述意图信息；和/或

基于所述音频特征和视频特征中的至少一个，获取所述身份信息。

可选地，所述基于所述访问请求输入，利用至少一个深度学习模型单元获得至少意图信息和/或身份信息，并至少基于意图信息和/或身份信息获得应答信息，是响应于以下条件中的至少一个执行的：

交互代理模式被设置为开启；

交互代理模式被设置为关闭，向对应的受访者终端发送到访通知，且接收到拒绝应答回复；

交互代理模式被设置为关闭，向对应的受访者终端发送到访通知，且在预定时长内未接收到应答回复。

可选地，所述到访通知至少包括身份信息和/或意图信息。

可选地，该方法还包括:当交互代理模式被设置为关闭，响应于向对应的受访者终端发送到访通知，且在预定时长内接收到受访者终端的受访者应答回复，播放所述受访者应答回复。

可选地，所述播放所述受访者应答回复包括以下中的至少一个：

显示从所述受访者终端接收的应答视频；和

播出从所述受访者终端接收的应答音频。

可选地，所述将所述应答信息转换为应答语音包括：

基于预定参考因子，确定所述应答语音的应答音色；

将所述应答信息转换成具有应答音色的应答语音。

可选地，所述预定参考因子包括预设配置信息、当前时间、意图信息、身份信息中的至少一个。

可选地，在基于所述音频特征和视频特征中的至少一个，获取所述身份信息之后，所述方法还包括：

将获取的身份信息与身份信息库中匹配的身份信息的置信度进行比较，其中，如果身份信息库中匹配的身份信息的置信度大于获取的身份信息的置信度，用身份信息库中匹配的身份信息替换获取的身份信息；反之，以获取的身份信息更新身份信息库中匹配的身份信息。

可选地，所述根据所述意图信息、以及所述身份信息，确定所述应答信息，包括：

根据所述身份信息，获取来访者来访记录；

根据所述意图信息、所述身份信息和所述来访者来访记录，确定所述应答信息。

可选地，所述方法循环执行，所述方法还包括：

记录循环的轮数；

如果循环的轮数达到预定阈值，则停止执行并播放结束语，其中，所述结束语基于循环的各轮中的所述访问请求输入和所述应答信息而生成。

可选地，该方法还包括：如果循环的轮数达到预定阈值，则从循环的各轮中的访问请求输入和应答信息中提取摘要信息，发送到受访者终端。

可选地，如果所述意图信息和所述身份信息中的至少一个符合预定条件，生成访问接收信号。

可选地，执行所述方法的访问交互设备关联有关联设备；在生成访问接收信号之后，所述方法还包括：

基于所述身份信息，查找对应的关联设备操作记录；

按照所述关联设备操作记录，启动对应的关联设备运行。

可选地，所述关联设备包括灯、窗帘、鞋架、空调中的至少一个。

通过访问交互设备获取来访者的访问请求输入，所述访问请求输入包括音频和视频中的至少一个，由所述访问交互设备的第一深度学习模型单元从所述音频和视频中分别提取音频特征和视频特征，发送到与远程服务端的第二深度学习模型单元；

通过所述第二深度学习模型单元，基于从所述第一深度学习模型单元发送的音频特征和视频特征，确定至少意图信息和/或身份信息，并基于至少所述意图信息和/或身份信息，确定所述应答信息，发送回所述第一处理单元；

通过所述第一处理单元将所述应答信息转换为应答语音，由所述访问交互设备播放。

根据本公开的一方面，提供了一种入口访问交互设备，用于应对场所入口处的来访者，包括：

输入单元，用于获取来访者的访问请求输入；

处理单元，用于基于所述访问请求输入，利用至少一个深度学习模型单元获得至少意图信息和/或身份信息，基于至少所述意图信息和/或身份信息获得应答信息，并将所述应答信息转换为应答语音；

播放器，用于播放应答语音。

可选地，所述访问请求输入包括音频和视频中的至少一个，所述输入单元相应地包括收音器和摄像头中的至少一个。

根据本公开的一方面，提高了一种入口访问交互系统，用于应对场所入口处的来访者，包括：

入口访问交互设备，包括：输入单元，用于获取来访者的访问请求输入，所述访问请求输入包括音频和视频中的至少一个；第一深度学习模型单元，用于从所述音频和视频中分别提取音频特征和视频特征；第一收发器，用于将所述音频特征和视频特征发送到远程服务器；

远程服务器，包括：第二深度学习模型单元，用于基于所述音频特征和视频特征，确定至少所述意图信息和/或身份信息，并基于所述意图信息和/或身份信息，确定所述应答信息；第二收发器，用于将所述应答信息发送回所述入口访问交互设备；

其中，所述入口访问交互设备还包括：播放器，用于播放所述应答信息转换成的应答语音。

本公开实施例中，在场所入口处获取来访者的访问请求输入，基于所述访问请求输入，利用至少一个深度学习模型单元获得至少意图信息和/或身份信息，并至少基于意图信息和/或身份信息获得应答信息。通过深度学习模型单元智能地理解了用户的语义和/或身份，并根据理解出来的语义和/或身份智能进行应答。这样，不用受访者进行对话，入口访问交互设备就能代替受访者智能理解来访者的语义和/或身份，并自动作答，提高了交互的效率和智能性，使入口访问交互设备真正充当了“门口助手”。另外，不仅仅根据语义来作答，还充分考虑来访者的身份，从而提高了根据来访者的实际情况作出不同反馈的能力，提高应答灵活性和来访者针对性。

附图说明

通过参考以下附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1示出了根据本公开一个实施例的入口访问交互系统的体系构架图。

图2示出了根据本公开一个实施例入口访问交互设备和远程服务器的具体结构。

图3示出了根据本公开另一个实施例入口访问交互设备和远程服务器的具体结构。

图4示出了根据本公开另一个实施例入口访问交互设备和远程服务器的具体结构。

图5示出了根据本公开一个实施例的入口访问交互方法的流程图。

图6示出了根据本公开另一个实施例的入口访问交互方法的流程图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。

本公开实施例所应用的入口访问交互系统

入口访问交互系统是指设置在场所中，对场所入口处的来访者进行响应和交互的系统。该场所可以是家庭，相应的入口访问交互系统可以是家庭门铃交互系统。当家庭来了访客后，该家庭门铃交互系统不用主人参与，就会自动与访客进行智能问答，从而获得必要信息，以便主人决定是否让访客进入。该场所可以是超市，相应的入口访问交互系统可以是超市门铃交互系统。在超市门口来了顾客之后，该超市门铃交互系统会自动与顾客进行智能问答，了解顾客购物需求，自动给顾客提供购物意见，并告知顾客其需要购买的商品所在的超市位置。该场所可以是医院，相应的入口访问交互系统可以是医院入口分诊系统。在医院门口来了患者之后，该医院入口分诊系统会自动与患者进行智能问答，了解患者症状，给患者推荐就诊的科室，并告知该科室所在的医院位置。该场所可以是地铁，相应的入口访问交互系统可以是地铁入口引导系统。在地铁口来了乘客之后，该地铁入口引导系统会自动与乘客进行智能问答，了解乘客想去的地方，给乘客推荐应乘坐的地铁线路和换乘方式，并告知相应地铁票的价格等。应当理解，以上并不是穷举。虽然场所的不同，有不同的应用场景，它们都落在本发明的保护范围之内。

如图1所示，根据本公开一个实施例的入口访问交互系统可以包括入口访问交互设备110、远程服务器120、受访者终端130。

入口访问交互设备110是在场所入口处采集来访者的信息(语音、视频等)并与来访者进行交互回答的设备，如智能门铃、超市门口的智能交互设备、医院门口的智能分诊交互设备、地铁口的智能对话导乘设备等。

远程服务器120可以设置在场所内，也可以设置在场所外，是存储入口访问交互设备110采集的各种信息(如语音、视频等)的服务端设备。其也可以对入口访问交互设备110上报的信息进行处理，以生成对来访者的应答。对收集的来访者信息进行处理以生成智能应答可以在入口访问交互设备110执行，也可以在远程服务器120执行。下面会对两种不同的实施方式分别进行详细描述。

受访者终端130是受访者用来查看入口访问交互设备110收集的信息，并适时进行干预的终端。虽然在本公开实施例中，入口访问交互设备110和远程服务器120可以智能对来访者进行应答，但受访者终端130上也可以实时查看入口访问交互设备110收集的信息(语音、视频等)。在受访者认为需要干预的时候，也可以受访者亲自进行应答，而不是通过人工智能进行应答。另外，受访者也可以设置由自己进行应答，而取消由人工智能进行应答。由受访者应答和人工智能应答相结合，大大提高了入口访问交互的灵活性。在家庭智能门铃的应用中，受访者终端130可以是家庭内受访者的手机、音箱、能语音和/或视频播放的计算机等。在超市的应用中，受访者终端130可以是超市保安的手机、电脑等。正常情况下，由人工智能进行智能询问和导购。如果保安查看到可疑人员，可以直接进行询问等。在医院的应用中，受访者终端130可以是医院值班护士的手机、电脑等。正常情况下，由人工智能对患者进行应答、分诊。在值班护士查看到某些特殊情况时，例如，躺在担架上需要急救的患者等，也可以由护士直接语音应答，让患者进入等。在地铁的应用中，受访者终端130可以是地铁管理人员的手机、电脑等。正常情况下，由人工智能对乘客进行线路咨询和购票引导。在地铁管理人员查看到可疑人员时，直接由地铁管理人员与其进行语音通话，进行身份核查。

图2示出了根据本公开一个实施例的入口访问交互设备110和远程服务器120的内部结构。

入口访问交互设备110可以包括输入单元210、播放器240、语音合成器250、第一收发器230、第一深度学习模型单元220。输入单元210可以包括摄像头201、收音器202、门铃203等。

输入单元210是采集场所入口处的信息(例如视频、音频)的单元，其中，摄像头201采集入口处的视频，收音器202采集入口处的音频，门铃203供来访者触发以表示要进入场所。播放器240是向来访者播放视音频的设备。例如，它可以播放入口访问交互设备110和远程服务器120智能生成的应答语音，也可以播放受访者在房间里作出应答的视频。语音合成器250是将要向来访者播出的应答内容(例如对来访者智能生成的应答内容)用适当的音色合成应答语音的设备。第一深度学习模型单元220运行第一深度学习模型，用于从摄像头201采集的视频和收音器202采集的音频分别提取音频特征和视频特征。第一收发器230用于将这些音频特征和视频特征发送给远程服务器120，并接收远程服务器120发送的应答信息，交由语音合成器250语音合成后，由播放器240播放。另外，第一收发器230还将摄像头201采集的视频和收音器202采集的音频发送到远程服务器120进行云存储。

远程服务器120可以包括第二收发器310、第二深度学习模型单元320、云存储器330、身份信息库340、来访者来访记录库350。

第二收发器310接收第一收发器230发送的音频特征和视频特征，并把据此得到的应答信息发送回第一收发器230。第二收发器310还接收到入口访问交互设备110采集的音频和视频，并存储到云存储器330。

第二深度学习模型单元320运行第二深度学习模型，用于基于入口访问交互设备110发送的音频特征和视频特征，确定来访者的意图信息和/或身份信息，并基于所述意图信息和/或身份信息，确定对来访者的应答信息。

身份信息库340是记录第二深度学习模型单元320确定的身份信息的数据库，以供之后受访者终端130查找。

来访者来访记录库350是相对于来访者身份信息记录的各来访者来访时的信息的数据，这些信息包括来访时间、时长、说出的音频、意图信息和对其的应答信息等，供之后第二深度学习模型单元320对同一来访者作出应答时参考。

图2的实施例结构比较适用于入口访问交互设备110的处理能力比较小的情况，因此将比较占用处理能力的部分放到远程服务器120端处理。由于大多数情况出于成本考虑，入口访问交互设备110都不会具有很高的处理能力，因此，图2的实施例是常见的情况。另外，由于入口访问交互设备110向远程服务器120发送的是第一深度学习模型单元220提取的视频特征和音频特征，而深度学习模型提取的特征具有抽象性，因此，减少了用户隐私泄露，提高用户安全性。

图3示出了根据本公开另一个实施例的入口访问交互设备110和远程服务器120的内部结构。图3与图2的结构的区别在于，图3中将第二深度学习模型单元320、身份信息库340、来访者来访记录库350纳入了入口访问交互设备110，而不是远程服务器120。这样，第一收发器230向远程服务器120发送的内容就不再有第一深度学习模型单元220得出的视频特征和音频特征，第二收发器310向入口访问交互设备110发送的内容就不再有应答信息。但是，摄像头201采集的视频和收音器202采集的音频还是会由第一收发器230发送给第二收发器310供云存储器330存储，以便受访者终端130调用。

图3的实施例结构比较适合于入口访问交互设备110的处理能力比较大的情况。由于其处理能力强，可以将深度学习模型部分都放到这一部分之中，使应答更加迅速。

图4示出了根据本公开另一个实施例的入口访问交互设备110和远程服务器120的内部结构。图4与图2的结构的区别在于，图4中将第一深度学习模型220也纳入远程服务器120，进一步降低了入口访问交互设备110需要的处理能力要求。这样，第一收发器230向远程服务器120发送的仅是入口访问交互设备110采集的来访者视频和音频，不发送视频特征和音频特征，第二收发器310向第一收发器返回的仍然是应答信息。

如图5所示，提供了一种根据本公开一个实施例的入口访问交互方法，用于应对场所入口处的来访者，包括：

步骤510、获取来访者的访问请求输入；

步骤520、基于所述访问请求输入，利用至少一个深度学习模型单元获得至少意图信息和/或身份信息，并至少基于意图信息和/或身份信息获得应答信息；

步骤530、将所述应答信息转换为应答语音；

步骤540、播放应答语音。

步骤510中的访问请求输入是指来访者在入口访问交互设备110处造成的信息输入。这个输入不一定是主动完成的。例如，摄像头201拍摄来访者的视频，收音器202收集来访者的音频。这些过程可能来访者并没有察觉。在一个实施例中，所述访问请求输入包括收音器202收集的音频和摄像头201拍摄的视频中的至少一个。

步骤510可以有多种触发方式。在一个实施例中，获取来访者的访问请求输入是由来访者按下门铃203触发的。来访者按下门铃203后，摄像头201开始拍摄视频，收音器202开始收集音频。在另一个实施例中，获取来访者的访问请求输入是由入口访问交互设备110中的红外人体传感器(未示)感测到人体而触发的。红外人体传感器感测到人体后，摄像头201开始拍摄视频，收音器202开始收集音频。在另一个实施例中，摄像头201和收音器202可以一直工作。入口访问交互设备110还包括摄像头201连接的人脸检测装置(未示)，或者收音器202连接的声纹识别装置(未示)。一旦人脸检测装置检测出人脸，和/或声纹识别装置识别出声纹，将摄像头201拍摄的视频和收音器202收集的音频移送给第一深度学习模型单元220处理，同时可以将视频和音频通过第一收发器230发送到远程服务器120存档。

在步骤520中，至少一个深度学习模型单元包括第一深度学习模型单元220和第二深度学习模型单元320。如图2-4所示，所述第一深度学习模型单元220和所述第二深度学习模型单元320的关系为以下之一：第一种关系是如图2所示，所述第一深度学习模型单元220位于入口访问交互设备110，所述第二深度学习模型单元320位于与所述入口访问交互设备110通过无线通信协议连接的远程服务器120。第二种关系如图3所示，所述第一深度学习模型单元220和所述第二深度学习模型单元320都位于入口访问交互设备110。第三种关系如图4所示，所述第一深度学习模型单元220和所述第二深度学习模型单元320位于都位于远程服务器120。

在一个实施例中，具体地，步骤520包括：利用第一深度学习模型单元220从所述音频和视频中分别提取音频特征和视频特征；基于音频特征和视频特征，利用第二深度学习模型单元320确定意图信息和/或身份信息；基于所述意图信息和/或身份信息，利用第二深度学习模型单元320确定所述应答信息。

在图2的实施例中，由于第一深度学习模型单元220在入口访问交互设备110，而第二深度学习模型单元320在远程服务器120，因此，第一深度学习模型单元220提取音频特征和视频特征后，第一收发器230将其发送到第二收发器310，由第二收发器310传递给第二深度学习模型单元320，完成步骤520的上述后两个动作。在图3的实施例中，由于第一深度学习模型单元220、第二深度学习模型单元320都在入口访问交互设备110，因此，第一深度学习模型单元220得到的音频特征和视频特征直接输送给第二深度学习模型单元320，完成步骤520的上述后两个动作。第一收发器230仅将输入单元210收集的视频和音频发送给远程服务器120归档。在图4的实施例中，由于第一深度学习模型单元220、第二深度学习模型单元320都在远程服务器120，因此，第一收发器230将输入单元210收集的视频和音频发送给第二收发器310，由第二收发器310传递给第一深度学习模型单元220，完成步骤520的上述第一个动作，得到的音频特征和视频特征传递给第二深度学习模型单元320，完成步骤520的上述后两个动作。

第一深度学习模型单元220用于运行第一深度学习模型。该模型用于从视频中提取视频特征，从音频中提取音频特征。由于深度学习模型的训练方法目前是本领域人员比较熟知的，在这里不对模型的训练过程多加赘述。视频特征和音频特征分别是从视频和音频中提取的抽象的特征，它们也是视音频深度学习领域中常见的概念。

第二深度学习模型单元320用于运行第二深度学习模型。该模型用于基于所述音频特征和视频特征中的至少一个，获取所述意图信息；和/或基于所述音频特征和视频特征中的至少一个，获取所述身份信息。然后，该模型基于确定的意图信息和/或身份信息，确定应答信息。由于深度学习模型的训练方法目前是本领域人员比较熟知的，在这里不对模型的训练过程多加赘述。

意图信息是指表示用户来访意图的信息。在一个实施例中，它可以是从音频中识别出的用户语音直接转成的文字。该语音是来访者说出的，所以该文字就代表了来访者的意图。在另一个实施例中，它可以是结合了视频中用户的动作、表情等，加上音频中来访者的语音一起综合生成的表示用户意图的文字。例如，在视频中来访者表情很着急，音频中来访者说出“在家吗？”。这时候，仅仅将音频中的来访者语音转成文字，可能不足以代表来访者全部的意图。因此，结合视频中的内容，可以确定意图信息为“有来访者非常着急地找你”。

身份信息是用于识别用户的各种信息。它不仅包括姓名、用户标识(ID)等，还包括与受访者的关系、职业等等。不仅仅根据意图信息，还根据身份信息作出应答，是因为，同样的表现在不同身份的来访者的身上，对受访者具有不同的含义。如果一个陌生人突然敲门，喊“快滚出来”和受访者的好友在门口喊“快滚出来”，对于受访者的意义并不一样，应当采取的回答不应是一样的。因此，根据多维信息作出应答，使得确定的应答信息更加人性化，更加贴近于“家门小助手”的职能。

应答信息即作出应答的文字，它是综合根据来访者的意图信息和/或身份信息由第二深度学习模型单元320确定的，该文字转换成语音后，即为向来访者播放的应答。

虽然目前市面上现有的可视门铃普遍包含了红外人体传感器、摄像头、收音器等，但多维度的信息输入并没有有机地结合起来，摄像头仅拍摄视频，收音器仅收集语音，但它们只是在远程服务器分别归档，没有相互作用。需要获得来访者的意图时，仅根据语音。需要获得来访者的身份时，调用视频。现有的门铃不具备真正多模态的理解分析能力。本公开实施例在需要获得来访者的意图信息时，综合来访者的视频和音频，而不是仅根据一方面，从而提供了多模态的理解能力，提高了理解来访者意图的准确性。本公开实施例在需要识别来访者的身份信息时，也综合视频和音频，而不是仅根据一方面，从而提供了多模态的理解能力，提高了身份识别准确性。

另外，市面上已有可视门铃的智能处理能力主要体现在视频算法方面，并没有对实际来访者身份的理解，更没有基于这个来访者身份而在不同场景中给予不同的处理。本公开实施例综合考虑意图信息和身份信息，确定应答信息，而不是仅基于意图信息。结合对来访者身份的理解，可以让可视门铃具备完全拟人化的智能语音对话反馈能力，让可视门铃不仅可作为来客和异常的查看工具，更能成为家门口的事务代办助理。

在一个实施例中，在基于所述音频特征和视频特征中的至少一个，获取所述身份信息之后，上述步骤520还包括：将获取的身份信息与身份信息库340中匹配的身份信息的置信度进行比较，其中，如果身份信息库340中匹配的身份信息的置信度大于获取的身份信息的置信度，用身份信息库340中匹配的身份信息替换获取的身份信息；反之，以获取的身份信息更新身份信息库340中匹配的身份信息。

身份信息库340是存储第二深度学习模型单元320获得的身份信息的数据库。身份信息可以包括如上所述的姓名、身份ID、职业、与受访者的关系等多个身份项。匹配的身份信息是指预先规定的身份项相符的身份信息。例如，如果两个身份信息的姓名一致，则认为两个身份信息匹配。或者，如果两个身份信息的姓名一致、与受访者的关系一致，则认为两个身份信息匹配。在每次第二深度学习模型单元320利用第二深度学习模型得到身份信息时，第二深度学习模型同时还得到该身份信息的置信度。置信度是指该身份信息与实际情况相符的概率。该置信度可以与对应的身份信息一起存储在身份信息库340中。当第二深度学习模型单元320得到一个身份信息后，其可以查找身份信息库340，确定其中是否有与自身匹配的身份信息。如果没有，说明来访者是一个未来访过的人，将确定出的身份信息和相应的置信度补充进身份信息库340。如果有，说明来访者来访过，但其身份信息，例如职业、与受访者的关系可能发生了变化，因此，要将新确定的身份信息的置信度与身份信息库340中匹配的身份信息的置信度进行比较。如果身份信息库340中匹配的身份信息的置信度大于获取的身份信息的置信度，这时不用确定出的身份信息覆盖身份信息库340匹配的身份信息。同时，将身份信息库340中匹配的身份信息取出，作为第二深度学习模型单元320用以获得应答信息的输入，而不是用确定出的身份信息作为获得应答信息的输入。这是因为，确定出的身份信息的置信度不如身份信息库340中已有的匹配身份信息的置信度高，用身份信息库340中已有的匹配身份信息来确定，可以使确定的结果更为精确。如果身份信息库340中匹配的身份信息的置信度不大于获取的身份信息的置信度，这时就用确定出的身份信息覆盖身份信息库340匹配的身份信息，即更新身份信息库340，使得身份信息库340存储的身份信息更精确。同时，用确定出的身份信息作为获得应答信息的输入，而不是用身份信息库340中匹配的身份信息来确定，因为确定出的身份信息的置信度更高一些。通过上述方式，使得第二深度学习模型单元320总是能用更可信的身份信息来获得应答信息，提高智能应答准确率。

另外，在一个实施例中，每次第二深度学习模型单元320确定出身份信息，远程服务器120可以将其连同输入单元210获得的来访者视频和音频一起，发送给受访者终端130，供受访者修改身份信息。如果在预定时间内没有接收到受访者终端130的反馈，第二深度学习模型单元320进行上述与身份信息库340中匹配身份信息的置信度比较的过程。如果在预定时间内接收到受访者终端130的修改反馈，则用受访者修改的身份信息替换第二深度学习模型单元320确定出的身份信息，用其更新身份信息库340中匹配的身份信息，并可以将其置信度设置为100％。该实施例将用户设置与机器智能优化身份信息相结合，进一步提高身份信息的精确性。

在另一个实施例中，确定应答信息可以不仅仅依赖于意图信息和身份信息，还可以依赖于之前的来访者来访记录。该来访记录包括来访者之前来访时的访问请求输入和对其的应答信息。该来访者来访记录与所述身份信息对应地存储在来访者来访记录库350中。当确定了身份信息后，就可以按照身份信息查找来访者来访记录库350，得到来访者来访记录。然后，由第二深度学习模型单元320根据所述意图信息、所述身份信息和所述来访者来访记录，确定所述应答信息。第二深度学习模型单元320确定应答信息时采用第二深度学习模型，其训练方法是已知的，故不赘述。该实施例在对来访者智能应答时，不仅考虑到来访者身份，还考虑该来访者之前来访时的表现和当时的应答，使得智能应答更加模拟人类应答，使入口访问交互设备110真正起到家门口助手的作用。

本公开实施例可以灵活地让受访者设置或选择采用人工智能对来访者进行应答还是自己进行应答。这可以通过启用或禁用交互代理模式来进行。交互代理模式即采用人工智能对来访者进行应答的模式。当交互代理模式被开启时，可以执行上述步骤520。当交互代理模式设置为关闭时，可以由远程服务器120向受访者终端130发送到访通知。在一个实施例中，该到访通知可以是一个简单的“有客到访”的文字或语音。受访者终端130可以采取受访者的手机410或音箱420等的形式。该文字可以显示在受访者的手机410上。该语音可以经受访者的音箱420播出。在另一个实施例中，所述到访通知至少包括身份信息和/或意图信息。该身份信息和/或意图信息可以作为文字显示在受访者的手机410上，也可以转换成语音由受访者的音箱420播放。这样，相比于简单的通知，该身份信息和/或意图信息更加有助于受访者判断是让人工智能去应答，还是自己亲自应答。在另一个实施例中，所述到访通知也可以直接包含入口访问交互设备110采集的视频和音频。该视频经受访者的手机410播放，该音频由受访者的音箱420播放。这样，由于受访者在房间内直接接触一手信息，有助于受访者准确地判断是应该让人工智能去应答，还是自己亲自应答。

如果受访者对于上述到访通知，选择拒绝应答，其可以通过在受访者手机410的界面上选择“拒绝应答”的选项等方式，进行拒绝。受访者终端130向远程服务器120发送拒绝应答回复。这时，仍然由人工智能进行应答，启动步骤520执行。另外，有可能出现向受访者终端130发送了到访通知，但受访者不在屋内，或者在屋内没有看见或听见该到访通知的情况。此时，为了正常接待来访者，设置一个预定时长。如果向受访者终端130发送到访通知后预定时长内，远程服务器120没有接收到应答回复，仍由人工智能进行应答，启动步骤520执行。

如果在预定时长内远程服务器120接收到受访者终端130的受访者应答回复，将受访者应答回复传送回入口访问交互设备110播放。受访者应答回复可以采取多种形式，例如视频或音频。当受访者终端130采用不带摄像头的音箱420时，受访者应答回复是应答音频。音箱420的收音器收集受访者说出的应答音频，经远程服务器120传回入口访问交互设备110，由播放器240播放。当受访者终端130采用手机410或带摄像头的音箱420时，手机410或音箱420的摄像头收集受访者说话的应答视频(大多数情况下，手机410或音箱420的收音器还伴随着收集受访者说话的应答音频)，经远程服务器120传回入口访问交互设备110，在输入单元210的屏幕(未示)上显示应答视频(伴随着在播放器240播放应答音频)。

在步骤520中智能获得了对访问请求输入的应答信息后，就可以在步骤530，将智能获得的应答信息转换为应答语音。它可以通过图2-4的语音合成器250进行。在一个实施例中，语音合成器250基于预定参考因子，确定所述应答语音的应答音色，并将所述应答信息转换成具有应答音色的应答语音。这里的应答音色可以是萝莉音、大叔音、或某个明星的音色等。这里的预定参考因子包括预设配置信息、当前时间、意图信息、身份信息中的至少一个。上述的参考因子不是穷举。本领域技术人员可以受益于上述教导，构想出其它参考因子。它们都落在本发明的保护范围之内。

当根据预设配置信息确定应答音色时，可以由受访者在受访者终端130预设该配置信息。例如，当受访者终端130采用受访者手机410时，受访者可以在受访者手机410上打开相应应用的设置选项，在设置菜单的设置应答音色的一项中设置其需要的应答音色，即配置信息，例如萝莉音等。当受访者终端130采用受访者音箱420时，受访者可以说出设置音色的指令，由受访者音箱420内部的语音识别模块(未示)识别出其需要的应答音色，即配置信息。该配置信息经远程服务器120传送回入口访问交互设备110，保存在语音合成器250。之后，语音合成器250就根据该预设的配置信息，将所述应答信息转换成具有该配置的应答音色的应答语音。

另外，受访者可以事先设置对应于不同时间段的不同应答音色。例如，上午5:00-7:00设置为萝莉音；上午7:00-11:00设置为大叔音；中午11:00-13:00设置为少年音等。该配置信息在受访者终端130可以以与上述类似的方法预先设置，经远程服务器120传送回入口访问交互设备110，保存在语音合成器250。之后，语音合成器250就根据当前时间所属的时间段，将所述应答信息转换成与该时间段对应的应答音色的应答语音。

另外，也可以根据上述识别出的来访者的意图信息，由语音合成器250确定应答音色。受访者可以事先设置对应于不同意图信息的不同应答音色。其可以在受访者终端130以与上述类似的方法预先设置，经远程服务器120传送回入口访问交互设备110，保存在语音合成器250。之后，语音合成器250就根据该意图信息确定对应的应答音色，将所述应答信息转换成该对应的应答音色的应答语音。

另外，也可以根据上述识别出的来访者的身份信息，由语音合成器250确定应答音色。受访者可以事先设置对应于不同身份信息的不同应答音色。其可以在受访者终端130以与上述类似的方法预先设置，经远程服务器120传送回入口访问交互设备110，保存在语音合成器250。之后，语音合成器250就根据该身份信息确定对应的应答音色，将所述应答信息转换成该对应的身份音色的应答语音。

上述个性化音色生成的方案，可以对不同的来访者、结合不同时间等信息综合决策出当前使用哪一种音色来进行人机智能对话，提高了对来访者智能应答的灵活性，让可视门铃不但在应答内容上，而且在应答音色选择上也具备拟人化的智能反馈能力。

在步骤530中将所述应答信息转换为应答语音后，就可以在步骤540中，由播放器240播放应答语音。然后，用户还要根据应答语音再说话，这时再重复执行回步骤510。也就是说，步骤510-540是循环执行。循环的轮数即来访者说话-机器智能应答或受访者应答的轮数。对于机器智能应答来说，这个轮数不可能是无限制的，以避免无休止地对话，浪费系统资源。因此，预先设置一个阈值。记录循环的轮数。如果循环的轮数达到预定阈值，则停止执行并播放结束语。所述结束语可以由第二深度学习模型单元320基于循环的各轮中的所述访问请求输入和所述应答信息而生成。结束语生成方法采用深度学习模型，其训练方法是已知的，不再赘述。

该结束语可以转化成语音，经播放器240播放给来访者。对于受访者，则可以从循环的各轮中的访问请求输入和应答信息中提取摘要信息，发送到受访者终端130。提取摘要信息也可以采用深度学习模型。但作为一种简化的方式，也可以采取关键词提取。当受访者终端130采用受访者手机410时，该摘要信息可以显示在受访者手机410上。当受访者终端130采用受访者音箱420时，该摘要信息可以转化成语音由受访者音箱420播放。

另外，在一些实施例中，上述确定的意图信息和/或身份信息还可以与门或其它智能家居设备的控制联系在一起，例如，根据确定的意图信息和/或身份信息打开门锁和/或启动某个智能家居设备运行。

在一个实施例中，如果所述意图信息和所述身份信息中的至少一个符合预定条件，生成访问接收信号。该访问接收信号可以发送给门锁控制设备，启动门锁打开，让来访者进来。该预定条件可以是所述意图信息落入预先设定的意图信息的范围，如当有人说“收水费”，则让来访者进来。另外，该预定条件可以是所述身份信息落入预先设定的身份信息的范围，如当识别出来访者是家庭成员，则让来访者进来。该实施例将入口访问交互设备110的智能对话功能与智能开门功能结合起来，使得入口访问交互设备110不但能够充当对话机器人，还能充当智能门卫，从而更好地充当“门口小助手”的角色。

在一个实施例中，入口访问交互设备110关联有关联设备。在智能家居的场景中，这些关联设备一般是一些智能家居设备，如灯、窗帘、鞋架、空调中的至少一个。入口访问交互设备110中具有对它们的遥控器(未示)。一旦入口访问交互设备110确定某些条件满足，就通过遥控器让它们运行。在该实施例中，可以在生成访问接收信号(生成访问接收信号表示门打开，放来访者进入)之后，基于确定的来访者的身份信息，查找对应的关联设备操作记录。关联设备操作记录是记载着各种来访者之前来访时进门后对关联设备的操作的记录。这可能会要求在历史上的来访者进门后，对各种关联设备进行了哪些操作，由关联设备无线上报给入口访问交互设备110，入口访问交互设备110将其与用户身份信息对应记录下来，作为关联设备操作记录。这样，之后在识别出来访者进门后，就可以根据来访者的身份信息，查找对应的关联设备操作记录，从而知道来访者之前进门后都习惯操作哪些关联设备，以及如何操作，根据这些信息启动对应的关联设备运行。例如，妈妈每次进门后都开窗帘，那么入口访问交互设备110当前就可以通过内置的遥控器，自动为妈妈在进门后打开窗帘，等等。该实施例使得门口小助手与智能家居控制小助手融为一体，进一步丰富了入口访问交互设备110的用户体验。

如图6所示，根据本公开的一个实施例，还提供了一种入口访问交互方法，用于应对场所入口处的来访者，包括：

步骤610、通过访问交互设备获取来访者的访问请求输入，所述访问请求输入包括音频和视频中的至少一个，由所述访问交互设备的第一深度学习模型单元从所述音频和视频中分别提取音频特征和视频特征，发送到与远程服务端的第二深度学习模型单元；

步骤620、通过所述第二深度学习模型单元，基于从所述第一深度学习模型单元发送的音频特征和视频特征，确定至少意图信息和/或身份信息，并基于至少所述意图信息和/或身份信息，确定所述应答信息，发送回所述第一处理单元；

步骤630、通过所述第一处理单元将所述应答信息转换为应答语音，由所述访问交互设备播放。

上述步骤仅仅是从入口访问交互系统中多个设备的角度，来综合描述图2的实施例的过程，其细节已经在上述结合图5的方法实施例的详细描述中讨论，故不赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种入口访问交互方法，用于应对场所入口处的来访者，包括：

获取来访者的访问请求输入；

将所述应答信息转换为应答语音；

播放应答语音。

2.根据权利要求1所述的方法，其中，所述访问请求输入包括音频和视频中的至少一个。

3.根据权利要求2所述的方法，其中，在所述访问请求输入包括音频和视频两者的情况下，所述利用至少一个深度学习模型单元获得至少意图信息和/或身份信息，并至少基于意图信息和/或身份信息获得应答信息包括：

4.根据权利要求3所述的方法，其中，所述第一深度学习模型单元和所述第二深度学习模型单元的关系为以下之一：

5.根据权利要求3所述的方法，其中，所述基于音频特征和视频特征，利用第二深度学习模型单元确定意图信息和/或身份信息，进一步包括：

6.根据权利要求1所述的方法，其中，所述基于所述访问请求输入，利用至少一个深度学习模型单元获得至少意图信息和/或身份信息，并至少基于意图信息和/或身份信息获得应答信息，是响应于以下条件中的至少一个执行的：

交互代理模式被设置为开启；

7.根据权利要求6所述的方法，其中，所述到访通知至少包括身份信息和/或意图信息。

8.根据权利要求6或7所述的方法，还包括:当交互代理模式被设置为关闭，响应于向对应的受访者终端发送到访通知，且在预定时长内接收到受访者终端的受访者应答回复，播放所述受访者应答回复。

9.根据权利要求8所述的方法，其中，所述播放所述受访者应答回复包括以下中的至少一个：

显示从所述受访者终端接收的应答视频；和

播出从所述受访者终端接收的应答音频。

10.根据权利要求1所述的方法，其中，所述将所述应答信息转换为应答语音包括：

基于预定参考因子，确定所述应答语音的应答音色；

将所述应答信息转换成具有应答音色的应答语音。

11.根据权利要求10所述的方法，其中，所述预定参考因子包括预设配置信息、当前时间、意图信息、身份信息中的至少一个。

12.根据权利要求5所述的方法，其中，所述根据所述意图信息、以及所述身份信息，确定所述应答信息，包括：

根据所述身份信息，获取来访者来访记录；

13.一种入口访问交互方法，用于应对场所入口处的来访者，包括：

14.一种入口访问交互设备，用于应对场所入口处的来访者，包括：

输入单元，用于获取来访者的访问请求输入；

播放器，用于播放应答语音。