CN110636170A

CN110636170A - 一种语音通话控制方法及其相关产品

Info

Publication number: CN110636170A
Application number: CN201910820003.2A
Authority: CN
Inventors: 余承富
Original assignee: SHENZHEN DANALE TECHNOLOGY Co Ltd
Current assignee: SHENZHEN DANALE TECHNOLOGY Co Ltd
Priority date: 2019-08-31
Filing date: 2019-08-31
Publication date: 2019-12-31
Anticipated expiration: 2039-08-31
Also published as: CN110636170B

Abstract

本申请实施例公开了一种语音通话控制及其相关产品，应用于通话控制系统的第一前端感知设备，方法包括：采集第一用户的第一手势；在检测到所述第一手势与预设的电话功能启用手势匹配时，通知第一终端设备开启通话功能，所述第一终端设备为与所述至少一个终端设备中的终端设备；采集所述第一用户的第二手势，并向所述服务器上传所述第二手势；接收来自所述服务器的所述第一通话语音；播放所述通话语音。本申请通过识别手势并进行语音转换来实现语音通话，提高了手势沟通的效率和可靠性。

Description

一种语音通话控制方法及其相关产品

技术领域

本申请涉及计算机技术领域，尤其涉及一种语音通话控制方法及其相关产品。

背景技术

随着科技水平不断发展和进步，人们的生活得到了极大的便利，人们对现实感官体验方式不断发生变化。在一些人工智能领域，手势转换成语音形成了流行趋势。

目前，市面上基于手势识别和语音转换的产品的功能较单一，手势识别功能只能识别单一手势且不能对连续手势进行识别，现有的产品的手势转换语音的功能比较简单，不能将复杂的手势转换成手势对应语义的语音。例如，在手语中，现有产品很难将手语中“今天天气很好”转换成对应语义的语音。如果一个人用手势沟通，但另一个人难以解读该手势，导致沟通效率低。

发明内容

本申请实施例的主要目的在于提供一种车辆管理方法及其相关产品，能够有效评价车辆管理服务。

第一方面，本申请实施例提供了一种语音通话控制方法，应用于通话控制系统的第一前端感知设备，所述通话控制系统包括多个前端感知设备、服务器以及至少一个终端设备，所述多个感知设备中的每个前端感知设备与所述服务器、所述至少一个终端设备通信连接，所述多个感知设备包括所述第一前端感知设备，包括：

采集第一用户的第一手势；

在检测到所述第一手势与预设的电话功能启用手势匹配时，通知第一终端设备开启通话功能，所述第一终端设备为与所述至少一个终端设备中的终端设备；

采集所述第一用户的第二手势，并向所述服务器上传所述第二手势，所述第二手势用于服务器执行以下操作：根据所述第二手势进行语义解析得到第一通话语音，以及向所述通话功能的对端设备发送所述第一通话语音，并向所述第一前端感知设备发送所述第一通话语音；

接收来自所述服务器的所述第一通话语音；

播放所述通话语音。

第二方面，本申请实施例提供了一种语音通话控制装置，应用于通话控制系统的第一前端感知设备，所述通话控制系统包括多个前端感知设备、服务器以及至少一个终端设备，所述多个感知设备中的每个前端感知设备与所述服务器、所述至少一个终端设备通信连接，所述多个感知设备包括所述第一前端感知设备，所述语音通话控制装置包括：

第一采集单元，用于采集第一用户的第一手势；

通知单元，用于在检测到所述第一手势与预设的电话功能启用手势匹配时，通知第一终端设备开启通话功能，所述第一终端设备为与所述至少一个终端设备中的终端设备；

第二采集单元，用于采集所述第一用户的第二手势，并向所述服务器上传所述第二手势，所述第二手势用于服务器执行以下操作：根据所述第二手势进行语义解析得到第一通话语音，以及向所述通话功能的对端设备发送所述第一通话语音，并向所述第一前端感知设备发送所述第一通话语音；

接收单元，用于接收来自所述服务器的所述第一通话语音；

播放单元，用于播放所述通话语音。

第三方面，本申请实施例提供了一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，本申请实施例中所描绘的语音通话控制方法及相关产品，应用于通话控制系统的第一前端感知设备。本申请通过第一手势识别开启第一终端设备的电话功能，并识别第二手势并将第二手势进行语音转换来实现语音通话，提高了手势沟通的效率和可靠性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用场景所涉及的系统框架示意图；

图2a为本申请实施例提供的一种语音通话控制装置方法的流程示意图；

图2b为本申请实施例提供的一种停止手势示意图；

图2c为本申请实施例提供的一种停止手势示意图；

图2d为本申请实施例提供的一种表示通话手势示意图；

图2e为本申请实施例提供的一种表示拍照手势示意图；

图2f为本申请实施例提供的一种应用场景所涉及的系统框架示意图；

图3为本申请实施例提供的一种语音通话控制装置方法的流程示意图；

图4是本申请实施例提供的一种电子设备的结构示意图；

图5是本申请实施例提供的一种语音通话控制装置的功能单元组成框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例所涉及到的电子设备可以是具备通信能力的电子设备，该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(User Equipment，UE)，移动台(Mobile Station，MS)，终端设备(terminal device)等等。

针对手势沟通效率低的问题，语音通话控制系统将连续的手势转换成对应语义的通话语音，以减少手势语义的分歧，提高手势沟通效率。

下面对本申请实施例进行详细介绍。

请参阅图1，图1是本申请实施例提供的一种语音通话控制系统应用场景的示意图，其中，所述语音通话控制系统包括所述第一电子设备、第二电子设备、服务器。所述第一电子设备和第二电子设备接入服务器。

为解决手势交流沟通时沟通效率低的问题，本申请提供了一种语音通话控制方法，具体如图2a所示，该方法可以包括但不限于如下步骤：

S201、采集第一用户的第一手势。

其中，所述第一手势用于启用所述第一终端设备的电话功能。

具体实现中，所述第一手势由第一前端感知设备获取。手势第一手势获取的方法，包括：

获取第一用户的图像；根据所述第一用户的图像，确定第一感兴趣区域，所述第一感兴趣区域可以使人形上半身、人形、人脸；判断所述第一感兴趣区域是否为正脸，若是，则获取所述第一感兴趣区域的第二感兴趣区域，将所述第二感兴趣区域为手势获取的第一手势。

具体实现中，所述第一手势包括但不限于：停止手势、通话手势、拍照手势。所述停止手势可以是双手交叉手势，如图2b所示的停止手势，也可以是第一手掌的手指均伸直、第二手掌的食指伸直其余手指弯曲的手势，如图2c所示的停止手势，还可以是其他的手势，具体此处不做限制；所述通话手势可以是食指、中指和无名指弯曲，大拇指和小指伸直的手势，如图2d所示通话手势，还可以是其他的手势，具体此处不做限制；所述拍照手势可以是双手的大拇指和食指伸直、其余手指弯曲并且双手掌心方向相反，如图2f所示的拍照手势，还可以是其他手势，具体此处不做限制。

S202、在检测到所述第一手势与预设的电话功能启用手势匹配时，通知第一终端设备开启通话功能。

其中，所述第一终端设备为与所述至少一个终端设备中的终端设备。

具体实现中，所述第一手势包括以下至少一种：第一用户的预设手势、设备系统预设手势。

S203、采集所述第一用户的第二手势，并向所述服务器上传所述第二手势。

其中，所述第二手势用于服务器执行以下操作：根据所述第二手势进行语义解析得到第一通话语音，以及向所述通话功能的对端设备发送所述第一通话语音，并向所述第一前端感知设备发送所述第一通话语音，所述第二手势可以是多个手势动作的集合。

具体实现中，所述第二手势与预设手势匹配一致后，得到与预设手势对应的第一通话语音，所述第一感知设备包括摄像头、语音播放设备。

S204、接收来自所述服务器的所述第一通话语音。

其中，所述接收来自所述服务器的所述第一通话语音，将所述第一通话语音存入通话语音集合。

S205、播放所述通话语音。

具体实现中，所述通话语音为所述第一通话语音集合。

可以看出，本申请实施例中所描绘的语音通话控制方法及其相关产品，应用于通话控制系统的第一前端感知设备。通过所述第一手势开启所述第一终端设备电话功能，基于手势触发通话功能，提高通话功能的使用便捷性和智能性，将所述第二手势转换成对应语义的通话语音，以提高手势与语音通话中的沟通效率。

在一个可能的示例中，所述第一终端设备为预先与所述第一前端感知设备建立绑定关系的终端设备。

具体实现中，所述第一终端设备与所述第一前端感知设备。

在一个可能的示例中，所述第一终端设备为预先与所述第一用户的人脸图像建立有绑定关系的终端设备。

具体实现中，所述第一终端设备预先获取所述第一用户的人脸图像，所述第一用户的人脸图像用于开启所述第一终端设备。

在一个可能的示例中，所述通话功能为主动呼叫功能；所述主动呼叫功能中的所述对端设备是通过如下策略中的任意一种确定的：根据所述第一前端感知设备确定的第二用户的终端设备。

具体实现中，所述第一前端感知设备获取所述第一手势，所述第一手势用于开启所述第一终端设备的电话功能，所述电话功能包括：呼叫第二用户的终端设备和语音通话。

以及，根据预设状态信息确定的第二用户的终端设备，所述预设状态信息包括当前环境状态信息和/或用户状态信息。

其中，所述当前环境状态信息包括以下至少一种：时间、环境光强、温度，所述用户状态信息包括以下至少一种：根据所述第一用户的人脸图像确定的用户身份、根据所述第一用户的人脸图像确定的用户情绪、根据所述第一用户的人脸图像确定的口型、根据所述第一用户的图像确定的特定部位的动作。

具体实现中，所述根据所述第一用户的人脸图像确定的用户情绪包括以下至少一种：喜、怒、哀、乐、惧、愁；所述根据所述第一用户的图像确定的特定部位的动作中所述特定部位，包括以下至少一种：手、脚、腿、身躯、脸部。

可以看出，本申请实施例中所描绘的语音通话控制方法及其相关产品，应用于通话控制系统的第一前端感知设备。通过根据所述第一用户的人脸图像确定的用户情绪和口型、根据所述第一用户的图像确定的特定部位的动作，将所述特定部位的动作转换成对应语义的语音，以提高手势在语音通话中的沟通效率。

在一个可能的示例中，所述预设状态信息包括所述当前环境状态信息和所述用户状态信息，所述用户状态信息包括根据所述第一用户的人脸图像确定的用户身份，所述当前环境状态信包括时间；所述根据预设状态信息确定的第二用户的终端设备，包括：根据所述用户身份确定被叫用户集合，所述被叫用户集合包括多个可选被叫用户；根据所述时间所处的参考时段；确定所述多个可选被叫用户中适配所述参考时段的第二用户的终端设备。

具体实现中，所述时间包括当前的环境所处的时间，所述确定所述多个可选的被叫用户中适配所述参考时段的第二用户的终端设备，通过时间和所述第一用户确定的。

可以看出，本申请实施例中所描绘的语音通话控制方法及其相关产品，应用于通话控制系统的第一前端感知设备。通过所述预设状态信息，确定所述多个可选被叫用户中适配所述参考时段的第二用户的终端设备，以提高手势在语音通话中的沟通效率。

在一个可能的示例中，所述参考时段与所述第二用户之前的对应关系是通过如下操作实现的：统计历史时段内所述第一用户在所述参考时段的多个主叫记录；确定所述多个主叫记录包含的多个被叫用户；确定所述多个被叫用户中每个被叫用户的至少一个主叫记录；获取所述每个被叫用户在所述第一终端设备的通讯录中的分类标识，并根据所述分类标识确定所述每个被叫用户的关联度影响因子；根据所述每个被叫用户的至少一个主叫记录和所述每个被叫用户的关联度影响因子，确定所述每个被叫用户的通话需求综合评分；确定目标关联度评分最高的第二用户，并建立所述参考时段与所述第二用户之前的对应关系。

可以看出，本申请实施例中所描绘的语音通话控制方法及其相关产品，应用于通话控制系统的第一前端感知设备。通过参考时段与所述第二用户建立对应关系，将所述特定部位的动作转换成对应语义的语音，以提高手势在语音通话中的沟通效率。

在一个可能的示例中，所述根据所述每个被叫用户的至少一个主叫记录和所述每个被叫用户的关联度影响因子，确定所述每个被叫用户的通话需求综合评分，包括：根据所述每个被叫用户的至少一个主叫记录确定所述每个被叫用户的通话次数、通话总时长；解析所述每个被叫用户的至少一个主叫记录中每个主叫记录的语音信息，得到所述每个主叫做记录所包含的语气助词，并根据所述语气助词确定所述每个主叫记录的用户通话情绪基础评分；根据所述通话次数和所述通话总时长确定所述每个被叫用户的参考关联度评分；根据所述参考关联度评分和所述每个被叫用户的关联度影响因子确定所述每个被叫用户的目标关联度评分；根据所述目标关联度评分和所述用户通话情绪基础评分确定通话需求综合评分。

具体实现中，所述语气助词包括：么、阿、啊、啦、唉、呢、吧、了、哇、呀、吗、哦、噢、喔、呵、嘿、吁、吓、吖、吆、呜、咔、咚、呼、呶、呣、咝、咯、咳、呗、咩、哪、哎等，其中辅音语气词吧、罢、呗、啵、的、价、家、啦、来、唻、了、嘞、哩、咧、咯、啰、喽、吗、嘛、么、哪、呢、呐、否、呵、哈、不、兮、般、罗、噻、哉罢了、不成、得了、而已、的话、来着、了得、也罢、已而、着呢、着哩、着呐、来的、也好、便了、起见、就是、似地、是的、一般、一样、再说、不过、就是了。

具体实现中，根据所述语气助词确定所述每个主叫记录的用户通话情绪基础评分，所述用户通话情绪基础评分分为喜、怒、哀、乐四个方面评分。

具体实现中，用户的关联度影响因子包括：单次通话时长、通话次数、通话总时长、用户通话情绪基础评分。

可以看出，本申请实施例中所描绘的语音通话控制方法及其相关产品，应用于通话控制系统的第一前端感知设备。通过所述语气助词确定所述每个主叫记录的用户通话情绪基础评分，有利于将手势对应的语义准确表达，以提高手势在语音通话中的沟通效率。

在一个可能的示例中，所述方法还包括：接收来自所述服务器的第二通话语音，播放所述第二通话语音，其中，所述第一通话语音是所述服务器执行以下操作而发送的：接收来自所述通话功能的对端设备的所述第二通话语音。

可以看出，本申请实施例中所描绘的语音通话控制方法及其相关产品，应用于通话控制系统的第一前端感知设备。同时接收第二通话语音和发送第一通话语音，可以提高手势在语音通话中的沟通效率。

在一个可能的示例中，所述语气助词包括多个语气助词；所述根据所述语气助词确定所述每个主叫记录的用户通话情绪基础评分，包括：确定所述多个语气助词中每个语气助词的前后文信息；根据所述语气助词的前后文信息确定所述每个语气助词所对应的用户情绪类别；查询预设的用户情绪类别与情绪评分贡献值之间的关系，确定所述用户情绪类别所对应的情绪评分贡献值；根据所述多个语气助词的多个情绪评分贡献值确定所述每个主叫记录的用户通话情绪基础评分。

具体实现中，所述用户情绪类别分为：喜，包括：喜爱、喜悦、喜好、喜欢、高兴、快乐；怒，包括：包括愤怒、恼怒、发怒、怨恨、愤恨；哀，包括：悲伤、悲痛、悲哀、怜悯、哀怜、哀愁、哀悯、哀怨；乐，包括：欢乐，愉悦，幸福；惊，包括：惊咤、惊愕、惊慌、惊悸、惊奇、惊叹、惊喜、惊讶；恐，包括：恐慌、恐惧、害怕、担心、担忧、畏惧；思，包括：思念、想念、思慕。

可以看出，本申请实施例中所描绘的语音通话控制方法及其相关产品，应用于通话控制系统的第一前端感知设备。通过根据所述多个语气助词的多个情绪评分贡献值确定所述每个主叫记录的用户通话情绪基础评分，有利于将手势对应的语义准确表达，以提高手势在语音通话中的沟通效率。

下面通过一个具体的例子对本申请实施例进行详细介绍。

例如，如图2b所述的本申请实施例提供的一种应用场景所涉及的系统框架示意图。第一设备终端和第二用户的设备终端利用语音通话控制的应用程序进行手势转换语音操作。其中，所述应用场景包括：第一设备终端、第二设备终端、服务器。

与上述图2a所示的实施例一致，请参阅图3，图3是本申请实施例提供的一种语音通话控制方法的流程示意图，应用于通话控制系统的第一前端感知设备，所述通话控制系统包括多个前端感知设备、服务器以及至少一个终端设备，所述多个感知设备中的每个前端感知设备与所述服务器、所述至少一个终端设备通信连接，所述多个感知设备包括所述第一前端感知设备；本语音通话控制方法包括：

S301、采集第一用户的第一手势，

S302、判断所述第一手势与所述启用手势是否匹配。

S303、若所述第一手势与所述启用手势匹配一致，则根据所述第一前端感知设备确定的第二用户的终端设备并对所述第二用户的终端设备进行呼叫。

S304、采集第二手势，并将所述第二手势与预设手势进行匹配。

S305、若所述第二手势与预设手势匹配一致，则得到与所述预设手势对应的第一通话语音。

S306、接收来自所述服务器的所述第一通话语音

S307、；根据多个通话语音得到通话语音，并播放所述通话语音。

可以看出，本申请实施例中所描绘的语音通话控制方法及其相关产品，应用于通话控制系统的第一前端感知设备。通过将所述第二手势与预设手势匹配，将所述第二手势转换成对应语义的通话语音，以提高手势与语音通话中的沟通效率。

请参阅图4，图4是本申请实施例提供的一种电子设备400的结构示意图，如图所示，所述电子设备400包括应用处理器410、存储器420、通信接口430以及一个或多个程序421，其中，所述一个或多个程序421被存储在上述存储器420中，并且被配置由上述应用处理器410执行，所述一个或多个程序421包括用于执行以下步骤：

采集第一用户的第一手势；

接收来自所述服务器的所述第一通话语音；

播放所述通话语音。

在一个可能的示例中，在所述通话功能为主动呼叫功能；所述主动呼叫功能中的所述对端设备方面，所述程序中的指令具体用于执行以下操作：

根据所述第一前端感知设备确定的第二用户的终端设备；以及，

根据预设状态信息确定的第二用户的终端设备，所述预设状态信息包括当前环境状态信息和/或用户状态信息，所述当前环境状态信息包括以下至少一种：时间、环境光强、温度，所述用户状态信息包括以下至少一种：根据所述第一用户的人脸图像确定的用户身份、根据所述第一用户的人脸图像确定的用户情绪、根据所述第一用户的人脸图像确定的口型、根据所述第一用户的图像确定的特定部位的动作。

在一个可能的示例中，在所述预设状态信息包括所述当前环境状态信息和所述用户状态信息，所述用户状态信息包括根据所述第一用户的人脸图像确定的用户身份，所述当前环境状态信包括时间；所述根据预设状态信息确定的第二用户的终端设备方面，所述程序中的指令具体用于执行以下操作：

根据所述用户身份确定被叫用户集合，所述被叫用户集合包括多个可选被叫用户；

根据所述时间所处的参考时段；

确定所述多个可选被叫用户中适配所述参考时段的第二用户的终端设备。

在一个可能的示例中，在所述参考时段与所述第二用户之前的对应关系方面，所述程序中的指令具体用于执行以下操作：

统计历史时段内所述第一用户在所述参考时段的多个主叫记录；确定所述多个主叫记录包含的多个被叫用户；

确定所述多个被叫用户中每个被叫用户的至少一个主叫记录；

获取所述每个被叫用户在所述第一终端设备的通讯录中的分类标识，并根据所述分类标识确定所述每个被叫用户的关联度影响因子；

根据所述每个被叫用户的至少一个主叫记录和所述每个被叫用户的关联度影响因子，确定所述每个被叫用户的通话需求综合评分；

确定目标关联度评分最高的第二用户，并建立所述参考时段与所述第二用户之前的对应关系。

在一个可能的示例中，在所述根据所述每个被叫用户的至少一个主叫记录和所述每个被叫用户的关联度影响因子，确定所述每个被叫用户的通话需求综合评分方面，所述程序中的指令具体用于执行以下操作：

根据所述每个被叫用户的至少一个主叫记录确定所述每个被叫用户的通话次数、通话总时长；

解析所述每个被叫用户的至少一个主叫记录中每个主叫记录的语音信息，得到所述每个主叫做记录所包含的语气助词，并根据所述语气助词确定所述每个主叫记录的用户通话情绪基础评分；

根据所述通话次数和所述通话总时长确定所述每个被叫用户的参考关联度评分；

根据所述参考关联度评分和所述每个被叫用户的关联度影响因子确定所述每个被叫用户的目标关联度评分；

根据所述目标关联度评分和所述用户通话情绪基础评分确定通话需求综合评分。

在一个可能的示例中，在所述语气助词包括多个语气助词；所述根据所述语气助词确定所述每个主叫记录的用户通话情绪基础评分方面，所述程序中的指令具体用于执行以下操作：

确定所述多个语气助词中每个语气助词的前后文信息；根据所述语气助词的前后文信息确定所述每个语气助词所对应的用户情绪类别；

查询预设的用户情绪类别与情绪评分贡献值之间的关系，确定所述用户情绪类别所对应的情绪评分贡献值；

根据所述多个语气助词的多个情绪评分贡献值确定所述每个主叫记录的用户通话情绪基础评分。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图5是本申请实施例中所涉及的语音通话控制装置500的功能单元组成框图。该语音通话控制装置500，应用于通话控制系统的第一前端感知设备，所述通话控制系统包括多个前端感知设备、服务器以及至少一个终端设备，所述多个感知设备中的每个前端感知设备与所述服务器、所述至少一个终端设备通信连接，所述多个感知设备包括所述第一前端感知设备；所述语音通话控制装置包括：第一采集单元501、通知单元502、第二采集单元503，接收单元504和播放单元505。

其中，第一采集单元501，用于采集第一用户的第一手势；通知单元502，用于在检测到所述第一手势与预设的电话功能启用手势匹配时，通知第一终端设备开启通话功能，所述第一终端设备为与所述至少一个终端设备中的终端设备；第二采集单元503，用于采集所述第一用户的第二手势，并向所述服务器上传所述第二手势，所述第二手势用于服务器执行以下操作：根据所述第二手势进行语义解析得到第一通话语音，以及向所述通话功能的对端设备发送所述第一通话语音，并向所述第一前端感知设备发送所述第一通话语音；接收单元504，用于接收来自所述服务器的所述第一通话语音；播放单元505，用于播放所述通话语音。

在一个可能的示例中，在所述通话功能为主动呼叫功能；所述主动呼叫功能中的所述对端设备方面，通知单元502具体用于：根据所述第一前端感知设备确定的第二用户的终端设备；以及，根据预设状态信息确定的第二用户的终端设备，所述预设状态信息包括当前环境状态信息和/或用户状态信息，所述当前环境状态信息包括以下至少一种：时间、环境光强、温度，所述用户状态信息包括以下至少一种：根据所述第一用户的人脸图像确定的用户身份、根据所述第一用户的人脸图像确定的用户情绪、根据所述第一用户的人脸图像确定的口型、根据所述第一用户的图像确定的特定部位的动作。

在一个可能的示例中，在所述根据所述每个被叫用户的至少一个主叫记录和所述每个被叫用户的关联度影响因子，确定所述每个被叫用户的通话需求综合评分方面，通知单元502具体用于：根据所述每个被叫用户的至少一个主叫记录确定所述每个被叫用户的通话次数、通话总时长；解析所述每个被叫用户的至少一个主叫记录中每个主叫记录的语音信息，得到所述每个主叫做记录所包含的语气助词，并根据所述语气助词确定所述每个主叫记录的用户通话情绪基础评分；根据所述通话次数和所述通话总时长确定所述每个被叫用户的参考关联度评分；根据所述参考关联度评分和所述每个被叫用户的关联度影响因子确定所述每个被叫用户的目标关联度评分；根据所述目标关联度评分和所述用户通话情绪基础评分确定通话需求综合评分。

其中，所述数据传输装置500还可以包括存储单元506，用于存储电子设备的程序代码和数据。所述第一采集单元501可以是处理器，所述通知单元503可以是触控显示屏或者收发器，播放单元505可以是语音播放器，存储单元506可以是存储器。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音通话控制方法，其特征在于，应用于通话控制系统的第一前端感知设备，所述通话控制系统包括多个前端感知设备、服务器以及至少一个终端设备，所述多个感知设备中的每个前端感知设备与所述服务器、所述至少一个终端设备通信连接，所述多个感知设备包括所述第一前端感知设备，所述方法包括：

采集第一用户的第一手势；

接收来自所述服务器的所述第一通话语音；

播放所述通话语音。

2.根据权利要求1所述的方法，其特征在于，所述第一终端设备为预先与所述第一前端感知设备建立绑定关系的终端设备。

3.根据权利要求2所述的方法，其特征在于，所述第一终端设备为预先与所述第一用户的人脸图像建立有绑定关系的终端设备。

4.根据权利要求2或3所述的方法，其特征在于，所述通话功能为主动呼叫功能；所述主动呼叫功能中的所述对端设备是通过如下策略中的任意一种确定的：

5.根据权利要求4所述的方法，其特征在于，所述预设状态信息包括所述当前环境状态信息和所述用户状态信息，所述用户状态信息包括根据所述第一用户的人脸图像确定的用户身份，所述当前环境状态信包括时间；所述根据预设状态信息确定的第二用户的终端设备，包括：

根据所述时间所处的参考时段；

6.根据权利要求5所述的方法，其特征在于，所述参考时段与所述第二用户之前的对应关系是通过如下操作实现的：

统计历史时段内所述第一用户在所述参考时段的多个主叫记录；

确定所述多个主叫记录包含的多个被叫用户；

7.根据权利要求6所述的方法，其特征在于，所述根据所述每个被叫用户的至少一个主叫记录和所述每个被叫用户的关联度影响因子，确定所述每个被叫用户的通话需求综合评分，包括：

8.根据权利要求7所述的方法，其特征在于，所述语气助词包括多个语气助词；所述根据所述语气助词确定所述每个主叫记录的用户通话情绪基础评分，包括：

确定所述多个语气助词中每个语气助词的前后文信息；

根据所述语气助词的前后文信息确定所述每个语气助词所对应的用户情绪类别；

9.一种语音通话控制装置，其特征在于，应用于通话控制系统的第一前端感知设备，所述通话控制系统包括多个前端感知设备、服务器以及至少一个终端设备，所述多个感知设备中的每个前端感知设备与所述服务器、所述至少一个终端设备通信连接，所述多个感知设备包括所述第一前端感知设备，所述语音通话控制装置包括：

第一采集单元，用于采集第一用户的第一手势；

接收单元，用于接收来自所述服务器的所述第一通话语音；

播放单元，用于播放所述通话语音。

10.一种电子设备，其特征在于，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-8任一项所述的方法中的步骤的指令。