CN117135305A

CN117135305A - 一种电话会议实现方法、装置和系统

Info

Publication number: CN117135305A
Application number: CN202311408390.1A
Authority: CN
Inventors: 郭庆彬
Original assignee: Shenzhen Darexin Technology Co ltd
Current assignee: Shenzhen Darexin Technology Co ltd
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2023-11-28
Anticipated expiration: 2043-10-27
Also published as: CN117135305B

Abstract

本申请属于计算机领域，尤其涉及一种电话会议实现方法、装置和系统，其中方法通过声纹识别的方法，将每一个与会者的声音与其身份相结合，即使某一个终端有多位与会者参会也能够识别相应的正在发言的与会者的身份，并且能够实时监测接收到的音频音量调节至用户的适听音量并播出，并且能够实时监测与会者的位置进而相应的调整摄像头的位置以保证与会者的轮廓实时处于视频画面中的标准位置，为用户保证了良好的视听体验，另外还可以通过与会者的面部表情以及肢体语言进行分析得到其讲话时的情绪，再结合其讲话内容从而推导出其真实意图；即本申请能够弥补传统电话会议音质差、视频画面偏移、难以捕捉发言者情绪等缺陷，显著提升了通话质量。

Description

一种电话会议实现方法、装置和系统

技术领域

本申请属于计算机领域，尤其涉及一种电话会议实现方法、装置和系统。

背景技术

电话会议是指通过电话线路或网络连接，将多个地理位置分散的人员进行远程会议交流的一种形式，它可以帮助组织和个人实现远程协作、快速决策和信息共享等目标。

现有的电话会议的形式主要有语音电话会议、视频电话会议等，纯语音通话时双方难以看到彼此的面部表情，能够获取的信息十分有限，而视频通话虽然能够看到对方的面部表情，但由于视频光线或者角度的原因，对方参会者的很多面部变化以及肢体动作难以被用户观察到，然而对于这些信息的获取也是确定对方的情绪和意图的关键，现有的视频通话难以对这些信息进行获取将大大降低通话的效果；再者，目前的电话会议形式还会由于与会者的移动而导致其与麦克风和摄像头的相对位置发生改变，进而导致收音不足和录像不准的问题，将进一步降低通话的效果。

因此，现有的电话会议形式存在通话效果和质量差的问题。

发明内容

有鉴于此，本申请实施例提供了一种电话会议实现方法、装置和系统，可以解决现有的电话会议形式存在通话效果和质量差的问题。

本申请实施例的第一方面提供了一种电话会议实现方法，包括：

S1：响应于用户输入的指令，接入电话会议并连通视频和音频；

S2：获取各个与会者的测试语音，每一段测试语音中包含对应的与会者身份；

S3：对各段测试语音进行声纹标记，以对各个测试语音的声纹与对应的与会者身份建立联系；

S4：在一个与会者发言时，对发言语音进行声纹识别，以确定与会者的身份，并发出身份提示信号；

S5：监测发言语音的音量是否为预设的适听音量，若不是，则实时调整发言语音的音量以使发言语音的音量始终为适听音量；

S6：将正在讲话的与会者的视频画面作为主视频画面，将其它与会者的视频画面作为辅视频画面，主视频画面的画幅大于辅视频画面的画幅；

S7：识别主视频画面中的与会者轮廓，监测与会者轮廓与预设轮廓是否吻合，若不吻合，则实时调整该与会者对应的摄像头的角度和焦距以使与会者轮廓与预设轮廓吻合；

S8：实时识别发言语音的内容，并监测主视频画面中的与会者发言时的面部表情和肢体动作；

S9：结合面部表情和肢体动作对发言语音的内容进行语义分析，以得到该与会者的潜在语义；

S10：将潜在语义整合成潜在语义信号，并将潜在语义信号向用户发出；

S11：在下一个与会者发言时，执行步骤S4至步骤S10，重复执行本步骤，直至会议结束。

本申请实施例的第二方面提供了一种电话会议实现装置，包括：

接入模块，用于响应于用户输入的指令，接入电话会议并连通视频和音频；

获取模块，用于获取各个与会者的测试语音，每一段测试语音中包含对应的与会者身份；

第一处理模块，用于对各段测试语音进行声纹标记，以对各个测试语音的声纹与对应的与会者身份建立联系；

第二处理模块，用于在一个与会者发言时，对发言语音进行声纹识别，以确定与会者的身份，并发出身份提示信号；

第三处理模块，用于监测发言语音的音量是否为预设的适听音量，若不是，则实时调整发言语音的音量以使发言语音的音量始终为适听音量；

第四处理模块，用于将正在讲话的与会者的视频画面作为主视频画面，将其它与会者的视频画面作为辅视频画面，主视频画面的画幅大于辅视频画面的画幅；

第五处理模块，用于识别主视频画面中的与会者轮廓，监测与会者轮廓与预设轮廓是否吻合，若不吻合，则实时调整该与会者对应的摄像头的角度和焦距以使与会者轮廓与预设轮廓吻合；

第六处理模块，用于实时识别发言语音的内容，并监测主视频画面中的与会者发言时的面部表情和肢体动作；

第七处理模块，用于结合面部表情和肢体动作对发言语音的内容进行语义分析，以得到该与会者的潜在语义；

第八处理模块，用于将潜在语义整合成潜在语义信号，并将潜在语义信号向用户发出；

重复执行模块，用于在下一个与会者发言时，执行步骤S4至步骤S10，重复执行本步骤，直至会议结束。

本申请实施例的第三方面提供了一种电话会议实现系统，包括：

若干个终端设备，每一个终端设备对应于至少一个与会者，并且每一个终端设备均与其它的各个终端设备连接，终端设备用于执行所述的电话会议实现方法；

每一个终端设备中包括：

摄像头，用于获取对应与会者的视频图像；

麦克风，用于获取对应与会者的语音；

显示屏，用于显示其它与会者的视频图像；

扬声器，用于播出其它与会者的语音。

本申请实施例与现有技术相比存在的有益效果是：本发明提供的方法包括响应于用户输入的指令，接入电话会议并连通视频和音频；获取各个与会者的测试语音；对各段测试语音进行声纹标记；在一个与会者发言时，对发言语音进行声纹识别，以确定与会者的身份，并发出身份提示信号；监测发言语音的音量是否为预设的适听音量，若不是，则实时调整发言语音的音量以使发言语音的音量始终为适听音量；将正在讲话的与会者的视频画面作为主视频画面，将其它与会者的视频画面作为辅视频画面；识别主视频画面中的与会者轮廓，监测与会者轮廓与预设轮廓是否吻合，若不吻合，则实时调整该与会者对应的摄像头的角度和焦距以使与会者轮廓与预设轮廓吻合；实时识别发言语音的内容，并监测主视频画面中的与会者发言时的面部表情和肢体动作；结合面部表情和肢体动作对发言语音的内容进行语义分析，以得到该与会者的潜在语义；将潜在语义整合成潜在语义信号，并将潜在语义信号向用户发出；在下一个与会者发言时，重复执行上述步骤，直至会议结束；在本申请中，通过声纹识别的方法，将每一个与会者的声音与其身份相结合，即使某一个终端有多位与会者参会也能够识别相应的正在发言的与会者的身份，并且能够实时监测接收到的音频音量调节至用户的适听音量并播出，并且能够实时监测讲话的与会者的位置进而相应的调整摄像头的位置以保证与会者的轮廓实时处于视频画面中的标准位置，为用户保证了良好的视听体验，另外还可以通过在与会者讲话的过程中通过与会者的面部表情以及肢体语言进行分析得到其讲话时的情绪，再结合其讲话内容从而推导出其真实意图；即本申请能够弥补传统电话会议常常出现的音质差、视频画面偏移、难以对发言者的情绪进行精确捕捉等缺陷，大大的提升了用户的通话质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种电话会议实现方法的实现流程示意图；

图2是本申请实施例提供的一种电话会议实现装置的模块图；

图3是本申请实施例提供的一种电话会议实现系统的组成示意图；

图4是本申请实施例提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

图1示出了本申请实施例一提供的一种电话会议实现方法，包括：

在本实施例中，‘用户’用于指代其中一个终端设备的参会人，并以该终端作为说明主体，‘与会者’则指代其它终端的参会人；用户可以通过输入会议密码、拨电话号或者其它形式进去会议会议界面；进入会议界面后接通音频和视频，然后包括用户在内的每一个参会人进行语音测试，语音测试的形式可以设定为每个参会人面对镜头讲出自己的身份信息，从而终端设备可以将每一个参会人的身份与其声纹对应起来；声纹识别可以采用现有的声纹识别模型进行，典型的声纹识别模型可以分为模板模型和随机模型，模板模型将训练特征参数和测试的特征参数进行比较，两者之间的失真作为相似度；随机模型用一个概率密度函数来模拟说话人，训练过程用于预测概率密度函数的参数匹配过程通过计算相应模型的测试语句的相似度来完成。(参数模型采用某种概率密度函数来描述说话人的语音特征空间的分布情况，并以该概率密度函数的一组参数作为说话人的模型。)例如高斯混合模型和隐马尔科夫模型；本申请中，在每一位与会者说话时，终端设备实时对其发言语音的音量调节至用户的适听音量，适听音量为用户根据自己的听觉需求而设定的音量；

在本实施例中，主视频画面可以设置在屏幕中央，而辅视频画面则可以环绕设置在主视频画面周围，可以通过识别是哪一个其它终端中的与会者在发言，随即将该终端的视频画面作为主视频画面；如果一个终端有多个与会者，在其中一个与会者发言时，可以调动该终端的摄像头指向该与会者；预设轮廓为用户预设的一个标准尺寸大小和方位的轮廓，当与会者轮廓吻合预设轮廓时，用户能够清晰的看到该与会者的图像，并且终端能够清楚识别以捕捉该与会者的面部表情以及肢体动作；与会者在说话过程中可能会发生身体的偏移等，进而使其轮廓从预设轮廓中偏出，可以通过目标跟踪算法对其进行跟踪，并相应的调节摄像头的角度和焦距，进而使其轮廓始终位于预设轮廓，便于用户观看以及设备识别；另外，由于同一句话在不同的情绪下表达出来的意思意图可能完全不同，在每一个与会者发言的过程中，能够对与会者的面部表情和肢体动作进行实时捕捉，并以此确定该与会者发言时的情绪状况，并依据情绪状况对其语音内容进行深度分析，从而可以得到其说话内容的真实意图，方便用户做出准确回应；语义信号可以是文字信号，并且可以在显示屏上显示，语义信号也可以是语音信号，通过扬声器播放。

在本申请中，通过声纹识别的方法，将每一个与会者的声音与其身份相结合，即使某一个终端有多位与会者参会也能够识别相应的正在发言的与会者的身份，并且能够实时监测接收到的音频音量调节至用户的适听音量并播出，并且能够实时监测讲话的与会者的位置进而相应的调整摄像头的位置以保证与会者的轮廓实时处于视频画面中的标准位置，为用户保证了良好的视听体验，另外还可以通过在与会者讲话的过程中通过与会者的面部表情以及肢体语言进行分析得到其讲话时的情绪，再结合其讲话内容从而推导出其真实意图；即本申请能够弥补传统电话会议常常出现的音质差、视频画面偏移、难以对发言者的情绪进行精确捕捉等缺陷，大大的提升了用户的通话质量。

在本申请一个实施例中，所述对各个测试语音进行声纹标记，以对各个测试语音的声纹与对应的与会者身份建立联系包括：

S31：取一段测试语音作为待标记语音；

S32：提取待标记语音的声纹特征，并建立第一声纹特征集合；

S33：将该待标记语音对应的与会者身份与第一声纹特征集合建立映射关系；

S34：取另一段测试语音作为待标记语音，重新执行步骤S31至步骤S33，以将该测试语音的第一声纹特征集合与对应的与会者身份建立映射关系，重复执行本步骤，直至将每一段测试语音的第一声纹特征集合与对应的与会者身份建立映射关系。

所述在一个与会者发言时，对发言语音进行声纹识别，以确定与会者的身份，并发出身份提示信号包括：

S41：获取发言语音，并提取发言语音的声纹特征；

S42：依据发言语音的声纹特征建立第二声纹特征集合；

S43：将第二声纹特征集合分别与各个第一声纹特征集合进行相似度比对；

S44：将与第二声纹特征集合相似度最高的第一声纹特征集合对应的与会者身份确定为该发言语音对应的与会者身份；

S45：在发言语音播放前，播放与会者身份；或者，在发言语音播放时，在显示屏上显示该与会者身份。

在本实施例中，声纹特征可以包括但不限于音色、音调、韵律、振幅、相位、谐波等，举例说明，若每一条语音包括上述的六个声纹特征，若一条发言语音对应的第二声纹特征集合中的6个声纹特征中有5个与1号第一声纹特征集合中的声纹特征吻合，则该第二声纹特征集合与1号第一声纹特征集合的相似度为5/6，此时如果该第二声纹特征集合与与2号、3号第一声纹特征集合的相似度分别为3/6、2/6，则将1号第一声纹特征集合对应的与会者身份确定为该发言语音对应的与会者身份。

在本申请一个实施例中，所述监测发言语音的音量是否为预设的适听音量，若不是，则实时调整发言语音的音量以使发言语音的音量始终为适听音量包括：

S51：在某个与会者发言时，实时获取每一个时间点的发言语音；

S52：对于任意一个时间点的发言语音，判断该发言语音的音量是否为预设的适听音量，若不是，则将该发言语音的音量调整至适听音量后，再将调整后的发言语音播放。

在本申请中，每个时间点的时间间隔可以取1s，0.1s或者更小的时间间隔，在很小的时间间隔下重复执行本实施例的方法对于人的观感来说即可取得实时调整的作用，即可以在该与会者的发言全程使其发言语音对于用户来说都是适听状态，保证了用户的收听效果；进一步，适听音量也不一定始终为用户设定的音量，由于不同的音调的声音在同一音量上的清晰度不同，比如音调高的声音可以在较低的音量下达到同样的清晰度；因此，本申请可以根据发言语音的音调与基准音调的音调差相应的对适听音量进行调节，比如言语音的音调比基准音调高100赫兹，音量可以调低2分贝，其中基准音量即用户设置适听音量时的语音音调。

在本申请一个实施例中，所述识别主视频画面中的与会者轮廓，监测与会者轮廓与预设轮廓是否吻合，若不吻合，则实时调整该与会者对应的摄像头的角度和焦距以使与会者轮廓与预设轮廓吻合包括：

识别主视频画面中的与会者轮廓后，在与会者轮廓上取若干第一轮廓点，在预设轮廓上取同样数量的第二轮廓点，并将每一个第一轮廓点与一个第二轮廓点相对应；

对于任意一个时间点的与会者轮廓，计算与会者轮廓上每一个第一轮廓点与对应的第二轮廓点的轮廓点距离，并将各个得到的轮廓点距离求和，从而得到轮廓点总距离；

若某个与会者轮廓对应的轮廓点总距离小于设定值，则该与会者轮廓与预设轮廓吻合；否则，该与会者轮廓与预设轮廓不吻合，进而调整该与会者对应的摄像头的角度和焦距使该与会者对应的轮廓点总距离小于设定值。

在本申请中，预设轮廓可以是视频画面正中央的位置，其大小尺寸可以是在视频画面完整显示轮廓的上半身的尺寸，即与会者处于预设轮廓时，摄像头的视角为用户的最佳观看视角；预设轮廓不一定是某一个确切的人的轮廓，可以是一个假想的人型轮廓，第一轮廓点和第二轮廓点的取点位置可以取人轮廓边缘特征性较强的位置，比如头顶、耳朵、脖颈、肩膀、手肘等部位，然后将同一部位的第一轮廓点与第二轮廓点相对应起来，在与会者发言过程中，实时计算各个第一轮廓点与对应的第二轮廓点的距离和，当距离和大于预设值的时候对摄像头进行实时的调校，进而使得摄像头的视角始终处于最佳观看视角。

在本申请一个实施例中，所述实时识别发言语音的内容，并监测主视频画面中的与会者发言时的面部表情和肢体动作包括：

从与会者开始发言的时间点起，通过语音识别算法实时将每一时间点的发言语音转化为文本内容；

实时对该与会者的面部进行识别，并捕捉每一时间点的瞬时表情；

实时对该与会者的肢体进行识别，并捕捉每一时间点的瞬时肢体动作。

从与会者开始发言的时间点起，在与会者说完任意一句话时，将与会者说这句话的起始时间点与结束时间点之间的时段作为第一时段，每一个第一时间短中包括若干个时间点；

将第一时段中的每一个时间点转化出来的文本内容按时序顺序连接起来，从而得到完整语句；

将第一时段中的每一个时间点捕捉的瞬时表情按时序顺序连接起来，从而得到与完整语句对应的完整面部表情；

将第一时段中的每一个时间点捕捉的瞬时肢体动作按时序顺序连接起来，从而得到与完整语句对应的完整肢体动作。

结合面部表情和肢体动作对发言语音的内容进行语义分析，以得到该与会者的潜在语义：

获取完整面部表情的表情特征；

获取完整肢体动作的动作特征；

依据情绪与行为的关系数据库确定该表情特征和动作特征对应的第一情绪类型，情绪与行为的关系数据库包括了各种表情特征和各种动作特征，以及任意一种表情特征与任意一种动作特征的组合所对应的情绪类型；

通过语义分析算法对文本内容进行语义分析，进而得到第一文本语义；

依据语义与情绪的关系数据库确定该第一文本语义在第一情绪类型的条件下的潜在语义，语义与情绪的关系数据库中包括各种文本语义，以及每一种文本语义在不同情绪类型下的潜在语义。

在本申请中，情绪与行为的关系数据库、语义与情绪的关系数据库为依据历史数据建立的大数据库，并且每一次会议结束产生的新的数据将实时记录在两个数据库中，以丰富数据库的内容；人在说话时，一句话与另一句话之间会有比较明显的停顿，根据这个特征可以设定一个停顿时长，比如说1s，如果超过这个停顿时常则可视为上一句话已经说完，停顿时常可以依据历史上的语音数据中的话语平均间隔时常来确定，在此不作限定；本申请实现了将发言者说的每一句话的文本内容、面部表情以及肢体动作相对应起来，即能够从人的多个表达关联因素出发对其发言语音的内容进行语义分析，从而得到发言者的真实语言含义，弥补了用户从单方面途径获取信息后对语义的理解偏差。

对应于上文实施例的方法，图2示出了本申请实施例提供的电话会议实现装置的模块图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图2，一种电话会议实现装置，包括：

本申请实施例提供的图像饱和度调整装置中各模块实现各自功能的过程，具体可参考前述图1所示实施例的描述，此处不再赘述。

如图3-4所示，本申请还提供了一种电话会议实现系统，包括：

每一个终端设备中包括：

摄像头，用于获取对应与会者的视频图像；

麦克风，用于获取对应与会者的语音；

显示屏，用于显示其它与会者的视频图像；

扬声器，用于播出其它与会者的语音。

在本申请中，每一个终端设备中的摄像头、麦克风、显示器、扬声器均与对应的终端设备连接，每一终端设备能够控制与其连接的摄像头、麦克风、显示器、扬声器，也可以通过像其它终端设备发送信号以控制对方终端设备的摄像头、麦克风、显示器、扬声器；本申请中的各个终端设备相互配合，通过声纹识别的方法，将每一个与会者的声音与其身份相结合，即使某一个终端有多位与会者参会也能够识别相应的正在发言的与会者的身份，并且能够实时监测接收到的音频音量调节至用户的适听音量并播出，并且能够实时监测讲话的与会者的位置进而相应的调整摄像头的位置以保证与会者的轮廓实时处于视频画面中的标准位置，为用户保证了良好的视听体验，另外还可以通过在与会者讲话的过程中通过与会者的面部表情以及肢体语言进行分析得到其讲话时的情绪，再结合其讲话内容从而推导出其真实意图；即本申请能够弥补传统电话会议常常出现的音质差、视频画面偏移、难以对发言者的情绪进行精确捕捉等缺陷，大大的提升了用户的通话质量。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。还应理解的是，虽然术语“第一”、“第二”等在文本中在一些本申请实施例中用来描述各种元素，但是这些元素不应该受到这些术语的限制。这些术语只是用来将一个元素与另一元素区分开。例如，第一表格可以被命名为第二表格，并且类似地，第二表格可以被命名为第一表格，而不背离各种所描述的实施例的范围。第一表格和第二表格都是表格，但是它们不是同一表格。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的电话会议实现方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

例如，所述终端设备可以是WLAN中的站点(STAION，ST)，可以是蜂窝电话、无绳电话、会话启动协议(Session InitiationProtocol，SIP)电话、无线本地环路(WirelessLocal Loop，WLL)站、个人数字处理(Personal Digital Assistant，PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、车联网终端、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备、无线调制解调器卡、电视机顶盒(set top box，STB)、用户驻地设备(customer premise equipment，CPE)和/或用于在无线系统上进行通信的其它设备以及下一代通信系统，例如，5G网络中的移动终端或者未来演进的公共陆地移动网络(Public Land Mobile Network，PLMN)网络中的移动终端等。

作为示例而非限定，当所述终端设备为可穿戴设备时，该可穿戴设备还可以是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，如智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行体征监测的智能手环、智能首饰等。

图4是本申请一实施例提供的终端设备的结构示意图。如图4所示，该实施例的终端设备包括：至少一个处理器（图4中仅示出一个）、存储器、摄像头、麦克风、显示器、扬声器，所述存储器中存储有可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个电话会议实现方法实施例中的步骤，例如图1所示的步骤S1至是S11。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器、摄像头、麦克风、显示器、扬声器。本领域技术人员可以理解，图仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入发送设备、网络接入设备、总线等。

所称处理器可以是中央处理单元（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现成可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器在一些实施例中可以是所述终端设备的内部存储单元，例如终端设备的硬盘或内存。所述存储器也可以是所述终端设备的外部存储设备，例如所述终端设备上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器还可以用于暂时地存储已经发送或者将要发送的数据。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本申请实施例还提供了一种终端设备，所述终端设备包括至少一个存储器、至少一个处理器以及存储在所述至少一个存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时，使所述终端设备实现上述任意各个方法实施例中的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端设备上运行时，使得移动终端设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（RandomAccess Memory，RAM）、电载波信号、电信信号以及软件分发介质等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使对应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种电话会议实现方法，其特征在于，包括：

2.如权利要求1所述的电话会议实现方法，其特征在于，所述对各个测试语音进行声纹标记，以对各个测试语音的声纹与对应的与会者身份建立联系包括：

S31：取一段测试语音作为待标记语音；

3.如权利要求2所述的电话会议实现方法，其特征在于，所述在一个与会者发言时，对发言语音进行声纹识别，以确定与会者的身份，并发出身份提示信号包括：

S41：获取发言语音，并提取发言语音的声纹特征；

S42：依据发言语音的声纹特征建立第二声纹特征集合；

4.如权利要求1所述的电话会议实现方法，其特征在于，所述监测发言语音的音量是否为预设的适听音量，若不是，则实时调整发言语音的音量以使发言语音的音量始终为适听音量包括：

5.如权利要求1所述的电话会议实现方法，其特征在于，所述识别主视频画面中的与会者轮廓，监测与会者轮廓与预设轮廓是否吻合，若不吻合，则实时调整该与会者对应的摄像头的角度和焦距以使与会者轮廓与预设轮廓吻合包括：

6.如权利要求1所述的电话会议实现方法，其特征在于，所述实时识别发言语音的内容，并监测主视频画面中的与会者发言时的面部表情和肢体动作包括：

7.如权利要求6所述的电话会议实现方法，其特征在于，从与会者开始发言的时间点起，在与会者说完任意一句话时，将与会者说这句话的起始时间点与结束时间点之间的时段作为第一时段，每一个第一时间短中包括若干个时间点；

8.如权利要求7所述的电话会议实现方法，其特征在于，结合面部表情和肢体动作对发言语音的内容进行语义分析，以得到该与会者的潜在语义：

获取完整面部表情的表情特征；

获取完整肢体动作的动作特征；

9.一种电话会议实现装置，其特征在于，包括：

10.一种电话会议实现系统，其特征在于，包括：

若干个终端设备，每一个终端设备对应于至少一个与会者，并且每一个终端设备均与其它的各个终端设备连接，终端设备用于执行如权利要求1-8任意一项权利要求所述的电话会议实现方法；

每一个终端设备中包括：

摄像头，用于获取对应与会者的视频图像；

麦克风，用于获取对应与会者的语音；

显示屏，用于显示其它与会者的视频图像；

扬声器，用于播出其它与会者的语音。