CN103856742B

CN103856742B - 视音频信息的处理方法、装置和系统

Info

Publication number: CN103856742B
Application number: CN201210523813.XA
Authority: CN
Inventors: 王玉茂; 杨海曜
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-12-07
Filing date: 2012-12-07
Publication date: 2018-05-11
Anticipated expiration: 2032-12-07
Also published as: CN103856742A

Abstract

本发明涉及一种视音频信息的处理方法、装置和系统。该方法包括：采集视音频数据，在所述视音频数据中提取当前图像帧和当前声音信息；获取所述当前图像帧中的目标对象的当前特征值对应的当前第一调节因子，和/或所述当前声音信息对应的当前第二调节因子；将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行叠加处理，得到视音频信息；发送所述视音频信息至多点控制单元MCU，用以所述MCU将所述视音频信息广播至其他视频终端。本发明实施例实现了根据获取的视音频数据中的声音信息和目标对象的特征值对视音频数据添加相应的符号信息。

Description

视音频信息的处理方法、装置和系统

技术领域

本发明涉及通信领域，尤其涉及一种视音频信息的处理方法、装置和系统。

背景技术

视频会议系统是通过网络平台以实时的音、视频等多媒体手段，支持在不同的地理位置的人们进行远距离实时信息交流、开展协同工作的应用系统。视频会议系统实时传输视频与音频信息，使在不同的地理位置的人们可以远距离地进行直观、真实的视音频交流。

目前的视频会议系统中的各个会场的场景和氛围都是严肃和呆板的，与会人和组织者在会议中的语言和表情只能通过传统的视频采集和音频采集装置将本地的音视频数据通过尽可能真实的方式显示给其他会场，缺少一种趣味性的表达会议中情绪和氛围的方法和途径。例如，在现有的视频会议系统中，由于只能通过视频采集和音频采集装置采集到各个会场真实的会议场景，与会人要以一种非严肃的方式表达自己参会时或在会议中的某种开心的氛围和情绪，如只能通过语言的描述或面部表情动作来进行直接的表达。但随着视频会议的逐步普及，特别是在一些相对宽松的办公环境下，如果只通过视频采集和音频采集装置采集各个会场真实的会议场景，可导致与会人根据视频终端上显示的呆板的视音频信息对视频会议系统产生不好的体验。

发明内容

本发明实施例提供了一种视音频信息的处理方法、装置和系统，以实现根据获取的视音频数据中的目标对象的特征值对视音频数据添加相应的符号信息，更好地表达视频会议中会议的情绪和氛围。

第一方面，本发明实施例提供了一种视音频信息的处理方法，所述方法包括：

采集视音频数据，在所述视音频数据中提取当前图像帧和当前声音信息；

获取所述当前图像帧中的目标对象的当前特征值对应的当前第一调节因子，和/或所述当前声音信息对应的当前第二调节因子；

将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行叠加处理，得到视音频信息；

发送所述视音频信息至多点控制单元MCU，用以所述MCU将所述视音频信息广播至其他视频终端。

在第一种可能的实现方式中，所述将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行叠加处理具体为：在本地数据库或网络服务器中查询所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据；将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行混合编码处理。

结合第一方面或第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述获取所述当前图像帧中的目标对象的当前特征值对应的当前第一调节因子，和/或所述当前声音信息对应的当前第二调节因子之后还包括：根据所述当前第一调节因子，预估所述当前图像帧的下一个图像帧的特征值对应的第一调节因子，作为下一个图像帧的预设第一调节因子；和/或，根据所述当前第二调节因子，预估所述当前声音的下一个声音信息对应的第二调节因子，作为下一个声音信息对应的预设第二调节因子。

结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述预估所述当前图像帧的下一个图像帧的特征值对应的第一调节因子，作为下一个图像帧的预设第一调节因子具体为：根据所述当前第一调节因子，在所述预估关联数据库中查询所述当前第一调节因子对应的所述预设第一调节因子。

结合第一方面的第三种可能的实现方式中，在第四种可能的实现方式中，所述根据所述当前第二调节因子，预估所述当前声音的下一个声音信息对应的第二调节因子，作为预设第二调节因子具体为：根据所述当前第二调节因子，在所述预估关联数据库中查询所述当前第二调节因子对应的所述预设第二调节因子。

结合第一方面的第四中可能的实现方式，在第五种可能的实现方式中，所述下一个图像帧的第一调节因子为所述下一个图像帧的所述预设第一调节因子与检测第一调节因子的叠加值，所述检测第一调节因子为根据检测到的下一个图像帧的特征值计算出的；所述下一个声音信息的第二调节因子为所述下一个声音信息的所述预设第二调节因子与检测第二因子的叠加值，所述检测第二因子为根据检测到的下一个声音信息计算出的。

结合第一方面，在第六种可能的实现方式中，所述方法还包括：接收所述MCU发送的所述视音频数据的全局参数调节因子；所述将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行叠加处理具体为：将所述采集到的视音频数据和所述全局参数调节因子对应的视音频数据与以下数据中的至少一个进行叠加处理：所述当前第一调节因子对应的视音频数据、所述当前第二调节因子对应的视音频数据。

第二方面，本发明实施例还提供了一种视音频信息的处理方法，所述方法包括：

接收视频终端发送的视音频数据，在所述视音频数据中提取当前图像帧和当前声音信息；

将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述全局参数因子对应的视音频数据、所述接收到的视音频数据进行叠加处理，得到视音频信息；

将所述视音频信息广播至其他视频终端。

在第一种可能的实现方式中，所述将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述全局参数因子对应的视音频数据、所述接收到的视音频数据进行叠加处理具体为：在本地数据库或网络服务器中查询所述全局参数因子对应的视音频数据、所述当前第一调节因子对应的视音频数据、所述当前第二调节因子对应的视音频数据；将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述全局参数因子对应的视音频数据、所述接收到的视音频数据进行混合编码处理。

结合第二方面或者第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述计算所述当前图像帧中的目标对象的当前特征值对应的当前第一调节因子，和/或所述当前声音信息对应的当前第二调节因子之后还包括：根据所述当前第一调节因子，预估所述当前图像帧的下一个图像帧的特征值对应的第一调节因子，作为下一个图像帧的预设第一调节因子；和/或，根据所述当前第二调节因子，预估所述当前声音的下一个声音信息对应的第二调节因子，作为下一个声音信息对应的预设第二调节因子。

结合第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述预估所述当前图像帧的下一个图像帧的特征值对应的第一调节因子，作为下一个图像帧的预设第一调节因子具体为：根据所述当前第一调节因子，在所述预估关联数据库中查询所述当前第一调节因子对应的所述预设第一调节因子。

结合第二方面的第三种可能的实现方式，在第四种可能的实现方式中，所述根据所述当前第二调节因子，预估所述当前声音的下一个声音信息对应的第二调节因子，作为预设第二调节因子具体为：根据所述当前第二调节因子，在所述预估关联数据库中查询所述当前第二调节因子对应的所述预设第二调节因子。

结合第二方面的第四种可能的实现方式，在第五种可能的实现方式中，所述下一个图像帧的第一调节因子为所述下一个图像帧的所述预设第一调节因子与检测第一调节因子的叠加值，所述检测第一调节因子为根据检测到的下一个图像帧的特征值计算出的；所述下一个声音信息的第二调节因子为所述下一个声音信息的所述预设第二调节因子与检测第二因子的叠加值，所述检测第二因子为根据检测到的下一个声音信息计算出的。

第三方面，本发明实施例提供了一种视音频信息的处理装置，所述装置包括：

采集单元，用于采集视音频数据，在所述视音频数据中提取当前图像帧和当前声音信息，以及将所述视音频数据传输至处理单元，将所述当前图像帧以及所述当前声音信息传输至获取单元；

获取单元，用于接收所述采集单元发送的所述当前图像帧以及所述当前声音信息，获取所述当前图像帧中的目标对象的当前特征值对应的当前第一调节因子，和/或所述当前声音信息对应的当前第二调节因子，以及将所述当前第一调节因子和/或所述当前第二调节因子传输至处理单元；

处理单元，用于接收所述采集单元发送的所述视音频数据以及所述获取单元发送的所述当前第一调节因子和/或所述当前第二调节因子，将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行叠加处理，得到视音频信息，以及将所述视音频信息发送至所述发送单元；

发送单元，用于接收所述处理单元发送的所述视音频信息，发送所述视音频信息至多点控制单元MCU，用以所述MCU将所述视音频信息广播至其他视频终端。

在第一种可能的实现方式中，所述处理单元具体用于：在本地数据库或网络服务器中查询所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据；将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行混合编码处理。

结合第三方面或者第三方面的第一种可能的实现方式，在第二种可能的实现方式中，所述装置还包括：预估单元，用于根据所述当前第一调节因子，预估所述当前图像帧的下一个图像帧的特征值对应的第一调节因子，作为下一个图像帧的预设第一调节因子；和/或，根据所述当前第二调节因子，预估所述当前声音的下一个声音信息对应的第二调节因子，作为下一个声音信息对应的预设第二调节因子

结合第三方面的第二种可能的实现方式，在第三种可能的实现方式中，所述预估单元具体用于：根据所述当前第一调节因子，在所述预估关联数据库中查询所述当前第一调节因子对应的所述预设第一调节因子；根据所述当前第二调节因子，在所述预估关联数据库中查询所述当前第二调节因子对应的所述预设第二调节因子。

结合第三方面的第三种可能的实现方式，在第四种可能的实现方式中，所述下一个图像帧的第一调节因子为所述下一个图像帧的所述预设第一调节因子与检测第一调节因子的叠加值，所述检测第一调节因子为根据检测到的下一个图像帧的特征值计算出的；所述下一个声音信息的第二调节因子为所述下一个声音信息的所述预设第二调节因子与检测第二因子的叠加值，所述检测第二因子为根据检测到的下一个声音信息计算出的。

结合第三方面，在第五种可能的实现方式中，所述装置还包括：接收单元，用于接收所述MCU发送的所述视音频数据的全局参数调节因子；所述处理单元具体用于：将所述采集到的视音频数据和所述全局参数调节因子对应的视音频数据与以下数据中的至少一个进行叠加处理：所述当前第一调节因子对应的视音频数据、所述当前第二调节因子对应的视音频数据。

第四方面，本发明实施例提供了一种视音频信息的处理装置，所述装置包括：

接收单元，用于接收视频终端发送的视音频数据，在所述视音频数据中提取当前图像帧和当前声音信息，将所述视音频数据传输至处理单元，将所述当前图像帧和所述当前声音信息传输至获取单元；

获取单元，用于接收所述接收单元发送的所述当前图像帧和所述当前声音信息，获取所述当前图像帧中的目标对象的当前特征值对应的当前第一调节因子，和/或所述当前声音信息对应的当前第二调节因子，将所述当前第一调节因子和/或所述当前第二调节因子传输至处理单元；

处理单元，用于接收所述接收单元发送的所述视音频数据，以及所述获取单元发送的所述当前第一调节因子和/或所述当前第二调节因子，将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述全局参数因子对应的视音频数据、所述接收到的视音频数据进行叠加处理，得到视音频信息，将所述视音频信息传输至发送单元；

发送单元，用于接收所述处理单元发送的所述视音频信息，将所述视音频信息广播至其他视频终端。

在第一种可能的实现方式中，所述处理单元具体用于：在本地数据库或网络服务器中查询所述全局参数因子对应的视音频数据、所述当前第一调节因子对应的视音频数据、所述当前第二调节因子对应的视音频数据；将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述全局参数因子对应的视音频数据、所述接收到的视音频数据进行混合编码处理。

结合第四方面或者第四方面的第一种可能的实现方式，在第二种可能的实现方式中，所述装置还包括：预估单元，用于根据所述当前第一调节因子，预估所述当前图像帧的下一个图像帧的特征值对应的第一调节因子，作为下一个图像帧的预设第一调节因子；和/或，根据所述当前第二调节因子，预估所述当前声音的下一个声音信息对应的第二调节因子，作为下一个声音信息对应的预设第二调节因子。

结合第四方面的第二种可能的实现方式，在第三种可能的实现方式中，所述下一个图像帧的第一调节因子为所述下一个图像帧的所述预设第一调节因子与检测第一调节因子的叠加值，所述检测第一调节因子为根据检测到的下一个图像帧的特征值计算出的；所述下一个声音信息的第二调节因子为所述下一个声音信息的所述预设第二调节因子与检测第二因子的叠加值，所述检测第二因子为根据检测到的下一个声音信息计算出的。

第五方面，本发明实施例提供了一种视音频信息的处理系统，所述系统包括上述视音频信息的处理装置。

本发明实施例中，视频终端采集视音频数据，在所述视音频数据中提取当前图像帧和当前声音信息；获取所述当前图像帧中的目标对象的当前特征值对应的当前第一调节因子，和/或所述当前声音信息对应的当前第二调节因子；将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行叠加处理，得到视音频信息；发送所述视音频信息至多点控制单元MCU，用以所述MCU将所述视音频信息广播至其他视频终端。由此，本发明实施例实现了根据获取的视音频数据中的目标对象的特征值对视音频数据添加相应的符号信息，更好地表达了视频会议中会议的情绪和氛围。

附图说明

图1为本发明实施例提供的一种视音频信息的处理方法的应用场景图；

图2为本发明实施例提供的一种视音频信息的处理方法流程图；

图3为本发明实施例提供的另一视音频信息的处理方法流程图；

图4为本发明实施例提供的一种视音频信息的处理装置示意图；

图5为本发明实施例提供的另一视音频信息的处理装置示意图；

图6为本发明实施例提供的一种视频终端示意图；

图7为本发明实施例提供的一种MCU示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种视音频信息的处理方法的应用场景图。本发明实施例提供的视音频信息的处理方法、装置和系统在实际应用时，作为一种新的视音频信息的处理方法可应用于可以通过识别情绪和氛围来表达情感的场景，如广播电视、可视电话、网络视频、无线通讯等场景。如图1所示，本发明实施例提供的应用场景中，视频终端1采集视音频数据后，根据视音频数据中的目标对象的特征值获取第一调节因子，根据声音信息获取第二调节因子，根据第一调节因子和第二调节因子对视音频数据进行相应的处理，然后通过多点控制器(Multiple Control Unit，MCU)将处理后的视音频数据广播至其他视频终端，如视频终端2、视频终端3、...、视频终端n，当然视频终端1也可将获取的视音频数据以及第一调节因子和第二调节因子发送至MCU，由MCU对视音频数据进行处理并将处理后的视音频数据广播至其他视频终端。同样，其他视频终端获取的视音频数据也可以通过同样的方式进行处理。由此，本发明实施例实现了根据获取的视音频数据中的目标对象的特征值和/或声音信息对视音频数据进行相应的处理。

需要说明的是，本发明实施例所提供的方法可应用于广播电视、可视电话、网络视频、无线通讯、视频会议等场景，下面的实施例以视频会议这个应用场景为例来介绍本发明的详细技术方案，但是这只是本发明的具体实施例，不用于限定本发明的保护范围。

图2为本发明实施例提供的一种视音频信息的处理方法流程图。该实施例的执行主体是视频终端，其中详细描述了视频终端对采集到的视音频数据进行处理的方法。如图2所示，该实施例包括以下步骤：

步骤201，采集视音频数据，在所述视音频数据中提取当前图像帧和当前声音信息。

不同地理位置的与会人员可通过MCU召开一个视频会议，各会场的视频终端可通过声音识别、视频识别、语言识别等来采集各会场的视音频数据，在该视音频数据中提取图像帧和声音信息，并将提取的图像帧和声音信息保存在内部存储器件中。

当然，视频终端可以每隔一定的时间提取图像帧和声音信息，用以视频终端通过后面接收的技术方案对该提取的图像帧和声音信息进行分析，以获取对应的视第二调节因子。其中，每隔一定的时间中时间的长短可由用户根据需要设定。另外，对图像帧的提取时间间隔和对声音信息的提取时间间隔也可不同。

步骤202，获取所述当前图像帧中的目标对象的当前特征值对应的当前第一调节因子，和/或所述当前声音信息对应的当前第二调节因子。

视频终端可以对获取到的图像帧中的目标对象进行识别，这里的目标对象可包括与会人员、会场的横幅等于会议相关的信息，主要是指与会人员。其中，与会人员的当前特征值可为与会人员的相貌信息、表情信息、动作信息等。

具体地，图像帧中可包括人脸区域，要获取当前图像帧中的目标对象的当前特征值，首先可识别图像帧中的人脸区域，然后将人脸区域划分为多个分区，如可以划分为眼睛分区、鼻子分区、嘴唇分区、牙齿分区、舌头分区。然后提取各个分区的特征值，如嘴唇分区的特征值可以为上下嘴唇之间的距离、嘴角上扬的幅度等，牙齿分区的特征值可以为露出的牙齿的数量，舌头分区的特征值可以为露出的舌头的面积或部位等等。

对人脸区域进行分区划分后，为了便于提取并保存每个分区的特征值，通过各个分区的特征值可以判断与会人员的相貌信息、表情信息、动作信息等，即获取目标对象的特征值。

为了实现本发明的技术方案，在实际应用中，视频终端数据库中保存了目标对象的特征值与第一调节因子的映射关系，以及声音信息与第二调节因子的映射关系。视频终端可以在获取到图像帧中目标对象的特征值和声音信息时，从该数据库中检索出与当前特征值对应的当前第一调节因子和/或所述当前声音信息对应的当前第二调节因子。当然，视频终端也中也可以不保存该数据库，在需要获取与目标对象的特征值对应的第一调节因子和与声音信息对应的第二调节因子时，视频终端可以自动从网络服务器的数据库中获取。

其中，第一调节因子可以为对视频进行调节的参数和/或对音频进行调节的参数，可以在本地数据库或者网络服务器中相应的情绪数据库中查询第一调节因子对应的用来表达与会人情绪的图标，或查询第二调节因子对应的用来表达与会人情绪的声音。例如，对于图像帧中某个与会人的“大笑”面部表情，可以在数据库中检索出“大笑表情”符号以及“大笑表情”对应的笑声，并将该“大笑表情”符号添加在视频中该与会人旁边，将该声音笑声添加在背景声音中。

当然，对于相同的面部表情，在数据库中可以对应多个信息，如对于一个面部表情，可以从数据库中检索出多种表情符号或笑声声音。具体地，根据该与会人的相貌信息，该“大笑表情”符号可以为相貌信息对应的卡通人物的大笑表情。大笑表情对应的大笑表情符号可以从动物表情库、卡通表情库、人物表情库、搞笑表情库、科技表情库等等数据库中检索出。“大笑表情”对应的笑声可以从男音库、女音库、小孩音库、卡通库等数据库中检索出。

具体使用哪种表情库或声音库，可以由用户根据视频会议的类型预先进行设置。例如，对于“庆功”会议类型可以对应卡通库或动物库，以增加会议的喜悦气氛。

第二调节因子也可以为对视频进行调节的参数和/或对音频进行调节的参数，可以在本地数据库或者网络服务器中相应的情绪数据库中查询第一调节因子对应的用来表达与会人情绪的图标，或查询第二调节因子对应的用来表达与会人情绪的声音。例如，对于音频信息中某个与会人的“大笑”声音，可以在数据库中检索出“大笑表情”符号以及“大笑表情”对应的笑声，并将该“大笑表情”符号添加在视频中该与会人旁边，将该声音笑声添加在背景声音中。

当然，对于相同的笑声，在数据库中可以对应多个信息，如对于一个大笑的声音，可以从数据库中检索出多种表情符号或笑声声音。具体地，根据该与会人的相貌信息，该“大笑表情”符号可以为相貌信息对应的卡通人物的大笑表情。大笑表情对应的大笑表情符号可以从动物表情库、卡通表情库、人物表情库、搞笑表情库、科技表情库等等数据库中检索出。“大笑表情”对应的笑声可以从男音库、女音库、小孩音库、卡通库等数据库中检索出。

优选地，所述获取所述当前图像帧中的目标对象的当前特征值对应的当前第一调节因子，和/或所述当前声音信息对应的当前第二调节因子之后还包括：根据所述当前第一调节因子，预估所述当前图像帧的下一个图像帧的特征值对应的第一调节因子，作为下一个图像帧的预设第一调节因子；和/或，根据所述当前第二调节因子，预估所述当前声音的下一个声音信息对应的第二调节因子，作为下一个声音信息对应的预设第二调节因子。

所述预估所述当前图像帧的下一个图像帧的特征值对应的第一调节因子，作为下一个图像帧的预设第一调节因子具体为：根据所述当前第一调节因子，在所述预估关联数据库中查询所述当前第一调节因子对应的所述预设第一调节因子。

所述根据所述当前第二调节因子，预估所述当前声音的下一个声音信息对应的第二调节因子，作为预设第二调节因子具体为：根据所述当前第二调节因子，在所述预估关联数据库中查询所述当前第二调节因子对应的所述预设第二调节因子。

具体地，为了实现本发明的技术方案，在实际应用中，本地数据库中好保存了预估关联数据库，该预估关联数据库中保存了第一调节因子与预估第一调节因子的映射关系，以及第二调节因子与预估第二调节因子的映射关系。在获取到图像帧中目标对象的特征值和声音信息时，从该预估关联数据库中检索出与当前第一调节因子的预估第一调节因子和/或所述当前声音信息对应的预估第二调节因子。当然，视频终端也中也可以不保存该预估关联数据库，在需要获取与当前第一调节因子和当前第二调节因子对应的预估调节因子时，视频终端可以自动从网络服务器的数据库中获取。

其中，下一个图像帧的第一调节因子为所述下一个图像帧的所述预设第一调节因子与检测第一调节因子的叠加值，所述检测第一调节因子为根据检测到的下一个图像帧的特征值计算出的；所述下一个声音信息的第二调节因子为所述下一个声音信息的所述预设第二调节因子与检测第二因子的叠加值，所述检测第二因子为根据检测到的下一个声音信息计算出的。

具体地，在当前图像帧对应的时间后的预设时间范围内，如果通过视音频数据检测到目标对象的情绪与预估的第一调节因子对应的视音频数据发生冲突，则忽略预估的第一调节因子，下一个图像帧的第一调节因子只为根据检测到的下一个图像帧的特征值计算出的检测第一调节因子。例如，如果当前图像帧中某个与会人员是微笑的表情，则可以预估该与会人员在5s后是大笑的表情。但是如果在第3s时，该与会人员的情绪变为愤怒，则需要改变所预估的5s的大笑表情。当然，如果在预设时间范围内，通过采集的视音频数据没有检测到目标对象的表情与预估第一调节因子对应的表情没有冲突，则下一个图像帧的第一调节因子为所述下一个图像帧的预设第一调节因子。

当然，对于下一个图像帧也可以不提前预估相应的第一调节因子或者第二调节因子，而是采用与获取当前图像帧和当前声音信息一致的方式来获取相应的调节因子。

步骤203，将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行叠加处理，得到视音频信息。

所述将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行叠加处理具体为：在本地数据库或网络服务器中查询所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据；将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行混合编码处理。

优选地，该方法还包括：接收所述MCU发送的所述视音频数据的全局参数调节因子；所述将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述采集到的视音频数据进行叠加处理具体为：将所述采集到的视音频数据和所述全局参数调节因子对应的视音频数据与以下数据中的至少一个进行叠加处理：所述当前第一调节因子对应的视音频数据、所述当前第二调节因子对应的视音频数据。

具体地，各个会场的视频终端通过MCU召开一个视频会议时，MCU可向各个会场的视频终端发送一个全局参数调节因子，即根据该视频会议的主题以及当天的环境信息，MCU可预设一个全局参数调节因子。该全局参数调节因子也可以为对视频进行调节的参数和/或对音频进行调节的参数。例如，MCU可根据视频会议的主题，以及视频终端所处环境光线的变化、环境温度的变化、环境声音分贝的变化、天气的变化等设置一个全局参数调节因子，用来对视频终端所采集的视音频数据进行处理。如果MCU将该全局参数调节因子发送给了各个视频终端，则各个视频终端可以根据该全局参数调节因子对视音频数据进行处理，如果MCU没有将该全局参数调节因子发送给各个视频终端，则在视频终端将视音频数据发送给MCU时，MCU可以根据该全局参数调节因子对接收到的视音频数据进行处理。

步骤204，发送所述视音频信息至多点控制单元MCU，用以所述MCU将所述视音频信息广播至其他视频终端。

视频终端对视频数据进行处理得到视音频信息后，可对该视音频信息进行编码处理并发送到MCU，MCU接收到该视音频信息后，可将该视音频信息通过广播的方式发送至参加会议的其他会场的视频终端，由其他视频终端将该视音频数据显示出来。

由此，视频终端采集视音频数据，在所述视音频数据中提取当前图像帧和当前声音信息；获取所述当前图像帧中的目标对象的当前特征值对应的当前第一调节因子，和/或所述当前声音信息对应的当前第二调节因子；将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行叠加处理，得到视音频信息；发送所述视音频信息至多点控制单元MCU，用以所述MCU将所述视音频信息广播至其他视频终端。由此，本发明实施例实现了根据获取的视音频数据中的目标对象的特征值对视音频数据添加相应的符号信息，更好地表达了视频会议中会议的情绪和氛围。

对视音频数据进行处理的功能也可由MCU来完成，上述实施例描述了视频终端对采集到的视音频数据进行处理的方法，下述实施例描述MCU对视频终端采集到的视音频数据进行处理的方法。

图3为本发明实施例提供的另一视音频信息的处理方法流程图。该实施例的执行主体是多点控制器MCU，其中详细描述了MCU对视频终端采集到的视音频数据进行处理的方法。如图3所示，该实施例包括以下步骤：

步骤301，接收视频终端发送的视音频数据，在所述视音频数据中提取当前图像帧和当前声音信息。

当然，视频终端可以将该视音频数据发送至MCU，MCU可以每隔一定的时间提取图像帧和声音信息，并通过后面的技术方案对该提取的图像帧和声音信息进行分析，以获取对应的视第二调节因子。其中，每隔一定的时间中时间的长短可由用户根据需要设定。另外，对图像帧的提取时间间隔和对声音信息的提取时间间隔也可不同。

步骤302，获取所述当前图像帧中的目标对象的当前特征值对应的当前第一调节因子，和/或所述当前声音信息对应的当前第二调节因子。

MCU可以对获取到的图像帧中的目标对象进行识别，这里的目标对象可包括与会人员、会场的横幅等于会议相关的信息，主要是指与会人员。其中，与会人员的当前特征值可为与会人员的相貌信息、表情信息、动作信息等。

步骤303，将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述全局参数因子对应的视音频数据、所述接收到的视音频数据进行叠加处理，得到视音频信息。

具体地，各个会场的视频终端通过MCU召开一个视频会议时，MCU可向各个会场的视频终端发送一个全局参数调节因子，即根据该视频会议的主题以及当天的环境信息，MCU可预设一个全局参数调节因子。该全局参数调节因子也可以为对视频进行调节的参数和/或对音频进行调节的参数，可以在本地数据库或者网络服务器中相应的情绪数据库中查询第一调节因子对应的用来表达与会人情绪的图标，或查询第二调节因子对应的用来表达与会人情绪的声音。例如，MCU可根据视频会议的主题，以及视频终端所处环境光线的变化、环境温度的变化、环境声音分贝的变化、天气的变化等设置一个全局参数调节因子，用来对视频终端所采集的视音频数据进行处理。如果MCU将该全局参数调节因子发送给了各个视频终端，则各个视频终端可以根据该全局参数调节因子对视音频数据进行处理，如果MCU没有将该全局参数调节因子发送给各个视频终端，则在视频终端将视音频数据发送给MCU时，MCU可以根据该全局参数调节因子对接收到的视音频数据进行处理。

步骤304，将所述视音频信息广播至其他视频终端。

由此，本发明实施例实现了根据获取的视音频数据中的目标对象的特征值对视音频数据添加相应的符号信息，更好地表达了视频会议中会议的情绪和氛围。

相应地，本发明实施例还提供了一种视音频信息的处理装置。图4为本发明实施例提供的一种视音频信息的处理装置示意图。如图4所示，该装置包括：

采集单元401，用于采集视音频数据，在所述视音频数据中提取当前图像帧和当前声音信息，以及将所述视音频数据传输至处理单元，将所述当前图像帧以及所述当前声音信息传输至获取单元。

获取单元402，用于接收所述采集单元发送的所述当前图像帧以及所述当前声音信息，获取所述当前图像帧中的目标对象的当前特征值对应的当前第一调节因子，和/或所述当前声音信息对应的当前第二调节因子，以及将所述当前第一调节因子和/或所述当前第二调节因子传输至处理单元。

处理单元403，用于接收所述采集单元发送的所述视音频数据以及所述获取单元发送的所述当前第一调节因子和/或所述当前第二调节因子，将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行叠加处理，得到视音频信息，以及将所述视音频信息发送至所述发送单元。

处理单元403具体用于：在本地数据库或网络服务器中查询所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据；将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行混合编码处理。

发送单元404，用于接收所述处理单元发送的所述视音频信息，发送所述视音频信息至多点控制单元MCU，用以所述MCU将所述视音频信息广播至其他视频终端。

优选地，本发明实施例还包括：预估单元405，用于根据所述当前第一调节因子，预估所述当前图像帧的下一个图像帧的特征值对应的第一调节因子，作为下一个图像帧的预设第一调节因子；和/或，根据所述当前第二调节因子，预估所述当前声音的下一个声音信息对应的第二调节因子，作为下一个声音信息对应的预设第二调节因子。

预估单元405具体用于：根据所述当前第一调节因子，在所述预估关联数据库中查询所述当前第一调节因子对应的所述预设第一调节因子；根据所述当前第二调节因子，在所述预估关联数据库中查询所述当前第二调节因子对应的所述预设第二调节因子。

所述下一个图像帧的第一调节因子为根据检测到的下一个图像帧的特征值计算出的下一个图像帧的检测第一调节因子与所述下一个图像帧的所述预设第一调节因子的叠加值；所述下一个声音信息的第二调节因子为根据检测到的下一个声音信息计算出的检测下一个声音信息的第二调节因子与所述下一个声音信息的所述预设第二调节因子的叠加值。

优选地，本发明实施例还包括：接收单元406，用于接收所述MCU发送的所述视音频数据的全局参数调节因子。处理单元403具体用于：所述处理单元具体用于：将所述采集到的视音频数据和所述全局参数调节因子对应的视音频数据与以下数据中的至少一个进行叠加处理：所述当前第一调节因子对应的视音频数据、所述当前第二调节因子对应的视音频数据。

相应地，本发明还提供了一种视音频信息的处理装置。图5为本发明实施例提供的另一视音频信息的处理装置示意图。如图5所示，该实施例包括：

接收单元501，用于接收视频终端发送的视音频数据，在所述视音频数据中提取当前图像帧和当前声音信息，将所述视音频数据传输至处理单元，将所述当前图像帧和所述当前声音信息传输至获取单元。

获取单元502，用于接收所述接收单元发送的所述当前图像帧和所述当前声音信息，获取所述当前图像帧中的目标对象的当前特征值对应的当前第一调节因子，和/或所述当前声音信息对应的当前第二调节因子，将所述当前第一调节因子和/或所述当前第二调节因子传输至处理单元。

处理单元503，用于接收所述接收单元发送的所述视音频数据，以及所述获取单元发送的所述当前第一调节因子和/或所述当前第二调节因子，将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述全局参数因子对应的视音频数据、所述接收到的视音频数据进行叠加处理，得到视音频信息，将所述视音频信息传输至发送单元。

处理单元503具体用于：在本地数据库或网络服务器中查询所述全局参数因子对应的视音频数据、所述当前第一调节因子对应的视音频数据、所述当前第二调节因子对应的视音频数据；将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述全局参数因子对应的视音频数据、所述接收到的视音频数据进行混合编码处理。

发送单元504，用于接收所述处理单元发送的所述视音频信息，将所述视音频信息广播至其他视频终端。

优选地，所述装置还包括：预估单元505，用于根据所述当前第一调节因子，预估所述当前图像帧的下一个图像帧的特征值对应的第一调节因子，作为下一个图像帧的预设第一调节因子；和/或，根据所述当前第二调节因子，预估所述当前声音的下一个声音信息对应的第二调节因子，作为下一个声音信息对应的预设第二调节因子。

预估单元505具体用于：根据所述当前第一调节因子，在所述预估关联数据库中查询所述当前第一调节因子对应的所述预设第一调节因子；根据所述当前第二调节因子，在所述预估关联数据库中查询所述当前第二调节因子对应的所述预设第二调节因子。

相应地，本发明实施例还提供了一种视频终端。图6为本发明实施例提供的一种视频终端示意图，如图6所示，本视频终端包括存储器601、处理器602、网络接口603。系统总线604用于连接网络接口603、处理器602和存储器601。网络接口603用于与MCU通信。

存储器601可以是永久存储器，例如硬盘驱动器和闪存，存储器601中具有应用程序，在启动时，应用程序被加载到存储器601中，然后被处理器602访问并执行以下过程的指令：

在当前图像帧对应的时间后的预设时间范围内，如果通过视音频数据检测到目标对象的情绪与预估的第一调节因子对应的视音频数据发生冲突，则更换预估的第一调节因子。例如，如果当前图像帧中某个与会人员是微笑的表情，则可以预估该与会人员在5s后是大笑的表情。但是如果在第3s时，该与会人员的情绪变为愤怒，则需要改变所预估的5s的大笑表情。

相应地，本发明实施例还提供了一种MCU。图7为本发明实施例提供的一种MCU示意图。如图7所示，MCU包括存储器701、处理器702、网络接口703。系统总线704用于连接网络接口703、处理器702和存储器701。网络接口703用于与各个会场的视频终端通信。

存储器701可以是永久存储器，例如硬盘驱动器和闪存，存储器701中具有应用程序，在启动时，应用程序被加载到存储器701中，然后被处理器702访问并执行以下过程的指令：

将全局参数因子对应的图像数据和/或音频数据、所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行叠加处理，得到视音频信息；

将所述视音频信息广播至其他视频终端。

本发明实施例还提供了一种视音频信息的处理系统，该系统植入了本发明实施例的视音频信息的处理方法，包括视音频信息的处理装置，还包括其他的视频终端。在该视音频信息的处理系统中，视频终端采集视音频数据，在所述视音频数据中提取当前图像帧和当前声音信息；获取所述当前图像帧中的目标对象的当前特征值对应的当前第一调节因子，和/或所述当前声音信息对应的当前第二调节因子；将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行叠加处理，得到视音频信息；发送所述视音频信息至多点控制单元MCU，用以所述MCU将所述视音频信息广播至其他视频终端。另外，本系统中，MCU也可接收视频终端发送的视音频数据，在所述视音频数据中提取当前图像帧和当前声音信息；获取所述当前图像帧中的目标对象的当前特征值对应的当前第一调节因子，和/或所述当前声音信息对应的当前第二调节因子；将全局参数因子对应的图像数据和/或音频数据、所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行叠加处理，得到视音频信息；将所述视音频信息广播至其他视频终端。由此，本发明实施例实现了根据获取的视音频数据中的目标对象的特征值对视音频数据添加相应的符号信息，更好地表达了视频会议中会议的情绪和氛围。因此，本发明实施例提供的视音频信息的处理系统也在本专利申请的保护范围内。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视音频信息的处理方法，其特征在于，所述方法包括：

将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述采集到的视音频数据进行叠加处理，得到视音频信息；发送所述视音频信息至多点控制单元MCU，用以所述MCU将所述视音频信息广播至其他视频终端；

其中，所述获取所述当前图像帧中的目标对象的当前特征值对应的当前第一调节因子，和/或所述当前声音信息对应的当前第二调节因子之后还包括：

根据所述当前第一调节因子，预估所述当前图像帧的下一个图像帧的特征值对应的第一调节因子，作为下一个图像帧的预设第一调节因子；和/或，

根据所述当前第二调节因子，预估所述当前声音的下一个声音信息对应的第二调节因子，作为下一个声音信息对应的预设第二调节因子；

所述预估所述当前图像帧的下一个图像帧的特征值对应的第一调节因子，作为下一个图像帧的预设第一调节因子具体为：根据所述当前第一调节因子，在预估关联数据库中查询所述当前第一调节因子对应的所述预设第一调节因子；

所述根据所述当前第二调节因子，预估所述当前声音的下一个声音信息对应的第二调节因子，作为预设第二调节因子具体为：根据所述当前第二调节因子，在预估关联数据库中查询所述当前第二调节因子对应的所述预设第二调节因子；

所述下一个图像帧的第一调节因子为所述下一个图像帧的所述预设第一调节因子与检测第一调节因子的叠加值，所述检测第一调节因子为根据检测到的下一个图像帧的特征值计算出的；

所述下一个声音信息的第二调节因子为所述下一个声音信息的所述预设第二调节因子与检测第二因子的叠加值，所述检测第二因子为根据检测到的下一个声音信息计算出的。

2.根据权利要求1所述的视音频信息的处理方法，其特征在于，所述将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行叠加处理具体为：

在本地数据库或网络服务器中查询所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据；

将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行混合编码处理。

3.根据权利要求1所述的视音频信息的处理方法，其特征在于，所述方法还包括：接收所述MCU发送的所述视音频数据的全局参数调节因子；

所述将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述采集到的视音频数据进行叠加处理具体为：将所述采集到的视音频数据和所述全局参数调节因子对应的视音频数据与以下数据中的至少一个进行叠加处理：所述当前第一调节因子对应的视音频数据、所述当前第二调节因子对应的视音频数据。

4.一种视音频信息的处理方法，其特征在于，所述方法包括：

将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与全局参数因子对应的视音频数据、所述接收到的视音频数据进行叠加处理，得到视音频信息；

将所述视音频信息广播至其他视频终端；

其中，所述获取所述当前图像帧中的目标对象的当前特征值对应的当前第一调节因子，和/或所述当前声音信息对应的当前第二调节因子之后还包括：根据所述当前第一调节因子，预估所述当前图像帧的下一个图像帧的特征值对应的第一调节因子，作为下一个图像帧的预设第一调节因子；和/或，

5.根据权利要求4所述的视音频信息的处理方法，其特征在于，所述将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述全局参数因子对应的视音频数据、所述接收到的视音频数据进行叠加处理具体为：

在本地数据库或网络服务器中查询所述全局参数因子对应的视音频数据、所述当前第一调节因子对应的视音频数据、所述当前第二调节因子对应的视音频数据；

将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述全局参数因子对应的视音频数据、所述接收到的视音频数据进行混合编码处理。

6.一种视音频信息的处理装置，其特征在于，所述装置包括：

处理单元，用于接收所述采集单元发送的所述视音频数据以及所述获取单元发送的所述当前第一调节因子和/或所述当前第二调节因子，将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与所述视音频数据进行叠加处理，得到视音频信息，以及将所述视音频信息发送至发送单元；

发送单元，用于接收所述处理单元发送的所述视音频信息，发送所述视音频信息至多点控制单元MCU，用以所述MCU将所述视音频信息广播至其他视频终端；

其中，所述装置还包括：

预估单元，用于根据所述当前第一调节因子，预估所述当前图像帧的下一个图像帧的特征值对应的第一调节因子，作为下一个图像帧的预设第一调节因子；和/或，

所述预估单元具体用于：

根据所述当前第一调节因子，在预估关联数据库中查询所述当前第一调节因子对应的所述预设第一调节因子；

根据所述当前第二调节因子，在预估关联数据库中查询所述当前第二调节因子对应的所述预设第二调节因子；

7.根据权利要求6所述的视音频信息的处理装置，其特征在于，所述处理单元具体用于：

8.根据权利要求6所述的视音频信息的处理装置，其特征在于，所述装置还包括：接收单元，用于接收所述MCU发送的所述视音频数据的全局参数调节因子；

所述处理单元具体用于：将所述采集到的视音频数据和所述全局参数调节因子对应的视音频数据与以下数据中的至少一个进行叠加处理：所述当前第一调节因子对应的视音频数据、所述当前第二调节因子对应的视音频数据。

9.一种视音频信息的处理装置，其特征在于，所述装置包括：

处理单元，用于接收所述接收单元发送的所述视音频数据，以及所述获取单元发送的所述当前第一调节因子和/或所述当前第二调节因子，将所述当前第一调节因子对应的视音频数据和/或所述当前第二调节因子对应的视音频数据与全局参数因子对应的视音频数据、所述接收到的视音频数据进行叠加处理，得到视音频信息，将所述视音频信息传输至发送单元；

发送单元，用于接收所述处理单元发送的所述视音频信息，将所述视音频信息广播至其他视频终端；

其中，所述装置还包括：预估单元，用于根据所述当前第一调节因子，预估所述当前图像帧的下一个图像帧的特征值对应的第一调节因子，作为下一个图像帧的预设第一调节因子；和/或，

所述预估单元具体用于：根据所述当前第一调节因子，在预估关联数据库中查询所述当前第一调节因子对应的所述预设第一调节因子；

10.根据权利要求9所述的视音频信息的处理装置，其特征在于，所述处理单元具体用于：

11.一种视音频信息的处理系统，其特征在于，所述系统包括如权利要求9-10任一项所述的视音频信息的处理装置。