CN106791579A

CN106791579A - 一种视频会议质量的处理方法及系统

Info

Publication number: CN106791579A
Application number: CN201611261872.9A
Authority: CN
Inventors: 唐常芳; 吴亚凤
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2017-05-31

Abstract

公开了一种视频会议质量的处理方法，包括：(1)建立人脸数据库、一般性神态数据库和会议场景定义数据库；(2)采集视频会议的视频信号和音频信号；(3)图像智能识别：从视频信号中对与会者进行人脸识别、表情姿态分析，得出该与会者的神情数据，并将数据存入数据库；对音频信号进行分析，并分离出人物发言和会场情景声音，将人物发言当作加权系数去修正该与会者的神情数据，在会议场景定义数据库支撑下对会议场景音频进行分析，得出会议氛围数据，并将该数据保存于数据库；(4)会议质量评判：根据会议和与会者的得分，进行智能计算，得出会议和与会者的最终评分，并给出会议评价和改进报告。还有一种视频会议质量的处理系统。

Description

一种视频会议质量的处理方法及系统

技术领域

本发明涉及音视频识别和分析的技术领域，尤其涉及一种视频会议质量的处理方法，以及视频会议质量的处理系统。

背景技术

现在会议太多又效率不高，这是一个普遍存在的问题，如何评判并提高会议效率和会议质量是一个难题。目前还没有一款自动化的智能的工具对一个会议的质量做出测量和评判，目前市面上有很多品牌的视频会议系统，但是这些系统都仅仅只是完成“召开视频会议”的功能，可以对会议过程提供完善的音视频和会议资料服务，但是无一例外的都没有对会议质量的测量和评判系统。

不过，从管理者的角度出发，非常渴望有一款智能化的、自动化的工具，对正在进行的会议和召开过的会议的质量进行测评，并提出会议存在的问题和给出会议改进建议。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种视频会议质量的评判方法，其能够挖掘出通过常规技术手段所不能获取的会议质量和会议效率信息，利用这些信息可以使得管理者有效地改进会议，提高会议质量。

本发明的技术方案是：这种视频会议质量的分析方法，该方法包括以下步骤：

(1)建立人脸数据库、一般性神态数据库和会议场景定义数据库；

(2)采集视频会议的视频信号和音频信号；

(3)图像智能识别：从视频信号中对与会者进行人脸识别，通过表情姿态分析，得出该与会者的神情数据，并将数据存入数据库；对音频信号进行分析，分离出人物发言和会场情景声音，将人物发言当作加权系数去修正该与会者的神情数据；在会议场景定义数据库支撑下对会议场景音频进行分析，得出会议氛围数据，并将该数据保存于数据库；

(4)会议质量评判：根据会议和与会者的得分，进行智能计算，得出会议和与会者的最终评分，并给出会议评价和改进报告。

本发明通过图像智能识别对视频信号进行智能识别，识别出会议活跃、每个参会者的专注度与参与度，与知识库进行比对，形成会议质量得分，并进行知识库的自学习和知识累积；通过会议质量评判，根据会议和与会者的得分并与时间和其他因素进行智能计算，得出会议和与会者的最终评分，并给出会议评价和改进报告；因此，能够挖掘出通过常规技术手段所不能获取的会议质量和会议效率信息，利用这些信息可以使得管理者有效地改进会议，提高会议质量。

还提供了一种视频会议质量的处理系统，该系统包括：

构建模块，其配置来建立人脸数据库、一般性神态数据库和会议场景定义数据库；

采集模块，其配置来采集视频会议的视频信号和音频信号；

图像智能识别模块，其配置来从视频信号中对与会者进行人脸识别、表情姿态分析，得出该与会者的神情数据，并将数据存入数据库；对音频信号进行分析，并分离出人物发言和会场情景声音，将人物发言当作加权系数去修正该与会者的神情数据，在会议场景定义数据库支撑下对会议场景音频进行分析，得出会议氛围数据，并将该数据保存于数据库；

会议质量评判模块，其配置来根据会议和与会者的得分，进行智能计算，得出会议和与会者的最终评分，并给出会议评价和改进报告。

附图说明

图1所示为根据本发明的视频会议质量的处理方法的示意图。

图2所示为根据本发明的人脸识别的流程图。

图3所示为根据本发明的表情姿态分析的流程图。

图4所示为根据本发明的音频信号的处理的流程图。

图5所示为根据本发明的特定人物神态知识库的一个学习模型。

具体实施方式

如图1所示，这种视频会议质量的处理方法，该方法包括以下步骤：

(2)采集视频会议的视频信号和音频信号；

(3)图像智能识别：从视频信号中对与会者进行人脸识别、表情姿态分析，得出该与会者的神情数据，并将数据存入数据库；对音频信号进行分析，并分离出人物发言和会场情景声音，将人物发言当作加权系数去修正该与会者的神情数据，在会议场景定义数据库支撑下对会议场景音频进行分析，得出会议氛围数据，并将该数据保存于数据库；

本发明通过图像智能识别对视频信号进行智能识别，识别出会议活跃和专注程度、每个参会者的专注度，与知识库进行比对，形成会议质量得分，并进行知识库的自学习和知识累积；通过会议质量评判，根据会议和与会者的得分并与时间和其他因素进行智能计算，得出会议和与会者的最终评分，并给出会议评价和改进报告；因此，能够挖掘出会议质量和会议效率通过常规技术手段所不能获取的信息，利用这些信息可以使得管理者有效地改进会议，提高会议质量。

另外，该方法还包括步骤(5)，由会议管理者对会议质量报告进行反馈，根据管理者的反馈信息修正特定人物神态知识库，对一般性神态数据库和会议场景定义数据库进行升级。

该步骤根据会议管理者对会议视频采样点和音频采样点给出反馈信息，从而根据这些反馈信息调整“特定人物神态知识库”数据，以及得分计算公式、各项权值系数等参数。

学习的特定人物神态知识库的条目数细分越多，其计算结果的准确度越高。例如：如图5所示，“专注”神态可以细分为专注一级、二级、三级，并对每种神态进行表情特征的描述，然后系统对不同的神态给予得分。

另外，如图2所示，所述步骤(3)中，人脸识别包括以下步骤：

(i)人脸识别和定位：对视频信号进行逐帧分析，判断是否有人脸存在，如果有则将人脸区域数据裁剪出来，对于相邻帧的数据做对比，获得人脸相似度最好的一帧当作所选择的人脸图片；

(ii)人脸规格化：将大小尺寸不同的图片规格化为统一的大小，并且将图片做灰度化处理；

(iii)人脸特征提取：将人脸图片进行特征化处理，得到人脸数据的特征空间向量；

(iv)比较和识别：将人脸特征数据与步骤(1)的人脸数据库进行比对，识别出具体的人物。

另外，依据目前的技术，对人脸识别的准确度较高，算法比较容易识别人脸与非人脸，以及识别到具体的某个人物，特别是给定的人物数据库是确定的时，识别精度是比较高的。

但是表情姿态的识别与分析算法精度较差，主要原因是不同的人的面部特征本身就有差异，这样一来，不同人物的相同表情更难于区分。例如：一般判定人物愤怒的关键特征之一是眉毛外侧向上翘起，但有的人是上翘眉，有的人是下耷眉，算法阈值难于设置一个合适的值——对任何人都适合的合适值。

由于本方法的特点是对有限的人物进行表情姿态识别，因此本方法采用“一般性神态数据库”和“特定人物表情知识库”相结合的方法，在一般性神态数据库中记录人物表情姿态的通用数据，这些数据用于判断通用人物的一般性表情，然后在特定人物表情知识库中进行精确匹配，得出的表情姿态数据具有如下两个特点：

●精度高

●识别种类丰富

通过两级数据分析可达到数据分析的快速性和准确性。一般性神态数据库包含七种基本人物表情：中性、高兴、悲伤、惊奇、恐惧、愤怒、厌恶。在特定人物表情知识库中，由用户建设属于具体某个人的若干“表情”，并对这些“表情”进行特征数据的表示。

如图3所示，所述步骤(3)中，表情姿态分析包括：分析与会者的表情姿态，与一般性神态数据库进行对比来做出表情神态分类识别，在特定人物表情知识库中进行精确匹配，得出表情姿态数据，并将数据归类和存储。

另外，如图4所示，所述步骤(3)中，音频信号的处理包括以下步骤：

(a)对语音类别进行识别，如果是单人发言则执行步骤(b)，如果是非单人发言则执行步骤(e)；

(b)进行语音声纹分析与人物匹配；

(c)进行语言语气语调分析；

(d)计算发言人参会质量，跳转到步骤(h)；

(e)对背景音进行分类；

(f)按照背景音分类进行会议场景识别；

(g)计算会议氛围得分；

(h)结束。

常规的语音识别技术方向是大词汇量连续语音识别系统，主要应用于计算机的听写、与电话网或者互联网相结合的语音信息查询服务系统，本发明的语音识别的目的不是为了实现语音的词汇和语句识别，而主要是为了识别语音的语气与气氛，从而达到判断会议和与会者的质量信息。

本发明是将视频会议的音频数据流进行分析，提取和识别出人的说话声、掌声和笑声等背景音、其他背景音，并识别出单人发言和众人讨论等不同的会议模式，对于单人发言时，还要识别出发言人的身份等信息。

识别出上述信息后，再对数据进行分析，得出会议氛围数据以及与会者情绪数据，并计入会议质量数据库，为一下步的会议质量评分与分析做数据准备。

另外，所述步骤(4)中，根据公式(1)计算与会者进行质量打分

其中：n为某与会者视频采样点总数，m为某与会者音频采样点总数，W_A为视频得分权值，W_V为音频得分权值，ScoreA_i为某个视频采样点得分，ScoreV_i为某个音频采样点得分。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而所述的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。因此，与本发明的方法相对应的，本发明还同时包括一种视频会议质量的处理系统，该系统通常以与方法各步骤相对应的功能模块的形式表示。使用该方法的系统包括：

采集模块，其配置来采集视频会议的视频信号和音频信号；

另外，该系统还包括自我学习模块，其配置来由会议管理者对会议质量报告进行反馈，根据管理者的反馈信息修正特定人物神态知识库，对一般性神态数据库和会议场景定义数据库进行升级。

本发明的有益效果如下：

本发明为用户提供了一个对视频会议质量进行测量和评价的工具，能为给视频会议做出较为准确和客观的测量和评价，以便于用户的管理者进行质量改进，为用户带来价值。

另外，本发明是利用现有视频会议系统采集的音视频数据，对数据进行深度挖掘和分析，找出对管理改进有用的数据，对数据的深度挖掘是当今信息系统的热点话题，也是知识型经济发展的重要方向。

本系统从硬件设备上几乎不会增加成本，对于原有的旧视频会议系统也可以很方便的加以改造，便可成功实施这一会议质量管理系统，因此从投入产出和保护用户既有投资角度看，对用户也是非常合适的。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种视频会议质量的处理方法，其特征在于：该方法包括以下步骤：

(2)采集视频会议的视频信号和音频信号；

2.根据权利要求1所述的视频会议质量的处理方法，其特征在于：该方法还包括步骤(5)，由会议管理者对会议质量报告进行反馈，根据管理者的反馈信息修正特定人物神态知识库，对一般性神态数据库和会议场景定义数据库进行升级。

3.根据权利要求2所述的视频会议质量的处理方法，其特征在于：所述步骤(3)中，人脸识别包括以下步骤：

4.根据权利要求3所述的视频会议质量的处理方法，其特征在于：所述步骤(3)中，表情姿态分析包括：分析与会者的表情姿态，与一般性神态数据库进行对比来做出表情神态分类识别，在特定人物表情知识库中进行精确匹配，得出表情姿态数据，并将数据归类和存储。

5.根据权利要求4所述的视频会议质量的处理方法，其特征在于：所述步骤(3)中，音频信号的处理包括以下步骤：

(b)进行语音声纹分析与人物匹配；

(c)进行语言语气语调分析；

(d)计算发言人参会质量，跳转到步骤(h)；

(e)对背景音进行分类；

(f)按照背景音分类进行会议场景识别；

(g)计算会议氛围得分；

(h)结束。

6.根据权利要求5所述的视频会议质量的处理方法，其特征在于：所述步骤(4)中，根据公式(1)计算与会者进行质量打分

W_{A} \times [Σ_{i = 0}^{n} {ScoreA}_{i}] / n + W_{V} \times [Σ_{i = 0}^{m} {ScoreV}_{i}] / m - - - (1)

7.一种视频会议质量的处理系统，其特征在于：该系统包括：

采集模块，其配置来采集视频会议的视频信号和音频信号；

8.根据权利要求7所述的视频会议质量的处理系统，其特征在于：该系统还包括自我学习模块，其配置来由会议管理者对会议质量报告进行反馈，根据管理者的反馈信息修正特定人物神态知识库，对一般性神态数据库和会议场景定义数据库进行升级。