CN112769872B

CN112769872B - 一种基于音频及视频特征融合的会议系统接入方法及系统

Info

Publication number: CN112769872B
Application number: CN202110369842.4A
Authority: CN
Inventors: 陶子元; 朱敏; 孟夏冰; 严凡
Original assignee: Beijing Telecom Easiness Information Technology Co Ltd
Current assignee: Beijing Telecom Easiness Information Technology Co Ltd
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2021-06-22
Anticipated expiration: 2041-04-07
Also published as: CN112769872A

Abstract

本发明提供了一种基于音频及视频特征融合的会议系统接入方法及系统，所述方法包括：采集人脸图像，MCU对人脸图像进行非下采样的Contourlet变换，输入S‑PCNN模型进行处理，计算得到

；进行语音采样，经处理获得去噪后的离散采样信号，进行离散傅里叶变换计算获取语谱图，输入S‑PCNN模型转化获得

；将

和

进行融合处理得到

存入TCM芯片进行保护，MCU绑定账户密码及

；使用者录入人脸图像及语音信号，获得

，MCU从TCM芯片中获取受保护的预存

；对比

及

。本发明在保证系统良好鲁棒性基础上减少了计算量和计算时间，符合会议场景实时性要求；对

及

进行有效融合，大幅提高该系统可靠性；

可存入TCM芯片中以保证安全性。

Description

一种基于音频及视频特征融合的会议系统接入方法及系统

技术领域

本发明涉及信息安全技术领域，具体而言，涉及一种基于音频及视频特征融合的会议系统接入方法及系统。

背景技术

生物识别技术是信息安全领域一项前沿且重要的学科分支，该技术通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段密切融合，从而结合人类生物特征进行身份认证的一种技术。该技术通过指静脉、指纹、人脸、虹膜等人体固有生理特性，或者笔迹、声音、步态等行为特征来进行个人身份鉴定。生物识别技术相较于以身份标识物品（如智能卡等）和身份标识知识（如账户和密码）为代表的传统身份鉴定方法具有更高的安全性，但单模态生物特征身份认证方式在复杂环境下存在准确率低、应用范围受限等方面的问题。

单模态生物识别系统不仅受到生物特征本身特点缺陷的限制，同时受到采样方式、硬件水平和采样成功率等条件的制约，尤其在噪声干扰情况下可能出现分别率和可靠性大幅降低的情况，造成会议认证接入系统的错误识别或错误判定，使涉密信息泄露或者合法使用者无法正常登陆的风险急剧增加。

发明内容

鉴于此，本发明的目的在于有效防止会议保密领域的非法认证和涉密信息泄露，最大限度保证接入判定的准确性和关键信息的安全，提出了一种基于音频及视频特征融合的会议接入系统，采用S-PCNN模型实现人脸及语音特征值的提取，然后通过PCNN模型实现双方熵值的有效融合并将融合熵值存入TCM芯片进行保护，有效保证了会议接入人员的身份认证安全，同时，为其他信息行业的认证方案设计提供了可借鉴的参考案例。

本发明提供一种基于音频及视频特征融合的会议系统接入方法，包括以下步骤：

S1、会议装置的摄像头采集人脸图像，MCU对采集到的所述人脸图像进行非下采样的Contourlet变换，将所述Contourlet变换的各子带输入S-PCNN模型对所述人脸图像进行处理，处理完成的数据进行计算得到人脸熵值

；

具体地，S-PCNN模型对所述人脸图像处理完成的数据通过熵值处理计算得到人脸熵值

；

S2、会议装置的麦克风进行语音采样，录入语音信号经过处理获得去噪后的离散采样信号X(n)，对X(n)进行离散傅里叶变换并计算获取语谱图，将语谱图输入S-PCNN模型并通过转化获得语音信号的熵值

；

S3、将获取的所述人脸熵值

和所述语音熵值

进行融合处理，采用脉冲耦合神经网络（Pulse Coupled Neural Network， PCNN）模型进行融合，融合的特征式为：

=

；

融合处理针对的是视频信号和语音信号关联性不强的问题；

S4、将融合熵值

存入TCM芯片进行保护，同时，MCU绑定账户密码及该熵值；

S5、使用者录入人脸图像及语音信号，并获得新融合熵值

，MCU从TCM芯片中获取受保护的预存的融合熵值

；

所述会议装置作为会议发起端或会议客户端使用，使用时会议发起端具有最高权限；

S6、采用欧式距离的方案对比

及

，对比成功后启动会议设备的通信功能，若比对不成功，会议客户端将获取到的人脸图像及语音信号传输至会议发起端，会议发起端通过列表形式展示认证失败者照片及语音信号，并判断在认证不通过的情况下是否接入会议；

具体地，MCU采用1-NN分类器。

进一步地，所述S-PCNN模型为一种简化脉冲耦合神经网络，其表达式为：

=

=

=

=

=

=

表示被激活神经元的数量，

为系统的脉冲输出。

进一步地，所述会议装置作为会议发起端或会议客户端使用的方法包括：

a、若会议装置作为会议客户端使用，会议发起端向会议客户端发送会议邀请，会议客户端的使用者启动会议装置后进行人脸图像及语音信号采样，若比对成功，会议客户端成功开启会议模式并向会议发起端反馈合法接入，并上传人脸图像及语音信号；若比对不成功，会议客户端无法接入会议，并向会议发起端反馈非法接入，同时将获取到的人脸图像及语音信号传输至会议发起端；

b、若会议装置作为会议发起端使用，通过人脸图像及语音信号识别认证后可使用会议装置并可向会议客户端发送会议邀请，会议发起端可通过列表形式展示会议客户端合法与非法接入者，同时具有裁决会议客户端在认证不通过的情况下是否接入会议系统的权限。

进一步地，当所述会议系统具有账户删除的功能，所述账户删除的方法包括：

(1)、人脸图像及语音信号认证成功后进入会议系统，在所述会议系统的操作界面中的账户设置中进行删除，删除时需要输入所述账户对应的密码，同时在10s内再次录入人脸图像和语音信号，比对成功后完成账户删除；

(2)、若所述账户对应的密码输入错误，或者人脸图像以及语音信号录入错误，和/或录入时间超时均无法完成账户删除操作。

本发明还提供一种基于音频及视频特征融合的会议系统接入系统，使用所述的会议系统接入方法，包括：

图像处理模块：用于会议设备的摄像头采集人脸图像，MCU对处理后的所述人脸图像进行非下采样的Contourlet变换，将Contourlet变换的各子带输入S-PCNN模型对人脸图像进行处理，处理完成的数据进行计算得到人脸熵值

；

语音采样模块：用于会议设备的麦克风进行语音采样，录入语音信号经过处理获得去噪后的离散采样信号X(n)，对X(n)进行离散傅里叶变换并计算获取语谱图，将语谱图输入S-PCNN模型并通过转化获得语音信号的熵值

；

音视频特征融合模块：用于将获取的所述人脸熵值

和所述语音熵值

进行融合处理，采用PCNN模型进行融合，融合的特征式为：

=

；

安全存储模块：用于将融合熵值

存入TCM芯片进行保护，同时，MCU绑定账户密码及该熵值；

图像语音录入模块：用于使用者录入人脸图像及语音信号，并获得新融合熵值

，MCU从TCM芯片中获取受保护的预存的融合熵值

；

对比认证模块：用于采用欧式距离的方案对比

及

，对比成功后启动会议通信功能，若比对不成功，客户端将获取到的人脸图像及语音信号传输至会议发起端，会议发起端通过列表形式展示认证失败者照片及语音信号，会议发起者可决定客户端在认证不通过的情况下是否接入会议。

与现有技术相比，本发明的有益效果是：

本发明以音频及视频特征融合为基础的多模态识别系统可直接使用会议装置中的录像设备及音频采样设备，无需额外集成其他硬件，方案实现成本较低；本发明方案融合单个体的多种生理特点，相较于单模态生物识别技术具有更高的可行性和安全性，代表了未来生物特征识别技术的发展趋势；采用S-PCNN模型实现人脸及语音特征值的提取，在保留传统PCNN模型良好鲁棒性的基础上减少了计算量和计算时间，符合会议场景实时性的要求；通过PCNN模型对人脸特征熵值及语音特征熵值进行有效融合，大幅提高该系统的可靠性；融合熵值可存入会议装置的TCM芯片中以保证其安全性。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

在附图中：

图1是本发明一种基于音频及视频特征融合的会议系统接入方法及系统的工作流程图；

图2是本发明实施例的系统硬件组成图；

图3 是本发明实施例的人脸及语音处理框架图；

图4 是本发明实施例的账户删除流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三来描述各种信号，但这些信号不应限于这些术语。这些术语仅用来将同一类型的信号彼此区分开。例如，在不脱离本公开范围的情况下，第一信号也可以被称为第二信号，类似地，第二信号也可以被称为第一信号。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本发明一种基于音频及视频特征融合的会议系统接入方法，参见图1所示，包括以下步骤：

；

；

；

S3、将获取的所述人脸熵值

和所述语音熵值

=

；

融合处理针对的是视频信号和语音信号关联性不强的问题；

S4、将融合熵值

存入TCM芯片进行保护，同时，MCU绑定账户密码及该熵值；

S5、使用者录入人脸图像及语音信号，并获得新融合熵值

，MCU从TCM芯片中获取受保护的预存的融合熵值

；

S6、采用欧式距离的方案对比

及

具体地，MCU采用1-NN分类器。

所述S-PCNN模型的表达式为：

=

=

=

=

=

=

表示被激活神经元的数量，

为系统的脉冲输出。

所述会议装置作为会议发起端或会议客户端使用的方法包括：

当所述会议系统具有账户删除的功能，所述账户删除的方法包括：

本发明还提供一种基于音视频特征融合的会议系统接入系统，使用所述的会议系统接入方法，包括：

；

；

音视频特征融合模块：用于将获取的所述人脸熵值

和所述语音熵值

进行融合处理，采用PCNN模型进行融合，融合的特征式为：

=

；

安全存储模块：用于将融合熵值

存入TCM芯片进行保护，同时，MCU绑定账户密码及该熵值；

，MCU从TCM芯片中获取受保护的预存的融合熵值

；

对比认证模块：用于采用欧式距离的方案对比

及

以下是本发明的具体实施例：

一、账户注册

用户首次获得会议装置后需要进行账户注册，除设置账户和密码外还需要进行人脸图像及语音信号注册并绑定账户和密码，其处理过程如图3所示。

（1）人脸采样

人脸采样使用会议装置自带摄像头，人脸图像经过光线补偿、灰度变换、直方图均衡化、归一化、几何校正、滤波、锐化处理后进入会议系统后台，会议系统后台采用一种S-PCNN模型对人脸图像和语音信号进行处理，该模型将标准的脉冲耦合神经网络模型中八个参数简化为

、

、β 三个参数，在保证基本性能不变的情况下减少了计算量和计算时间，其模型为：

=

=

=

=

=

=

表示被激活神经元的数量，

为系统的脉冲输出。

在人脸图像识别系统的处理中，首先进行非下采样的Contourlet变换，再将其各子带输入S-PCNN模型并生成一系列二值图像输出

，将该二值二维图像序列转化成一维时间序列，该一维时间序列具有不变性和唯一性，作为目标识别或分类的特征向量，记作Y[n]，Y[n]输入熵值处理子模块并得到熵值

：

=-

-

其中，

是Y[n]为1和0的概率。

（2）语音采样

语音采样使用会议装置自带麦克风，录入语音信号经过处理获得去噪后的离散采样信号X(n)，对其进行离散傅里叶变化最终得到X(n,k)，对X(n,k)进行变换获得语谱图P(n,k)：

P(n,k)=

其中，n作为横坐标，k为纵坐标，将P(n,k)的值表示为灰度级所构成的二维图像就是语谱图，采用和人脸识别方案类似的步骤，将P(n,k)输入S-PCNN模型并进行转化以获得语音信号的熵值

。

（3）算法融合

将获取的人脸熵值

和语音熵值

进行融合处理，针对视频信号和声音信号关联性不强的问题，采用PCNN模型进行融合，融合的特征式为：

=

得到融合熵值

后存入TCM芯片进行保护。

二、身份识别

在实际使用时，该会议装置可作为发起端或客户端使用，当作为会议发起端时具有最高权限。

若会议装置作为会议客户端使用，会议发起端向该客户端发送会议邀请，客户端使用者启动会议装置后进行人脸及语音采样，人脸及语音处理过程和身份注册过程相同，获得新融合熵值

，MCU从TCM芯片中获取受保护的预存的融合熵值

，MCU采用1-NN分类器，距离度量采用欧式距离的方案对比

及

，若比对成功，客户端成功开启会议模式并向发起端反馈合法接入，并上传用户的人脸图像及语音信号；若比对不成功，客户端无法接入会议，并向发起端反馈非法接入，同时将获取到的人脸图像及语音信号传输至会议发起端；

若会议装置作为会议发起端使用，通过人脸及语音识别认证后可使用会议装置并可向客户端发送会议邀请，会议发起端可通过列表形式展示会议客户端合法与非法接入者，同时具有裁决客户端在认证不通过的情况下是否接入会议系统的权限。

三、账户删除

账户删除步骤如图4所示，人脸及语音认证成功后进入会议装置系统，在操作界面中的账户设置中进行删除，删除时需要输入该账户对应的密码，同时在10s内再次录入人脸信号和语音信号，比对成功后方可完成账户删除。若密码输入错误，或者人脸及语音录入错误，或者录入时间超时均无法完成账户删除操作。

本发明实施例，硬件上可直接借用会议装置的摄像头、麦克风和会议系统的后台；在用户注册阶段，微控制单元（Microcontroller Unit，MCU）将处理后的人脸及语音信号输入基于简化脉冲耦合神经网络（Simplify Pulse Coupled Neural Network，S-PCNN）的模型进行处理，获取处理结果后进行熵值计算及熵值融合，并将融合熵值存入可信密码模块（Trusted Cryptography Module，TCM）进行保存；会议接入时，MCU通过相同方式获取接入者的融合熵值，再从TCM芯片中获取标准熵值，通过1-近邻分类器(1-Nearest Neighbor，1-NN)，距离度量采用欧式距离的方案对比双方熵值以判断是否认证成功。会议系统的硬件组成如图2所示，主要由摄像头，麦克风和系统后台组成，系统后台通过微控制单元MCU进行身份注册、身份识别及算法处理，MCU可将处理后的融合熵值存入系统自带的TCM芯片进行保护，本系统无需额外的硬件集成，通过会议设备自带的基本硬件即可完成开发。

进行用户注册时，首先录入用户名及密码，然后使用会议装置自带摄像头进行人脸采样，人脸图像经过光线补偿、灰度变换、直方图均衡化、归一化、几何校正、滤波、锐化处理后进入系统后台，MCU采用一种S-PCNN模型对人脸图像进行处理，将处理完成的数据输入熵值处理模块并获取人脸熵值

。完成人脸采样后使用麦克风进行语音采样，录入信号经过处理获得去噪后的离散采样信号X(n)，对其进行离散傅里叶变化并计算获取语谱图，将语谱图输入S-PCNN模型并进行转化以获得语音信号的熵值

，MCU调用PCNN模型对人脸熵值

和语音信号熵值

进行融合以获取融合熵值

，MCU将该融合值存入TCM芯片进行保护。最后，MCU将用户注册的用户名及密码绑定融合值

。

在实际使用时，会议发起端具有最高权限，该会议装置可作为发起端或客户端使用。若会议装置作为会议客户端使用，会议发起端向该客户端发送会议邀请，客户端使用者启动会议装置后进行人脸及语音采样，人脸及语音处理过程和身份注册过程相同，获得融合熵值

，MCU从TCM芯片中获取受保护的预存熵值

，MCU采用1-NN分类器，距离度量采用欧式距离的方案对比

及

，若比对成功，客户端成功开启会议模式并向发起端反馈合法接入，并上传用户照片及语音信号；若比对不成功，客户端无法接入会议，并向发起端反馈非法接入，同时将获取到的人脸图像及语音信号传输至会议发起端。若设备作为会议发起端使用，通过人脸及语音识别认证后可使用会议装置并可向客户端发送会议邀请，会议发起端可通过列表形式展示会议客户端合法与非法接入者，同时具有裁决客户端在认证不通过的情况下是否接入会议系统的权限。

进行用户删除时，人脸及语音认证成功后进入会议装置系统，在操作界面中的账户设置中进行删除，删除时需要输入该账户对应的密码，同时在10s内再次录入人脸信号和语音信号，比对成功后方可完成账户删除。

与现有技术相比，本发明的有益效果是：

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、同替换、改进，均应包含在本发明的保护范围之内。