CN112769872B - 一种基于音频及视频特征融合的会议系统接入方法及系统 - Google Patents

一种基于音频及视频特征融合的会议系统接入方法及系统 Download PDF

Info

Publication number
CN112769872B
CN112769872B CN202110369842.4A CN202110369842A CN112769872B CN 112769872 B CN112769872 B CN 112769872B CN 202110369842 A CN202110369842 A CN 202110369842A CN 112769872 B CN112769872 B CN 112769872B
Authority
CN
China
Prior art keywords
conference
voice signal
face image
fusion
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110369842.4A
Other languages
English (en)
Other versions
CN112769872A (zh
Inventor
陶子元
朱敏
孟夏冰
严凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Telecom Easiness Information Technology Co Ltd
Original Assignee
Beijing Telecom Easiness Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Telecom Easiness Information Technology Co Ltd filed Critical Beijing Telecom Easiness Information Technology Co Ltd
Priority to CN202110369842.4A priority Critical patent/CN112769872B/zh
Publication of CN112769872A publication Critical patent/CN112769872A/zh
Application granted granted Critical
Publication of CN112769872B publication Critical patent/CN112769872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • H04L9/3231Biological data, e.g. fingerprint, voice or retina

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Multimedia (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明提供了一种基于音频及视频特征融合的会议系统接入方法及系统,所述方法包括:采集人脸图像,MCU对人脸图像进行非下采样的Contourlet变换,输入S‑PCNN模型进行处理,计算得到
Figure 707295DEST_PATH_IMAGE001
;进行语音采样,经处理获得去噪后的离散采样信号,进行离散傅里叶变换计算获取语谱图,输入S‑PCNN模型转化获得
Figure 100004_DEST_PATH_IMAGE002
;将
Figure 305023DEST_PATH_IMAGE001
Figure 986540DEST_PATH_IMAGE002
进行融合处理得到
Figure 722415DEST_PATH_IMAGE003
存入TCM芯片进行保护,MCU绑定账户密码及
Figure 100004_DEST_PATH_IMAGE004
;使用者录入人脸图像及语音信号,获得
Figure 468785DEST_PATH_IMAGE005
,MCU从TCM芯片中获取受保护的预存
Figure 731139DEST_PATH_IMAGE003
;对比
Figure 100004_DEST_PATH_IMAGE006
Figure 301666DEST_PATH_IMAGE003
。本发明在保证系统良好鲁棒性基础上减少了计算量和计算时间,符合会议场景实时性要求;对
Figure 259258DEST_PATH_IMAGE007
Figure 855325DEST_PATH_IMAGE002
进行有效融合,大幅提高该系统可靠性;
Figure 100004_DEST_PATH_IMAGE008
可存入TCM芯片中以保证安全性。

Description

一种基于音频及视频特征融合的会议系统接入方法及系统
技术领域
本发明涉及信息安全技术领域,具体而言,涉及一种基于音频及视频特征融合的会议系统接入方法及系统。
背景技术
生物识别技术是信息安全领域一项前沿且重要的学科分支,该技术通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段密切融合,从而结合人类生物特征进行身份认证的一种技术。该技术通过指静脉、指纹、人脸、虹膜等人体固有生理特性,或者笔迹、声音、步态等行为特征来进行个人身份鉴定。生物识别技术相较于以身份标识物品(如智能卡等)和身份标识知识(如账户和密码)为代表的传统身份鉴定方法具有更高的安全性,但单模态生物特征身份认证方式在复杂环境下存在准确率低、应用范围受限等方面的问题。
单模态生物识别系统不仅受到生物特征本身特点缺陷的限制,同时受到采样方式、硬件水平和采样成功率等条件的制约,尤其在噪声干扰情况下可能出现分别率和可靠性大幅降低的情况,造成会议认证接入系统的错误识别或错误判定,使涉密信息泄露或者合法使用者无法正常登陆的风险急剧增加。
发明内容
鉴于此,本发明的目的在于有效防止会议保密领域的非法认证和涉密信息泄露,最大限度保证接入判定的准确性和关键信息的安全,提出了一种基于音频及视频特征融合的会议接入系统,采用S-PCNN模型实现人脸及语音特征值的提取,然后通过PCNN模型实现双方熵值的有效融合并将融合熵值存入TCM芯片进行保护,有效保证了会议接入人员的身份认证安全,同时,为其他信息行业的认证方案设计提供了可借鉴的参考案例。
本发明提供一种基于音频及视频特征融合的会议系统接入方法,包括以下步骤:
S1、会议装置的摄像头采集人脸图像,MCU对采集到的所述人脸图像进行非下采样的Contourlet变换,将所述Contourlet变换的各子带输入S-PCNN模型对所述人脸图像进行处理,处理完成的数据进行计算得到人脸熵值
Figure 830255DEST_PATH_IMAGE001
具体地,S-PCNN模型对所述人脸图像处理完成的数据通过熵值处理计算得到人脸熵值
Figure 647033DEST_PATH_IMAGE001
S2、会议装置的麦克风进行语音采样,录入语音信号经过处理获得去噪后的离散采样信号X(n),对X(n)进行离散傅里叶变换并计算获取语谱图,将语谱图输入S-PCNN模型并通过转化获得语音信号的熵值
Figure DEST_PATH_IMAGE002
S3、将获取的所述人脸熵值
Figure 557220DEST_PATH_IMAGE001
和所述语音熵值
Figure 951292DEST_PATH_IMAGE002
进行融合处理,采用脉冲耦合神经网络(Pulse Coupled Neural Network, PCNN)模型进行融合,融合的特征式为:
Figure 18343DEST_PATH_IMAGE003
=
Figure DEST_PATH_IMAGE004
融合处理针对的是视频信号和语音信号关联性不强的问题;
S4、将融合熵值
Figure 876578DEST_PATH_IMAGE003
存入TCM芯片进行保护,同时,MCU绑定账户密码及该熵值;
S5、使用者录入人脸图像及语音信号,并获得新融合熵值
Figure 505136DEST_PATH_IMAGE005
,MCU从TCM芯片中获取受保护的预存的融合熵值
Figure 386504DEST_PATH_IMAGE003
所述会议装置作为会议发起端或会议客户端使用,使用时会议发起端具有最高权限;
S6、采用欧式距离的方案对比
Figure DEST_PATH_IMAGE006
Figure 476820DEST_PATH_IMAGE003
,对比成功后启动会议设备的通信功能,若比对不成功,会议客户端将获取到的人脸图像及语音信号传输至会议发起端,会议发起端通过列表形式展示认证失败者照片及语音信号,并判断在认证不通过的情况下是否接入会议;
具体地,MCU采用1-NN分类器。
进一步地,所述S-PCNN模型为一种简化脉冲耦合神经网络,其表达式为:
Figure 504075DEST_PATH_IMAGE007
=
Figure DEST_PATH_IMAGE008
Figure 756065DEST_PATH_IMAGE009
=
Figure DEST_PATH_IMAGE010
Figure 468937DEST_PATH_IMAGE011
=
Figure DEST_PATH_IMAGE012
Figure 831786DEST_PATH_IMAGE013
=
Figure DEST_PATH_IMAGE014
Figure 445038DEST_PATH_IMAGE015
=
Figure DEST_PATH_IMAGE016
Figure 867930DEST_PATH_IMAGE017
=
Figure DEST_PATH_IMAGE018
Figure 68098DEST_PATH_IMAGE013
表示被激活神经元的数量,
Figure 906741DEST_PATH_IMAGE015
为系统的脉冲输出。
进一步地,所述会议装置作为会议发起端或会议客户端使用的方法包括:
a、若会议装置作为会议客户端使用,会议发起端向会议客户端发送会议邀请,会议客户端的使用者启动会议装置后进行人脸图像及语音信号采样,若比对成功,会议客户端成功开启会议模式并向会议发起端反馈合法接入,并上传人脸图像及语音信号;若比对不成功,会议客户端无法接入会议,并向会议发起端反馈非法接入,同时将获取到的人脸图像及语音信号传输至会议发起端;
b、若会议装置作为会议发起端使用,通过人脸图像及语音信号识别认证后可使用会议装置并可向会议客户端发送会议邀请,会议发起端可通过列表形式展示会议客户端合法与非法接入者,同时具有裁决会议客户端在认证不通过的情况下是否接入会议系统的权限。
进一步地,当所述会议系统具有账户删除的功能,所述账户删除的方法包括:
(1)、人脸图像及语音信号认证成功后进入会议系统,在所述会议系统的操作界面中的账户设置中进行删除,删除时需要输入所述账户对应的密码,同时在10s内再次录入人脸图像和语音信号,比对成功后完成账户删除;
(2)、若所述账户对应的密码输入错误,或者人脸图像以及语音信号录入错误,和/或录入时间超时均无法完成账户删除操作。
本发明还提供一种基于音频及视频特征融合的会议系统接入系统,使用所述的会议系统接入方法,包括:
图像处理模块:用于会议设备的摄像头采集人脸图像,MCU对处理后的所述人脸图像进行非下采样的Contourlet变换,将Contourlet变换的各子带输入S-PCNN模型对人脸图像进行处理,处理完成的数据进行计算得到人脸熵值
Figure 390812DEST_PATH_IMAGE001
语音采样模块:用于会议设备的麦克风进行语音采样,录入语音信号经过处理获得去噪后的离散采样信号X(n),对X(n)进行离散傅里叶变换并计算获取语谱图,将语谱图输入S-PCNN模型并通过转化获得语音信号的熵值
Figure 656708DEST_PATH_IMAGE002
音视频特征融合模块:用于将获取的所述人脸熵值
Figure 99498DEST_PATH_IMAGE001
和所述语音熵值
Figure 741832DEST_PATH_IMAGE002
进行融合处理,采用PCNN模型进行融合,融合的特征式为:
Figure 345988DEST_PATH_IMAGE003
=
Figure 782786DEST_PATH_IMAGE004
安全存储模块:用于将融合熵值
Figure 223126DEST_PATH_IMAGE003
存入TCM芯片进行保护,同时,MCU绑定账户密码及该熵值;
图像语音录入模块:用于使用者录入人脸图像及语音信号,并获得新融合熵值
Figure 403571DEST_PATH_IMAGE006
,MCU从TCM芯片中获取受保护的预存的融合熵值
Figure 862235DEST_PATH_IMAGE003
对比认证模块:用于采用欧式距离的方案对比
Figure 469933DEST_PATH_IMAGE006
Figure 896104DEST_PATH_IMAGE003
,对比成功后启动会议通信功能,若比对不成功,客户端将获取到的人脸图像及语音信号传输至会议发起端,会议发起端通过列表形式展示认证失败者照片及语音信号,会议发起者可决定客户端在认证不通过的情况下是否接入会议。
与现有技术相比,本发明的有益效果是:
本发明以音频及视频特征融合为基础的多模态识别系统可直接使用会议装置中的录像设备及音频采样设备,无需额外集成其他硬件,方案实现成本较低;本发明方案融合单个体的多种生理特点,相较于单模态生物识别技术具有更高的可行性和安全性,代表了未来生物特征识别技术的发展趋势;采用S-PCNN模型实现人脸及语音特征值的提取,在保留传统PCNN模型良好鲁棒性的基础上减少了计算量和计算时间,符合会议场景实时性的要求;通过PCNN模型对人脸特征熵值及语音特征熵值进行有效融合,大幅提高该系统的可靠性;融合熵值可存入会议装置的TCM芯片中以保证其安全性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
在附图中:
图1是本发明一种基于音频及视频特征融合的会议系统接入方法及系统的工作流程图;
图2是本发明实施例的系统硬件组成图;
图3 是本发明实施例的人脸及语音处理框架图;
图4 是本发明实施例的账户删除流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三来描述各种信号,但这些信号不应限于这些术语。这些术语仅用来将同一类型的信号彼此区分开。例如,在不脱离本公开范围的情况下,第一信号也可以被称为第二信号,类似地,第二信号也可以被称为第一信号。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本发明一种基于音频及视频特征融合的会议系统接入方法,参见图1所示,包括以下步骤:
S1、会议装置的摄像头采集人脸图像,MCU对采集到的所述人脸图像进行非下采样的Contourlet变换,将所述Contourlet变换的各子带输入S-PCNN模型对所述人脸图像进行处理,处理完成的数据进行计算得到人脸熵值
Figure 614662DEST_PATH_IMAGE001
具体地,S-PCNN模型对所述人脸图像处理完成的数据通过熵值处理计算得到人脸熵值
Figure 193411DEST_PATH_IMAGE001
S2、会议装置的麦克风进行语音采样,录入语音信号经过处理获得去噪后的离散采样信号X(n),对X(n)进行离散傅里叶变换并计算获取语谱图,将语谱图输入S-PCNN模型并通过转化获得语音信号的熵值
Figure 972011DEST_PATH_IMAGE002
S3、将获取的所述人脸熵值
Figure 386943DEST_PATH_IMAGE001
和所述语音熵值
Figure 768245DEST_PATH_IMAGE002
进行融合处理,采用脉冲耦合神经网络(Pulse Coupled Neural Network, PCNN)模型进行融合,融合的特征式为:
Figure 76867DEST_PATH_IMAGE003
=
Figure 291948DEST_PATH_IMAGE004
融合处理针对的是视频信号和语音信号关联性不强的问题;
S4、将融合熵值
Figure 164482DEST_PATH_IMAGE003
存入TCM芯片进行保护,同时,MCU绑定账户密码及该熵值;
S5、使用者录入人脸图像及语音信号,并获得新融合熵值
Figure 756001DEST_PATH_IMAGE005
,MCU从TCM芯片中获取受保护的预存的融合熵值
Figure 43762DEST_PATH_IMAGE003
所述会议装置作为会议发起端或会议客户端使用,使用时会议发起端具有最高权限;
S6、采用欧式距离的方案对比
Figure 164165DEST_PATH_IMAGE006
Figure 288110DEST_PATH_IMAGE003
,对比成功后启动会议设备的通信功能,若比对不成功,会议客户端将获取到的人脸图像及语音信号传输至会议发起端,会议发起端通过列表形式展示认证失败者照片及语音信号,并判断在认证不通过的情况下是否接入会议;
具体地,MCU采用1-NN分类器。
所述S-PCNN模型的表达式为:
Figure 276795DEST_PATH_IMAGE007
=
Figure 294429DEST_PATH_IMAGE008
Figure 225214DEST_PATH_IMAGE009
=
Figure 961089DEST_PATH_IMAGE010
Figure 753464DEST_PATH_IMAGE011
=
Figure 625605DEST_PATH_IMAGE012
Figure 228756DEST_PATH_IMAGE013
=
Figure 451927DEST_PATH_IMAGE014
Figure 782414DEST_PATH_IMAGE015
=
Figure 774641DEST_PATH_IMAGE016
Figure 50158DEST_PATH_IMAGE017
=
Figure 495046DEST_PATH_IMAGE018
Figure 629224DEST_PATH_IMAGE013
表示被激活神经元的数量,
Figure 741536DEST_PATH_IMAGE015
为系统的脉冲输出。
所述会议装置作为会议发起端或会议客户端使用的方法包括:
a、若会议装置作为会议客户端使用,会议发起端向会议客户端发送会议邀请,会议客户端的使用者启动会议装置后进行人脸图像及语音信号采样,若比对成功,会议客户端成功开启会议模式并向会议发起端反馈合法接入,并上传人脸图像及语音信号;若比对不成功,会议客户端无法接入会议,并向会议发起端反馈非法接入,同时将获取到的人脸图像及语音信号传输至会议发起端;
b、若会议装置作为会议发起端使用,通过人脸图像及语音信号识别认证后可使用会议装置并可向会议客户端发送会议邀请,会议发起端可通过列表形式展示会议客户端合法与非法接入者,同时具有裁决会议客户端在认证不通过的情况下是否接入会议系统的权限。
当所述会议系统具有账户删除的功能,所述账户删除的方法包括:
(1)、人脸图像及语音信号认证成功后进入会议系统,在所述会议系统的操作界面中的账户设置中进行删除,删除时需要输入所述账户对应的密码,同时在10s内再次录入人脸图像和语音信号,比对成功后完成账户删除;
(2)、若所述账户对应的密码输入错误,或者人脸图像以及语音信号录入错误,和/或录入时间超时均无法完成账户删除操作。
本发明还提供一种基于音视频特征融合的会议系统接入系统,使用所述的会议系统接入方法,包括:
图像处理模块:用于会议设备的摄像头采集人脸图像,MCU对处理后的所述人脸图像进行非下采样的Contourlet变换,将Contourlet变换的各子带输入S-PCNN模型对人脸图像进行处理,处理完成的数据进行计算得到人脸熵值
Figure 811123DEST_PATH_IMAGE001
语音采样模块:用于会议设备的麦克风进行语音采样,录入语音信号经过处理获得去噪后的离散采样信号X(n),对X(n)进行离散傅里叶变换并计算获取语谱图,将语谱图输入S-PCNN模型并通过转化获得语音信号的熵值
Figure 884253DEST_PATH_IMAGE002
音视频特征融合模块:用于将获取的所述人脸熵值
Figure 431909DEST_PATH_IMAGE001
和所述语音熵值
Figure 523362DEST_PATH_IMAGE002
进行融合处理,采用PCNN模型进行融合,融合的特征式为:
Figure 498271DEST_PATH_IMAGE003
=
Figure 557231DEST_PATH_IMAGE004
安全存储模块:用于将融合熵值
Figure 908578DEST_PATH_IMAGE003
存入TCM芯片进行保护,同时,MCU绑定账户密码及该熵值;
图像语音录入模块:用于使用者录入人脸图像及语音信号,并获得新融合熵值
Figure 854538DEST_PATH_IMAGE006
,MCU从TCM芯片中获取受保护的预存的融合熵值
Figure 265927DEST_PATH_IMAGE003
对比认证模块:用于采用欧式距离的方案对比
Figure 48070DEST_PATH_IMAGE006
Figure 937528DEST_PATH_IMAGE003
,对比成功后启动会议通信功能,若比对不成功,客户端将获取到的人脸图像及语音信号传输至会议发起端,会议发起端通过列表形式展示认证失败者照片及语音信号,会议发起者可决定客户端在认证不通过的情况下是否接入会议。
以下是本发明的具体实施例:
一、账户注册
用户首次获得会议装置后需要进行账户注册,除设置账户和密码外还需要进行人脸图像及语音信号注册并绑定账户和密码,其处理过程如图3所示。
(1)人脸采样
人脸采样使用会议装置自带摄像头,人脸图像经过光线补偿、灰度变换、直方图均衡化、归一化、几何校正、滤波、锐化处理后进入会议系统后台,会议系统后台采用一种S-PCNN模型对人脸图像和语音信号进行处理,该模型将标准的脉冲耦合神经网络模型中八个参数简化为
Figure 269153DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
、β 三个参数,在保证基本性能不变的情况下减少了计算量和计算时间,其模型为:
Figure 431537DEST_PATH_IMAGE007
=
Figure 825609DEST_PATH_IMAGE008
Figure 643393DEST_PATH_IMAGE009
=
Figure 439310DEST_PATH_IMAGE010
Figure 802290DEST_PATH_IMAGE011
=
Figure 542713DEST_PATH_IMAGE021
Figure 773974DEST_PATH_IMAGE013
=
Figure 798299DEST_PATH_IMAGE014
Figure 722393DEST_PATH_IMAGE015
=
Figure 215691DEST_PATH_IMAGE016
Figure 250643DEST_PATH_IMAGE017
=
Figure DEST_PATH_IMAGE022
Figure 99782DEST_PATH_IMAGE013
表示被激活神经元的数量,
Figure 319410DEST_PATH_IMAGE015
为系统的脉冲输出。
在人脸图像识别系统的处理中,首先进行非下采样的Contourlet变换,再将其各子带输入S-PCNN模型并生成一系列二值图像输出
Figure 175371DEST_PATH_IMAGE015
,将该二值二维图像序列转化成一维时间序列,该一维时间序列具有不变性和唯一性,作为目标识别或分类的特征向量,记作Y[n],Y[n]输入熵值处理子模块并得到熵值
Figure 14014DEST_PATH_IMAGE001
Figure 762001DEST_PATH_IMAGE001
=-
Figure 152531DEST_PATH_IMAGE023
-
Figure DEST_PATH_IMAGE024
其中,
Figure 964629DEST_PATH_IMAGE025
是Y[n]为1和0的概率。
(2)语音采样
语音采样使用会议装置自带麦克风,录入语音信号经过处理获得去噪后的离散采样信号X(n),对其进行离散傅里叶变化最终得到X(n,k),对X(n,k)进行变换获得语谱图P(n,k):
P(n,k)=
Figure DEST_PATH_IMAGE026
其中,n作为横坐标,k为纵坐标,将P(n,k)的值表示为灰度级所构成的二维图像就是语谱图,采用和人脸识别方案类似的步骤,将P(n,k)输入S-PCNN模型并进行转化以获得语音信号的熵值
Figure 951171DEST_PATH_IMAGE002
(3)算法融合
将获取的人脸熵值
Figure 555328DEST_PATH_IMAGE001
和语音熵值
Figure 992125DEST_PATH_IMAGE002
进行融合处理,针对视频信号和声音信号关联性不强的问题,采用PCNN模型进行融合,融合的特征式为:
Figure 931000DEST_PATH_IMAGE003
=
Figure 845866DEST_PATH_IMAGE004
得到融合熵值
Figure 570109DEST_PATH_IMAGE003
后存入TCM芯片进行保护。
二、身份识别
在实际使用时,该会议装置可作为发起端或客户端使用,当作为会议发起端时具有最高权限。
若会议装置作为会议客户端使用,会议发起端向该客户端发送会议邀请,客户端使用者启动会议装置后进行人脸及语音采样,人脸及语音处理过程和身份注册过程相同,获得新融合熵值
Figure 177808DEST_PATH_IMAGE027
,MCU从TCM芯片中获取受保护的预存的融合熵值
Figure 105444DEST_PATH_IMAGE003
,MCU采用1-NN分类器,距离度量采用欧式距离的方案对比
Figure 824001DEST_PATH_IMAGE027
Figure 402750DEST_PATH_IMAGE003
,若比对成功,客户端成功开启会议模式并向发起端反馈合法接入,并上传用户的人脸图像及语音信号;若比对不成功,客户端无法接入会议,并向发起端反馈非法接入,同时将获取到的人脸图像及语音信号传输至会议发起端;
若会议装置作为会议发起端使用,通过人脸及语音识别认证后可使用会议装置并可向客户端发送会议邀请,会议发起端可通过列表形式展示会议客户端合法与非法接入者,同时具有裁决客户端在认证不通过的情况下是否接入会议系统的权限。
三、账户删除
账户删除步骤如图4所示,人脸及语音认证成功后进入会议装置系统,在操作界面中的账户设置中进行删除,删除时需要输入该账户对应的密码,同时在10s内再次录入人脸信号和语音信号,比对成功后方可完成账户删除。若密码输入错误,或者人脸及语音录入错误,或者录入时间超时均无法完成账户删除操作。
本发明实施例,硬件上可直接借用会议装置的摄像头、麦克风和会议系统的后台;在用户注册阶段,微控制单元(Microcontroller Unit,MCU)将处理后的人脸及语音信号输入基于简化脉冲耦合神经网络(Simplify Pulse Coupled Neural Network,S-PCNN)的模型进行处理,获取处理结果后进行熵值计算及熵值融合,并将融合熵值存入可信密码模块(Trusted Cryptography Module,TCM)进行保存;会议接入时,MCU通过相同方式获取接入者的融合熵值,再从TCM芯片中获取标准熵值,通过1-近邻分类器(1-Nearest Neighbor,1-NN),距离度量采用欧式距离的方案对比双方熵值以判断是否认证成功。会议系统的硬件组成如图2所示,主要由摄像头,麦克风和系统后台组成,系统后台通过微控制单元MCU进行身份注册、身份识别及算法处理,MCU可将处理后的融合熵值存入系统自带的TCM芯片进行保护,本系统无需额外的硬件集成,通过会议设备自带的基本硬件即可完成开发。
进行用户注册时,首先录入用户名及密码,然后使用会议装置自带摄像头进行人脸采样,人脸图像经过光线补偿、灰度变换、直方图均衡化、归一化、几何校正、滤波、锐化处理后进入系统后台,MCU采用一种S-PCNN模型对人脸图像进行处理,将处理完成的数据输入熵值处理模块并获取人脸熵值
Figure 181350DEST_PATH_IMAGE001
。完成人脸采样后使用麦克风进行语音采样,录入信号经过处理获得去噪后的离散采样信号X(n),对其进行离散傅里叶变化并计算获取语谱图,将语谱图输入S-PCNN模型并进行转化以获得语音信号的熵值
Figure 97747DEST_PATH_IMAGE002
,MCU调用PCNN模型对人脸熵值
Figure 619995DEST_PATH_IMAGE001
和语音信号熵值
Figure 53250DEST_PATH_IMAGE002
进行融合以获取融合熵值
Figure 2752DEST_PATH_IMAGE003
,MCU将该融合值存入TCM芯片进行保护。最后,MCU将用户注册的用户名及密码绑定融合值
Figure 639401DEST_PATH_IMAGE003
在实际使用时,会议发起端具有最高权限,该会议装置可作为发起端或客户端使用。若会议装置作为会议客户端使用,会议发起端向该客户端发送会议邀请,客户端使用者启动会议装置后进行人脸及语音采样,人脸及语音处理过程和身份注册过程相同,获得融合熵值
Figure 965340DEST_PATH_IMAGE027
,MCU从TCM芯片中获取受保护的预存熵值
Figure 253102DEST_PATH_IMAGE003
,MCU采用1-NN分类器,距离度量采用欧式距离的方案对比
Figure 373504DEST_PATH_IMAGE027
Figure 261564DEST_PATH_IMAGE003
,若比对成功,客户端成功开启会议模式并向发起端反馈合法接入,并上传用户照片及语音信号;若比对不成功,客户端无法接入会议,并向发起端反馈非法接入,同时将获取到的人脸图像及语音信号传输至会议发起端。若设备作为会议发起端使用,通过人脸及语音识别认证后可使用会议装置并可向客户端发送会议邀请,会议发起端可通过列表形式展示会议客户端合法与非法接入者,同时具有裁决客户端在认证不通过的情况下是否接入会议系统的权限。
进行用户删除时,人脸及语音认证成功后进入会议装置系统,在操作界面中的账户设置中进行删除,删除时需要输入该账户对应的密码,同时在10s内再次录入人脸信号和语音信号,比对成功后方可完成账户删除。
与现有技术相比,本发明的有益效果是:
本发明以音频及视频特征融合为基础的多模态识别系统可直接使用会议装置中的录像设备及音频采样设备,无需额外集成其他硬件,方案实现成本较低;本发明方案融合单个体的多种生理特点,相较于单模态生物识别技术具有更高的可行性和安全性,代表了未来生物特征识别技术的发展趋势;采用S-PCNN模型实现人脸及语音特征值的提取,在保留传统PCNN模型良好鲁棒性的基础上减少了计算量和计算时间,符合会议场景实时性的要求;通过PCNN模型对人脸特征熵值及语音特征熵值进行有效融合,大幅提高该系统的可靠性;融合熵值可存入会议装置的TCM芯片中以保证其安全性。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、同替换、改进,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于音频及视频特征融合的会议系统接入方法,其特征在于,包括以下步骤:
S1、会议装置的摄像头采集人脸图像,MCU对采集到的所述人脸图像进行非下采样的Contourlet变换,将所述Contourlet变换的各子带输入S-PCNN模型对所述人脸图像进行处理,处理完成的数据进行计算得到人脸熵值
Figure DEST_PATH_IMAGE001
S2、会议装置的麦克风进行语音采样,录入语音信号经过处理获得去噪后的离散采样信号X(n),对X(n)进行离散傅里叶变换并计算获取语谱图,将语谱图输入S-PCNN模型并通过转化获得语音信号的熵值
Figure 356416DEST_PATH_IMAGE002
S3、将获取的所述人脸熵值
Figure 100381DEST_PATH_IMAGE001
和所述语音熵值
Figure 727540DEST_PATH_IMAGE002
进行融合处理,采用PCNN模型进行融合,融合的特征式为:
Figure DEST_PATH_IMAGE003
S4、将融合熵值
Figure 265969DEST_PATH_IMAGE004
存入TCM芯片进行保护,同时,MCU绑定账户密码及该熵值;
S5、使用者录入人脸图像及语音信号,并获得新融合熵值
Figure DEST_PATH_IMAGE005
,MCU从TCM芯片中获取受保护的预存的融合熵值
Figure 463732DEST_PATH_IMAGE004
S6、采用欧式距离的方案对比
Figure 11388DEST_PATH_IMAGE006
Figure 495984DEST_PATH_IMAGE004
,对比成功后启动会议设备的通信功能,若比对不成功,会议客户端将获取到的人脸图像及语音信号传输至会议发起端,会议发起端通过列表形式展示认证失败者照片及语音信号,并判断在认证不通过的情况下是否接入会议。
2.根据权利要求1所述的会议系统接入方法,其特征在于,所述S-PCNN模型的表达式为:
Figure DEST_PATH_IMAGE007
Figure 470893DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
Figure 624794DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
Figure 959829DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
表示被激活神经元的数量,
Figure 515575DEST_PATH_IMAGE014
为系统的脉冲输出。
3.根据权利要求1所述的会议系统接入方法,其特征在于,所述会议装置作为会议发起端或会议客户端使用的方法包括:
a、若会议装置作为会议客户端使用,会议发起端向会议客户端发送会议邀请,会议客户端的使用者启动会议装置后进行人脸图像及语音信号采样,若比对成功,会议客户端成功开启会议模式并向会议发起端反馈合法接入,并上传人脸图像及语音信号;若比对不成功,会议客户端无法接入会议,并向会议发起端反馈非法接入,同时将获取到的人脸图像及语音信号传输至会议发起端;
b、若会议装置作为会议发起端使用,通过人脸图像及语音信号识别认证后使用会议装置并向会议客户端发送会议邀请,会议发起端通过列表形式展示会议客户端合法与非法接入者,同时具有裁决会议客户端在认证不通过的情况下是否接入会议系统的权限。
4.根据权利要求1所述的会议系统接入方法,其特征在于,当所述会议系统具有账户删除的功能,所述账户删除的方法包括:
(1)、人脸图像及语音信号认证成功后进入会议系统,在所述会议系统的操作界面中的账户设置中进行删除,删除时需要输入所述账户对应的密码,同时在10s内再次录入人脸图像和语音信号,比对成功后完成账户删除;
(2)、若所述账户对应的密码输入错误,或者人脸图像以及语音信号录入错误,和/或录入时间超时均无法完成账户删除操作。
5.一种基于音频及视频特征融合的会议系统接入系统,使用权利要求1-4任一项所述的会议系统接入方法,其特征在于,包括:
图像处理模块:用于会议装置的摄像头采集人脸图像,MCU对处理后的所述人脸图像进行非下采样的Contourlet变换,将Contourlet变换的各子带输入S-PCNN模型对人脸图像进行处理,处理完成的数据进行计算得到人脸熵值
Figure 926965DEST_PATH_IMAGE001
语音采样模块:用于会议装置的麦克风进行语音采样,录入语音信号经过处理获得去噪后的离散采样信号X(n),对X(n)进行离散傅里叶变换并计算获取语谱图,将语谱图输入S-PCNN模型并通过转化获得语音信号的熵值
Figure 99320DEST_PATH_IMAGE002
音视频特征融合模块:用于将获取的所述人脸熵值
Figure 238046DEST_PATH_IMAGE001
和所述语音熵值
Figure 445037DEST_PATH_IMAGE002
进行融合处理,采用PCNN模型进行融合,融合的特征式为:
Figure 27328DEST_PATH_IMAGE003
安全存储模块:用于将融合熵值
Figure 686979DEST_PATH_IMAGE004
存入TCM芯片进行保护,同时,MCU绑定账户密码及该熵值;
图像语音录入模块:用于使用者录入人脸图像及语音信号,并获得新融合熵值
Figure 380129DEST_PATH_IMAGE006
,MCU从TCM芯片中获取受保护的预存的融合熵值
Figure 425314DEST_PATH_IMAGE004
对比认证模块:用于采用欧式距离的方案对比
Figure 178506DEST_PATH_IMAGE006
Figure 59875DEST_PATH_IMAGE004
,对比成功后启动会议通信功能,若比对不成功,客户端将获取到的人脸图像及语音信号传输至会议发起端,会议发起端通过列表形式展示认证失败者照片及语音信号,会议发起者决定客户端在认证不通过的情况下是否接入会议。
CN202110369842.4A 2021-04-07 2021-04-07 一种基于音频及视频特征融合的会议系统接入方法及系统 Active CN112769872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110369842.4A CN112769872B (zh) 2021-04-07 2021-04-07 一种基于音频及视频特征融合的会议系统接入方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110369842.4A CN112769872B (zh) 2021-04-07 2021-04-07 一种基于音频及视频特征融合的会议系统接入方法及系统

Publications (2)

Publication Number Publication Date
CN112769872A CN112769872A (zh) 2021-05-07
CN112769872B true CN112769872B (zh) 2021-06-22

Family

ID=75691176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110369842.4A Active CN112769872B (zh) 2021-04-07 2021-04-07 一种基于音频及视频特征融合的会议系统接入方法及系统

Country Status (1)

Country Link
CN (1) CN112769872B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548442B (zh) * 2022-02-25 2022-10-21 万表名匠(广州)科技有限公司 一种基于互联网技术的腕表维修管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075868A (zh) * 2006-05-19 2007-11-21 华为技术有限公司 一种远程身份认证的系统、终端、服务器和方法
CN102045162A (zh) * 2009-10-16 2011-05-04 电子科技大学 一种三模态生物特征持证人身份鉴别系统及其控制方法
EP3699816A1 (en) * 2017-08-31 2020-08-26 FotoNation Limited A peripheral processing device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075868A (zh) * 2006-05-19 2007-11-21 华为技术有限公司 一种远程身份认证的系统、终端、服务器和方法
CN102045162A (zh) * 2009-10-16 2011-05-04 电子科技大学 一种三模态生物特征持证人身份鉴别系统及其控制方法
EP3699816A1 (en) * 2017-08-31 2020-08-26 FotoNation Limited A peripheral processing device

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于非采样Contourlet变换的图像融合;杨粤涛;《中国博士学位论文全文数据库》;20120930(第9期);全文 *
脉冲耦合神经网络在人脸图像识别中的应用研究;常莎;《中国优秀硕士学位论文全文数据库》;20150930(第9期);全文 *

Also Published As

Publication number Publication date
CN112769872A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
TWI706268B (zh) 身份認證方法和裝置
KR101997371B1 (ko) 신원 인증 방법 및 장치, 단말기 및 서버
US6810480B1 (en) Verification of identity and continued presence of computer users
US20170262472A1 (en) Systems and methods for recognition of faces e.g. from mobile-device-generated images of faces
JP4760049B2 (ja) 顔認証装置、その顔認証方法、その顔認証装置を組み込んだ電子機器およびその顔認証プログラムを記録した記録媒体
US11503021B2 (en) Mobile enrollment using a known biometric
KR101724971B1 (ko) 광각 카메라를 이용한 얼굴 인식 시스템 및 그를 이용한 얼굴 인식 방법
WO2017173640A1 (zh) 一种基于多模式生物识别信息的个人识别方法和装置
WO2022268183A1 (zh) 一种基于视频的随机手势认证方法及系统
CN114511933A (zh) 一种多模态生物特征融合身份识别方法
CN112491844A (zh) 一种基于可信执行环境的声纹及面部识别验证系统及方法
CN111611437A (zh) 一种防止人脸声纹验证替换攻击的方法及装置
CN112769872B (zh) 一种基于音频及视频特征融合的会议系统接入方法及系统
US20150120543A1 (en) EyeWatch ATM and Wire Transfer Fraud Prevention System
CN117853103A (zh) 基于智能手环的支付系统激活方法
KR101334744B1 (ko) 무인대출 처리방법
US20150100493A1 (en) EyeWatch credit card fraud prevention system
CN110930154A (zh) 身份验证方法和装置
Shaker et al. Identification Based on Iris Detection Technique.
Patil A study of biometric, multimodal biometric systems: Fusion techniques, applications and challenges
Parihar et al. Palm vein recognition system for human authentication: A review
Byahatti et al. A fusion model for multimodal biometric system
CN109657442A (zh) 一种计算机用户身份识别系统
EP3767917B1 (fr) Système d'identification d'un individu
Melin et al. Human Recognition using Face, Fingerprint and Voice

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant