CN112735014A

CN112735014A - 基于人脸识别的可视化对讲方法和系统

Info

Publication number: CN112735014A
Application number: CN202011559486.4A
Authority: CN
Inventors: 兰雨晴; 余丹; 杨文昭; 王丹星
Original assignee: Zhongbiao Huian Information Technology Co Ltd
Current assignee: Zhongbiao Huian Information Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-30

Abstract

本发明提供了基于人脸识别的可视化对讲方法和系统，其通过对目标对象的脸部图像进行分析处理而得到该目标对象的身份信息，并根据该身份信息确定与该目标对象进行可视化通话的模式，同时在可视化通话的过程中采集来自目标对象的语音信号，最后对该语音信号进行分析处理来为目标对象提供相应的反馈响应操作，这样能够提高与目标对象进行可视化对讲的效率和可靠性，以及改善改善与目标对象进行可视化对讲互动的自动化和智能化程度。

Description

基于人脸识别的可视化对讲方法和系统

技术领域

本发明涉及人脸识别的技术领域，特别涉及基于人脸识别的可视化对讲方法和系统。

背景技术

目前，住宅小区或者办公大厦等场所都安装有视频监控/通话设备，通过该视频监控/通话设备对该场所进行访客视频监控和通话，以此实现与访客进行可视化对讲和对访客提供适应性的相应反馈响应，从而对访客进行放行准入控制。但是，这种方式只能在同一时间对单一访客进行可视化对讲，并且其不会对访客的身份信息进行认证，这不仅降低了与访客进行可视化对讲的效率，并且还需要增加额外的人力物力来与访客进行可视化对讲互动，这不利于提高与访客进行可视化对讲互动的自动化和智能化程度，同时还大大地降低了可视化对讲互动的可靠性和效率。

发明内容

针对现有技术存在的缺陷，本发明提供基于人脸识别的可视化对讲方法和系统，其通过对目标对象的脸部区域进行拍摄，以此获取关于该目标对象的脸部图像，并对该脸部图像进行分析处理，以此确定该目标对象的身份信息，并根据该身份信息，确定与该目标对象进行可视化通话的模式，在该可视化通话的过程中采集来自该目标对象的语音信号，并对该语音信号进行预处理，再对预处理后的该语音信号进行分析处理，并根据该分析处理的结果，进行相应的反馈响应操作；可见，该基于人脸识别的可视化对讲方法和系统通过对目标对象的脸部图像进行分析处理而得到该目标对象的身份信息，并根据该身份信息确定与该目标对象进行可视化通话的模式，同时在可视化通话的过程中采集来自目标对象的语音信号，最后对该语音信号进行分析处理来为目标对象提供相应的反馈响应操作，这样能够提高与目标对象进行可视化对讲的效率和可靠性，以及改善改善与目标对象进行可视化对讲互动的自动化和智能化程度。

本发明提供基于人脸识别的可视化对讲方法，其特征在于，其包括如下步骤：

步骤S1，对目标对象的脸部区域进行拍摄，以此获取关于所述目标对象的脸部图像，并对所述脸部图像进行分析处理，以此确定所述目标对象的身份信息；

步骤S2，根据所述身份信息，确定与所述目标对象进行可视化通话的模式，在所述可视化通话的过程中采集来自所述目标对象的语音信号，并对所述语音信号进行预处理；

步骤S3，对预处理后的所述语音信号进行分析处理，并根据所述分析处理的结果，进行相应的反馈响应操作；

进一步，在所述步骤S1中，对目标对象的脸部区域进行拍摄，以此获取关于所述目标对象的脸部图像，并对所述脸部图像进行分析处理，以此确定所述目标对象的身份信息具体包括：

步骤S101，对所述目标对象的脸部区域进行多角度方位拍摄，以此获取关于所述目标对象的上侧脸部区域图像、下侧脸部区域图像、左侧脸部区域图像和右侧脸部区域图像，并对所述上侧脸部区域图像、所述下侧脸部区域图像、所述左侧脸部区域图像和所述右侧脸部区域图像进行图像背景噪声滤波处理和拼接处理，从而获得关于所述目标对象的三维脸部图像；

步骤S102，从所述三维脸部图像中提取得到相应的脸部五官轮廓信息，并将所述脸部五官轮廓信息与预设人脸五官轮廓数据库进行比对，以此确定所述目标对象的身份信息；

进一步，在所述步骤S2中，根据所述身份信息，确定与所述目标对象进行可视化通话的模式，在所述可视化通话的过程中采集来自所述目标对象的语音信号，并对所述语音信号进行预处理具体包括：

步骤S201，根据所述身份信息，确定所述目标对象是否为预设合法可视化通话对象，若是，则向所述目标对象提供触控交互模式的可视化通话服务，若否，则终止与所述目标对象进行任何信息交互；

步骤S202，在提供所述触摸交互模式的可视化通话服务过程中，采集来自所述目标对象的语音信号；

步骤S203，对所述语音信号进行卡尔曼滤波处理，以此去除所述语音信号中的背景噪声成分；

进一步，在所述步骤S3中，对预处理后的所述语音信号进行分析处理，并根据所述分析处理的结果，进行相应的反馈响应操作具体包括：

步骤S301，根据所述目标对象的声纹特征，从预处理后的所述语音信号，提取只关于所述目标对象的语音信号成分；

步骤S302，对只关于所述目标对象的语音信号成分进行语义识别处理，以此得到相应的语义信息；

步骤S303，根据所述语义信息，从预设控制命令语义数据库中确定与所述语义信息相匹配的控制命令，并根据所述控制命令，向所述目标对象提供相应的应答语音和/或门禁开启权限。

进一步，在所述步骤S301中，根据所述目标对象的声纹特征，从预处理后的所述语音信号，提取只关于所述目标对象的语音信号成分具体包括：

利用下面公式(1)，预处理后的所述语音信号以及所述目标对象的声纹特征，提取只关于所述目标对象的语音信号，

S_i,M＝S_i×u[S_i-min(S)]×u[max(S)-S_i] (1)

在上述公式(1)中，S_i,M表示只关于所述目标对象的语音信号中第i帧信号幅值，S_i表示预处理后的所述语音信号中第i帧信号幅值，min(S)表示所述目标对象的声纹特征中最小的信号幅值，max(S)表示所述目标对象的声纹特征中最大的信号幅值，u[]表示阶跃函数、当括号内的值大于等于0时阶跃函数的函数值为1，当括号内的值小于0时阶跃函数的函数值为0；

将所述预处理后的所述语音信号中的每一帧信号均利用上述公式(1)进行处理，从而得到只关于所述目标对象的语音信号，并且只关于所述目标对象的语音信号的第a帧信号幅值记为S_a,M；

以及，

在所述步骤S302中，对只关于所述目标对象的语音信号成分进行语义识别处理，以此得到相应的语义信息具体包括：

第一、利用下面公式(2)，将所述目标对象的语音信号进行语义分割，得到所述目标对象的语音信号每一帧的归类情况，

在上述公式(2)中，I_i表示所述只关于所述目标对象的语音信号中第i帧信号属于分割后的语音信号中的第I_i类语义信号，S_a,M表示只关于所述目标对象的语音信号中第a帧信号幅值，S_a-1,M表示只关于所述目标对象的语音信号中第a-1帧信号幅值，δ()表示单位冲激函数、当括号内的值等于0时单位冲激函数的函数值为1，当括号内的值不等于0时单位冲激函数的函数值为0；

将所述目标对象按照上述公式(2)进行语义分割，并将分割后的每一帧信号进行归类并将分割后的语音信号记做

表示分割后的目标对象的语音信号中第I类语义信号中的第j帧信号幅值；

第二、根据分割后的目标对象的语音信号每一类信号的帧频个数与所述语义识别库中的语义语音信号的帧频个数进行比对，将所述语义识别库中的语义语音信号的帧频个数与分割后的目标对象的语音信号每一类信号的帧频个数相等的语义语音信号进行提取并记做

表示所述语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的第K个语义语音信号的第j帧信号幅值；

再利用下面公式(3)，根据所述目标对象的语音信号每一帧的归类情况，将分割后的目标对象的语音信号与所述语义识别库中的语义语音信号进行比对，得到所述分割后的目标对象的语音信号所对应的语义信息

在上述公式(3)中，K_I表示分割后的目标对象的语音信号中第I类语义信号属于所述语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的第K个语义语音信号所对应的语义信息，

表示所述语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的第K个语义语音信号的第j帧信号幅值，

表示分割后的目标对象的语音信号中第I类语义信号中的第j帧信号幅值，m表示所述语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的语义语音信号的个数，n表示分割后的目标对象的语音信号中第I类语义信号的帧频个数；

将所述目标对象的语音信号按照类别从小到大的顺序进行步骤A3的操作，直至每一类的所述目标对象的语音信号都得到相应的语义信息，然后按照类别从小到大的顺序对相应的语义信息进行拼接，最终得到只关于所述目标对象的语音信号的语义信息。

本发明还提供基于人脸识别的可视化对讲系统，其特征在于，其包括目标对象拍摄模块、脸部图像分析处理模块、可视化通话模式调整模块、语音信号采集与预处理模块和反馈响应操作模块；其中，

所述目标对象拍摄模块用于对目标对象的脸部区域进行拍摄，以此获取关于所述目标对象的脸部图像；

所述脸部图像分析处理模块用于对所述脸部图像进行分析处理，以此确定所述目标对象的身份信息；

所述可视化通话模式调整模块用于根据所述身份信息，确定与所述目标对象进行可视化通话的模式；

所述语音信号采集与预处理模块用于在所述可视化通话的过程中采集来自所述目标对象的语音信号，并对所述语音信号进行预处理；

所述反馈响应操作模块用于对预处理后的所述语音信号进行分析处理，并根据所述分析处理的结果，进行相应的反馈响应操作；

进一步，所述目标对象拍摄模块对目标对象的脸部区域进行拍摄，以此获取关于所述目标对象的脸部图像具体包括：

对所述目标对象的脸部区域进行多角度方位拍摄，以此获取关于所述目标对象的上侧脸部区域图像、下侧脸部区域图像、左侧脸部区域图像和右侧脸部区域图像；

以及，

所述脸部图像分析处理模块对所述脸部图像进行分析处理，以此确定所述目标对象的身份信息具体包括：

对所述上侧脸部区域图像、所述下侧脸部区域图像、所述左侧脸部区域图像和所述右侧脸部区域图像进行图像背景噪声滤波处理和拼接处理，从而获得关于所述目标对象的三维脸部图像；

再从所述三维脸部图像中提取得到相应的脸部五官轮廓信息，并将所述脸部五官轮廓信息与预设人脸五官轮廓数据库进行比对，以此确定所述目标对象的身份信息；

进一步，所述可视化通话模式调整模块根据所述身份信息，确定与所述目标对象进行可视化通话的模式具体包括：

根据所述身份信息，确定所述目标对象是否为预设合法可视化通话对象，若是，则向所述目标对象提供触控交互模式的可视化通话服务，若否，则终止与所述目标对象进行任何信息交互；

以及，

所述语音信号采集与预处理模块在所述可视化通话的过程中采集来自所述目标对象的语音信号，并对所述语音信号进行预处理具体包括：

在提供所述触摸交互模式的可视化通话服务过程中，采集来自所述目标对象的语音信号；

并对所述语音信号进行卡尔曼滤波处理，以此去除所述语音信号中的背景噪声成分；

进一步，所述反馈响应操作模块对预处理后的所述语音信号进行分析处理，并根据所述分析处理的结果，进行相应的反馈响应操作具体包括：

根据所述目标对象的声纹特征，从预处理后的所述语音信号，提取只关于所述目标对象的语音信号成分；

再对只关于所述目标对象的语音信号成分进行语义识别处理，以此得到相应的语义信息；

最后根据所述语义信息，从预设控制命令语义数据库中确定与所述语义信息相匹配的控制命令，并根据所述控制命令，向所述目标对象提供相应的应答语音和/或门禁开启权限。

相比于现有技术，该基于人脸识别的可视化对讲方法和系统通过对目标对象的脸部区域进行拍摄，以此获取关于该目标对象的脸部图像，并对该脸部图像进行分析处理，以此确定该目标对象的身份信息，并根据该身份信息，确定与该目标对象进行可视化通话的模式，在该可视化通话的过程中采集来自该目标对象的语音信号，并对该语音信号进行预处理，再对预处理后的该语音信号进行分析处理，并根据该分析处理的结果，进行相应的反馈响应操作；可见，该基于人脸识别的可视化对讲方法和系统通过对目标对象的脸部图像进行分析处理而得到该目标对象的身份信息，并根据该身份信息确定与该目标对象进行可视化通话的模式，同时在可视化通话的过程中采集来自目标对象的语音信号，最后对该语音信号进行分析处理来为目标对象提供相应的反馈响应操作，这样能够提高与目标对象进行可视化对讲的效率和可靠性，以及改善改善与目标对象进行可视化对讲互动的自动化和智能化程度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于人脸识别的可视化对讲方法的流程示意图。

图2为本发明提供的基于人脸识别的可视化对讲系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，为本发明实施例提供的基于人脸识别的可视化对讲方法的流程示意图。该基于人脸识别的可视化对讲方法包括如下步骤：

步骤S1，对目标对象的脸部区域进行拍摄，以此获取关于该目标对象的脸部图像，并对该脸部图像进行分析处理，以此确定该目标对象的身份信息；

步骤S2，根据该身份信息，确定与该目标对象进行可视化通话的模式，在该可视化通话的过程中采集来自该目标对象的语音信号，并对该语音信号进行预处理；

步骤S3，对预处理后的该语音信号进行分析处理，并根据该分析处理的结果，进行相应的反馈响应操作。

上述技术方案的有益效果为：该基于人脸识别的可视化对讲方法通过对目标对象的脸部图像进行分析处理而得到该目标对象的身份信息，并根据该身份信息确定与该目标对象进行可视化通话的模式，同时在可视化通话的过程中采集来自目标对象的语音信号，最后对该语音信号进行分析处理来为目标对象提供相应的反馈响应操作，这样能够提高与目标对象进行可视化对讲的效率和可靠性，以及改善改善与目标对象进行可视化对讲互动的自动化和智能化程度。

优选地，在该步骤S1中，对目标对象的脸部区域进行拍摄，以此获取关于该目标对象的脸部图像，并对该脸部图像进行分析处理，以此确定该目标对象的身份信息具体包括：

步骤S101，对该目标对象的脸部区域进行多角度方位拍摄，以此获取关于该目标对象的上侧脸部区域图像、下侧脸部区域图像、左侧脸部区域图像和右侧脸部区域图像，并对该上侧脸部区域图像、该下侧脸部区域图像、该左侧脸部区域图像和该右侧脸部区域图像进行图像背景噪声滤波处理和拼接处理，从而获得关于该目标对象的三维脸部图像；

步骤S102，从该三维脸部图像中提取得到相应的脸部五官轮廓信息，并将该脸部五官轮廓信息与预设人脸五官轮廓数据库进行比对，以此确定该目标对象的身份信息。

上述技术方案的有益效果为：通过对该目标对象的脸部区域进行多角度方位拍摄，能够对目标对象的脸部区域进行全面覆盖拍摄，以此最大限度地获得与该目标对象的脸部轮廓状态相匹配的三维脸部图像，这样确保后续提取得到相应的脸部五官轮廓信息的可靠性，从而提高该目标对象的身份信息的准确性。

优选地，在该步骤S2中，根据该身份信息，确定与该目标对象进行可视化通话的模式，在该可视化通话的过程中采集来自该目标对象的语音信号，并对该语音信号进行预处理具体包括：

步骤S201，根据该身份信息，确定该目标对象是否为预设合法可视化通话对象，若是，则向该目标对象提供触控交互模式的可视化通话服务，若否，则终止与该目标对象进行任何信息交互；

步骤S202，在提供该触摸交互模式的可视化通话服务过程中，采集来自该目标对象的语音信号；

步骤S203，对该语音信号进行卡尔曼滤波处理，以此去除该语音信号中的背景噪声成分。

上述技术方案的有益效果为：通过根据该身份信息确定该目标对象是否为预设合法可视化通话对象，只有在该目标对象为预设合法可视化通话对象的情况下提供触控交互模式的可视化通话服务，从而提高对该目标对象进行可视化对讲的灵活性和便捷性；此外，通过在提供该触摸交互模式的可视化通话服务过程中，采集来自该目标对象的语音信号，能够最大限度保证该语音信号采集的准确性。

优选地，在该步骤S3中，对预处理后的该语音信号进行分析处理，并根据该分析处理的结果，进行相应的反馈响应操作具体包括：

步骤S301，根据该目标对象的声纹特征，从预处理后的该语音信号，提取只关于该目标对象的语音信号成分；

步骤S302，对只关于该目标对象的语音信号成分进行语义识别处理，以此得到相应的语义信息；

步骤S303，根据该语义信息，从预设控制命令语义数据库中确定与该语义信息相匹配的控制命令，并根据该控制命令，向该目标对象提供相应的应答语音和/或门禁开启权限。

上述技术方案的有益效果为：通过根据该目标对象的声纹特征，从预处理后的该语音信号，提取只关于该目标对象的语音信号成分，能够确保对该目标对象的语音语义进行高效的语义识别处理，从而准确地得到该目标对象的真实语义含义，以便于后续有针对性地提供相应的应答语音和/或门禁开启权限。

优选地，在该步骤S301中，根据该目标对象的声纹特征，从预处理后的该语音信号，提取只关于该目标对象的语音信号成分具体包括：

利用下面公式(1)，预处理后的该语音信号以及该目标对象的声纹特征，提取只关于该目标对象的语音信号，

S_i,M＝S_i×u[S_i-min(S)]×u[max(S)-S_i] (1)

在上述公式(1)中，S_i,M表示只关于该目标对象的语音信号中第i帧信号幅值，S_i表示预处理后的该语音信号中第i帧信号幅值，min(S)表示该目标对象的声纹特征中最小的信号幅值，max(S)表示该目标对象的声纹特征中最大的信号幅值，u[]表示阶跃函数、当括号内的值大于等于0时阶跃函数的函数值为1，当括号内的值小于0时阶跃函数的函数值为0；

将该预处理后的该语音信号中的每一帧信号均利用上述公式(1)进行处理，从而得到只关于该目标对象的语音信号，并且只关于该目标对象的语音信号的第a帧信号幅值记为S_a,M；

以及，

在该步骤S302中，对只关于该目标对象的语音信号成分进行语义识别处理，以此得到相应的语义信息具体包括：

第一、利用下面公式(2)，将该目标对象的语音信号进行语义分割，得到该目标对象的语音信号每一帧的归类情况，

在上述公式(2)中，I_i表示该只关于该目标对象的语音信号中第i帧信号属于分割后的语音信号中的第I_i类语义信号，S_a,M表示只关于该目标对象的语音信号中第a帧信号幅值，S_a-1,M表示只关于该目标对象的语音信号中第a-1帧信号幅值，δ()表示单位冲激函数、当括号内的值等于0时单位冲激函数的函数值为1，当括号内的值不等于0时单位冲激函数的函数值为0；

将该目标对象按照上述公式(2)进行语义分割，并将分割后的每一帧信号进行归类并将分割后的语音信号记做

第二、根据分割后的目标对象的语音信号每一类信号的帧频个数与该语义识别库中的语义语音信号的帧频个数进行比对，将该语义识别库中的语义语音信号的帧频个数与分割后的目标对象的语音信号每一类信号的帧频个数相等的语义语音信号进行提取并记做

表示该语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的第K个语义语音信号的第j帧信号幅值；

再利用下面公式(3)，根据该目标对象的语音信号每一帧的归类情况，将分割后的目标对象的语音信号与该语义识别库中的语义语音信号进行比对，得到该分割后的目标对象的语音信号所对应的语义信息

在上述公式(3)中，K_I表示分割后的目标对象的语音信号中第I类语义信号属于该语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的第K个语义语音信号所对应的语义信息，

表示该语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的第K个语义语音信号的第j帧信号幅值，

表示分割后的目标对象的语音信号中第I类语义信号中的第j帧信号幅值，m表示该语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的语义语音信号的个数，n表示分割后的目标对象的语音信号中第I类语义信号的帧频个数；

将该目标对象的语音信号按照类别从小到大的顺序进行步骤A3的操作，直至每一类的该目标对象的语音信号都得到相应的语义信息，然后按照类别从小到大的顺序对相应的语义信息进行拼接，最终得到只关于该目标对象的语音信号的语义信息。

上述技术方案的有益效果为：利用公式(1)根据预处理后的语音信号以及目标对象的声纹特征，提取只关于目标对象的语音信号，从而将目标对象的语音信号准确的剥离提取出来，保证了系统安全的可靠性；然后利用公式(2)将目标对象的语音信号进行语义分割，得到目标对象的语音信号每一帧的归类情况；从而将目标对象的语音信号分割成不同类别的语音信号，方便后续的语义识别；最后利用公式(3)根据目标对象的语音信号每一帧的归类情况，将分割后的目标对象的语音信号与语义识别库中的语义语音信号进行比对，得到分割后的目标对象的语音信号所对应的语义信息；上述过程通过分割对比得到语义信息的方式缩短了语义识别时间提高了系统的效率，并且增大了语义识别的准确性。

参阅图2，为本发明实施例提供的基于人脸识别的可视化对讲系统的结构示意图。该基于人脸识别的可视化对讲系统包括目标对象拍摄模块、脸部图像分析处理模块、可视化通话模式调整模块、语音信号采集与预处理模块和反馈响应操作模块；其中，

该目标对象拍摄模块用于对目标对象的脸部区域进行拍摄，以此获取关于该目标对象的脸部图像；

该脸部图像分析处理模块用于对该脸部图像进行分析处理，以此确定该目标对象的身份信息；

该可视化通话模式调整模块用于根据该身份信息，确定与该目标对象进行可视化通话的模式；

该语音信号采集与预处理模块用于在该可视化通话的过程中采集来自该目标对象的语音信号，并对该语音信号进行预处理；

该反馈响应操作模块用于对预处理后的该语音信号进行分析处理，并根据该分析处理的结果，进行相应的反馈响应操作。

上述技术方案的有益效果为：该基于人脸识别的可视化对讲系统通过对目标对象的脸部图像进行分析处理而得到该目标对象的身份信息，并根据该身份信息确定与该目标对象进行可视化通话的模式，同时在可视化通话的过程中采集来自目标对象的语音信号，最后对该语音信号进行分析处理来为目标对象提供相应的反馈响应操作，这样能够提高与目标对象进行可视化对讲的效率和可靠性，以及改善改善与目标对象进行可视化对讲互动的自动化和智能化程度。

优选地，该目标对象拍摄模块对目标对象的脸部区域进行拍摄，以此获取关于该目标对象的脸部图像具体包括：

对该目标对象的脸部区域进行多角度方位拍摄，以此获取关于该目标对象的上侧脸部区域图像、下侧脸部区域图像、左侧脸部区域图像和右侧脸部区域图像；

以及，

该脸部图像分析处理模块对该脸部图像进行分析处理，以此确定该目标对象的身份信息具体包括：

对该上侧脸部区域图像、该下侧脸部区域图像、该左侧脸部区域图像和该右侧脸部区域图像进行图像背景噪声滤波处理和拼接处理，从而获得关于该目标对象的三维脸部图像；

再从该三维脸部图像中提取得到相应的脸部五官轮廓信息，并将该脸部五官轮廓信息与预设人脸五官轮廓数据库进行比对，以此确定该目标对象的身份信息。

优选地，该可视化通话模式调整模块根据该身份信息，确定与该目标对象进行可视化通话的模式具体包括：

根据该身份信息，确定该目标对象是否为预设合法可视化通话对象，若是，则向该目标对象提供触控交互模式的可视化通话服务，若否，则终止与该目标对象进行任何信息交互；

以及，

该语音信号采集与预处理模块在该可视化通话的过程中采集来自该目标对象的语音信号，并对该语音信号进行预处理具体包括：

在提供该触摸交互模式的可视化通话服务过程中，采集来自该目标对象的语音信号；

并对该语音信号进行卡尔曼滤波处理，以此去除该语音信号中的背景噪声成分。

优选地，该反馈响应操作模块对预处理后的该语音信号进行分析处理，并根据该分析处理的结果，进行相应的反馈响应操作具体包括：

根据该目标对象的声纹特征，从预处理后的该语音信号，提取只关于该目标对象的语音信号成分；

再对只关于该目标对象的语音信号成分进行语义识别处理，以此得到相应的语义信息；

最后根据该语义信息，从预设控制命令语义数据库中确定与该语义信息相匹配的控制命令，并根据该控制命令，向该目标对象提供相应的应答语音和/或门禁开启权限。

从上述实施例的内容可知，该基于人脸识别的可视化对讲方法和系统通过对目标对象的脸部区域进行拍摄，以此获取关于该目标对象的脸部图像，并对该脸部图像进行分析处理，以此确定该目标对象的身份信息，并根据该身份信息，确定与该目标对象进行可视化通话的模式，在该可视化通话的过程中采集来自该目标对象的语音信号，并对该语音信号进行预处理，再对预处理后的该语音信号进行分析处理，并根据该分析处理的结果，进行相应的反馈响应操作；可见，该基于人脸识别的可视化对讲方法和系统通过对目标对象的脸部图像进行分析处理而得到该目标对象的身份信息，并根据该身份信息确定与该目标对象进行可视化通话的模式，同时在可视化通话的过程中采集来自目标对象的语音信号，最后对该语音信号进行分析处理来为目标对象提供相应的反馈响应操作，这样能够提高与目标对象进行可视化对讲的效率和可靠性，以及改善改善与目标对象进行可视化对讲互动的自动化和智能化程度。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于人脸识别的可视化对讲方法，其特征在于，其包括如下步骤：

步骤S3，对预处理后的所述语音信号进行分析处理，并根据所述分析处理的结果，进行相应的反馈响应操作。

2.如权利要求1所述的基于人脸识别的可视化对讲方法，其特征在于：在所述步骤S1中，对目标对象的脸部区域进行拍摄，以此获取关于所述目标对象的脸部图像，并对所述脸部图像进行分析处理，以此确定所述目标对象的身份信息具体包括：

步骤S102，从所述三维脸部图像中提取得到相应的脸部五官轮廓信息，并将所述脸部五官轮廓信息与预设人脸五官轮廓数据库进行比对，以此确定所述目标对象的身份信息。

3.如权利要求2所述的基于人脸识别的可视化对讲方法，其特征在于：在所述步骤S2中，根据所述身份信息，确定与所述目标对象进行可视化通话的模式，在所述可视化通话的过程中采集来自所述目标对象的语音信号，并对所述语音信号进行预处理具体包括：

步骤S203，对所述语音信号进行卡尔曼滤波处理，以此去除所述语音信号中的背景噪声成分。

4.如权利要求3所述的基于人脸识别的可视化对讲方法，其特征在于：在所述步骤S3中，对预处理后的所述语音信号进行分析处理，并根据所述分析处理的结果，进行相应的反馈响应操作具体包括：

5.如权利要求4所述的基于人脸识别的可视化对讲方法，其特征在于：在所述步骤S301中，根据所述目标对象的声纹特征，从预处理后的所述语音信号，提取只关于所述目标对象的语音信号成分具体包括：

S_i,M＝S_i×u[S_i-min(S)]×u[max(S)-S_i] (1)

以及，

6.基于人脸识别的可视化对讲系统，其特征在于，其包括目标对象拍摄模块、脸部图像分析处理模块、可视化通话模式调整模块、语音信号采集与预处理模块和反馈响应操作模块；其中，

所述反馈响应操作模块用于对预处理后的所述语音信号进行分析处理，并根据所述分析处理的结果，进行相应的反馈响应操作。

7.如权利要求6所述的基于人脸识别的可视化对讲系统，其特征在于：

所述目标对象拍摄模块对目标对象的脸部区域进行拍摄，以此获取关于所述目标对象的脸部图像具体包括：

以及，

再从所述三维脸部图像中提取得到相应的脸部五官轮廓信息，并将所述脸部五官轮廓信息与预设人脸五官轮廓数据库进行比对，以此确定所述目标对象的身份信息。

8.如权利要求7所述的基于人脸识别的可视化对讲系统，其特征在于：

所述可视化通话模式调整模块根据所述身份信息，确定与所述目标对象进行可视化通话的模式具体包括：

以及，

并对所述语音信号进行卡尔曼滤波处理，以此去除所述语音信号中的背景噪声成分。

9.如权利要求8所述的基于人脸识别的可视化对讲系统，其特征在于：

所述反馈响应操作模块对预处理后的所述语音信号进行分析处理，并根据所述分析处理的结果，进行相应的反馈响应操作具体包括：