CN116259095A

CN116259095A - 一种基于计算机的识别系统及方法

Info

Publication number: CN116259095A
Application number: CN202310338112.7A
Authority: CN
Inventors: 陈涛; 郑明婕
Original assignee: NANJING AUDIT UNIVERSITY
Current assignee: NANJING AUDIT UNIVERSITY
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-06-13

Abstract

本发明公开了一种基于计算机的识别系统及方法，涉及语音图像识别技术领域，包括数据采集模块、数据处理模块、数据分析模块、执行模块、报警模块和数据库，通过数据采集模块采集语音数据和图像数据，然后数据处理模块对语音数据和图像数据进行标记处理，然后将标记处理计算后的声音音色和图像数据利用数据分析模块进行分析，先对声音音色进行分析，符合判别标准后对图像数据进行分析计算，若都符合判别标准，则可将门打开，其中不符合判别标准的都需重新进行采集，并进行报警提示，实现了利用语音识别和图像识别相结合的方式对门禁进行控制的功能。

Description

一种基于计算机的识别系统及方法

技术领域

本发明涉及语音图像识别技术领域，具体的是一种基于计算机的识别系统及方法。

背景技术

随着商业大厦、智慧社区的规模化发展，越来越多的出入口控制场所选择部署智能门禁控制管理系统，以期实现高效率、高安全的通行权限管理。智慧门禁机是安装在门附近的建筑物面上，用于人身份识别，并控制门被打开或关闭的设备，是智能门禁控制管理系统的重要组成部分之一。

随着科技的发展，计算机的语音和图像识别系统被越来越多的应用到门禁系统里面，现有的门禁系统内的安全性方面做的不够好，为此，现在提供一种基于计算机的识别系统及方法。

发明内容

为解决上述背景技术中提到的不足，本发明的目的在于提供一种基于计算机的识别系统及方法，能够利用语音识别和图像识别相结合的方式对门禁进行控制，提高安全性。

本发明的目的可以通过以下技术方案实现：一种基于计算机的识别系统，包括：

数据采集模块：用于采集语音数据和图像数据，并且将采集到的语音数据和图像数据发送至数据处理模块进行处理；

数据处理模块：用于对语音数据和图像数据进行特征提取，并且将特征提取后的语音数据和图像数据进行标记，其中，语音数据特征提取为：声音音色，声音分贝和声音速度；图像数据特征提取为：图像人脸特征点数和图像人脸整体轮廓数据；

利用标记后的语音数据计算得出语音判定指数，并将语音判定指数与设定的语音判定指数阈值进行判别，若不符合判别标准，则发送重新采集信号至数据采集模块，数据采集模块对声音数据进行重新采集，若符合判别标准，则将声音音色和图像数据发送至数据分析模块进行分析；

数据分析模块：用于采集数据库内的音色参数集，并且将得到的声音音色与音色参数集进行特征匹配，若匹配失败，则发送重新采集信号至数据采集模块，数据采集模块对声音数据进行再次采集，并且发送报警信号至报警模块，报警模块通过报警提示工作人员用户为无录入成员，若匹配成功，则再对图像数据进行分析；

若图像人脸特征点数小于三，则未达到判别标准，发送重新采集信号至数据采集模块，数据采集模块对图像数据进行重新采集，若图像人脸特征点数大于等于三，则达到判别标准，利用图像人脸特征点数和图像人脸整体轮廓数据计算得出图像判定系数，并将图像判定系数与设定的标准图像判定系数计算得出图像比例系数，与设定的图像比例系数阈值相比较，若图像比例系数大于等于图像比例系数阈值，则说明此用户与录入过人脸的用户相匹配，数据分析模块发送开门信号至执行模块，执行模块将门打开允许用户进入，若图像比例系数小于图像比例系数阈值，则说明此用户为录入过人脸，发送报警信号至报警模块，报警模块通过报警对工作人员进行提示；

报警模块：用于在接收到报警信号时进行报警；

执行模块：用于在接受到执行信号时将门打开；

数据库：用于采集并存储音色参数集。

优选地，所述数据采集模块包括语音采集单元、图像采集单元和预处理单元，所述语音采集单元用于采集语音数据，并发送至预处理单元进行预处理，所述图像采集单元用于采集图像数据，并发送至预处理单元进行预处理，所述预处理单元用于对语音数据和图像数据进行预处理。

优选地，所述语音采集单元为模拟拾音器，从而能够采集模拟声音信号，所述图像采集单元为摄像头.

优选地，所述报警模块为蜂鸣报警器。

优选地，所述数据处理模块的处理过程包括以下步骤：

对声音音色，声音分贝和声音速度进行标记，将声音音色标记为Ys_i、声音分贝标记为Fb_i、声音速度标记为Sd_i；

所述数据处理模块对图像人脸特征点数和图像人脸整体轮廓数据进行标记，将图像人脸特征点数标记为Tz_i，图像人脸整体轮廓数据标记为Lk_i，其中，i为采集次数标号，且i＝1、2、3、...、n，n为采集次数总数；

利用公式

计算得出语音判定指数Yp_i，式中，Fb₀为标准声音分贝，Sd₀为标准声音速度，α为声音分贝影响系数，β为声音速度影响系数；

将计算得出的语音判定指数Yp_i与设定的语音判定指数阈值Yp₀相比较，若

则说明采集的语音数据符合判别标准，数据处理模块将声音音色Ys_i发送至数据分析模块进行分析，若Yp_i＜Yp₀或/>

则说明采集的语音数据不符合判别标准，数据处理模块发送重新采集信号至数据采集模块，数据采集模块对语音数据进行再次采集。

优选地，所述数据分析模块的分析过程包括以下步骤：

获取数据库内存储的音色参数集Ysj_m，利用声音音色Ys_i与音色参数集Ysj_m进行特征匹配，若声音音色Ys_i匹配成功，则数据分析模块再对图像人脸特征点数Tz_i和图像人脸整体轮廓数据Lk_i进行数据分析，若声音音色Ys_i匹配失败，则数据分析模块发送重新采集信号至数据采集模块进行重新采集，且发送报警信号至报警模块，报警模块通过报警对工作人员提示此人员为无录入成员；

对图像人脸特征点数Tz_i和图像人脸整体轮廓数据Lk_i进行分析，若Tz_i＜3，则则数据分析模块发送重新采集信号至数据采集模块进行重新采集；

若Tz_i≥3，则说明此图像数据的人脸特征点的数目达到了能够进行判定的标准，则利用公式

计算得出图像判定系数Tx_i，式中，Q为系数因子，A为特征点影响比例系数，C为轮廓影响比例系数；

设定标准图像判定系数Tx₀，并且与计算得出的图像判定系数Tx_i利用公式

得出图像比例系数Bl_i，式中/>

为预设比例系数，将图像比例系数Bl_i与设定的图像比例系数阈值Bl₀相比较，若Bl_i≥Bl₀，则说明此用户与录入过人脸的用户相匹配，数据分析模块发送开门信号至执行模块，执行模块将门打开允许用户进入，若Bl_i＜Bl₀，则说明此用户之前未录入人脸，数据分析模块发送报警信号至报警模块，报警模块通过报警对工作人员进行提示。

优选地，所述音色参数集Ysj_m＝{Ysj₁、Ysj₂、Ysj₃、...、Ysj_t}，其中m为录入用户音色标号，t为录入用户总数。

优选地，所述音色参数集Ysj_m的获取过程如下：

通过数据库内的数据采集终端来对用户的声音信息进行录入，其中，用户的声音信息包括声音分贝参数和声音速度参数；

将声音信息与音色映射模型相结合，获取并存储声音音色参数，然后将所有获取得到的声音音色参数进行整合形成音色参数集，需要进行说明的是，所述音色映射模型基于人工智能模型进行训练。

优选地，基于人工智能模型来对音色映射模型进行训练，过程如下：

通过服务器整合并获取标准训练数据，其中，标准训练数据包括声音信息和声音音色参数；

通过标准训练数据对人工智能模型进行训练，获取并存储音色映射模型；其中，人工智能模型包括深度卷积神经网络模型和RBF神经网络模型。

优选地，一种基于计算机的识别方法，方法包括以下步骤：

接收语音数据和图像数据，并对语音数据和图像数据分别进行特征提取，对特征提取后的语音数据和图像数据分别进行标记；

其中，对语音数据特征提取后包括：声音音色，声音分贝和声音速度；对图像数据特征提取后包括：图像人脸特征点数和图像人脸整体轮廓数据；

利用标记后的语音数据计算得出语音判定指数，并与设定的语音判定系数阈值相比较，若不符合判别标准则对语音数据进行再次采集，若符合判别标准则再对声音音色进行分析；

若声音音色与存储的音色参数集特征匹配失败，则需对语音数据再次采集，并报警提示工作人员为非录入用户，若声音音色与存储的音色参数集特征相匹配成功，则对标记后的图像数据进行分析；

若图像数据内的图像人脸特征点数小于三个，则重新对图像数据进行采集，若图像数据内的图像人脸特征点数不小于三个，则利用图像数据计算得出图像判定系数；

将图像判定系数与设定的标准图像判定系数计算得出图像比例系数，且将图像比例系数与设定的图像比例系数阈值相比较，若图像比例系数大于等于图像比例系数阈值，则将门打开，若图像比例系数小于图像比例系数阈值，则报警提示工作人员为非录入用户。

本发明的有益效果：

本发明在使用的过程中，能够实现利用语音识别和图像识别相结合的方式对门禁进行控制的功能，提高一定的安全性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图；

图1是本发明原理结构示意图；

图2是本发明流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，一种基于计算机的识别系统，包括：

数据采集模块、数据处理模块、数据分析模块、执行模块、报警模块和数据库；

所述数据采集模块用于采集语音数据和图像数据，并且将采集到的语音数据和图像数据发送至数据处理模块进行处理；

需要进一步进行说明的是，在具体实施过程中，所述数据采集模块包括语音采集单元、图像采集单元和预处理单元，所述语音采集单元用于采集语音数据，并发送至预处理单元进行预处理，所述图像采集单元用于采集图像数据，并发送至预处理单元进行预处理，所述预处理单元用于对语音数据和图像数据进行预处理，需要进一步进行说明的是，所述预处理单元对语音数据利用数字拾音器，采用模数转换的方法，将模拟声音信号转换为数字声音信号，从而能够方便进行处理，所述预处理单元对图像数据进行预处理的过程为对图像进行灰度处理；在本实施例中，所述语音采集单元为模拟拾音器，从而能够采集模拟声音信号，所述图像采集单元为摄像头。

需要说明的是，所述拾音器分为数字拾音器和模拟拾音器，数字拾音器就是通过数字信号处理系统将模拟的音频信号转换成数字信号并进行相应的数字信号处理的声音传感设备。模拟拾音器就只是用一般的模拟电路放大咪头采集到的声音。拾音器有三线制和四线制之分；三线制拾音器一般红色代表电源正极，白色代表音频正极，黑色代表信号及电源的负极(公共地)。四线制拾音器一般红色代表电源正极，白色代表音频正极，音频负极和电源负极是分开来。拾音器产品通常分为有源和无源两种类型；按性能分有声乐吉他和监控用拾音器。

所述数据处理模块用于在接收到数据采集模块发送的语音数据和图像数据后，进行数据处理，具体的，数据处理模块的处理过程包括以下步骤：

需要说明的是，所述数据处理模块对语音数据进行特征提取，包括：声音音色，声音分贝和声音速度；

所述数据处理模块对图像数据进行特征提取，包括：图像人脸特征点数和图像人脸整体轮廓数据；

所述数据处理模块对声音音色，声音分贝和声音速度进行标记，将声音音色标记为Ys_i、声音分贝标记为Fb_i、声音速度标记为Sd_i；

需要进一步进行说明的是，在具体实施过程中，声音分贝反映语音数据的响度，声音音色反映语音数据的类别，声音速度反映语音数据的传播速度，图像人脸特征点最多包括鼻子、眼睛、耳朵和嘴巴四个特征点位置，可用于通过图像人脸特征点数进行判断，图像人脸整体轮廓数据为人脸整体的轮廓线条程度；

利用公式

则说明采集的语音数据不符合判别标准，数据处理模块发送重新采集信号至数据采集模块，数据采集模块对语音数据进行再次采集；

将声音音色Ys_i、图像人脸特征点数Tz_i和图像人脸整体轮廓数据Lk_i发送至数据分析模块进行分析，所述数据分析模块在接收到数据处理模块发送的声音音色Ys_i、图像人脸特征点数Tz_i和图像人脸整体轮廓数据Lk_i后，进行数据分析，具体的，数据分析模块的分析过程包括以下步骤：

通过数据分析模块内的采集单元获取数据库内存储的音色参数集Ysj_m，利用声音音色Ys_i与音色参数集Ysj_m进行特征匹配，若声音音色Ys_i匹配成功，则数据分析模块再对图像人脸特征点数Tz_i和图像人脸整体轮廓数据Lk_i进行数据分析，若声音音色Ys_i匹配失败，则数据分析模块发送重新采集信号至数据采集模块进行重新采集，且发送报警信号至报警模块，报警模块通过报警对工作人员提示此人员为无录入成员，在本实施例中，所述报警模块为蜂鸣报警器；

需要进一步进行说明的是，在具体实施过程中，所述音色参数集Ysj_m＝{Ysj₁、Ysj₂、Ysj₃、...、Ysj_t}，其中m为录入用户音色标号，t为录入用户总数；

对图像人脸特征点数Tz_i和图像人脸整体轮廓数据Lk_i进行分析，若Tz_i＜3，则说明此图像数据的人脸特征点的数目未达到能够进行判定的标准，则数据分析模块发送重新采集信号至数据采集模块进行重新采集；

得出图像比例系数Bl_i，式中/>

为预设比例系数，将图像比例系数Bl_i与设定的图像比例系数阈值Bl₀相比较，若Bl_i≥Bl₀，则说明此用户与录入过人脸的用户相匹配，数据分析模块发送开门信号至执行模块，执行模块将门打开允许用户进入，若Bl_i＜Bl₀，则说明此用户之前未录入人脸，数据分析模块发送报警信号至报警模块，报警模块通过报警对工作人员进行提示；

需要进一步进行说明的是，在具体实施过程中，图像的人脸特征包括鼻子、眼睛、耳朵和嘴巴四个特征点位置，若采集的图像人脸特征点数达到或超过三个，则说明此图像数据达到了能够进行判别的程度，若为超过三个，则说明此图像数据未到达能够进行判别的程度，所以需要重新进行采集；

需要进行说明的是，数据库内存储的音色参数集Ysj_m的获取过程如下：

将声音信息与音色映射模型相结合，获取并存储声音音色参数，然后将所有获取得到的声音音色参数进行整合形成音色参数集，需要进行说明的是，所述音色映射模型基于人工智能模型进行训练；

需要进一步进行说明的是，在具体实施过程中，基于人工智能模型来对音色映射模型进行训练，具体过程为：

需要进一步进行说明的是，在具体实施过程中，所述人工智能模型用于训练音色映射模型，所述音色映射模型用于生成用户音色参数。

需要进一步进行说明的是，所述深度卷积神经网络模型是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeural Networks)，是深度学习(deeplearning)的代表算法之一，卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类，卷积是一种线性运算，需要将一组权重与输入相乘，以生成称为滤波器的二维权重数组。如果调整滤波器以检测输入中的特定特征类型，则在整个输入图像中重复使用该滤波器可以发现图像中任意位置的特征，结构包括：输入层：卷积神经网络的输入层可以处理多维数据，常见地，一维卷积神经网络的输入层接收一维或二维数组，其中一维数组通常为时间或频谱采样；二维数组可能包含多个通道；二维卷积神经网络的输入层接收二维或三维数组；三维卷积神经网络的输入层接收四维数组[16]。由于卷积神经网络在计算机视觉领域应用较广，因此许多研究在介绍其结构时预先假设了三维输入数据，即平面上的二维像素点和RGB通道。与其它神经网络算法类似，由于使用梯度下降算法进行学习，卷积神经网络的输入特征需要进行标准化处理。具体地，在将学习数据输入卷积神经网络前，需在通道或时间/频率维对输入数据进行归一化。

隐含层：卷积神经网络的隐含层包含卷积层、池化层和全连接层3类常见构筑，在一些更为现代的算法中可能有Inception模块、残差块(residual block)等复杂构筑。在常见构筑中，卷积层和池化层为卷积神经网络特有。卷积层中的卷积核包含权重系数，而池化层不包含权重系数，因此在文献中，池化层可能不被认为是独立的层。以LeNet-5为例，3类常见构筑在隐含层中的顺序通常为：输入-卷积层-池化层-全连接层-输出。

所述RBF神经网络模型又称为径向基神经网络模型，是一种三层前向网络，第一层为由信号源节点组成的输入层，第二层为隐层，隐单元数视问题需要而定，隐单元的变换函数为非负非线性的函数RBF(径向基函数)，第三层为输出层，输出层是对隐层神经元输出的线性组合，RBF神经网络模型的基本思想是：用RBF作为隐单元的基构成隐含层空间，这样就可以将输入矢量直接映射到隐空间，而不需要通过权连接。当RBF的中心点确定以后，这种映射关系也就确定了。而隐含层空间到输出空间的映射是线性的，即网络的输出是隐单元输出的线性加权和，此处的权即为网络可调参数。其中，隐含层的作用是把向量从低维度的映射到高维度的，这样低维度线性不可分的情况到高维度就可以变得线性可分了，主要就是核函数的思想。这样，网络由输入到输出的映射是非线性的，而网络输出对可调参数而言却又是线性的。网络的权就可由线性方程组直接解出，从而大大加快学习速度并避免局部极小问题。

如图2所示，一种基于计算机的识别方法，包括以下步骤：

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上显示和描述了本公开的基本原理、主要特征和本公开的优点。本行业的技术人员应该了解，本公开不受上述实施例的限制，上述实施例和说明书中描述的只是说明本公开的原理，在不脱离本公开精神和范围的前提下，本公开还会有各种变化和改进，这些变化和改进都落入要求保护的本公开范围内容。

Claims

1.一种基于计算机的识别系统，其特征在于，包括：

报警模块：用于在接收到报警信号时进行报警；

执行模块：用于在接受到执行信号时将门打开；

数据库：用于采集并存储音色参数集。

2.根据权利要求1所述的一种基于计算机的识别系统，其特征在于，所述数据采集模块包括语音采集单元、图像采集单元和预处理单元，所述语音采集单元用于采集语音数据，并发送至预处理单元进行预处理，所述图像采集单元用于采集图像数据，并发送至预处理单元进行预处理，所述预处理单元用于对语音数据和图像数据进行预处理。

3.根据权利要求2所述的一种基于计算机的识别系统，其特征在于，所述语音采集单元为模拟拾音器，从而能够采集模拟声音信号，所述图像采集单元为摄像头。

4.根据权利要求1所述的一种基于计算机的识别系统，其特征在于，所述报警模块为蜂鸣报警器。

5.根据权利要求1所述的一种基于计算机的识别系统，其特征在于，所述数据处理模块的处理过程包括以下步骤：

利用公式

6.根据权利要求1所述的一种基于计算机的识别系统，其特征在于，所述数据分析模块的分析过程包括以下步骤：

得出图像比例系数Bl_i，式中/>

7.根据权利要求6所述的一种基于计算机的识别系统，其特征在于，所述音色参数集Ysj_m＝{Ysj₁、Ysj₂、Ysj₃、...、Ysj_t}，其中m为录入用户音色标号，t为录入用户总数。

8.根据权利要求7所述的一种基于计算机的识别系统，其特征在于，所述音色参数集Ysj_m的获取过程如下：

9.根据权利要求8所述的一种基于计算机的识别系统，其特征在于，基于人工智能模型来对音色映射模型进行训练，过程如下：

10.一种基于计算机的识别方法，其特征在于，方法包括以下步骤：