CN116071842A - 一种基于声纹的打卡方法及系统 - Google Patents
一种基于声纹的打卡方法及系统 Download PDFInfo
- Publication number
- CN116071842A CN116071842A CN202211462103.0A CN202211462103A CN116071842A CN 116071842 A CN116071842 A CN 116071842A CN 202211462103 A CN202211462103 A CN 202211462103A CN 116071842 A CN116071842 A CN 116071842A
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- user
- information
- card punching
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004080 punching Methods 0.000 title claims abstract description 133
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013135 deep learning Methods 0.000 claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 239000000284 extract Substances 0.000 claims abstract description 13
- 230000009467 reduction Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 5
- 206010011409 Cross infection Diseases 0.000 abstract description 4
- 206010029803 Nosocomial infection Diseases 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 230000003993 interaction Effects 0.000 abstract description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C1/00—Registering, indicating or recording the time of events or elapsed time, e.g. time-recorders for work people
- G07C1/10—Registering, indicating or recording the time of events or elapsed time, e.g. time-recorders for work people together with the recording, indicating or registering of other data, e.g. of signs of identity
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及声纹打卡技术领域,提供了一种基于声纹的打卡方法,包括以下步骤:S1:打卡设备采集并提取用户声音;S2:采用训练好的深度学习算法模型提取用户声音中的声纹特征信息;S3:将声纹特征信息与本地声纹信息搜索匹配,若声纹特征信息与本地声纹信息匹配成功,则记录用户打卡成功信息,若匹配失败,重新进入步骤S1。充分利用每个人的声纹的独特性,作为唯一ID来区分个人,实现打卡功能。并且使用声音作为交互方式,十分便捷,因为不需要实际接触,能避免交叉感染等卫生问题。同时,本发明的声纹识别技术采用深度学习的方式,使用深度神经网络(DNN)等相关算法,即使在环境较为嘈杂的环境下也能有很好的识别效果,能更易适应各种打卡环境。
Description
技术领域
本发明涉及声纹打卡的技术领域,尤其涉及一种基于声纹的打卡方法及系统。
背景技术
随着社会的发展,工作生活中会用到各种各样的打卡方式。比如IC打卡,指纹打卡,面部识别打卡,还有手机定位打卡等,满足各种打卡需求。
但是在实际使用过程中,IC卡打卡容易被复制,不具备唯一性,安全程度不高;指纹打卡不是很方便,比如在冬天时需要脱掉手套,如果手里有东西,双手无法放开,操作起来更加繁琐,且指纹打卡需要接触,存在交叉感染的卫生安全等问题;面部识别打卡需要面部在一定的识别范围内才能识别到,且需要摘掉口罩等才能识别人脸,也不是很方便;手机定位打卡容易被修改,造假,不够准确,安全等级也不高。
发明内容
针对上述问题,本发明的目的在于提供一种基于声纹的打卡方法及系统。充分利用每个人的声纹的独特性,作为唯一ID来区分个人,实现打卡功能。并且使用声音作为交互方式,十分便捷,因为不需要实际接触,能避免交叉感染等卫生问题。同时,本发明的声纹识别技术采用深度学习的方式,使用深度神经网络(DNN)等相关算法,即使在环境较为嘈杂的环境下也能有很好的识别效果,能更易适应各种打卡环境。
本发明的上述发明目的是通过以下技术方案得以实现的:
一种基于声纹的打卡方法,包括以下步骤:
S1:打卡设备采集并提取用户声音;
S2:采用训练好的深度学习算法模型提取所述用户声音中的声纹特征信息;
S3:将所述声纹特征信息与本地声纹信息搜索匹配,若所述声纹特征信息与所述本地声纹信息匹配成功,则记录用户打卡成功信息,若匹配失败,重新进入步骤S1。
进一步地,在步骤S1之前,还包括:
对用户信息和所述用户声音进行采集,并通过训练好的所述深度学习算法模型获得所述用户声音的所述声纹特征信息,并将所述用户信息和所述声纹特征信息存储于所述打卡设备中。
进一步地,步骤S1,具体为:
用户使用所述打卡设备预设的唤醒词唤醒所述打卡设备;
所述打卡设备随机从打卡词库中获取一个语音打卡词,并播放所述语音打卡词,其中,所述打卡词库为预设在所述打卡设备中的所述语音打卡词的集合;
用户跟读所述语音打卡词,所述打卡设备采集所述用户声音,若采集所述用户声音超时,则打卡失败并播放语音失败信息,若采集所述用户声音未超时,所述打卡设备提取所述用户声音。
进一步地,在步骤S1中,所述打卡设备提取所述用户声音,具体为:
所述打卡设备通过包括降噪、声音回声消除在内的算法,提取所述用户声音;
其中,所述降噪为从采集的所述用户声音的混合信号中通过噪声估计模块估计出噪声信号,并通过噪声滤除模块将所述噪声信号除去,得到降噪语音信号;所述声音回声消除为通过自适应方法估计回波信号的大小,从所述混合信号中减去,保留近端语音信号。
进一步地,在步骤S2中,所述深度学习算法模型,具体为:
采用收集公开声音数据、采购私有声音数据、人工录制在内的方式收集用于训练所述深度学习算法模型的包括所述用户信息和所述用户声音在内的数据样本;
构建输入为所述用户声音,输出为所述声纹特征信息的神经网络作为所述深度学习算法模型,并采用梯度下降法训练所述神经网络。
进一步地,所述深度学习算法模型,包括以下建立步骤:
定义所述深度学习算法模型对应的所述神经网络和架构;
对所述深度学习算法模型进行编译;
在所述数据样本集合上拟合所述深度学习算法模型;
对所述深度学习算法模型进行评估和预测;
使用嵌入式系统部署所述深度学习算法模型。
进一步地,在步骤S3中,所述声纹特征信息于所述本地声纹信息匹配成功之后,记录所述用户打卡成功信息之前,还包括:
判断所述声纹特征信息在所述打卡设备中是否存储有对应的所述用户信息,若所述用户信息存储在所述打卡设备中,则记录所述用户打卡成功信息并播放成功语音,否则打卡失败。
一种用于执行如上述的基于声纹的打卡方法的基于声纹的打卡系统,包括:
用户声音提取模块,用于提供给打卡设备采集并提取用户声音;
声纹特征提取模块,用于采用训练好的深度学习算法模型提取所述用户声音中的声纹特征信息;
声纹特征匹配模块,用于将所述声纹特征信息与本地声纹信息搜索匹配,若所述声纹特征信息与所述本地声纹信息匹配成功,则记录用户打卡成功信息,若匹配失败,重新进入所述用户声音提取模块。
一种计算机设备,包括存储器和一个或多个处理器,所述存储器中存储有计算机代码,所述计算机代码被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上述的方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机代码,当所述计算机代码被执行时,如上述的方法被执行。
与现有技术相比,本发明包括以下至少一种有益效果是:
(1)通过提供一种基于声纹的打卡方法,包括以下步骤:S1:打卡设备采集并提取用户声音;S2:采用训练好的深度学习算法模型提取所述用户声音中的声纹特征信息;S3:将所述声纹特征信息与本地声纹信息搜索匹配,若所述声纹特征信息与所述本地声纹信息匹配成功,则记录用户打卡成功信息,若匹配失败,重新进入步骤S1。上述技术方案,充分利用每个人的声纹的独特性,作为唯一ID来区分个人,实现打卡功能。并且使用声音作为交互方式,十分便捷,因为不需要实际接触,能避免交叉感染等卫生问题。同时,本发明的声纹识别技术采用深度学习的方式,使用深度神经网络(DNN)等相关算法,即使在环境较为嘈杂的环境下也能有很好的识别效果,能更易适应各种打卡环境。
(2)通过采用包括降噪、声音回声消除在内的算法,提取所述用户声音,使得提取的用户声音更加的准确,提高通过用户声音打卡的准确率和体验感。
附图说明
图1为本发明第一实施例中一种基于声纹的打卡方法的整体流程图;
图2为本发明第一实施例中一种基于声纹的打卡方法的详细流程图;
图3为本发明第二实施例中一种基于声纹的打卡系统的整体结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
第一实施例
如图1和图2所示,本实施例提供了一种基于声纹的打卡方法,包括以下步骤:
S1:打卡设备采集并提取用户声音。
在本实施例中通过声纹进行打卡的首要步骤是通过打卡设备对需要打卡的用户的用户声音进行采集。但是在正常打卡之前,还需要进行一项准备工作,即将需要打卡的用户信息和用户声音保存在打卡设备中。只有保存在打卡设备中的用户,才会将打卡记录记录下来。举个例子来说,一个公司需要通过声纹打卡设备对员工的考勤进行记录,在员工入职当天需要将新入职员工的用户信息和用户声音录入打卡设备中,只有录入到打卡设备中的员工,后续才能够使用声纹打卡设备进行正常的打卡。
将需要打卡的用户信息和用户声音保存在打卡设备中,具体的步骤为:对用户信息和所述用户声音进行采集,并通过训练好的所述深度学习算法模型获得所述用户声音的所述声纹特征信息,并将所述用户信息和所述声纹特征信息存储于所述打卡设备中。举个例子来说,新员工入职时,在打卡设备上输入对应的用户信息,并让新员工读出对应的录入词汇,打卡设备手机新员工读出的录入词汇对应的音频,打卡设备通过已经训练好的深度学习算法模型识别出音频中的声纹特征信息,将声纹特征信息与对应的用户信息作为一条员工记录存储在打卡设备对应的存储单元中。对于打卡设备的存储单元可以是集成到打卡设备内部的存储单元,也可以是远程的与打卡设备通过网络进行交互的存储单元。
在将用户信息和用户声音保存到打卡设备中的准备工作做完之后,用户可以通过打卡设备进行正常的打卡,具体的步骤为:
S11:用户使用所述打卡设备预设的唤醒词唤醒所述打卡设备,具体为采用语音检测技术VAD。
S12:所述打卡设备随机从打卡词库中获取一个语音打卡词,并播放所述语音打卡词,其中,所述打卡词库为预设在所述打卡设备中的所述语音打卡词的集合,每次播放语音打卡词时在打卡词库中随机挑选一个进行播放。
S13:用户跟读所述语音打卡词,所述打卡设备采集所述用户声音,若采集所述用户声音超时,则打卡失败并播放语音失败信息,若采集所述用户声音未超时,所述打卡设备提取所述用户声音。
进一步地,在步骤S13中,打卡设备提取用户声音具体通过包括降噪、声音回声消除在内的算法,提取所述用户声音;
其中,所述降噪(NR,No i se Reduce)为从采集的所述用户声音的混合信号中通过噪声估计模块估计出噪声信号,并通过噪声滤除模块将所述噪声信号除去,得到降噪语音信号。降噪算法的核心主要有两个模块,噪声估计模块和噪声滤除模块,噪声估计模块主要是判断当前信号是语音还是噪声,以及噪声的量,噪声滤除模块主要是依据噪声估计的信息滤除带噪语音的噪声,输出降噪语音。
所述声音回声消除(AEC,Acoust i c Echo Cance l l at i on)为通过自适应方法估计回波信号的大小,从所述混合信号中减去,保留近端语音信号。利用参考信号与估计的滤波来逼近麦克风接收到的回声信号,然后从混合信号中将其减去,保留近端语音信号。
S2:采用训练好的深度学习算法模型提取所述用户声音中的声纹特征信息。
具体的,在本实施例通过深度学习算法模型提取用户声音中的声纹特征信息,所述深度学习算法模型为:采用收集公开声音数据、采购私有声音数据、人工录制在内的方式收集用于训练所述深度学习算法模型的包括所述用户信息和所述用户声音在内的数据样本;构建输入为所述用户声音,输出为所述声纹特征信息的神经网络作为所述深度学习算法模型,并采用梯度下降法训练所述神经网络。
深度学习算法模型训练完成后,需要采集用户的声纹特征信息,具体为:在一定的信噪比要求下,通过打卡设备终端采集用户的音频(用户声音),称之为注册音频;将注册音频提取特征,输入到深度学习算法模型的神经网络中,采用神经网络最后一层隐层的输出作为用户的声纹特征信息。
对于深度学习算法模型的建立,一般包括以下步骤:
(1)定义架构:
定义所述深度学习算法模型对应的所述神经网络和架构。是构建深度学习模型的第一步,也是最重要的一步就是成功定义网络和架构。根据所执行任务的类型,一般倾向于使用特定类型的体系结构。
(2)编译模型:
对所述深度学习算法模型进行编译。编译步骤通常是TensorF l ow深度学习框架中的一行代码,可以采用mode l.comp i l e()函数进行编译。
(3)拟合模型
在所述数据样本集合上拟合所述深度学习算法模型。拟合功能可在固定数量的周期(数据集上的迭代)内训练模型。
(4)评估和预测
对所述深度学习算法模型进行评估和预测。评估深度学习模型的一个主要方法是,确保模型对预处理步骤开始时,将分割测试数据所做的预测考虑在内,以验证训练模型的有效性。
(5)部署模型
部署阶段是构建任何模型的最后一步。我们使用了使用嵌入式系统部署。
S3:将所述声纹特征信息与本地声纹信息搜索匹配,若所述声纹特征信息与所述本地声纹信息匹配成功,则记录用户打卡成功信息,若匹配失败,重新进入步骤S1,重新随机播放语音打卡词,重新采集并提取用户声音,当连续若干次采集信息均不在打卡设备中时,则打卡失败并播放失败语音。
进一步地,在所述声纹特征信息于所述本地声纹信息匹配成功之后,记录所述用户打卡成功信息之前,还包括:判断所述声纹特征信息在所述打卡设备中是否存储有对应的所述用户信息,若所述用户信息存储在所述打卡设备中,则记录所述用户打卡成功信息并播放成功语音,否则打卡失败。
第二实施例
如图3所示,本实施例提供一种用于执行如第一实施例中的基于声纹的打卡方法的基于声纹的打卡系统,包括:
用户声音提取模块1,用于提供给打卡设备采集并提取用户声音;
声纹特征提取模块2,用于采用训练好的深度学习算法模型提取所述用户声音中的声纹特征信息;
声纹特征匹配模块3,用于将所述声纹特征信息与本地声纹信息搜索匹配,若所述声纹特征信息与所述本地声纹信息匹配成功,则记录用户打卡成功信息,若匹配失败,重新进入所述用户声音提取模块。
需要说明的是,其他具体技术细节与第一实施例中相同,在本实施例中不赘述。
一种计算机可读存储介质,计算机可读存储介质存储有计算机代码,当计算机代码被执行时,如上述方法被执行。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read On l y Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于声纹的打卡方法,其特征在于,包括以下步骤:
S1:打卡设备采集并提取用户声音;
S2:采用训练好的深度学习算法模型提取所述用户声音中的声纹特征信息;
S3:将所述声纹特征信息与本地声纹信息搜索匹配,若所述声纹特征信息与所述本地声纹信息匹配成功,则记录用户打卡成功信息,若匹配失败,重新进入步骤S1。
2.根据权利要求1所述的基于声纹的打卡方法,其特征在于,在步骤S1之前,还包括:
对用户信息和所述用户声音进行采集,并通过训练好的所述深度学习算法模型获得所述用户声音的所述声纹特征信息,并将所述用户信息和所述声纹特征信息存储于所述打卡设备中。
3.根据权利要求1所述的基于声纹的打卡方法,其特征在于,步骤S1,具体为:
用户使用所述打卡设备预设的唤醒词唤醒所述打卡设备;
所述打卡设备随机从打卡词库中获取一个语音打卡词,并播放所述语音打卡词,其中,所述打卡词库为预设在所述打卡设备中的所述语音打卡词的集合;
用户跟读所述语音打卡词,所述打卡设备采集所述用户声音,若采集所述用户声音超时,则打卡失败并播放语音失败信息,若采集所述用户声音未超时,所述打卡设备提取所述用户声音。
4.根据权利要求1或3所述的基于声纹的打卡方法,其特征在于,在步骤S1中,所述打卡设备提取所述用户声音,具体为:
所述打卡设备通过包括降噪、声音回声消除在内的算法,提取所述用户声音;
其中,所述降噪为从采集的所述用户声音的混合信号中通过噪声估计模块估计出噪声信号,并通过噪声滤除模块将所述噪声信号除去,得到降噪语音信号;所述声音回声消除为通过自适应方法估计回波信号的大小,从所述混合信号中减去,保留近端语音信号。
5.根据权利要求1所述的基于声纹的打卡方法,其特征在于,在步骤S2中,所述深度学习算法模型,具体为:
采用收集公开声音数据、采购私有声音数据、人工录制在内的方式收集用于训练所述深度学习算法模型的包括所述用户信息和所述用户声音在内的数据样本;
构建输入为所述用户声音,输出为所述声纹特征信息的神经网络作为所述深度学习算法模型,并采用梯度下降法训练所述神经网络。
6.根据权利要求5所述的基于声纹的打卡方法,其特征在于,所述深度学习算法模型,包括以下建立步骤:
定义所述深度学习算法模型对应的所述神经网络和架构;
对所述深度学习算法模型进行编译;
在所述数据样本集合上拟合所述深度学习算法模型;
对所述深度学习算法模型进行评估和预测;
使用嵌入式系统部署所述深度学习算法模型。
7.根据权利要求2所述基于声纹的打卡方法,其特征在于,在步骤S3中,所述声纹特征信息于所述本地声纹信息匹配成功之后,记录所述用户打卡成功信息之前,还包括:
判断所述声纹特征信息在所述打卡设备中是否存储有对应的所述用户信息,若所述用户信息存储在所述打卡设备中,则记录所述用户打卡成功信息并播放成功语音,否则打卡失败。
8.一种用于执行如权利要求1-7所述的基于声纹的打卡方法的基于声纹的打卡系统,其特征在于,包括:
用户声音提取模块,用于提供给打卡设备采集并提取用户声音;
声纹特征提取模块,用于采用训练好的深度学习算法模型提取所述用户声音中的声纹特征信息;
声纹特征匹配模块,用于将所述声纹特征信息与本地声纹信息搜索匹配,若所述声纹特征信息与所述本地声纹信息匹配成功,则记录用户打卡成功信息,若匹配失败,重新进入所述用户声音提取模块。
9.一种计算机设备,包括存储器和一个或多个处理器,所述存储器中存储有计算机代码,所述计算机代码被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机代码,当所述计算机代码被执行时,如权利要求1至7中任一项所述的方法被执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211462103.0A CN116071842A (zh) | 2022-11-21 | 2022-11-21 | 一种基于声纹的打卡方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211462103.0A CN116071842A (zh) | 2022-11-21 | 2022-11-21 | 一种基于声纹的打卡方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116071842A true CN116071842A (zh) | 2023-05-05 |
Family
ID=86172360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211462103.0A Pending CN116071842A (zh) | 2022-11-21 | 2022-11-21 | 一种基于声纹的打卡方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116071842A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104835497A (zh) * | 2015-04-14 | 2015-08-12 | 时代亿宝(北京)科技有限公司 | 一种基于动态口令的声纹打卡系统及方法 |
CN108198265A (zh) * | 2018-03-13 | 2018-06-22 | 成都数智凌云科技有限公司 | 基于语音和人脸复合识别的考勤系统 |
CN109729067A (zh) * | 2018-08-17 | 2019-05-07 | 深圳壹账通智能科技有限公司 | 语音打卡方法、装置、设备和计算机存储介质 |
CN109829691A (zh) * | 2019-01-16 | 2019-05-31 | 北京影谱科技股份有限公司 | 基于位置和深度学习多重生物特征的c/s打卡方法和装置 |
CN209265517U (zh) * | 2018-12-18 | 2019-08-16 | 珠海迈科智能科技股份有限公司 | 一种基于语音识别的声纹打卡系统 |
CN211293996U (zh) * | 2019-11-23 | 2020-08-18 | 山东科技大学 | 一种基于深度学习的人脸识别的签到装置 |
-
2022
- 2022-11-21 CN CN202211462103.0A patent/CN116071842A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104835497A (zh) * | 2015-04-14 | 2015-08-12 | 时代亿宝(北京)科技有限公司 | 一种基于动态口令的声纹打卡系统及方法 |
CN108198265A (zh) * | 2018-03-13 | 2018-06-22 | 成都数智凌云科技有限公司 | 基于语音和人脸复合识别的考勤系统 |
CN109729067A (zh) * | 2018-08-17 | 2019-05-07 | 深圳壹账通智能科技有限公司 | 语音打卡方法、装置、设备和计算机存储介质 |
CN209265517U (zh) * | 2018-12-18 | 2019-08-16 | 珠海迈科智能科技股份有限公司 | 一种基于语音识别的声纹打卡系统 |
CN109829691A (zh) * | 2019-01-16 | 2019-05-31 | 北京影谱科技股份有限公司 | 基于位置和深度学习多重生物特征的c/s打卡方法和装置 |
CN211293996U (zh) * | 2019-11-23 | 2020-08-18 | 山东科技大学 | 一种基于深度学习的人脸识别的签到装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106251874B (zh) | 一种语音门禁和安静环境监控方法及系统 | |
Reynolds | An overview of automatic speaker recognition technology | |
US20130006633A1 (en) | Learning speech models for mobile device users | |
Vildjiounaite et al. | Unobtrusive multimodal biometrics for ensuring privacy and information security with personal devices | |
CN108766446A (zh) | 声纹识别方法、装置、存储介质及音箱 | |
JP5644772B2 (ja) | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム | |
CN109829691B (zh) | 基于位置和深度学习多重生物特征的c/s打卡方法和装置 | |
CN1936967A (zh) | 声纹考勤机 | |
CN113823293B (zh) | 一种基于语音增强的说话人识别方法及系统 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
CN109473102A (zh) | 一种机器人秘书智能会议记录方法及系统 | |
CN109920435A (zh) | 一种声纹识别方法及声纹识别装置 | |
CN111816185A (zh) | 一种对混合语音中说话人的识别方法及装置 | |
Bonet et al. | Speech enhancement for wake-up-word detection in voice assistants | |
Fujimoto et al. | Robust speech recognition in additive and channel noise environments using GMM and EM algorithm | |
Zewoudie et al. | The use of audio fingerprints for authentication of speakers on speech operated interfaces | |
KR20100020066A (ko) | 감정 인식 장치 및 방법, 이를 이용한 콜센터 시스템 | |
CN109817223A (zh) | 基于音频指纹的音素标记方法及装置 | |
KR100969138B1 (ko) | 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치 | |
CN116071842A (zh) | 一种基于声纹的打卡方法及系统 | |
CN110556114B (zh) | 基于注意力机制的通话人识别方法及装置 | |
CN113838469A (zh) | 一种身份识别方法、系统及存储介质 | |
CN113032758A (zh) | 视讯问答流程的身份识别方法、装置、设备及存储介质 | |
CN112308379A (zh) | 居家护理的服务订单评价方法、装置、设备和存储介质 | |
CN106971735A (zh) | 一种定期更新缓存中训练语句的声纹识别的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |