CN108876951A - 一种基于声音识别的教学考勤方法 - Google Patents

一种基于声音识别的教学考勤方法 Download PDF

Info

Publication number
CN108876951A
CN108876951A CN201810609808.8A CN201810609808A CN108876951A CN 108876951 A CN108876951 A CN 108876951A CN 201810609808 A CN201810609808 A CN 201810609808A CN 108876951 A CN108876951 A CN 108876951A
Authority
CN
China
Prior art keywords
student
sound
sound source
feature
teacher
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810609808.8A
Other languages
English (en)
Inventor
贾成举
朱永峰
张琳琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810609808.8A priority Critical patent/CN108876951A/zh
Publication of CN108876951A publication Critical patent/CN108876951A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C1/00Registering, indicating or recording the time of events or elapsed time, e.g. time-recorders for work people
    • G07C1/10Registering, indicating or recording the time of events or elapsed time, e.g. time-recorders for work people together with the recording, indicating or registering of other data, e.g. of signs of identity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

本发明公开了一种基于声音识别的教学考勤方法,处理器利用语音识别中的声学模型深度神经网络对学生的声音信号进行分类,提取出说话人信息并用于提取DNN i‑vector进行答到学生语音的声纹识别,将识别出来的答到学生的声纹进行答到匹配,采用五个拾音器进行答到学生声源的空间定位,通过声源位置、声源朝向、声源音量大小判断学生是否在私自讲话,达到了考勤与课堂纪律监测的目的,而且可以解决基音周期系数在区别清音和低电平的浊音较困难及MFCC参数抗噪性不佳的问题,声纹识别阶段,利用GMM来训练和识别特定人声纹、环境噪声干扰较大的情况下,具有较小的声源位置估计偏差。

Description

一种基于声音识别的教学考勤方法
技术领域
本发明属于语音识别领域,尤其涉及一种基于声音识别的教学考勤方法。
背景技术
目前的考勤管理系统虽然跟以往签到方式相比有着明显的进步,但由于还是由有线数据的传输,需要布局布线以及线口对接等比较复杂的过程来完成,而且这样的工作方式不仅费时费力,浪费原材料,而且必须人为的来完成线路的管理以及数据的分析,所以能够把考勤信息远距离的无线传输和接收,实现低成本、高效率、无错化的考勤管理系统日趋成为了大家的迫切需要,目前市场上已经出现基于声纹信息的考勤系统,但是复杂课堂语音环境下声纹识别率不高,而且现有语音考勤系统不具备课上监测课堂纪律的功能。
发明内容
针对现有技术存在的问题,本发明提供了一种基于声音识别的教学考勤方法。
本发明是这样实现的,一种基于声音识别的教学考勤方法包括:
步骤一、采集老师点名的声音信号,利用正交小波滤波器组来对信号进行预滤波,对语言信号的每个频率段进行细粒度去噪,提取出各频段小波系数,重构出语音信号;
步骤二、将预滤波后的语音信息发送给教学电脑的处理器内,利用倒谱法计算出基音周期参数,通过Mel滤波器组将小波系数转换成Mel倒谱系数,将得出的两种参数组成一个特征矢量作为声纹特征,并在数据库内查找与该声纹特征信息匹配的相对应姓名的学生个人信息;
步骤三、多个拾音器获取答到学生的声音,并在数据库内查找该姓名的学生个人信息,对拾取的学生声音进行预处理,并将预处理后的音频信号传输到教学电脑的处理器内;
步骤四、处理器利用语音识别中的声学模型深度神经网络分别对该学生预处理后的声音信号的不同音素上的语音特征进行分类,在毎个音素子空间内实现对特征降维,提取出说话人信息并用于提取DNN i-vector进行答到学生语音的声纹识别,每一个说话人都由一个GMM表示,计算出特征矢量序列的每个似然函数,找到其中最大的说话人模型,判定为说话人;
步骤五、将识别出来的答到学生的声纹,与数据库中学生个人信息中的声纹信息进行匹配,若匹配相似程度超过预设值,则判断学生答到通过,若匹配相似程度不超过预设值,则向警报器发出报警信息;
步骤六、采用五个拾音器组成的阵列作为声源定位获取的耳朵,离线采样阶段,捕获各拾音器定位参考点处声源信号并完成位置特征提取,据此特征和参考点位置信息构建定位数据库,其中四个拾音器组成的平面阵确定声源空间位置,另外一个拾音器辅助完成声源位于拾音器前后方的判断,并通过改进的时延算法实现答到学生声源的空间定位,若答到学生的声源位置超出预设的教室范围,则判定学生迟到;
步骤七、教学过程中,拾音器实时获取教室内的声音,通过在线定位,提取待定位点处实时信号特征并和定位数据库中信息进行匹配,通过声纹识别识别出老师、学生声音,通过步骤六的声源位置确定方法确定老师声源及学生声源的位置及朝向,并计算相对应的老师及学生的声源的音量大小,通过声源位置、声源朝向、声源音量大小判断学生是否在私自讲话。
进一步,步骤七所述判断学生是否在私自讲话的具体方法为:
步骤一、若识别出学生的声音,则判断当前时间老师是否在发声,若老师在发声,则判断学生在私自讲话,记录在考勤中;
步骤二、若老师未发声,读取前n秒钟时间点时老师的声源的位置,根据学生声源的朝向,判断学生声音是否是否朝向老师,若不是朝向老师,则判定学生在课程上私自讲话,记录在考勤系统中;
步骤三、若学生声源朝向老师,则根据学生与老师位置的距离,判断声源音量大小是否在阈值内,若是,则判定学生在回答老师的问题,若不是,则判定学生在私自讲话,记录在考勤系统中。
进一步,步骤四所述语音的声纹识别方法如下:
步骤一、把原始语音信号转化成数字信号,使用一阶高通滤波器去除语音信号中多余的噪声,消除直流漂移,通过加重处理保留对特征参数有用的池音信号;
步骤二、语音信号的处理,取256个点作为一个32ms音框,对每个音框乘以汉明窗,消除音框两端的不连续性,采用低通滤波器去除噪声;
步骤三、采用基于似然概率的的加权投票法,根据不同语音帧与概率模型之间的似然概率取值,对每一帧语音进行加权;
步骤四、把不同地区及不同性别的声音片段映射到多维的特征空间,表征说话人个性特征的向量序列;
步骤五、采用RBM对DNN网络参数初始化,采用带有标签的训练数据对DNN网络进行监督的参数更新,在DNN训练中采用误差反向传递算法巧进行参数训练;
步骤六、在基于GMM的特征端因子分析中采用DNN替代GMM模型划分音素特征子空间,实现在每个子空间内对特征进行降维;
步骤七、对每个子空间内降维后的特征端因子与表征说话人个性特征的向量序列分别进行匹配。
进一步,所述声纹识别方法还包括构建不同地区及不同性别的语音信息数据库,将该语音数据库中的语音数据信息添加上地理区域信息标签和性别信息标签。
进一步,所述声纹识别方法还包括对每个子空间内降维后的特征端因子与带有地理区域信息标签和性别信息标签的表征说话人个性特征的向量序列分别进行匹配;将匹配后的特征端因子添加地理区域信息标签和性别信息标签,将DNN网络中该特征端因子参数更新,以性别信息标签的数据信息为基准进行声纹信息的匹配,以地理区域信息标签的数据信息为基准对匹配信息予以确认。
本发明将识别出来的答到学生的声纹,与数据库中学生个人信息中的声纹信息进行匹配,判断学生是否答到通过,通过声源位置、声源朝向、声源音量大小判断学生是否迟到、是否在私自讲话,达到考勤与课堂纪律监测的目的,而且可以解决基音周期系数在区别清音和低电平的浊音较困难及MFCC参数抗噪性不佳的问题,声纹识别阶段,利用GMM来训练和识别特定人声纹、环境噪声干扰较大的情况下,具有较小的声源位置估计偏差。
附图说明
图1是本发明实施例提供的基于声音识别的教学考勤方法流程图。
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下。
下面结合附图对本发明的结构作详细的描述。
一种基于声音识别的教学考勤方法包括:
S101、采集老师点名的声音信号,利用正交小波滤波器组来对信号进行预滤波,对语言信号的每个频率段进行细粒度去噪,提取出各频段小波系数,重构出语音信号;
S102、将预滤波后的语音信息发送给教学电脑的处理器内,利用倒谱法计算出基音周期参数,通过Mel滤波器组将小波系数转换成Mel倒谱系数,将得出的两种参数组成一个特征矢量作为声纹特征,并在数据库内查找与该声纹特征信息匹配的相对应姓名的学生个人信息;
S103、多个拾音器获取答到学生的声音,并在数据库内查找该姓名的学生个人信息,对拾取的学生声音进行预处理,并将预处理后的音频信号传输到教学电脑的处理器内;
S104、处理器利用语音识别中的声学模型深度神经网络分别对该学生预处理后的声音信号的不同音素上的语音特征进行分类,在毎个音素子空间内实现对特征降维,提取出说话人信息并用于提取DNN i-vector进行答到学生语音的声纹识别,每一个说话人都由一个GMM表示,计算出特征矢量序列的每个似然函数,找到其中最大的说话人模型,判定为说话人;
在说话人识别中,不同说话人的差异只要表现在其短时语音的差异,而这又可以用每个说话人的短时谱特征矢量所具有的额概率密度函数来衡量,我们可以用高斯混合模型来表示这一概率密度函数。典型单峰高斯说话人模型代表了一个以均值矢量和协方差矩阵表示的说话人特征分布,而矢量量化模型代表了说话人特征模板的离散分布。通过高斯混合模型的离散组合,每个高斯函数用其均值和协方差矩阵表示,得到高斯混合模型(GMM);
S105、将识别出来的答到学生的声纹,与数据库中学生个人信息中的声纹信息进行匹配,若匹配相似程度超过预设值,则判断学生答到通过,若匹配相似程度不超过预设值,则向警报器发出报警信息;
S106、采用五个拾音器组成的阵列作为声源定位获取的耳朵,离线采样阶段,捕获各拾音器定位参考点处声源信号并完成位置特征提取,据此特征和参考点位置信息构建定位数据库,其中四个拾音器组成的平面阵确定声源空间位置,另外一个拾音器辅助完成声源位于拾音器前后方的判断,并通过改进的时延算法实现答到学生声源的空间定位,若答到学生的声源位置超出预设的教室范围,则判定学生迟到;
S107、教学过程中,拾音器实时获取教室内的声音,通过在线定位,提取待定位点处实时信号特征并和定位数据库中信息进行匹配,通过声纹识别识别出老师、学生声音,通过步骤S106的声源位置确定方法确定老师声源及学生声源的位置及朝向,并计算相对应的老师及学生的声源的音量大小,通过声源位置、声源朝向、声源音量大小判断学生是否在私自讲话。
四个拾音器(M1~M4)布装在教室中间顶部位置,由N个拾音器组成的阵列可以得到N-1个时延,确定目标空间位置需要用3个时延确定3个位置参量,因此确定空间中的目标位置至少需要4个拾音器。所以选定由5个拾音器组成的阵列作为声源的定位阵列,其中4个拾音器组成的平面阵用来确定目标在空间中的位置,另外一个拾音器可以辅助判断目标在四个拾音器的前方还是后方。这样既可以实现空间定位,完成任务,计算量也不大,对于实现实时的定位有很大的帮助,声源定位有很多种算法,考虑到系统对实时实现要求较高,选择基于时延的定位方法;
S107、教学过程中,拾音器实时获取教室内的声音,通过在线定位,提取待定位点处实时信号特征并和定位数据库中信息进行匹配,通过声纹识别识别出老师、学生声音,通过步骤S106的声源位置确定方法确定老师声源及学生声源的位置及朝向,并计算相对应的老师及学生的声源的音量大小,通过声源位置、声源朝向、声源音量大小判断学生是否在私自讲话。
在本发明实施例中,预先录入学生的音频信号并上传到云服务器的学生个人信息中,根据课程安排信息可知,每个时间段某教室上什么课程,教学老师是谁,学生班级、姓名等信息均可知。
离线采样阶段的目标是构建定位数据库,首先根据室内面积的大小和定位精度需求确定参考点的位置,然后在参考点完成信息采集,再进行有效特征提取,最后将特征和参考点位置坐标一起存入定位数据库。在线定位阶段,在定位区域中,待定位声源发出声音信号后,首先定位系统捕获声音信号并提取其特征信息,然后通过特定的匹配算法完成特征信息与定位数据库的信息匹配,最终得到声源位置坐标从而完成定位。
步骤S107所述判断学生是否在私自讲话的具体方法为:
步骤一、若识别出学生的声音,则判断当前时间老师是否在发声,若老师在发声,则判断学生在私自讲话,记录在考勤中;
步骤二、若老师未发声,读取前n秒钟时间点时老师的声源的位置,根据学生声源的朝向,判断学生声音是否是否朝向老师,若不是朝向老师,则判定学生在课程上私自讲话,记录在考勤系统中;
步骤三、若学生声源朝向老师,则根据学生与老师位置的距离,判断声源音量大小是否在阈值内,若是,则判定学生在回答老师的问题,若不是,则判定学生在私自讲话,记录在考勤系统中。
步骤S104所述语音的声纹识别方法如下:
步骤一、把原始语音信号转化成数字信号,使用一阶高通滤波器去除语音信号中多余的噪声,消除直流漂移,通过加重处理保留对特征参数有用的池音信号;
步骤二、语音信号的处理,取256个点作为一个32ms音框,对每个音框乘以汉明窗,消除音框两端的不连续性,采用低通滤波器去除噪声;
步骤三、采用基于似然概率的的加权投票法,根据不同语音帧与概率模型之间的似然概率取值,对每一帧语音进行加权;
基于似然概率的加权投票法是针对识别算法中的语音帧似然概率融合提出的。语音帧的似然概率融合是识别算法中的重要一环,在识别算法中,声纹识别的主要的工作可分为两个阶段:训练阶段和识别阶段。训练阶段主要是根据每个说话人类别训练的特征样本估计出它的概率模型的参数。本文选择的是经典的高斯混合模型来作为概率模型,构建说话人概率模型的算法本质其实就是估计高斯混合模型的参数。在基于高斯混合模型的识别算法过程中,提取到语音帧基于梅尔倒谱系数的特征后,采用训练阶段建立的概率模型对其进行分类;
步骤四、把不同地区及不同性别的声音片段映射到多维的特征空间,表征说话人个性特征的向量序列,构建不同地区及不同性别的语音信息数据库,将该语音数据库中的语音数据信息添加上地理区域信息标签和性别信息标签;
步骤五、采用RBM对DNN网络参数初始化,采用带有标签的训练数据对DNN网络进行监督的参数更新,在DNN训练中采用误差反向传递算法巧进行参数训练;
DNN参数训练一般分成两个步骤:参数初始化和参数更新。前者负责对网络参数进行初始化,后者负责进一步对网络参数进行迭代更新。
在RBM-DBN模型中,DBN可看作是由多个RBM模型拼接在一起形成的。在训练时,DBN每一层之间作为一个RBM模型,进行从下向上逐层训练。底部RBM输入数据为原始语音特征,而上层RBM输入为前一层RBM的输出,每次只更新当前所处RBM层的参数。RBM是一个无监瞥的学习过程,因此DBN中不包含输出层。DBN是一种生成型概率模型,是由一系列RBM网络逐层训练得到;
步骤六、在基于GMM的特征端因子分析中采用DNN替代GMM模型划分音素特征子空间,实现在每个子空间内对特征进行降维;
步骤七、对每个子空间内降维后的特征端因子与带有地理区域信息标签和性别信息标签的表征说话人个性特征的向量序列分别进行匹配;
步骤八、将匹配后的特征端因子添加地理区域信息标签和性别信息标签,将DNN网络中该特征端因子参数更新,以性别信息标签的数据信息为基准进行声纹信息的匹配,以地理区域信息标签的数据信息为基准对匹配信息予以确认。
本发明在特征端因子分析中利用语音识别中的声学模型深度神经网络取代高斯混合模型,分别对不同音素上的语音特征进行分类然后在毎个音素子空间内实现对特征降维,提取出说话人信息并用于提取DNN i-vector。接着在基于DNN的说话人信息提取中,采用基于DNN的特征端因子分析,并在传统投票法的基础上提出了基于似然概率的加权融合,明显提高了声纹识别的准确性。
本发明将识别出来的答到学生的声纹,与数据库中学生个人信息中的声纹信息进行匹配,判断学生是否答到通过,通过声源位置、声源朝向、声源音量大小判断学生是否迟到、是否在私自讲话,达到考勤与课堂纪律监测的目的,可以解决基音周期系数在区别清音和低电平的浊音较困难及MFCC参数抗噪性不佳的问题,声纹识别阶段,利用GMM来训练和识别特定人声纹、环境噪声干扰较大的情况下,具有较小的声源位置估计偏差。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

Claims (5)

1.一种基于声音识别的教学考勤方法,其特征在于,该方法包括:
步骤一、采集老师点名的声音信号,利用正交小波滤波器组来对信号进行预滤波,对语言信号的每个频率段进行细粒度去噪,提取出各频段小波系数,重构出语音信号;
步骤二、将预滤波后的语音信息发送给教学电脑的处理器内,利用倒谱法计算出基音周期参数,通过Mel滤波器组将小波系数转换成Mel倒谱系数,将得出的两种参数组成一个特征矢量作为声纹特征,并在数据库内查找与该声纹特征信息匹配的相对应姓名的学生个人信息;
步骤三、多个拾音器获取答到学生的声音,并在数据库内查找该姓名的学生个人信息,对拾取的学生声音进行预处理,并将预处理后的音频信号传输到教学电脑的处理器内;
步骤四、处理器利用语音识别中的声学模型深度神经网络分别对该学生预处理后的声音信号的不同音素上的语音特征进行分类,在毎个音素子空间内实现对特征降维,提取出说话人信息并用于提取DNN i-vector进行答到学生语音的声纹识别,每一个说话人都由一个GMM表示,计算出特征矢量序列的每个似然函数,找到其中最大的说话人模型,判定为说话人;
步骤五、将识别出来的答到学生的声纹,与数据库中学生个人信息中的声纹信息进行匹配,若匹配相似程度超过预设值,则判断学生答到通过,若匹配相似程度不超过预设值,则向警报器发出报警信息;
步骤六、采用五个拾音器组成的阵列作为声源定位获取的耳朵,离线采样阶段,捕获各拾音器定位参考点处声源信号并完成位置特征提取,据此特征和参考点位置信息构建定位数据库,其中四个拾音器组成的平面阵确定声源空间位置,另外一个拾音器辅助完成声源位于拾音器前后方的判断,并通过改进的时延算法实现答到学生声源的空间定位,若答到学生的声源位置超出预设的教室范围,则判定学生迟到;
步骤七、教学过程中,拾音器实时获取教室内的声音,通过在线定位,提取待定位点处实时信号特征并和定位数据库中信息进行匹配,通过声纹识别识别出老师、学生声音,通过步骤六的声源位置确定方法确定老师声源及学生声源的位置及朝向,并计算相对应的老师及学生的声源的音量大小,通过声源位置、声源朝向、声源音量大小判断学生是否在私自讲话。
2.如权利要求1所述基于声音识别的教学考勤方法,其特征在于,步骤七所述判断学生是否在私自讲话的具体方法为:
步骤一、若识别出学生的声音,则判断当前时间老师是否在发声,若老师在发声,则判断学生在私自讲话,记录在考勤中;
步骤二、若老师未发声,读取前n秒钟时间点时老师的声源的位置,根据学生声源的朝向,判断学生声音是否是否朝向老师,若不是朝向老师,则判定学生在课程上私自讲话,记录在考勤系统中;
步骤三、若学生声源朝向老师,则根据学生与老师位置的距离,判断声源音量大小是否在阈值内,若是,则判定学生在回答老师的问题,若不是,则判定学生在私自讲话,记录在考勤系统中。
3.如权利要求1所述基于声音识别的教学考勤方法,其特征在于,步骤四所述语音的声纹识别方法如下:
步骤一、把原始语音信号转化成数字信号,使用一阶高通滤波器去除语音信号中多余的噪声,消除直流漂移,通过加重处理保留对特征参数有用的池音信号;
步骤二、语音信号的处理,取256个点作为一个32ms音框,对每个音框乘以汉明窗,消除音框两端的不连续性,采用低通滤波器去除噪声;
步骤三、采用基于似然概率的的加权投票法,根据不同语音帧与概率模型之间的似然概率取值,对每一帧语音进行加权;
步骤四、把不同地区及不同性别的声音片段映射到多维的特征空间,表征说话人个性特征的向量序列;
步骤五、采用RBM对DNN网络参数初始化,采用带有标签的训练数据对DNN网络进行监督的参数更新,在DNN训练中采用误差反向传递算法巧进行参数训练;
步骤六、在基于GMM的特征端因子分析中采用DNN替代GMM模型划分音素特征子空间,实现在每个子空间内对特征进行降维;
步骤七、对每个子空间内降维后的特征端因子与表征说话人个性特征的向量序列分别进行匹配。
4.如权利要求3所述基于声音识别的教学考勤方法,其特征在于,声纹识别方法还包括构建不同地区及不同性别的语音信息数据库,将该语音数据库中的语音数据信息添加上地理区域信息标签和性别信息标签。
5.如权利要求3所述基于声音识别的教学考勤方法,其特征在于,声纹识别方法还包括对每个子空间内降维后的特征端因子与带有地理区域信息标签和性别信息标签的表征说话人个性特征的向量序列分别进行匹配;将匹配后的特征端因子添加地理区域信息标签和性别信息标签,将DNN网络中该特征端因子参数更新,以性别信息标签的数据信息为基准进行声纹信息的匹配,以地理区域信息标签的数据信息为基准对匹配信息予以确认。
CN201810609808.8A 2018-06-13 2018-06-13 一种基于声音识别的教学考勤方法 Withdrawn CN108876951A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810609808.8A CN108876951A (zh) 2018-06-13 2018-06-13 一种基于声音识别的教学考勤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810609808.8A CN108876951A (zh) 2018-06-13 2018-06-13 一种基于声音识别的教学考勤方法

Publications (1)

Publication Number Publication Date
CN108876951A true CN108876951A (zh) 2018-11-23

Family

ID=64338378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810609808.8A Withdrawn CN108876951A (zh) 2018-06-13 2018-06-13 一种基于声音识别的教学考勤方法

Country Status (1)

Country Link
CN (1) CN108876951A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109451254A (zh) * 2018-12-14 2019-03-08 广州市科虎电子有限公司 一种智能电视数字接收机
CN109497956A (zh) * 2019-01-03 2019-03-22 龙马智芯(珠海横琴)科技有限公司 止鼾系统及其控制方法
CN112543295A (zh) * 2020-11-23 2021-03-23 安徽江淮汽车集团股份有限公司 基于声源定位的车载视频通话方法、系统及设备
TWI727413B (zh) * 2019-05-21 2021-05-11 麥奇數位股份有限公司 基於交流的網路教室建立方法、系統、設備及存儲介質
CN113569348A (zh) * 2021-07-06 2021-10-29 上海核工程研究设计院有限公司 一种非标支吊架自动化力学分析方法
CN116384879A (zh) * 2023-04-07 2023-07-04 豪越科技有限公司 一种用于消防装备快速出入库的智能化管理系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104360315A (zh) * 2014-10-16 2015-02-18 河北工业大学 基于LabVIEW的麦克风阵列声源定位方法及装置
KR20150112193A (ko) * 2014-03-27 2015-10-07 주식회사 소프트헤븐 양방향 교육 솔루션에 기반한 스마트 스쿨 시스템 및 실시방법
CN105866741A (zh) * 2016-06-23 2016-08-17 合肥联宝信息技术有限公司 基于声源定位的家居控制装置及方法
CN107146601A (zh) * 2017-04-07 2017-09-08 南京邮电大学 一种用于说话人识别系统的后端i‑vector增强方法
CN206696909U (zh) * 2017-05-17 2017-12-01 郑州大学 一种基于声纹识别的教室上课点名系统
CN107808423A (zh) * 2016-09-09 2018-03-16 广州零号软件科技有限公司 一种基于服务机器人的员工考勤签到系统与实现方法
CN107958351A (zh) * 2017-12-26 2018-04-24 重庆大争科技有限公司 教学质量评估云服务平台

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150112193A (ko) * 2014-03-27 2015-10-07 주식회사 소프트헤븐 양방향 교육 솔루션에 기반한 스마트 스쿨 시스템 및 실시방법
CN104360315A (zh) * 2014-10-16 2015-02-18 河北工业大学 基于LabVIEW的麦克风阵列声源定位方法及装置
CN105866741A (zh) * 2016-06-23 2016-08-17 合肥联宝信息技术有限公司 基于声源定位的家居控制装置及方法
CN107808423A (zh) * 2016-09-09 2018-03-16 广州零号软件科技有限公司 一种基于服务机器人的员工考勤签到系统与实现方法
CN107146601A (zh) * 2017-04-07 2017-09-08 南京邮电大学 一种用于说话人识别系统的后端i‑vector增强方法
CN206696909U (zh) * 2017-05-17 2017-12-01 郑州大学 一种基于声纹识别的教室上课点名系统
CN107958351A (zh) * 2017-12-26 2018-04-24 重庆大争科技有限公司 教学质量评估云服务平台

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张涛涛: "语音声纹密码验证技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
房安栋,等: "复杂背景下声纹识别系统的研究方法综述", 《电子世界》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109451254A (zh) * 2018-12-14 2019-03-08 广州市科虎电子有限公司 一种智能电视数字接收机
CN109497956A (zh) * 2019-01-03 2019-03-22 龙马智芯(珠海横琴)科技有限公司 止鼾系统及其控制方法
CN109497956B (zh) * 2019-01-03 2022-03-08 龙马智芯(珠海横琴)科技有限公司 止鼾系统及其控制方法
TWI727413B (zh) * 2019-05-21 2021-05-11 麥奇數位股份有限公司 基於交流的網路教室建立方法、系統、設備及存儲介質
CN112543295A (zh) * 2020-11-23 2021-03-23 安徽江淮汽车集团股份有限公司 基于声源定位的车载视频通话方法、系统及设备
CN113569348A (zh) * 2021-07-06 2021-10-29 上海核工程研究设计院有限公司 一种非标支吊架自动化力学分析方法
CN116384879A (zh) * 2023-04-07 2023-07-04 豪越科技有限公司 一种用于消防装备快速出入库的智能化管理系统
CN116384879B (zh) * 2023-04-07 2023-11-21 豪越科技有限公司 一种用于消防装备快速出入库的智能化管理系统

Similar Documents

Publication Publication Date Title
CN108876951A (zh) 一种基于声音识别的教学考勤方法
CN109285538B (zh) 一种基于常q变换域的加性噪声环境下手机来源识别方法
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
CN108806694A (zh) 一种基于声音识别的教学考勤方法
CN108922518A (zh) 语音数据扩增方法和系统
CN112259105B (zh) 一种声纹识别模型的训练方法、存储介质和计算机设备
CN112259104B (zh) 一种声纹识别模型的训练装置
CN105810212B (zh) 一种复杂噪声环境下的列车鸣笛识别方法
CN107039036B (zh) 一种基于自动编码深度置信网络的高质量说话人识别方法
EP0549265A2 (en) Neural network-based speech token recognition system and method
CN108962229B (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
CN109036382A (zh) 一种基于kl散度的音频特征提取方法
CN108922559A (zh) 基于语音时频变换特征和整数线性规划的录音终端聚类方法
CN106791579A (zh) 一种视频会议质量的处理方法及系统
CN108694949A (zh) 基于重排序超向量和残差网络的说话人识别方法及其装置
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
Peri et al. Robust speaker recognition using unsupervised adversarial invariance
Ting Yuan et al. Frog sound identification system for frog species recognition
CN110428853A (zh) 语音活性检测方法、语音活性检测装置以及电子设备
CN110473548B (zh) 一种基于声学信号的课堂交互网络分析方法
CN110136746B (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
Liu Deep convolutional and LSTM neural networks for acoustic modelling in automatic speech recognition
Ng et al. Teacher-student training for text-independent speaker recognition
CN108629024A (zh) 一种基于声音识别的教学考勤方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20181123