CN108806694A - 一种基于声音识别的教学考勤方法 - Google Patents

一种基于声音识别的教学考勤方法 Download PDF

Info

Publication number
CN108806694A
CN108806694A CN201810608125.0A CN201810608125A CN108806694A CN 108806694 A CN108806694 A CN 108806694A CN 201810608125 A CN201810608125 A CN 201810608125A CN 108806694 A CN108806694 A CN 108806694A
Authority
CN
China
Prior art keywords
student
sound
sound source
teacher
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810608125.0A
Other languages
English (en)
Inventor
高艳艳
杨平平
于海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810608125.0A priority Critical patent/CN108806694A/zh
Publication of CN108806694A publication Critical patent/CN108806694A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C1/00Registering, indicating or recording the time of events or elapsed time, e.g. time-recorders for work people
    • G07C1/10Registering, indicating or recording the time of events or elapsed time, e.g. time-recorders for work people together with the recording, indicating or registering of other data, e.g. of signs of identity
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Abstract

本发明公开了一种基于声音识别的教学考勤方法,处理器利用语音识别中的声学模型深度神经网络对学生的声音信号进行分类,提取出说话人信息并用于提取DNN i‑vector进行答到学生语音的声纹识别,将识别出来的答到学生的声纹进行答到匹配,采用五个拾音器进行答到学生声源的空间定位,通过声源位置、声源朝向、声源音量大小判断学生是否在私自讲话,达到了考勤与课堂纪律监测的目的,采用遗传优化RBF神经网络结构,有效地克服了传统RBF网络难以确定基函数的中心和宽度的缺点,同时根据聚类问题的实际情况设计编码、交叉和变异算子,使得算法更快、更有效地收敛于全局最优解。

Description

一种基于声音识别的教学考勤方法
技术领域
本发明属于语音识别领域,尤其涉及一种基于声音识别的教学考勤方法。
背景技术
目前的考勤管理系统虽然跟以往签到方式相比有着明显的进步,但由于还是由有线数据的传输,需要布局布线以及线口对接等比较复杂的过程来完成,而且这样的工作方式不仅费时费力,浪费原材料,而且必须人为的来完成线路的管理以及数据的分析,所以能够把考勤信息远距离的无线传输和接收,实现低成本、高效率、无错化的考勤管理系统日趋成为了大家的迫切需要,目前市场上已经出现基于声纹信息的考勤系统,但是声音识别速度慢、不能有效地收敛于全局最优解,而且现有语音考勤系统不具备课上监测课堂纪律的功能。
发明内容
针对现有技术存在的问题,本发明提供了一种基于声音识别的教学考勤方法。
本发明是这样实现的,一种基于声音识别的教学考勤方法包括:
步骤一、采集老师点名的声音信号,对该原始信号采样量化,把原始语音信号转化成数字信号,对转换成数字信号后的语音信号进行预加重、取音框、加窗、去噪的预处理;
步骤二、对预加重后每帧序列进行离散FFT变换,取模的平方得到离散功率谱S(n),计算S(n)通过M个带通滤波器后得到的功率值Pm,计算Pm的自然对数,得到Lm,计算其离散余弦变换,得到Dm,舍去直流分量,得到MFCC参数,在数据库内查找与该MFCC参数信息匹配的相对应姓名的学生个人信息;
步骤三、多个拾音器获取答到学生的声音,并在数据库内查找该姓名的学生个人信息,对拾取的学生声音进行预处理,通过遗传算法获得基函数的中心以及隐含层单元的高斯函数的宽度,设计编码、交叉和变异算子,构建三层遗传优化RBF神经网络模型;
步骤四、处理器利用语音识别中的构建遗传优化RBF神经网络模型分别对该学生预处理后的声音信号的不同音素上的语音特征进行分类,在毎个音素子空间内实现对特征降维,提取出说话人信息并用于提取DNN i-vector进行答到学生语音的声纹识别;
步骤五、将识别出来的答到学生的声纹,与数据库中学生个人信息中的声纹信息进行匹配,若匹配相似程度超过预设值,则判断学生答到通过,若匹配相似程度不超过预设值,则向警报器发出报警信息;
步骤六、采用五个拾音器组成的阵列作为声源定位获取的耳朵,其中四个拾音器组成的平面阵确定声源空间位置,另外一个拾音器辅助完成声源位于拾音器前后方的判断,并通过改进的时延算法实现答到学生声源的空间定位,若答到学生的声源位置超出预设的教室范围,则判定学生迟到;
步骤七、教学过程中,拾音器实时获取教室内的声音,通过声纹识别识别出老师、学生声音,通过步骤六的声源位置确定方法确定老师声源及学生声源的位置及朝向,并计算相对应的老师及学生的声源的音量大小,通过声源位置、声源朝向、声源音量大小判断学生是否在私自讲话。
进一步,步骤七所述判断学生是否在私自讲话的具体方法为:
步骤一、若识别出学生的声音,则判断当前时间老师是否在发声,若老师在发声,则判断学生在私自讲话,记录在考勤中;
步骤二、若老师未发声,读取前n秒钟时间点时老师的声源的位置,根据学生声源的朝向,判断学生声音是否是否朝向老师,若不是朝向老师,则判定学生在课程上私自讲话,记录在考勤系统中;
步骤三、若学生声源朝向老师,则根据学生与老师位置的距离,判断声源音量大小是否在阈值内,若是,则判定学生在回答老师的问题,若不是,则判定学生在私自讲话,记录在考勤系统中。
进一步,步骤四所述语音的声纹识别方法如下:
步骤一、把原始语音信号转化成数字信号,使用一阶高通滤波器去除语音信号中多余的噪声,消除直流漂移,通过加重处理保留对特征参数有用的池音信号;
步骤二、语音信号的处理,取256个点作为一个32ms音框,对每个音框乘以汉明窗,消除音框两端的不连续性,采用低通滤波器去除噪声;
步骤三、采用基于似然概率的的加权投票法,根据不同语音帧与概率模型之间的似然概率取值,对每一帧语音进行加权;
步骤四、把不同地区及不同性别的声音片段映射到多维的特征空间,表征说话人个性特征的向量序列;
步骤五、采用RBM对DNN网络参数初始化,采用带有标签的训练数据对DNN网络进行监督的参数更新,在DNN训练中采用误差反向传递算法巧进行参数训练;
步骤六、在基于GMM的特征端因子分析中采用DNN替代GMM模型划分音素特征子空间,实现在每个子空间内对特征进行降维;
步骤七、对每个子空间内降维后的特征端因子与表征说话人个性特征的向量序列分别进行匹配。
进一步,所述声纹识别方法还包括构建不同地区及不同性别的语音信息数据库,将该语音数据库中的语音数据信息添加上地理区域信息标签和性别信息标签。
进一步,所述声纹识别方法还包括对每个子空间内降维后的特征端因子与带有地理区域信息标签和性别信息标签的表征说话人个性特征的向量序列分别进行匹配;将匹配后的特征端因子添加地理区域信息标签和性别信息标签,将DNN网络中该特征端因子参数更新,以性别信息标签的数据信息为基准进行声纹信息的匹配,以地理区域信息标签的数据信息为基准对匹配信息予以确认。
本发明将识别出来的答到学生的声纹,与数据库中学生个人信息中的声纹信息进行匹配,判断学生是否答到通过,通过声源位置、声源朝向、声源音量大小判断学生是否迟到、是否在私自讲话,达到考勤与课堂纪律监测的目的,采用遗传优化RBF神经网络结构,有效地克服了传统RBF网络难以确定基函数的中心和宽度的缺点,同时根据聚类问题的实际情况设计编码、交叉和变异算子,使得算法更快、更有效地收敛于全局最优解。
附图说明
图1是本发明实施例提供的基于声音识别的教学考勤方法流程图。
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下。
下面结合附图对本发明的结构作详细的描述。
一种基于声音识别的教学考勤方法包括:
S101、采集老师点名的声音信号,对该原始信号采样量化,把原始语音信号转化成数字信号,对转换成数字信号后的语音信号进行预加重、取音框、加窗、去噪的预处理;
S102、对预加重后每帧序列进行离散FFT变换,取模的平方得到离散功率谱S(n),计算S(n)通过M个带通滤波器后得到的功率值Pm,计算Pm的自然对数,得到Lm,计算其离散余弦变换,得到Dm,舍去直流分量,得到MFCC参数,在数据库内查找与该MFCC参数信息匹配的相对应姓名的学生个人信息;
S103、多个拾音器获取答到学生的声音,并在数据库内查找该姓名的学生个人信息,对拾取的学生声音进行预处理,通过遗传算法获得基函数的中心以及隐含层单元的高斯函数的宽度,设计编码、交叉和变异算子,构建三层遗传优化RBF神经网络模型;
第一层是输入层,由信号源结点组成;第二层为隐藏层,其节点数目根据所描述问题的需要而确定,该层中神经元变换函数即径向基函数是对中心点径向对称且衰减的非负线性函数;第三层为输出层,它对输入模式作出响应
①种群初始化
个体编码采用实数编码,每个个体均为一个实数串,仅对应RBF隐藏层中一个单元。在每一代中,包含了代表隐藏层单元数中心和宽度的字符串集合。
②适应度函数
根据个体得到的神经网络的初始隐层中心和宽度,用训练数据训练RBF神经网络后预测系统输出,把预测输出和期望输出之间的误差绝对值和E作为个体适应度值F,计算公式为:
式中,n为网络输出节点数,yi为第i个节点的期望输出;Oi为第i个节点预测输出,k为系数。这样选取的适应度函数比较直观地反映了每个个体性能的好与差。
③选择操作遗传算法性能会直接受到选择策略的影响,本实施例采用轮盘赌法的选择策略。每个个体i选择的概率pi为:
为适应度值,由于适应度值越小越好,所以在个体选择前对适应度值求倒数,N为种群个体数目。
④交叉和变异操作
交叉操作在遗传算法中起核心作用,遗传算法通过交叉操作,其搜索能力得以提高。由于本实施例的编码过程中是将RBF的中心和宽度编码放在同一个个体中,因此在交叉过程中必须对它们分别进行操作。按照一定的交叉概率随机地从群体中取出两个个体,对两个个体进行交叉,交叉点的位置不是无条件随机产生的,它们必须分别落在宽度和中心的编码中。
S104、处理器利用语音识别中的构建遗传优化RBF神经网络模型分别对该学生预处理后的声音信号的不同音素上的语音特征进行分类,在毎个音素子空间内实现对特征降维,提取出说话人信息并用于提取DNN i-vector进行答到学生语音的声纹识别;
S105、将识别出来的答到学生的声纹,与数据库中学生个人信息中的声纹信息进行匹配,若匹配相似程度超过预设值,则判断学生答到通过,若匹配相似程度不超过预设值,则向警报器发出报警信息;
S106、采用五个拾音器组成的阵列作为声源定位获取的耳朵,其中四个拾音器组成的平面阵确定声源空间位置,另外一个拾音器辅助完成声源位于拾音器前后方的判断,并通过改进的时延算法实现答到学生声源的空间定位,若答到学生的声源位置超出预设的教室范围,则判定学生迟到;
四个拾音器(M1~M4)布装在教室中间顶部位置,由N个拾音器组成的阵列可以得到N-1个时延,确定目标空间位置需要用3个时延确定3个位置参量,因此确定空间中的目标位置至少需要4个拾音器。所以选定由5个拾音器组成的阵列作为声源的定位阵列,其中4个拾音器组成的平面阵用来确定目标在空间中的位置,另外一个拾音器可以辅助判断目标在四个拾音器的前方还是后方。这样既可以实现空间定位,完成任务,计算量也不大,对于实现实时的定位有很大的帮助,声源定位有很多种算法,考虑到系统对实时实现要求较高,选择基于时延的定位方法;
S107、教学过程中,拾音器实时获取教室内的声音,通过声纹识别识别出老师、学生声音,通过步骤六的声源位置确定方法确定老师声源及学生声源的位置及朝向,并计算相对应的老师及学生的声源的音量大小,通过声源位置、声源朝向、声源音量大小判断学生是否在私自讲话。
在本发明实施例中,预先录入学生的音频信号并上传到云服务器的学生个人信息中,根据课程安排信息可知,每个时间段某教室上什么课程,教学老师是谁,学生班级、姓名等信息均可知。
步骤S107所述判断学生是否在私自讲话的具体方法为:
步骤一、若识别出学生的声音,则判断当前时间老师是否在发声,若老师在发声,则判断学生在私自讲话,记录在考勤中;
步骤二、若老师未发声,读取前n秒钟时间点时老师的声源的位置,根据学生声源的朝向,判断学生声音是否是否朝向老师,若不是朝向老师,则判定学生在课程上私自讲话,记录在考勤系统中;
步骤三、若学生声源朝向老师,则根据学生与老师位置的距离,判断声源音量大小是否在阈值内,若是,则判定学生在回答老师的问题,若不是,则判定学生在私自讲话,记录在考勤系统中。
步骤S104所述语音的声纹识别方法如下:
步骤一、把原始语音信号转化成数字信号,使用一阶高通滤波器去除语音信号中多余的噪声,消除直流漂移,通过加重处理保留对特征参数有用的池音信号;
步骤二、语音信号的处理,取256个点作为一个32ms音框,对每个音框乘以汉明窗,消除音框两端的不连续性,采用低通滤波器去除噪声;
步骤三、采用基于似然概率的的加权投票法,根据不同语音帧与概率模型之间的似然概率取值,对每一帧语音进行加权;
基于似然概率的加权投票法是针对识别算法中的语音帧似然概率融合提出的。语音帧的似然概率融合是识别算法中的重要一环,在识别算法中,声纹识别的主要的工作可分为两个阶段:训练阶段和识别阶段。训练阶段主要是根据每个说话人类别训练的特征样本估计出它的概率模型的参数。本文选择的是经典的高斯混合模型来作为概率模型,构建说话人概率模型的算法本质其实就是估计高斯混合模型的参数。在基于高斯混合模型的识别算法过程中,提取到语音帧基于梅尔倒谱系数的特征后,采用训练阶段建立的概率模型对其进行分类;
步骤四、把不同地区及不同性别的声音片段映射到多维的特征空间,表征说话人个性特征的向量序列,构建不同地区及不同性别的语音信息数据库,将该语音数据库中的语音数据信息添加上地理区域信息标签和性别信息标签;
步骤五、采用RBM对DNN网络参数初始化,采用带有标签的训练数据对DNN网络进行监督的参数更新,在DNN训练中采用误差反向传递算法巧进行参数训练;
DNN参数训练一般分成两个步骤:参数初始化和参数更新。前者负责对网络参数进行初始化,后者负责进一步对网络参数进行迭代更新。
在RBM-DBN模型中,DBN可看作是由多个RBM模型拼接在一起形成的。在训练时,DBN每一层之间作为一个RBM模型,进行从下向上逐层训练。底部RBM输入数据为原始语音特征,而上层RBM输入为前一层RBM的输出,每次只更新当前所处RBM层的参数。RBM是一个无监瞥的学习过程,因此DBN中不包含输出层。DBN是一种生成型概率模型,是由一系列RBM网络逐层训练得到;
步骤六、在基于GMM的特征端因子分析中采用DNN替代GMM模型划分音素特征子空间,实现在每个子空间内对特征进行降维;
步骤七、对每个子空间内降维后的特征端因子与带有地理区域信息标签和性别信息标签的表征说话人个性特征的向量序列分别进行匹配;
步骤八、将匹配后的特征端因子添加地理区域信息标签和性别信息标签,将DNN网络中该特征端因子参数更新,以性别信息标签的数据信息为基准进行声纹信息的匹配,以地理区域信息标签的数据信息为基准对匹配信息予以确认。
本发明在特征端因子分析中利用语音识别中的声学模型深度神经网络取代高斯混合模型,分别对不同音素上的语音特征进行分类然后在毎个音素子空间内实现对特征降维,提取出说话人信息并用于提取DNN i-vector。接着在基于DNN的说话人信息提取中,采用基于DNN的特征端因子分析,并在传统投票法的基础上提出了基于似然概率的加权融合,明显提高了声纹识别的准确性。
本发明将识别出来的答到学生的声纹,与数据库中学生个人信息中的声纹信息进行匹配,判断学生是否答到通过,通过声源位置、声源朝向、声源音量大小判断学生是否迟到、是否在私自讲话,达到考勤与课堂纪律监测的目的,采用遗传优化RBF神经网络结构,有效地克服了传统RBF网络难以确定基函数的中心和宽度的缺点,同时根据聚类问题的实际情况设计编码、交叉和变异算子,使得算法更快、更有效地收敛于全局最优解。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

Claims (5)

1.一种基于声音识别的教学考勤方法,其特征在于,该方法包括:
步骤一、采集老师点名的声音信号,对该原始信号采样量化,把原始语音信号转化成数字信号,对转换成数字信号后的语音信号进行预加重、取音框、加窗、去噪的预处理;
步骤二、对预加重后每帧序列进行离散FFT变换,取模的平方得到离散功率谱S(n),计算S(n)通过M个带通滤波器后得到的功率值Pm,计算Pm的自然对数,得到Lm,计算其离散余弦变换,得到Dm,舍去直流分量,得到MFCC参数,在数据库内查找与该MFCC参数信息匹配的相对应姓名的学生个人信息;
步骤三、多个拾音器获取答到学生的声音,并在数据库内查找该姓名的学生个人信息,对拾取的学生声音进行预处理,通过遗传算法获得基函数的中心以及隐含层单元的高斯函数的宽度,设计编码、交叉和变异算子,构建三层遗传优化RBF神经网络模型;
步骤四、处理器利用语音识别中的构建遗传优化RBF神经网络模型分别对该学生预处理后的声音信号的不同音素上的语音特征进行分类,在毎个音素子空间内实现对特征降维,提取出说话人信息并用于提取DNN i-vector进行答到学生语音的声纹识别;
步骤五、将识别出来的答到学生的声纹,与数据库中学生个人信息中的声纹信息进行匹配,若匹配相似程度超过预设值,则判断学生答到通过,若匹配相似程度不超过预设值,则向警报器发出报警信息;
步骤六、采用五个拾音器组成的阵列作为声源定位获取的耳朵,其中四个拾音器组成的平面阵确定声源空间位置,另外一个拾音器辅助完成声源位于拾音器前后方的判断,并通过改进的时延算法实现答到学生声源的空间定位,若答到学生的声源位置超出预设的教室范围,则判定学生迟到;
步骤七、教学过程中,拾音器实时获取教室内的声音,通过声纹识别识别出老师、学生声音,通过步骤六的声源位置确定方法确定老师声源及学生声源的位置及朝向,并计算相对应的老师及学生的声源的音量大小,通过声源位置、声源朝向、声源音量大小判断学生是否在私自讲话。
2.如权利要求1所述基于声音识别的教学考勤方法,其特征在于,步骤七所述判断学生是否在私自讲话的具体方法为:
步骤一、若识别出学生的声音,则判断当前时间老师是否在发声,若老师在发声,则判断学生在私自讲话,记录在考勤中;
步骤二、若老师未发声,读取前n秒钟时间点时老师的声源的位置,根据学生声源的朝向,判断学生声音是否是否朝向老师,若不是朝向老师,则判定学生在课程上私自讲话,记录在考勤系统中;
步骤三、若学生声源朝向老师,则根据学生与老师位置的距离,判断声源音量大小是否在阈值内,若是,则判定学生在回答老师的问题,若不是,则判定学生在私自讲话,记录在考勤系统中。
3.如权利要求1所述基于声音识别的教学考勤方法,其特征在于,步骤四所述语音的声纹识别方法如下:
步骤一、把原始语音信号转化成数字信号,使用一阶高通滤波器去除语音信号中多余的噪声,消除直流漂移,通过加重处理保留对特征参数有用的池音信号;
步骤二、语音信号的处理,取256个点作为一个32ms音框,对每个音框乘以汉明窗,消除音框两端的不连续性,采用低通滤波器去除噪声;
步骤三、采用基于似然概率的的加权投票法,根据不同语音帧与概率模型之间的似然概率取值,对每一帧语音进行加权;
步骤四、把不同地区及不同性别的声音片段映射到多维的特征空间,表征说话人个性特征的向量序列;
步骤五、采用RBM对DNN网络参数初始化,采用带有标签的训练数据对DNN网络进行监督的参数更新,在DNN训练中采用误差反向传递算法巧进行参数训练;
步骤六、在基于GMM的特征端因子分析中采用DNN替代GMM模型划分音素特征子空间,实现在每个子空间内对特征进行降维;
步骤七、对每个子空间内降维后的特征端因子与表征说话人个性特征的向量序列分别进行匹配。
4.如权利要求3所述基于声音识别的教学考勤方法,其特征在于,声纹识别方法还包括构建不同地区及不同性别的语音信息数据库,将该语音数据库中的语音数据信息添加上地理区域信息标签和性别信息标签。
5.如权利要求3所述基于声音识别的教学考勤方法,其特征在于,声纹识别方法还包括对每个子空间内降维后的特征端因子与带有地理区域信息标签和性别信息标签的表征说话人个性特征的向量序列分别进行匹配;将匹配后的特征端因子添加地理区域信息标签和性别信息标签,将DNN网络中该特征端因子参数更新,以性别信息标签的数据信息为基准进行声纹信息的匹配,以地理区域信息标签的数据信息为基准对匹配信息予以确认。
CN201810608125.0A 2018-06-13 2018-06-13 一种基于声音识别的教学考勤方法 Pending CN108806694A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810608125.0A CN108806694A (zh) 2018-06-13 2018-06-13 一种基于声音识别的教学考勤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810608125.0A CN108806694A (zh) 2018-06-13 2018-06-13 一种基于声音识别的教学考勤方法

Publications (1)

Publication Number Publication Date
CN108806694A true CN108806694A (zh) 2018-11-13

Family

ID=64085733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810608125.0A Pending CN108806694A (zh) 2018-06-13 2018-06-13 一种基于声音识别的教学考勤方法

Country Status (1)

Country Link
CN (1) CN108806694A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060692A (zh) * 2019-04-19 2019-07-26 山东优化信息科技有限公司 一种声纹识别系统及其识别方法
CN110378665A (zh) * 2019-06-13 2019-10-25 平安科技(深圳)有限公司 一种无纸化场景下的数据处理方法、装置、介质及电子设备
CN110544490A (zh) * 2019-07-30 2019-12-06 南京林业大学 一种基于高斯混合模型和空间功率谱特征的声源定位方法
CN111883175A (zh) * 2020-06-09 2020-11-03 河北悦舒诚信息科技有限公司 一种基于声纹库的油站服务质量提升方法
CN112383879A (zh) * 2020-11-17 2021-02-19 蔡如青 一种手机应用报警系统及方法
CN115174959A (zh) * 2022-06-21 2022-10-11 咪咕文化科技有限公司 视频3d音效设置方法及装置
CN116299179A (zh) * 2023-05-22 2023-06-23 北京边锋信息技术有限公司 一种声源定位方法、声源定位装置和可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104360315A (zh) * 2014-10-16 2015-02-18 河北工业大学 基于LabVIEW的麦克风阵列声源定位方法及装置
CN107146601A (zh) * 2017-04-07 2017-09-08 南京邮电大学 一种用于说话人识别系统的后端i‑vector增强方法
CN206696909U (zh) * 2017-05-17 2017-12-01 郑州大学 一种基于声纹识别的教室上课点名系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104360315A (zh) * 2014-10-16 2015-02-18 河北工业大学 基于LabVIEW的麦克风阵列声源定位方法及装置
CN107146601A (zh) * 2017-04-07 2017-09-08 南京邮电大学 一种用于说话人识别系统的后端i‑vector增强方法
CN206696909U (zh) * 2017-05-17 2017-12-01 郑州大学 一种基于声纹识别的教室上课点名系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘建等: "基于遗传优化RBF神经网络的声纹识别研究", 《信息技术》 *
张涛涛: "语音声纹密码验证技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060692A (zh) * 2019-04-19 2019-07-26 山东优化信息科技有限公司 一种声纹识别系统及其识别方法
CN110378665A (zh) * 2019-06-13 2019-10-25 平安科技(深圳)有限公司 一种无纸化场景下的数据处理方法、装置、介质及电子设备
CN110544490A (zh) * 2019-07-30 2019-12-06 南京林业大学 一种基于高斯混合模型和空间功率谱特征的声源定位方法
CN110544490B (zh) * 2019-07-30 2022-04-05 南京工程学院 一种基于高斯混合模型和空间功率谱特征的声源定位方法
CN111883175A (zh) * 2020-06-09 2020-11-03 河北悦舒诚信息科技有限公司 一种基于声纹库的油站服务质量提升方法
CN112383879A (zh) * 2020-11-17 2021-02-19 蔡如青 一种手机应用报警系统及方法
CN115174959A (zh) * 2022-06-21 2022-10-11 咪咕文化科技有限公司 视频3d音效设置方法及装置
CN115174959B (zh) * 2022-06-21 2024-01-30 咪咕文化科技有限公司 视频3d音效设置方法及装置
CN116299179A (zh) * 2023-05-22 2023-06-23 北京边锋信息技术有限公司 一种声源定位方法、声源定位装置和可读存储介质
CN116299179B (zh) * 2023-05-22 2023-09-12 北京边锋信息技术有限公司 一种声源定位方法、声源定位装置和可读存储介质

Similar Documents

Publication Publication Date Title
CN108806694A (zh) 一种基于声音识别的教学考勤方法
Schuller et al. The INTERSPEECH 2021 computational paralinguistics challenge: COVID-19 cough, COVID-19 speech, escalation & primates
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN105741832B (zh) 一种基于深度学习的口语评测方法和系统
Cheng et al. A call-independent and automatic acoustic system for the individual recognition of animals: A novel model using four passerines
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
CN108876951A (zh) 一种基于声音识别的教学考勤方法
CN106683661A (zh) 基于语音的角色分离方法及装置
CN110211594B (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
CN110310647A (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
CN111400469A (zh) 针对语音问答的智能生成系统及其方法
Casale et al. Multistyle classification of speech under stress using feature subset selection based on genetic algorithms
CN110309343A (zh) 一种基于深度哈希的声纹检索方法
Yücesoy et al. A new approach with score-level fusion for the classification of a speaker age and gender
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
Schröter et al. Segmentation, classification, and visualization of orca calls using deep learning
CN110473548B (zh) 一种基于声学信号的课堂交互网络分析方法
Liu Deep convolutional and LSTM neural networks for acoustic modelling in automatic speech recognition
Hou et al. Transfer learning for improving singing-voice detection in polyphonic instrumental music
Ng et al. Teacher-student training for text-independent speaker recognition
CN108629024A (zh) 一种基于声音识别的教学考勤方法
Benmachiche et al. Optimization learning of hidden Markov model using the bacterial foraging optimization algorithm for speech recognition
CN116434758A (zh) 声纹识别模型训练方法、装置、电子设备及存储介质
Andra et al. Contextual keyword spotting in lecture video with deep convolutional neural network
Segarceanu et al. Environmental acoustics modelling techniques for forest monitoring

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181113