CN110517694A - 一种教学场景说话人转换检测系统 - Google Patents

一种教学场景说话人转换检测系统 Download PDF

Info

Publication number
CN110517694A
CN110517694A CN201910839456.XA CN201910839456A CN110517694A CN 110517694 A CN110517694 A CN 110517694A CN 201910839456 A CN201910839456 A CN 201910839456A CN 110517694 A CN110517694 A CN 110517694A
Authority
CN
China
Prior art keywords
algorithm
audio
detection system
speaker
voice conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910839456.XA
Other languages
English (en)
Inventor
张文铸
杜远超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qingfan Technology Co Ltd
Original Assignee
Beijing Qingfan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qingfan Technology Co Ltd filed Critical Beijing Qingfan Technology Co Ltd
Priority to CN201910839456.XA priority Critical patent/CN110517694A/zh
Publication of CN110517694A publication Critical patent/CN110517694A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

本发明公开了一种教学场景说话人转换检测系统,包括语音录入模块,VAD模块,声音特征提取模块,说话人识别模块,输出模块组成。本发明运用语音信号处理及深度学习的方法对课堂上的语音音频数据进行处理,划分成不同说话人的音频区间,从而节约教学评价和课后复习的人力物力财力和时间;方便优化教育方法,提供更合理的学习资料。

Description

一种教学场景说话人转换检测系统
技术领域
本发明属于人工智能与语音处理领域,具体涉及一种教学场景说话人转换检测系统。
背景技术
随着科学技术越来越多的投入到教育领域,所有课堂活动会被记录,学生和教学组在课后可以通过观看课堂录制视频来进行复习课堂内容及教学评价等操作。在教学评价及学生课后复习的过程中,老师在课堂上所讲述的内容都是关键对象。但是课堂中不可避免的会出现学生发言,师生交流,自由讨论等环节,如果将这些环节不加筛选的送入到教学评价系统或学生复习资料中,就会造成大量的人力,物力,时间等资源的浪费。针对这一技术问题,本发明通过人工智能算法对课堂场景的音频进行语音处理,准确分割出不同人的说话时间区域,从而进一步找到课堂上的关键内容。
发明内容
本发明的目的在于克服以上存在的技术问题,提供一种教学场景说话人转换检测系统。
为实现上述目的,本发明采用如下的技术方案:
一种教学场景说话人转换检测系统,包括如下步骤:
S1:通过录音设备得到课堂上的语音信息,并转化成音频信号送入到服务器的数据库中;
S2:人工智能VAD模块根据所述音频信号将课堂音频按照有人说话和无人说话两个类别来进行分类;
S3:声音特征提取模块将步骤S2中所得到的有人说话部分的音频按照声音特征来计算出声音特征向量,进一步得到整段音频的声音特征矩阵;
S4:说话人识别模块根据步骤S3所得到的声音特征矩阵对音频按照说话人进行分类,得到老师说话区间及不同学生说话区间的类别;
S5:输出模块根据步骤S4所得到的分类类别获得老师讲话音频及学生讲话音频。
进一步地,所述人工智能VAD模块包括第一深度学习算法。
进一步地,所述声音特征提取模块包括小波变换算法、梅尔频率倒谱算法和第二深度学习算法,所述声音特征提取模具体是对音频按照固定长度及固定步长对音频进行裁剪,制作出每段的声音频谱矩阵,通过人工智能算法来得到每段音频的声音特征。
进一步地,所述第二深度学习算法包括LSTM算法、RNN算法和End-to-End损失函数算法。
进一步地,所述说话人识别模块包括第三深度学习算法。
进一步地,所述第三深度学习算法包括GRU算法、RNN算法和极大似然估计算法。
进一步地,所述录音设备为麦克风。
进一步地,所述步骤S4的分类方法为:首先,将当前帧的特征矩阵与上一帧特征矩阵做相似度计算,当相似度大于阈值时即判断当前帧说话人与上一帧说话人为同一说话人;若相似度小于阈值时,则计算当前帧之前出现过的说话人做相似度计算继续做阈值判断,阈值由当前帧与说话人上次说话相差帧数以及说话人说话段数决定;若相似度均不满足条件则判断当前帧数说话人为新一说话人。
本发明的有益效果:
本发明运用语音信号处理及深度学习的方法对课堂上的语音音频数据进行处理,划分成不同说话人的音频区间,从而节约教学评价和课后复习的人力物力财力和时间;方便优化教育方法,提供更合理的学习资料。
附图说明
图1:本发明工作总体流程图。
图2:本发明说话人识别模块结构框图。
具体实施方式
下面结合附图及实施例对本发明进行详细说明。
如图1所示,本发明包括语音录入模块,VAD模块,声音特征提取模块,说话人识别模块,输出模块组成。
语音录入模块即安放在教室内的录音设备,在上课期间自动启动运行,将课堂上的音频全部记录下来并传输给VAD模块,语音录入模块优选麦克风。
VAD模块的作用是将完整的课堂语音进行筛选,将无人说话部分,噪音及杂声部分去除,只保留清晰地有人说话部分来提取作为特征提取的输入。经过VAD模块可以大量提高后续模块的运行速度及准确率。这是因为VAD模块去除掉了干扰信息,干扰信息会严重影响后续对说话人识别的判断。
声音特征提取模块是利用机器学习的方法,对模型投入不同时间,不同场景的多个数据集进行训练。然后将有人说话部分的音频以250ms为区间长,50%的overlap概率进行分割,将分割后的每一小段音频投入到训练好的模型中得到一个长度为256的一维特征矩阵,特征矩阵即表示每一小段语音的音频特征。
说话人识别模块是根据之前步骤得到的声音特征矩阵进行分类,具体分类方法如图2所示,首先将当前帧的特征矩阵与上一帧特征矩阵做相似度计算,当相似度大于阈值时即判断当前帧说话人与上一帧说话人为同一说话人,若相似度小于阈值时则计算当前帧之前出现过的说话人做相似度计算继续做阈值判断,阈值由当前帧与说话人上次说话相差帧数以及说话人说话段数决定。若相似度均不满足条件则判断当前帧数说话人为新一说话人。
输出模块是得到课堂内老师讲话音频及学生讲话音频。
最后应说明的是:以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换;而一切不脱离本发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围中。

Claims (8)

1.一种教学场景说话人转换检测系统,其特征在于,包括如下步骤:
S1:通过录音设备得到课堂上的语音信息,并转化成音频信号送入到服务器的数据库中;
S2:人工智能VAD模块根据所述音频信号将课堂音频按照有人说话和无人说话两个类别来进行分类;
S3:声音特征提取模块将步骤S2中所得到的有人说话部分的音频按照声音特征来计算出声音特征向量,进一步得到整段音频的声音特征矩阵;
S4:说话人识别模块根据步骤S3所得到的声音特征矩阵对音频按照说话人进行分类,得到老师说话区间及不同学生说话区间的类别;
S5:输出模块根据步骤S4所得到的分类类别获得老师讲话音频及学生讲话音频。
2.根据权利要求1所述的教学场景说话人转换检测系统,其特征在于:所述人工智能VAD模块包括第一深度学习算法。
3.根据权利要求1所述的教学场景说话人转换检测系统,其特征在于:所述声音特征提取模块包括小波变换算法、梅尔频率倒谱算法和第二深度学习算法,所述声音特征提取模具体是对音频按照固定长度及固定步长对音频进行裁剪,制作出每段的声音频谱矩阵,通过人工智能算法来得到每段音频的声音特征。
4.根据权利要求3所述的教学场景说话人转换检测系统,其特征在于:所述第二深度学习算法包括LSTM算法、RNN算法和End-to-End损失函数算法。
5.根据权利要求1所述的教学场景说话人转换检测系统,其特征在于:所述说话人识别模块包括第三深度学习算法。
6.根据权利要求5所述的教学场景说话人转换检测系统,其特征在于:所述第三深度学习算法包括GRU算法、RNN算法和极大似然估计算法。
7.根据权利要求1所述的教学场景说话人转换检测系统,其特征在于:所述录音设备为麦克风。
8.根据权利要求1所述的教学场景说话人转换检测系统,其特征在于:所述步骤S4的分类方法为:首先,将当前帧的特征矩阵与上一帧特征矩阵做相似度计算,当相似度大于阈值时即判断当前帧说话人与上一帧说话人为同一说话人;若相似度小于阈值时,则计算当前帧之前出现过的说话人做相似度计算继续做阈值判断,阈值由当前帧与说话人上次说话相差帧数以及说话人说话段数决定;若相似度均不满足条件则判断当前帧数说话人为新一说话人。
CN201910839456.XA 2019-09-06 2019-09-06 一种教学场景说话人转换检测系统 Pending CN110517694A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910839456.XA CN110517694A (zh) 2019-09-06 2019-09-06 一种教学场景说话人转换检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910839456.XA CN110517694A (zh) 2019-09-06 2019-09-06 一种教学场景说话人转换检测系统

Publications (1)

Publication Number Publication Date
CN110517694A true CN110517694A (zh) 2019-11-29

Family

ID=68631182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910839456.XA Pending CN110517694A (zh) 2019-09-06 2019-09-06 一种教学场景说话人转换检测系统

Country Status (1)

Country Link
CN (1) CN110517694A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117173365A (zh) * 2023-08-07 2023-12-05 华中师范大学 基于声音ai模型的虚拟场景生成方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400580A (zh) * 2013-07-23 2013-11-20 华南理工大学 一种多人会话语音中的说话人重要程度估计方法
CN103530432A (zh) * 2013-09-24 2014-01-22 华南理工大学 一种具有语音提取功能的会议记录器及语音提取方法
CN103559882A (zh) * 2013-10-14 2014-02-05 华南理工大学 一种基于说话人分割的会议主持人语音提取方法
CN109256150A (zh) * 2018-10-12 2019-01-22 北京创景咨询有限公司 基于机器学习的语音情感识别系统及方法
CN110197665A (zh) * 2019-06-25 2019-09-03 广东工业大学 一种用于公安刑侦监听的语音分离与跟踪方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400580A (zh) * 2013-07-23 2013-11-20 华南理工大学 一种多人会话语音中的说话人重要程度估计方法
CN103530432A (zh) * 2013-09-24 2014-01-22 华南理工大学 一种具有语音提取功能的会议记录器及语音提取方法
CN103559882A (zh) * 2013-10-14 2014-02-05 华南理工大学 一种基于说话人分割的会议主持人语音提取方法
CN109256150A (zh) * 2018-10-12 2019-01-22 北京创景咨询有限公司 基于机器学习的语音情感识别系统及方法
CN110197665A (zh) * 2019-06-25 2019-09-03 广东工业大学 一种用于公安刑侦监听的语音分离与跟踪方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117173365A (zh) * 2023-08-07 2023-12-05 华中师范大学 基于声音ai模型的虚拟场景生成方法及系统

Similar Documents

Publication Publication Date Title
US11276407B2 (en) Metadata-based diarization of teleconferences
Schuller et al. The INTERSPEECH 2021 computational paralinguistics challenge: COVID-19 cough, COVID-19 speech, escalation & primates
CN112804400B (zh) 客服呼叫语音质检方法、装置、电子设备及存储介质
CN105405439B (zh) 语音播放方法及装置
US20190259388A1 (en) Speech-to-text generation using video-speech matching from a primary speaker
CN106503805A (zh) 一种基于机器学习的双模态人人对话情感分析系统及其方法
CN103700370A (zh) 一种广播电视语音识别系统方法及系统
CN107240047A (zh) 一种教学视频的学分评估方法和装置
CN109256150A (zh) 基于机器学习的语音情感识别系统及方法
CN107918821A (zh) 基于人工智能技术的教师课堂教学过程分析方法和系统
CN108172218A (zh) 一种语音建模方法及装置
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
CN102394062A (zh) 一种自动录音设备源识别的方法和系统
CN113840109B (zh) 一种课堂音视频智能笔记方法
CN111681143A (zh) 基于课堂语音的多维度分析方法、装置、设备及存储介质
CN111785275A (zh) 语音识别方法及装置
CN108806694A (zh) 一种基于声音识别的教学考勤方法
CN108876951A (zh) 一种基于声音识别的教学考勤方法
CN113592251B (zh) 一种多模态融合的教态分析系统
US20220157322A1 (en) Metadata-based diarization of teleconferences
CN109657096A (zh) 一种基于低学龄教学音视频的辅助统计报告生成方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN111460094A (zh) 一种基于tts的音频拼接优化的方法及其装置
CN110517694A (zh) 一种教学场景说话人转换检测系统
CN111968628B (zh) 一种用于语音指令捕捉的信号精确度调节系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191129

WD01 Invention patent application deemed withdrawn after publication