CN116866783A - 一种智慧教室音频控制系统、方法及存储介质 - Google Patents

一种智慧教室音频控制系统、方法及存储介质 Download PDF

Info

Publication number
CN116866783A
CN116866783A CN202311126948.7A CN202311126948A CN116866783A CN 116866783 A CN116866783 A CN 116866783A CN 202311126948 A CN202311126948 A CN 202311126948A CN 116866783 A CN116866783 A CN 116866783A
Authority
CN
China
Prior art keywords
information
audio
speaking
audio information
classroom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311126948.7A
Other languages
English (en)
Other versions
CN116866783B (zh
Inventor
唐武雷
廖劲光
陈海敏
王翠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Logansoft Technology Co ltd
Original Assignee
Guangzhou Logansoft Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Logansoft Technology Co ltd filed Critical Guangzhou Logansoft Technology Co ltd
Priority to CN202311126948.7A priority Critical patent/CN116866783B/zh
Publication of CN116866783A publication Critical patent/CN116866783A/zh
Application granted granted Critical
Publication of CN116866783B publication Critical patent/CN116866783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/03Connection circuits to selectively connect loudspeakers or headphones to amplifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请公开了一种智慧教室音频控制系统、方法及存储介质,该系统包括处理装置、成像装置、便携式扩音装置和至少两个全向音频装置,每个全向音频装置分别与处理装置相连,处理装置还分别与成像装置、便携式扩音装置相连;成像装置用于获取教室的全景信息;处理装置用于从多个第二用户对象中识别发言对象,接收多个第一音频信息并基于发言对象分离出第二音频信息;每个全向音频装置用于在第一预设范围内采集第一音频信息,在第二预设范围内播放第二音频信息;便携式扩音装置用于采集和播放第三音频信息。本申请通过识别发言对象并分离出发言对象的语音信号,从而实现在课堂讨论中对发言对象的声音智能化放大。

Description

一种智慧教室音频控制系统、方法及存储介质
技术领域
本申请涉及智慧教室技术领域,特别是涉及一种智慧教室音频控制系统、方法及存储介质。
背景技术
在教室里组织课堂学习小组进行讨论时,会将若干名学生聚集到一块并作为一个讨论小组。但在教室中,由于每个小组相距较远,老师在每次学生需要起立回答问题时都得走过去给发言学生传递话筒,以便使发言学生的回答声音放大,但在这种课堂回答的场景下,如果一堂课需要多次发言,那么老师需要走动繁琐,对老师而言也不方便,并且课堂时间有限,每次发言都需要等候几秒走动的时间,降低了对课堂时间的利用率。
发明内容
为了克服现有技术存在的缺陷与不足,本申请提出了一种智慧教室音频控制系统、方法及存储介质,本申请通过设置多个全向音频装置以分别获取每个讨论小组的第一音频信息,进而通过对课堂时的发言情况识别出发言对象,进而对发言对象所在的讨论小组的第一音频信息中分离出发言对象的语音信号,从而实现在课堂中针对学生发言场景实现智能化放大的效果,避免的传递话筒带来的不便,也提高了课堂时间的利用率。
根据本申请的一个方面,提供了一种智慧教室音频控制系统,包括处理装置、成像装置、便携式扩音装置和至少两个全向音频装置,每个全向音频装置分别与所述处理装置相连,所述处理装置还分别与所述成像装置、所述便携式扩音装置相连;
所述成像装置用于获取教室的全景信息,所述全景信息为包含第一用户对象和多个第二用户对象的视频帧序列;
每个全向音频装置用于在第一预设范围内采集第一音频信息,在第二预设范围内播放第二音频信息;
所述处理装置用于从多个第二用户对象中识别发言对象,接收多个所述第一音频信息,将对应所述发言对象所在讨论小组的第一音频信息确定为待处理音频信息,并基于发言对象从所述待处理音频信息中分离出所述第二音频信息,并将所述第二音频信息发送至所有的全向音频装置;
所述便携式扩音装置用于采集和播放第三音频信息;
其中,每个第一音频信息包括小组标识信息和对应该小组标识信息的语音信号,所述第二音频信息为对应发言对象的语音信号,所述发言对象为处于课堂发言状态的第二用户对象,所述第三音频信息为对应所述第一用户对象的语音信号。
优选地,每个全向音频装置间隔设置,以使在任意相邻的两个全向音频装置中,任一个全向音频装置的第一预设范围和相应的全向音频装置的第二预设范围互不重叠。
根据本申请的另一个方面,提供了一种智慧教室音频控制方法,应用于上述的智慧教室音频控制系统,所述方法在所述处理装置中执行,所述方法包括:
获取所述全景信息;
基于所述全景信息从多个第二用户对象中识别发言对象,以确定身份标识信息;
根据所述身份标识信息从第一映射关系中确定小组标识信息,所述第一映射关系用于将身份标识信息和相应的小组标识信息形成匹配映射;
基于所述小组标识信息从多个第一音频信息中确定所述第二音频信息;
发送所述第二音频信息。
优选地,在基于所述全景信息从多个第二用户对象中识别发言对象中,包括:
根据指定帧数从所述全景信息中获得待识别图像帧序列;
将所述待识别图像帧序列输入至发言状态模型中以识别出发言对象,所述发言状态模型为预先使用多组数据通过机器学习训练得出,在训练时,多组数据包括多个人像图像帧序列和对应人像图像帧序列的课堂发言状态标识信息;
提取发言对象的人脸特征,并计算与每个第二用户对象的预存人脸特征之间的相似度;
将相似度最大并且大于第一预设阈值的结果所对应的第二用户对象匹配为发言对象;
基于第二映射关系确定所述发言对象的身份标识信息,其中所述第二映射关系用于将每个预存人脸特征和相应的身份标识信息进行匹配映射。
优选地,在基于所述小组标识信息从多个第一音频信息中确定所述第二音频信息中,包括:
基于所述小组标识信息确定待处理音频信息,所述待处理音频信息为对应所述发言对象所在讨论小组的第一音频信息,所述待处理音频信息为混叠语音信号的形式;
基于已训练的语音分离模型将所述待处理音频信息分离出多个重建语音信号,即对应该讨论小组的所有组员的语音信号;
基于声纹识别模型从所述多个重建语音信号中识别所述第二音频信息。
优选地,所述语音分离模型为预先使用多组数据通过机器学习训练得出,在训练时,多组数据包括多个小组混叠语音样本和对应每个小组混叠语音样本的多个组员语音信号,所述小组混叠语音样本为通过该讨论小组所有的组员语音信号混叠得到。
优选地,在基于声纹识别模型从所述多个重建语音信号中识别所述第二音频信息中,包括:
根据身份标识信息从第三映射关系中获取声纹参考信息,所述第三映射关系用于将身份标识信息和相应的声纹信息形成匹配映射;
分别对多个重建语音信号提取相应的待识别声纹信息;
基于所述声纹参考信息进行计算与每个待识别声纹信息之间的相似度;
将相似度最大并且大于第二预设阈值的待识别声纹信息筛选出来,以用于将筛选的重建语音信号判断为所述第二音频信息。
优选地,在基于所述小组标识信息从多个第一音频信息中确定所述第二音频信息中,还包括:
基于所述全景信息识别所述第一用户对象,以检测第一用户对象的位置信息;
基于所述全景信息确定每个全向音频装置的位置中心的坐标信息;
比较所述第一预设范围和所述第二预设范围并以较大的确定为预警范围;
基于所述预警范围在所述全景信息中为每个全向音频装置的位置中心的坐标信息构建出多个预警区;
响应于所述第一用户对象的位置信息与所述多个预警区重叠,将所述发言对象的语音信号输入至已训练的啸叫抑制模型中,进而实现啸叫预处理;
其中,所述啸叫抑制模型为预先使用多组数据通过机器学习训练得出,在训练时,多组数据包括多个纯净语音样本和对应该纯净语音样本的混合语音样本,每个混合语音样本具体为基于对应的纯净语音样本进行掺杂啸叫信号得到。
优选地,还包括:
响应于存在至少两个第二用户对象处于课堂发言状态时,将处于课堂发言状态的第二用户对象都确定为待发言对象;
基于所述第三音频信息进行提取发言指定文本信息;
基于用户名字列表从所述发言指定文本信息中匹配出指定对象的名字信息,将所述指定对象的名字信息对应的第二用户对象确定为发言对象;
其中,每个预存人脸特征还与名字信息匹配,所述指定对象的名字信息用于查询发言对象的预存人脸特征。
根据本申请的另一个方面,提供了一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行上述的智慧教室音频控制方法。
本申请与现有技术相比,具有如下优点和有益效果:
(1)通过在每个讨论小组中设置一个全向音频装置,以获取到所有讨论小组的语音信号,通过处理装置从多个第二用户对象中识别发言对象并分离出第二音频信息,从而实现在课堂讨论时对发言对象的声音的自适应放大。
(2)通过对每个全向音频装置进行间隔设置,以避免任意相邻的两个全向音频装置在各自的第一预设范围或第二预设范围内出现重叠范围,通过将任意相邻的两个全向音频装置分隔开,实现被动抑制啸叫的效果。
(3)通过第一映射关系、第二映射关系以及第三映射关系来将身份标识信息、相应的小组标识信息、相应的预存人脸特征、相应的声纹信息形成映射联系,使得学生在课堂讨论中能够被识别为发言对象,结合人脸特征和声纹信息对发言对象的语音信号分离,使得对课堂讨论时的发言声音进行自适应地放大,提高了课堂讨论的质量;进一步地,还通过对第一用户对象的位置信息与多个预警区的重叠判断,来提前预判啸叫现象的触发情况,并通过啸叫抑制模型实现啸叫预处理,达到提前规避啸叫的效果,提高了课堂讨论场景下的课堂质量,避免啸叫现象打断课堂节奏。
(4)通过对第三音频信息提取出指定学生的名字信息,进而确定出真正的发言对象,避免了课堂讨论时因多个学生同时站起来发言导致的混乱发言情况,使得课堂讨论顺利地继续进行,提高了课堂讨论场景下的课堂效果。
附图说明
图1为本申请一实施例中的智慧教室音频控制系统的框图;
图2为本申请一实施例中的全向音频装置的框图;
图3为本申请一实施例中的便携式扩音装置的框图;
图4为本申请一实施例中的智慧教室音频控制方法的流程示意图;
图5为本申请一实施例中识别发言对象的步骤示意图;
图6为本申请一实施例中确定第二音频信息的步骤示意图;
图7为本申请一实施例中识别第二音频信息的步骤示意图;
图8为本申请一实施例中发送第二音频信息的步骤示意图;
图9为本申请一实施例中的终端的框图;
图10为本申请一实施例中的计算机设备的框图。
附图标记:100、智慧教室音频控制系统;110、处理装置;120、成像装置;130、便携式扩音装置;131、第二全向拾音模块;132、第二扬声模块;
133、第二控制模块;134、第二通信模块;140、全向音频装置;141、第一全向拾音模块;142、第一扬声模块;143、第一控制模块;144、第一通信模块。
具体实施方式
在本公开的描述中,需要说明的是,下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。应当理解,本公开的方法实施方式中记载的各个步骤可以按和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
实施例
实施例
如图1所示,本实施例提供了一种智慧教室音频控制系统100,该系统包括处理装置110、成像装置120、便携式扩音装置130和至少两个全向音频装置140,每个全向音频装置140分别与处理装置110相连,处理装置110还分别与成像装置120、便携式扩音装置130相连;
成像装置120用于获取教室的全景信息,全景信息为包含第一用户对象和多个第二用户对象的视频帧序列;
例如,成像装置120采用全景相机。例如,全景相机所采集到的图像信息可以是连续图像帧序列(即,视频流)或离散图像帧序列(即,在预定采样时间点采样到的图像数据组)等。另外,其可以用于捕捉灰度图,也可以捕捉带有颜色信息的彩色图。当然,本领域中已知的以及将来可能出现的任何其他类型的相机都可以应用于本申请,本申请对其捕捉图像的方式没有特别限制,只要能够获得输入图像的灰度或颜色信息即可。为了减小后续操作中的计算量,可以在进行分析和处理之前,将彩色图进行灰度化处理。
每个全向音频装置140用于在第一预设范围内采集第一音频信息,在第二预设范围内播放第二音频信息;例如,第一预设范围为预先设置对语音信号进行采集的范围,第二预设范围为预先设置对语音信号进行播放的范围,由于硬件(拾音器或扬声器)都是确定的,所以在应用时第一预设范围和第二预设范围均为根据实际硬件所预先设置的。
处理装置110用于从多个第二用户对象中识别发言对象,接收多个第一音频信息,将对应发言对象所在讨论小组的第一音频信息确定为待处理音频信息,并基于发言对象从待处理音频信息中分离出第二音频信息,并将第二音频信息发送至所有的全向音频装置140;
便携式扩音装置130用于采集和播放第三音频信息;
其中,每个第一音频信息包括小组标识信息和对应该小组标识信息的语音信号,第二音频信息为对应发言对象的语音信号,发言对象为处于课堂发言状态的第二用户对象,第三音频信息为对应第一用户对象的语音信号,即老师的音频帧序列。
示例性地,在第一音频信息中,可以按小组ID号作为小组标识信息,以小组音频帧序列作为对应该小组标识信息的语音信号。实际应用时,第一用户对象为老师,第二用户对象为学生。
实际应用时,教室内分配了多个讨论小组,每个小组标识信息与全向音频装置进行唯一绑定,在每个讨论小组中通过设置一个全向音频装置,以获取到所有讨论小组的语音信号,通过处理装置从多个第二用户对象中识别发言对象并分离出第二音频信息,从而实现课堂讨论时对发言对象的声音的自适应放大。
在本实施例中,每个全向音频装置140间隔设置,以使在任意相邻的两个全向音频装置140中,任一个全向音频装置140的第一预设范围和相应的全向音频装置的第二预设范围互不重叠。实际应用时,通过将任意相邻的两个全向音频装置140分隔开,从而实现采用被动抑制的方式来避免啸叫现象。
结合图2所示,在每个全向音频装置140中,设置有第一全向拾音模块141、第一扬声模块142、第一控制模块143以及第一通信模块144,第一控制模块143分别与第一全向拾音模块141、第一扬声模块142、第一通信模块144连接,第一通信模块144与处理装置110相连,第一通信模块144用于发送第一音频信息、接收第二音频信息,第一全向拾音模块141用于采集所属讨论小组的第一音频信息,第一扬声模块142用于播放第二音频信息,第一控制模块143用于控制第一通信模块以发送第一音频信息、接收第二音频信息;
结合图3所示,便携式扩音装置130包括第二全向拾音模块131、第二扬声模块132、第二控制模块133以及第二通信模块134,第二控制模块133分别与第二全向拾音模块131、第二扬声模块132、第二通信模块133连接,第二通信模块134与处理装置110相连,第二通信模块133用于接收第二音频信息,第二全向拾音模块131用于采集第三音频信息,第二扬声模块132用于播放第三音频信息,第二控制模块133用于控制第二通信模块134以接收第二音频信息。
实施例
如图4所示,本实施例提供了一种智慧教室音频控制方法,该方法应用于上述实施例中的智慧教室音频控制系统,该方法在处理装置中执行,该方法包括以下步骤:
S1000、获取全景信息;
S2000、基于全景信息从多个第二用户对象中识别发言对象,以确定身份标识信息;
结合图5所示,在基于全景信息从多个第二用户对象中识别发言对象中,包括:
S2100、根据指定帧数从全景信息中获得待识别图像帧序列;
在本实施例中,执行主体为处理装置,且该处理装置具体为用于数据处理和分析的服务器,全景信息为包含第一用户对象和多个第二用户对象的视频帧序列,即对应老师和多个学生的视频帧序列,通过设置指定帧数以获取待识别图像帧序列,由于待识别图像帧序列为一段时间内的帧序列,通过观察待识别图像帧序列可以看出当前教室的课堂情况。
S2200、将待识别图像帧序列输入至发言状态模型中以识别出发言对象,发言状态模型为预先使用多组数据通过机器学习训练得出,在训练时,多组数据包括多个人像图像帧序列和对应人像图像帧序列的课堂发言状态标识信息。
S2300、提取发言对象的人脸特征,并计算与每个第二用户对象的预存人脸特征之间的相似度;
在本实施例中,每个预存人脸特征存储在人脸数据库内,每个预存人脸特征分别对应有唯一一个身份标识信息,通过比较人脸特征之间的相似度来实现人脸的匹配。
S2400、将相似度最大并且大于第一预设阈值的结果所对应的第二用户对象匹配为发言对象;
在本实施例中,当逐一比较相似度后,当相似度最大并且大于第一预设阈值时,该结果为匹配成功的情况,即找到发言对象所对应的第二用户对象。
S2500、基于第二映射关系确定发言对象的身份标识信息。
在本实施例中,第二映射关系为预先构建且用于将每个预存人脸特征和相应的身份标识信息进行匹配映射;
示例性地,根据包含发言对象的图像信息,可以确定发言对象的身份标识信息,该身份标识信息可以是预先为发言对象设置好的,例如可以使用学生学号、身份证号等唯一标识号。
S3000、根据身份标识信息从第一映射关系中确定小组标识信息;
在本实施例中,第一映射关系为预先构建并用于将身份标识信息和相应的小组标识信息形成匹配映射;
S4000、基于小组标识信息从多个第一音频信息中确定第二音频信息;
在本实施例中,根据小组标识信息可以确定出发言对象所属的讨论小组,从而避免加入因其他讨论小组带来的噪声干扰,该噪声干扰至少包括除当前所属的讨论小组以外的其他讨论组出现组员讨论的杂音,同时也减少了处理时的数据复杂度。
结合图6所示,在基于小组标识信息从多个第一音频信息中确定第二音频信息中,包括:
S4100、基于小组标识信息确定待处理音频信息,待处理音频信息为混叠语音信号并对应发言对象所在讨论小组的第一音频信息;
在本实施例中,待处理音频信息至少混叠了对应该发言对象的单一语音信号和相应讨论小组中对应其余第二用户对象的多个单一语音信号。示例性地,以教室中一个讨论小组为例,由于使用了全向拾音模块,使得在获取第一音频信息时,除了含有发言对象的声音,还可能夹杂了其余组员的声音。
在本实施例中,在基于小组标识信息确定待处理音频信息时,还包括:对待处理音频信息进行语音预处理,语音预处理包括噪音去除和静音切除。
实际应用时,通过语音预处理将待处理音频信息中的无关信号去除,以使语音信号更清晰。
示例性地,噪音去除具体为对混叠语音信号进行分帧、加窗和降噪。示例性地,分帧为将连续的语音信号分成若干个短时段,以每个短时段为一帧,从而方便后续对每一帧进行单独的处理。示例性地,加窗为在每一帧上加上一个窗函数,以减少频谱泄漏等问题,同时减小相邻帧之间的干扰。示例性地,降噪用于去除其中的噪声成分,常用的降噪方法包括基于谱减法的方法、基于小波变换的方法等。本领域技术人员可以根据实际情况设置具体的语音预处理,本实施例在此不做限定。
示例性地,静音切除可以使用基于能量阈值的方法,即通过检测语音信号的能量大小来判断是否为有效信号,从而实现静音切除;静音切除还可以使用基于谱减法的方法,即通过对语音信号的频谱进行减法运算,去除掉无意义声音的频谱成分;静音切除还可以使用基于小波变换的方法,即通过对语音信号进行小波分解,得到不同频率下的子带信号,然后根据阈值将低能量的子带信号去除掉,从而实现静音切除。
S4200、基于已训练的语音分离模型将待处理音频信息分离出多个重建语音信号,即对应该讨论小组的所有组员的语音信号。
语音分离模型为预先使用多组数据通过机器学习训练得出,在训练时,多组数据包括多个小组混叠语音样本和对应每个小组混叠语音样本的多个组员语音信号,小组混叠语音样本为通过该讨论小组所有的组员语音信号混叠得到,每个组员语音信号均为单一语音信号。
还需要说明的是,实际应用时,由于本申请的应用场景中仅需识别出班级内的学生、老师,而无需处理应对陌生人的情况,因此语音分离模型仅需使用到涉及班级学生的样本数据即可,组员语音信号可以在开学自我介绍时单采集语音信号的情况下收集。
示例性地,在使用机器学习训练的过程中,语音分离模型具体采用Conv-TasNet模型,该Conv-TasNet模型包括编码器、分离模块以及解码器;
其中,编码器用于提取待处理音频信息中的STFT特征;
分离网络用于基于STFT特征生成掩码特征,其中掩码特征对应为当前讨论小组的所有第二用户对象,并且掩码特征用于与STFT特征进行乘积以得到分离特征;
解码器用于基于分离特征进行信号重建以输出多个重建语音信号,其中多个重建语音信号分别对应各组员的语音信号。
实际应用时,编码器利用一维卷积替换掉STFT对时域的波形点进行编码,用网络去学习编码参数,即STFT特征。分离模块使用TCN结构,并利用编码器编码出来的特征作为输入,分离模块的输出为类似频域上的掩码特征,最后与编码器的输出进行乘积得到最终的分离特征。解码器,利用转置一维卷积将分离特征进行信号重建以解码得到分离后的重建语音信号。
S4300、基于声纹识别模型从多个重建语音信号中识别第二音频信息。
结合图7所示,在基于声纹识别模型从多个重建语音信号中识别第二音频信息中,包括:
S4310、根据身份标识信息从第三映射关系中获取声纹参考信息,第三映射关系为预先构建并用于将身份标识信息和相应的声纹信息形成匹配映射;
S4320、分别对多个重建语音信号提取相应的待识别声纹信息;
S4330、基于声纹参考信息进行计算与每个待识别声纹信息之间的相似度;
S4340、将相似度最大并且大于第二预设阈值的待识别声纹信息筛选出来,以用于将筛选的重建语音信号判断为第二音频信息。
示例性地,声纹参考信息和待识别声纹信息在应用时具体可以是采用相同类型的声纹特征。其中,声纹(Voiceprint)是用电声学仪器显示的携带言语信息的声波频谱。相应地,声纹特征包括但不限于与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等。还需要说明的是,本实施例采用声学特征中的任一种作为声纹特征,以避免发言对象在发言时因缺少鼻音、深呼吸音、沙哑音、笑声等情况而影响识别效果。
S5000、发送第二音频信息。
结合图8所示,在发送第二音频信息中,包括:
S5100、根据小组标识信息分别将第二音频信息发送至相应的全向音频装置;
示例性地,每个小组标识信息与一个全向音频装置唯一对应,根据小组标识信息可以让指定的全向音频装置输出第二音频信息,使得教室内不同讨论小组都能够听到发言对象的发言内容。
S5200、将第二音频信息发送至便携式扩音装置。
实际应用时,老师上课时在教室内走动,便携式扩音装置随着老师的位置移动,从而第二音频信息也能随着便携式扩音装置移动而播放。
实施例
本实施例3提供了一种智慧教室音频控制方法,为在实施例2中提供的智慧教室音频控制方法的基础上进行改进,具体针对老师走动时引发的啸叫现象进行改进。结合图6所示,该方法在基于小组标识信息从多个第一音频信息中确定第二音频信息中,还包括:
S4400、基于全景信息识别第一用户对象,以检测第一用户对象的位置信息;
示例性地,此处识别第一用户对象也跟识别发言对象类似,通过与第一用户对象的预存人脸特征进行相似度比较,进而匹配第一用户对象完成识别过程,在匹配成功时检测第一用户对象在图像中的位置并通过构建目标边界框来确定位置信息。示例性地,老师的位置信息可以使用目标边界框的区域坐标信息,即利用目标边界框的像素点位置坐标表示老师在全景信息中的检测位置。
S4500、基于全景信息确定每个全向音频装置的位置中心的坐标信息;
示例性地,此处可以利用全向音频装置检测模型进行识别,该全向音频装置检测模型为预先使用多组数据通过机器学习训练得出,在训练时,多组数据包括多个包含至少一个全向音频装置的教室图像样本和对应该教室全景图像样本的全向音频装置的位置标识信息。
S4600、比较第一预设范围和第二预设范围并以较大的确定为预警范围;
S4700、基于预警范围在全景信息中为每个全向音频装置的位置中心的坐标信息构建出多个预警区;
示例性地,以较大的范围作为预警范围,并以此构建预警区。例如,预警区以一个全向音频装置的位置中心按预警范围构建出一个圆周区域。当老师随身携带便携式扩音装置时,需要随时走动以监督学生上课情况,此时可能不小心走进全向音频装置的采集和传播范围,导致全向音频装置和便携式扩音装置分别产生正反馈,进而引发啸叫现象。本实施例通过设置预警区,利用图像识别确定啸叫处理的判定距离,以通过预处理来消除啸叫现象。
S4800、响应于第一用户对象的位置信息与多个预警区重叠,将发言对象的语音信号输入至已训练的啸叫抑制模型中,进而实现啸叫预处理;
其中,啸叫抑制模型为预先使用多组数据通过机器学习训练得出,在训练时,多组数据包括多个纯净语音样本和对应该纯净语音样本的混合语音样本,每个混合语音样本具体为基于对应的纯净语音样本进行掺杂啸叫信号得到。
实际应用时,以纯净语音样本或混合语音样本为输入,以纯净语音样本作为期望值,从而通过训练建立起混合语音信号与纯净语音信号之间的映射关系。
在本实施例中,通过判断第一用户对象的目标边界框的像素点位置坐标是否在每个预警区对应的圆周区域内来确定是否重叠,本实施例通过设置预警区来提前预判啸叫现象的触发情况,并通过啸叫抑制模型实现啸叫预处理,以提前规避啸叫。
示例性地,通过把啸叫信号和纯净语音信号混合得到的声信号作为训练样本,最终训练出能够抑制啸叫的啸叫抑制模型。例如,首先获得掺杂啸叫信号的混合声信号作为输入数据,再对混合声信号提取语音特征,根据期望声信号的不同提取不同的特征,可以使用的特征包括时频特征、频谱、梅尔倒谱(MFCC)、Gamma倒谱(GFCC)等特征,之后建立网络模型,网络模型可以使用例如LSTM、GRU等RNN系列模型,最后对网络模型进行训练得到一个可以将混合声信号映射为纯净语音信号的网络模型,即啸叫抑制模型。
在本实施例中,为了实现啸叫预处理,还可以采用传统的消除方案,包括啸叫检测和啸叫抑制。示例性地,在啸叫检测中,可以计算峰值阈值功率比,通过设置啸叫判决阈值,当峰值阈值功率比超过啸叫判决阈值的频点时,才会进行啸叫检测,减少无意义的检测判决;示例性地,啸叫检测还可以利用IPMP时域特征进行检测,如果连续几帧都超过检测出来的预设啸叫峰值,则判断为啸叫点,此外还可以选定指定的帧数,如6帧,当超过3帧判断为预设啸叫峰值的位置时,判定为啸叫点;
示例性地,在啸叫抑制中,响应于啸叫检测成功,采用自适应滤波器进行滤波处理,以满足在教室里组织课堂学习小组进行讨论时对扩声的需求,同时避免啸叫现象。
实施例
本实施例4提供了一种智慧教室音频控制方法,为在实施例2或3中提供的智慧教室音频控制方法的基础上进行改进,具体针对存在至少两个发言学生被识别出来的情况进行改进,此时通过识别和确定出指定对象,并以指定对象作为真正的发言对象,进而完成智能化放大的效果。
结合图4所示,该方法还包括:
S6000、响应于存在至少两个第二用户对象处于课堂发言状态时,将处于课堂发言状态的第二用户对象都确定为待发言对象;示例性地,至少两名学生起立说话均被识别出处于课堂发言状态,此时无法确定真正的发言对象,因此都确定为待发言对象,等待确定真正的发言对象后,再完成后续例如分离发言对象的语音信号等过程。
S7000、基于第三音频信息进行提取发言指定文本信息,其中发言指定文本信息包含指定对象的名字信息;具体地,将第三音频信息转换成文本信息,对文本信息进行关键字提取以获得发言指定文本信息。
实际应用时,在将第三音频信息转换成文本信息中,可以利用语音识别技术,即一种模式识别技术,包括特征提取、模式匹配、参考模式库等三个基本过程,通过语音识别技术将第三音频信息转为文本信息,该文本信息具体可以是文字。示例性地,采用NLP技术将第三音频信息转换成文字,并对文字进行基于语义分析的关键字提取,关键词可以是“发言”、“回答”、“答”等发言类关键词,那么发言指定文本信息可以是老师让发言学生回答问题前说出的话,比如含有“XX发言”、“XX回答一下”、“XX答一下”等文本内容。
S8000、基于用户名字列表从发言指定文本信息中匹配出指定对象的名字信息,将指定对象的名字信息对应的第二用户对象确定为发言对象,进而通过上述S3000至S5000步骤对该发言对象完成播放第二音频信息的过程,其中,每个预存人脸特征还与名字信息匹配,以使人脸数据库中的每个身份标识信息都对应一个预存人脸特征和名字信息,指定对象的名字信息用于查询发言对象的预存人脸特征,用户名字列表包含所有第二用户对象的名字信息。
示例性地,通过遍历用户名字列表并依次从发言指定文本信息中进行匹配,直至匹配成功以确定指定对象的名字信息,即在匹配时利用正则表达式来过匹配用户名字列表是否含有当前用户名字列表所遍历的名字。当名字信息匹配成功后,基于名字信息在人脸数据库查询预存人脸特征,即能够获得真正的发言对象的预存人脸特征并拿来作为人脸匹配时的参考特征,通过该预存人脸特征与待发言对象的人脸特征进行相似度比较,将相似度最大并且大于第一预设阈值的结果视为人脸匹配成功的结果,从而完成从至少两个待发言对象中确定发言对象。
实际应用时,基于第三音频信息确定发言对象,避免了课堂讨论时多个学生同时站起来发言的混乱情形,通过提取出老师指定的学生名字,使得发言对象唯一且确定,使得课堂讨论顺利地按照老师的节奏继续进行,提高了课堂讨论场景下的课堂效果。
实施例
如图9所示,本实施例提供了一种终端,包括:至少一个存储器和至少一个处理器;其中,至少一个存储器用于存储程序代码,至少一个处理器用于调用至少一个存储器所存储的程序代码执行上述实施例中的任一种智慧教室音频控制方法。
实施例
本实施例提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库为物理层用于存储各种数据库。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种智慧教室音频控制方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
实施例
本实施例提供了一种存储介质,该存储介质用于存储程序代码,该程序代码用于执行上述实施例中的任一智慧教室音频控制方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
上述实施例为本申请较佳的实施方式,但本申请的实施方式并不受上述实施例的限制,其他的任何未背离本申请的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本申请的保护范围之内。

Claims (10)

1.一种智慧教室音频控制系统,其特征在于,包括处理装置、成像装置、便携式扩音装置和至少两个全向音频装置,每个全向音频装置分别与所述处理装置相连,所述处理装置还分别与所述成像装置、所述便携式扩音装置相连;
所述成像装置用于获取教室的全景信息,所述全景信息为包含第一用户对象和多个第二用户对象的视频帧序列;
每个全向音频装置用于在第一预设范围内采集第一音频信息,在第二预设范围内播放第二音频信息;
所述处理装置用于从多个第二用户对象中识别发言对象,接收多个所述第一音频信息,将对应所述发言对象所在讨论小组的第一音频信息确定为待处理音频信息,并基于发言对象从所述待处理音频信息中分离出所述第二音频信息,并将所述第二音频信息发送至所有的全向音频装置;
所述便携式扩音装置用于采集和播放第三音频信息;
其中,每个第一音频信息包括小组标识信息和对应该小组标识信息的语音信号,所述第二音频信息为对应发言对象的语音信号,所述发言对象为处于课堂发言状态的第二用户对象,所述第三音频信息为对应所述第一用户对象的语音信号。
2.根据权利要求1所述的智慧教室音频控制系统,其特征在于,每个全向音频装置间隔设置,以使在任意相邻的两个全向音频装置中,任一个全向音频装置的第一预设范围和相应的全向音频装置的第二预设范围互不重叠。
3.一种智慧教室音频控制方法,其特征在于,应用于上述权利要求1-2任一所述的智慧教室音频控制系统,所述方法在所述处理装置中执行,所述方法包括:
获取所述全景信息;
基于所述全景信息从多个第二用户对象中识别发言对象,以确定身份标识信息;
根据所述身份标识信息从第一映射关系中确定小组标识信息,所述第一映射关系用于将身份标识信息和相应的小组标识信息形成匹配映射;
基于所述小组标识信息从多个第一音频信息中确定所述第二音频信息;
发送所述第二音频信息。
4.根据权利要求3所述的智慧教室音频控制方法,其特征在于,在基于所述全景信息从多个第二用户对象中识别发言对象中,包括:
根据指定帧数从所述全景信息中获得待识别图像帧序列;
将所述待识别图像帧序列输入至发言状态模型中以识别出发言对象,所述发言状态模型为预先使用多组数据通过机器学习训练得出,在训练时,多组数据包括多个人像图像帧序列和对应人像图像帧序列的课堂发言状态标识信息;
提取发言对象的人脸特征,并计算与每个第二用户对象的预存人脸特征之间的相似度;
将相似度最大并且大于第一预设阈值的结果所对应的第二用户对象匹配为发言对象;
基于第二映射关系确定所述发言对象的身份标识信息,其中所述第二映射关系用于将每个预存人脸特征和相应的身份标识信息进行匹配映射。
5.根据权利要求3所述的智慧教室音频控制方法,其特征在于,在基于所述小组标识信息从多个第一音频信息中确定所述第二音频信息中,包括:
基于所述小组标识信息确定待处理音频信息,所述待处理音频信息为对应所述发言对象所在讨论小组的第一音频信息,所述待处理音频信息为混叠语音信号的形式;
基于已训练的语音分离模型将所述待处理音频信息分离出多个重建语音信号,即对应该讨论小组的所有组员的语音信号;
基于声纹识别模型从所述多个重建语音信号中识别所述第二音频信息。
6.根据权利要求5所述的智慧教室音频控制方法,其特征在于,所述语音分离模型为预先使用多组数据通过机器学习训练得出,在训练时,多组数据包括多个小组混叠语音样本和对应每个小组混叠语音样本的多个组员语音信号,所述小组混叠语音样本为通过该讨论小组所有的组员语音信号混叠得到。
7.根据权利要求5所述的智慧教室音频控制方法,其特征在于,在基于声纹识别模型从所述多个重建语音信号中识别所述第二音频信息中,包括:
根据身份标识信息从第三映射关系中获取声纹参考信息,所述第三映射关系用于将身份标识信息和相应的声纹信息形成匹配映射;
分别对多个重建语音信号提取相应的待识别声纹信息;
基于所述声纹参考信息进行计算与每个待识别声纹信息之间的相似度;
将相似度最大并且大于第二预设阈值的待识别声纹信息筛选出来,以用于将筛选的重建语音信号判断为所述第二音频信息。
8.根据权利要求5所述的智慧教室音频控制方法,其特征在于,在基于所述小组标识信息从多个第一音频信息中确定所述第二音频信息中,还包括:
基于所述全景信息识别所述第一用户对象,以检测第一用户对象的位置信息;
基于所述全景信息确定每个全向音频装置的位置中心的坐标信息;
比较所述第一预设范围和所述第二预设范围并以较大的确定为预警范围;
基于所述预警范围在所述全景信息中为每个全向音频装置的位置中心的坐标信息构建出多个预警区;
响应于所述第一用户对象的位置信息与所述多个预警区重叠,将所述发言对象的语音信号输入至已训练的啸叫抑制模型中,进而实现啸叫预处理;
其中,所述啸叫抑制模型为预先使用多组数据通过机器学习训练得出,在训练时,多组数据包括多个纯净语音样本和对应该纯净语音样本的混合语音样本,每个混合语音样本具体为基于对应的纯净语音样本进行掺杂啸叫信号得到。
9.根据权利要求3所述的智慧教室音频控制方法,其特征在于,还包括:
响应于存在至少两个第二用户对象处于课堂发言状态时,将所有处于课堂发言状态的第二用户对象都确定为待发言对象;
基于所述第三音频信息进行提取发言指定文本信息;
基于用户名字列表从所述发言指定文本信息中匹配出指定对象的名字信息,将所述指定对象的名字信息对应的第二用户对象确定为发言对象;
其中,每个预存人脸特征还与名字信息匹配,所述指定对象的名字信息用于查询发言对象的预存人脸特征。
10.一种存储介质,其特征在于,所述存储介质用于存储程序代码,所述程序代码用于执行如权利要求3-9任一所述的智慧教室音频控制方法。
CN202311126948.7A 2023-09-04 2023-09-04 一种智慧教室音频控制系统、方法及存储介质 Active CN116866783B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311126948.7A CN116866783B (zh) 2023-09-04 2023-09-04 一种智慧教室音频控制系统、方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311126948.7A CN116866783B (zh) 2023-09-04 2023-09-04 一种智慧教室音频控制系统、方法及存储介质

Publications (2)

Publication Number Publication Date
CN116866783A true CN116866783A (zh) 2023-10-10
CN116866783B CN116866783B (zh) 2023-11-28

Family

ID=88234465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311126948.7A Active CN116866783B (zh) 2023-09-04 2023-09-04 一种智慧教室音频控制系统、方法及存储介质

Country Status (1)

Country Link
CN (1) CN116866783B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255996A (zh) * 2018-11-01 2019-01-22 南京伯索网络科技有限公司 一种在线课堂的播放优化方法及系统
WO2019153404A1 (zh) * 2018-02-09 2019-08-15 深圳市鹰硕技术有限公司 智能教室语音控制系统
US20190340944A1 (en) * 2016-08-23 2019-11-07 Shenzhen Eaglesoul Technology Co., Ltd. Multimedia Interactive Teaching System and Method
CN110808048A (zh) * 2019-11-13 2020-02-18 联想(北京)有限公司 语音处理方法、装置、系统及存储介质
CN111883123A (zh) * 2020-07-23 2020-11-03 平安科技(深圳)有限公司 基于ai识别的会议纪要生成方法、装置、设备及介质
CN112885356A (zh) * 2021-01-29 2021-06-01 焦作大学 一种基于声纹的语音识别方法
CN115480923A (zh) * 2022-10-10 2022-12-16 北京师范大学 一种多模态的智慧教室边缘计算控制系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190340944A1 (en) * 2016-08-23 2019-11-07 Shenzhen Eaglesoul Technology Co., Ltd. Multimedia Interactive Teaching System and Method
WO2019153404A1 (zh) * 2018-02-09 2019-08-15 深圳市鹰硕技术有限公司 智能教室语音控制系统
CN109255996A (zh) * 2018-11-01 2019-01-22 南京伯索网络科技有限公司 一种在线课堂的播放优化方法及系统
CN110808048A (zh) * 2019-11-13 2020-02-18 联想(北京)有限公司 语音处理方法、装置、系统及存储介质
CN111883123A (zh) * 2020-07-23 2020-11-03 平安科技(深圳)有限公司 基于ai识别的会议纪要生成方法、装置、设备及介质
CN112885356A (zh) * 2021-01-29 2021-06-01 焦作大学 一种基于声纹的语音识别方法
CN115480923A (zh) * 2022-10-10 2022-12-16 北京师范大学 一种多模态的智慧教室边缘计算控制系统

Also Published As

Publication number Publication date
CN116866783B (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
WO2020006935A1 (zh) 动物声纹特征提取方法、装置及计算机可读存储介质
CN110415728B (zh) 一种识别情感语音的方法和装置
CN110047510A (zh) 音频识别方法、装置、计算机设备及存储介质
CN110197665B (zh) 一种用于公安刑侦监听的语音分离与跟踪方法
JP2003255993A (ja) 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
Gurbuz et al. Application of affine-invariant Fourier descriptors to lipreading for audio-visual speech recognition
CN111667835A (zh) 语音识别方法、活体检测方法、模型训练方法及装置
CN107464563B (zh) 一种语音交互玩具
CN114338623B (zh) 音频的处理方法、装置、设备及介质
CN1742322A (zh) 噪声减小和视听语音活动检测
CN110765868A (zh) 唇读模型的生成方法、装置、设备及存储介质
CN107452398B (zh) 回声获取方法、电子设备及计算机可读存储介质
CN110188179B (zh) 语音定向识别交互方法、装置、设备及介质
CN116189681A (zh) 一种智能语音交互系统及方法
CN116866783B (zh) 一种智慧教室音频控制系统、方法及存储介质
JP7400364B2 (ja) 音声認識システム及び情報処理方法
CN110556114B (zh) 基于注意力机制的通话人识别方法及装置
CN110459235A (zh) 一种混响消除方法、装置、设备及存储介质
CN111108553A (zh) 一种声音采集对象声纹检测方法、装置和设备
US11978433B2 (en) Multi-encoder end-to-end automatic speech recognition (ASR) for joint modeling of multiple input devices
CN109272996A (zh) 一种降噪方法及系统
Freitas et al. Multimodal silent speech interface based on video, depth, surface electromyography and ultrasonic doppler: Data collection and first recognition results
CN110322894B (zh) 一种基于声音的波形图生成及大熊猫检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant