CN111540346A - 一种远场声音分类方法和装置 - Google Patents

一种远场声音分类方法和装置 Download PDF

Info

Publication number
CN111540346A
CN111540346A CN202010402018.XA CN202010402018A CN111540346A CN 111540346 A CN111540346 A CN 111540346A CN 202010402018 A CN202010402018 A CN 202010402018A CN 111540346 A CN111540346 A CN 111540346A
Authority
CN
China
Prior art keywords
far
data
classification
sound
field sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010402018.XA
Other languages
English (en)
Inventor
关昊天
史昊
吕永杰
廖启波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Kanghongtai Technology Co ltd
Huiyan Technology Tianjin Co ltd
Original Assignee
Shenzhen Kanghongtai Technology Co ltd
Huiyan Technology Tianjin Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Kanghongtai Technology Co ltd, Huiyan Technology Tianjin Co ltd filed Critical Shenzhen Kanghongtai Technology Co ltd
Priority to CN202010402018.XA priority Critical patent/CN111540346A/zh
Publication of CN111540346A publication Critical patent/CN111540346A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种远场声音分类方法,包括:利用人工智能模型的自学能力建立远场声音分类关系,其中,人工智能模型的自学能力建立的远场声音分类关系是基于数据增广和多尺度信息的卷积神经网络建立的远场声音分类关系;获取目标区域内的语音信号;基于语音信号的振幅信息对语音信号进行特征提取,得到语谱图;将语谱图输入到利用人工智能模型的自学能力建立的远场声音分类关系中,得到分类结果。将声音分类的音频数据和真实环境下的麦克风接受到的信号分布匹配,去除噪声和混响等干扰因素,使用数据增广的方式来进行声音分类,使得模型在训练数据能够更贴合真实环境的数据分布,从而能够得到更好的鲁棒性,提高声音分类任务的准确率。

Description

一种远场声音分类方法和装置
技术领域
本发明涉及声音分类技术领域,特别是涉及一种远场声音分类方法和一 种远场声音分类装置。
背景技术
随着互联网和信息技术的迅速发展,人们的生活水平日益提高,对生活 的质量及工作要求也越来越高,音频作为人们日常生活及商业活动过程中的 一种媒介,深深影响着日常生活的行为。音频识别在如今的模式识别领域中 是个前沿的研究课题,作为音频识别的一个主要研究分支,环境声音分类 (Environmental Sound Classification,ESC)近期受到了许多专家学者的关 注,成为了热门话题。ESC是机器分析其声学环境的最重要技术之一,广泛 应用于监视、智能家居、场景分析和机器视听等领域。例如监管系统需要检 测周围异常的声音来自动报告紧急情况以启动应急方案,机器人需要对周围 的环境声音进行分类和识别来做出判断等。与语音和音乐不同,环境声音的 音频具有更多的多样性,拥有广泛的频率范围。近年来随着医疗保健、安全 监控、预测生态环境变化等应用的增加,环境声音的分类识别越来越重要, 环境声音的特征提取和分类准确率决定了系统的性能,这将决定在应用领域 上的系统性能是否能更好的满足人类活动的需求。
传统的对环境声音分类的方法有基于机器学习以及浅层卷积神经网络 结构模型进行训练预测分类,通过对声音文件进行提取属性作为输入数据进 行训练,最终得出分类预测模型进行预测。传统的基于机器学习的方法在处 理此问题上表现出的效果往往不尽如意,得出的模型无法有效进行分类预 测;而基于浅层卷积网络的模型结构往往训练出的模型准度依然有待提高。 浅层卷积神经网络模型结构单一,无法确定是否达到最优结构,并且该模型 结构单一,鲁棒性不足,多次的训练差别比较大。总之,传统的对环境声音 分类的方法得出的分类结果准确率较低。在远场声音分类中,目标声音经常 会被背景噪声和混响干扰,从而降低了声音分类任务的准确率,导致性能的 急剧下降。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至 少部分地解决上述问题的一种远场声音分类方法和相应的一种远场声音分 类装置。
为了解决上述问题,本发明实施例公开了一种远场声音分类方法,包括:
利用人工智能模型的自学能力建立远场声音分类关系,其中,所述人工 智能模型的自学能力建立的远场声音分类关系是基于数据增广和多尺度信 息的卷积神经网络建立的远场声音分类关系;
获取目标区域内的语音信号;
基于所述语音信号的振幅信息对所述语音信号进行特征提取,得到语谱 图;
将所述语谱图输入到所述利用人工智能模型的自学能力建立的远场声 音分类关系中,得到分类结果。
进一步地,所述基于所述语音信号的振幅信息对所述语音信号进行特征 提取,得到语谱图的步骤,包括:
将所述语音信号进行分帧、加窗及傅里叶变化,得到对应的语谱图。
进一步地,所述将所述语音信号进行分帧、加窗及傅里叶变化,得到对 应的语谱图的步骤,包括:
对所述语音信号进行分帧和加窗处理,得到预处理信号;
对所述预处理信号进行短时傅里叶变换,得到语音特征;
提取所述语音特的的绝对值,得到所述对应的语谱图的振幅。
进一步地,所述将所述语谱图输入到利用人工智能模型的自学能力建立 的远场声音分类关系中,得到分类结果的步骤之后,还包括:
利用所述分类结果与预设声音类别计算出声音分类的准确率;
当所述准确率超出预设阈值时,对所述人工智能模型进行训练。
进一步地,所述利用人工智能模型的自学能力建立远场声音分类关系的 步骤,包括:
选取所述语音信号对应的语谱图作为训练样本,将所述训练样本输入到 卷积神经网络进行训练,得到实际训练结果。
进一步地,所述利用人工智能模型的自学能力建立远场声音分类关系的 步骤,还包括:
利用预设场景下的数据作为训练样本,将所述训练样本输入到卷积神经 网络进行训练,得到实际训练结果;所述预设场景下的数据包括干净声音数 据、模拟声音数据和真实声音数据。
进一步地,所述干净声音数据是从预设声场数据库中选取出来;
和/或,
所述模拟声音数据是利用模拟噪声、混响数据与所述干净声音数据进行 叠加和卷积合成;
和/或,
所述真实声音数据是通过麦克风采集不同噪声场景下的数据。
本发明实施例公开了一种远场声音分类装置,包括:
模型训练模块,用于利用人工智能模型的自学能力建立远场声音分类关 系,其中,所述人工智能模型的自学能力建立的远场声音分类关系是基于数 据增广和多尺度信息的卷积神经网络建立的远场声音分类关系;
数据采集模块,用于获取目标区域内的语音信号;
特征提取模块,用于基于所述语音信号的振幅信息对所述语音信号进行 特征提取,得到语谱图;
语音分类模块,用于将所述语谱图输入到所述利用人工智能模型的自学 能力建立的远场声音分类关系中,得到分类结果。
本发明实施例公开了一种电子设备,包括处理器、存储器及存储在所述 存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述 处理器执行时实现如上述的远场声音分类方法的步骤。
本发明实施例公开了一种计算机可读存储介质,所述计算机可读存储介 质上存储计算机程序,所述计算机程序被处理器执行时实现如上述的远场声 音分类方法的步骤。
本发明实施例包括以下优点:将声音分类的音频数据和真实环境下的麦 克风接受到的信号分布匹配,去除噪声和混响等干扰因素,使用数据增广的 方式来进行声音分类,使得模型在训练数据能够更贴合真实环境的数据分 布,从而能够得到更好的鲁棒性,提高声音分类任务的准确率。
附图说明
图1是本发明一实施例中的一种远场声音分类方法实施例的步骤流程 图;
图2是本发明的一实施例中一种远场声音分类装置实施例的结构框图;
图3是本发明的一实施例中的不同声音数据类型数据分布的示意图;
图4是本发明的一实施例中句子级别远场声音分类方法的示意图;
图5是本发明的一实施例中一种远场声音分类方法的计算机设备。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图 和具体实施方式对本发明作进一步详细的说明。
本发明实施例的核心构思之一在于,提供了一种远场声音分类方法,包 括:利用人工智能模型的自学能力建立远场声音分类关系,其中,人工智能 模型的自学能力建立的远场声音分类关系是基于数据增广和多尺度信息的 卷积神经网络建立的远场声音分类关系;获取目标区域内的语音信号;基于 语音信号的振幅信息对语音信号进行特征提取,得到语谱图;将语谱图输入 到利用人工智能模型的自学能力建立的远场声音分类关系中,得到分类结 果。将声音分类的音频数据和真实环境下的麦克风接受到的信号分布匹配, 去除噪声和混响等干扰因素,使用数据增广的方式来进行声音分类,使得模 型在训练数据能够更贴合真实环境的数据分布,从而能够得到更好的鲁棒 性,提高声音分类任务的准确率。
参照图1,示出了本发明的一种远场声音分类方法实施例的步骤流程图, 具体可以包括如下步骤:
S100,利用人工智能模型的自学能力建立远场声音分类关系,其中,人 工智能模型的自学能力建立的远场声音分类关系是基于数据增广和多尺度 信息的卷积神经网络建立的远场声音分类关系;
S200,获取目标区域内的语音信号;
S300,基于语音信号的振幅信息对语音信号进行特征提取,得到语谱图;
S400,将语谱图输入到利用人工智能模型的自学能力建立的远场声音分 类关系中,得到分类结果。
参照上述步骤S100所示,利用人工智能模型的自学能力建立远场声音 分类关系,其中,人工智能模型的自学能力建立的远场声音分类关系是基于 数据增广和多尺度信息的卷积神经网络建立的远场声音分类关系。将提取到 的特征输入到卷积神经网络(Convolutional Neural Networks,CNN)中,CNN 网络中的多个卷积核能提供多尺度特征的信息,同时,将接收到的音频信号 提取特征,并将特征同时输入到模型中,从而使模型能够获取到更多的信息。
参照上述步骤S200所示,获取目标区域内的语音信号。上述目标区域 内的语音信号可以作为待分类的信号,也可以作为人工智能模型的自学能力 建立远场声音分类关系的训练样本。
参照上述步骤S300所示,基于语音信号的振幅信息对语音信号进行特 征提取,得到语谱图。基于振幅信息的特征提取,通过分帧和加窗,并对每 一个短时分析窗,通过快速傅里叶变换将信号由时域转换到频域并且得到对 应的频谱。分帧是指,语音信号在宏观上是不平稳的,在微观上是平稳的, 具有短时平稳性(10—30ms内可以认为语音信号近似不变),这个就可以 把语音信号分为一些短段来进行处理,每一个短段称为一帧(CHUNK)。 加窗即与一个窗函数相乘,加窗之后是为了进行傅里叶展开,使全局更加连 续,避免出现吉布斯效应。加窗时候,原本没有周期性的语音信号呈现出周 期函数的部分特征。加窗的代价是一帧信号的两端部分被削弱了,所以在分 帧的时候,帧与帧之间需要有重叠。语音信号中一般都是要加上汉明窗,因 为加上汉明窗,只有中间的数据体现出来了,两边的数据信息丢失了,所以 等会移窗的时候,只会移1/3或1/2窗,这样被前一帧或二帧丢失的数据又 重新得到了体现。对一帧信号做傅里叶变换得到的结果叫做频谱,对语音信 号处理主要的数学工具是傅里叶变换,而傅里叶变换是研究整个时间域和频 率域的关系。当运用计算机实现工程测试信号处理时,不可能对无限长的信 号进行测量和运算,而是取其有限的时间片段进行分析。
参照上述步骤S400所示,将语谱图输入到利用人工智能模型的自学能 力建立的远场声音分类关系中,得到分类结果。将声音分类的音频数据和真 实环境下的麦克风接受到的信号分布匹配,去除噪声和混响等干扰因素,使 用数据增广的方式来进行声音分类,使得模型在训练数据能够更贴合真实环 境的数据分布,从而能够得到更好的鲁棒性,提高声音分类任务的准确率。
在本实施例中,基于语音信号的振幅信息对语音信号进行特征提取,得 到语谱图的步骤S300,包括:
将语音信号进行分帧、加窗及傅里叶变化,得到对应的语谱图。
在本实施例中,将语音信号进行分帧、加窗及傅里叶变化,得到对应的 语谱图的步骤,包括:
对语音信号进行分帧和加窗处理,得到预处理信号;
对预处理信号进行短时傅里叶变换,得到语音特征;
提取语音特的的绝对值,得到对应的语谱图的振幅。
在本实施例中,将语谱图输入到利用人工智能模型的自学能力建立的远 场声音分类关系中,得到分类结果的步骤S400之后,还包括:
利用分类结果与预设声音类别计算出声音分类的准确率;
当准确率超出预设阈值时,对人工智能模型进行训练。
在本实施例中,利用人工智能模型的自学能力建立远场声音分类关系的 步骤S100,包括:
选取语音信号对应的语谱图作为训练样本,将训练样本输入到卷积神经 网络进行训练,得到实际训练结果。
在本实施例中,利用人工智能模型的自学能力建立远场声音分类关系的 步骤S100,还包括:
利用预设场景下的数据作为训练样本,将训练样本输入到卷积神经网络 进行训练,得到实际训练结果;预设场景下的数据包括干净声音数据、模拟 声音数据和真实声音数据。
预设场景下的数据包括三个类型的数据,干净声音数据(从RWCP Sound SceneDatabase(声场数据库)数据集中选取),合成的模拟数据(采用模 拟噪声和混响数据,和干净声音数据叠加和卷积合成)以及真实数据(通过 将干净声音数据在不同噪声场景下,采用麦克风录制而成)。1)数据集选 取RWCP Sound Scene Database(声场数据库)数据集中的10类数据,分别 将每类数据划分成训练集、开发集和验证集;所有数据都会在真实环境下, 距离不同麦克风距离、不同的背景环境下分别录制五遍。并进行数据准备; 这三种数据类型是通过以下方式得到:
1)干净声音数据选取:
RWCP Sound Scene Database数据集中,共包含敲击声等几十种声音类 型。其中,针对具体需要的场合,在一具体实施例汇总共选取了10种声音 类型作为干净声音数据集。
2)模拟声音数据合成:
声音在真实的场景下,会受到加性噪声和混响的影响,导致声音识别的 性能急剧下降。而向干净数据中加入噪声,在一定程度上会降低噪声和混响 的影响。加性噪声一般是根据某一信噪比(Singal-to-noise ratio,SNR)直接 叠加到干净的声音数据中,其数学模型如下:
Figure BDA0002489847470000071
声音数据的SNR是通过声音能量与噪声能量的比值得到的,首先,需 要先将噪声数据进行归一化处理:
Noise=Noise-mean(Noise)
然后计算声音数据的能量:
Figure BDA0002489847470000072
并进一步对噪声处理,得到与声音信号同尺度的噪声信号:
Figure BDA0002489847470000081
Figure BDA0002489847470000082
最后,将声音信号与得到的噪声信号相叠加,便得到模拟的带有加性噪 声的信号:
Synthesis=Signal+Noise
而混响则是采用卷积的方式是房间脉冲响应(Room Impulse Response, RIR)和声音信号进行合成:
Figure BDA0002489847470000083
符号“*”为卷积操作,T为房间脉冲响应的长度,s(t)为干净声音信号,h(t) 为房间脉冲响应,y(t)为混响声音信号。
在实施例汇总,分别采用单独混响、单独加性噪声、加性噪声和混响同 时存在的情况,来合成数据,在加性噪声和混响同时存在时,合成的数学公 式为:
Figure BDA0002489847470000084
n(t)为加性背景噪声。
3)真实声音数据录制:
虽然模拟数据,在数据增广后,在一定程度上能够增强模型的鲁棒性, 即模型的抗噪声能力。但是,模拟数据的数据分布和真实环境下收集数据的 数据分布还存在很大的不同。所以,在干净声音数据和模拟声音数据基础上, 分别在不同场景下收集到不同声音类型的真实数据。
在本实施例中,干净声音数据是从预设声场数据库中选取出来;
和/或,
模拟声音数据是利用模拟噪声、混响数据与干净声音数据进行叠加和卷 积合成;
和/或,
真实声音数据是通过麦克风采集不同噪声场景下的数据。
声场数据库(RWCP Sound Scene Database数据集)包含多种声音类型 的数据,例如:敲击瓷器的声音、吹口哨的声音。在本实施例中,共从RWCP Sound Scene Database数据集中选取10(类)*80条数据作为干净数据集; 分别将10(类)*80条干净数据,在-10~10的随机SNR下合成加性噪声, 房间脉冲响应数据是REVERB CHANGLLANGE 2014Dataset中选择,包括 大型、中型和小型房间的共24种房间脉冲响应。本实施例中的模拟数据的 种类及个数如下表一所示:
种类 音频个数
只包含加性噪声 20*10*80
只包含混响 20*10*80
加性噪声和混响同时存在 20*10*80
表一
在录制真实数据时,既要考虑到噪声的存在,又要考虑需要包含不同房 间脉冲响应,故选择在无人会议室(无噪声或噪声少、含有混响)、有人会 议室(有大量噪声和混响)、街头、地铁、广场、学校、食堂场景下录制真 实声音数据,如表二真实声音录制的场景及录制的声音音频个数所示:
Figure BDA0002489847470000091
Figure BDA0002489847470000101
表二
干净声音数据、模拟声音数据和真实声音数据的数据分布是不同的。本 实施例需要应用在真实场景下,所以需要使用真实声音数据来训练模型。但 是,因为应用场景可能和本实施例录制声音的场景不同,所以为了进一步提 升本专利的性能,在真实声音数据基础上,仍将干净声音数据和模拟声音数 据作为训练数据的一部分,而这些数据是存在一些数据分布的互补性的,参 照图3,示出了不同声音数据类型数据分布情况。
神经网络具有极强的非线性映射能力,相较于其他的类型的神经网络, 卷积神经网络(Convolutional neural network,CNN)包含有多个卷积核,每 一个卷积核对原始特征卷积后,可以得到不同尺度的信息,从而提升声音分 类系统的性能。对语音信号进行分帧、加窗处理,进行短时傅里叶变换提取 到的语谱图特征,相较于一帧一帧的对网络进行训练和解码,采用句子级别 的特征输入,并采用多卷积核的CNN,可以同时从多个尺度对特征进行处 理,往往能够得到更好的性能。在声音分类的模型中,提取语谱图特征时, 窗长为4240、窗移为400、相邻两帧之间的overlap为3840,特征的输入包 含400x129维度,将400个连续帧同时输入到网络中,CNN有5个隐含层, 第一个卷积层包含32个(5x5)卷积核,第二个卷积层包含64个(5x5)卷 积核,并且每一个卷积层后都包含一个池化层。将第二个池化层的输出特征, 用包含512个隐含层节点的全连接网络进一步处理。这些隐含层的激活函数 都是relu。最后,采用softmax作为激活函数输出识别的声音类别。网络以 交叉熵(CE)的损失函数为目标进行优化,网络共训练迭代50次。
图4是基于数据增广和多尺度信息的句子级别远场声音分类方法的示意 图。
表三列出了神经网络的结构以及具体的参数设置。表四是用不同数据集 作为训练集时的结果对比,评价指标是声音识别的准确率,我们可以证明数 据增广方式对声音识别的提升是巨大的,真实数据对识别的重要性。
Figure BDA0002489847470000102
Figure BDA0002489847470000111
表三
Figure BDA0002489847470000112
表四
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系 列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述 的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或 者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例 均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图2,示出了本发明的一种远场声音分类装置实施例的结构框图, 具体可以包括如下模块:
模型训练模块100,用于利用人工智能模型的自学能力建立远场声音分 类关系,其中,人工智能模型的自学能力建立的远场声音分类关系是基于数 据增广和多尺度信息的卷积神经网络建立的远场声音分类关系;
数据采集模块200,用于获取目标区域内的语音信号;
特征提取模块300,用于基于语音信号的振幅信息对语音信号进行特征 提取,得到语谱图;
语音分类模块400,用于将语谱图输入到利用人工智能模型的自学能力 建立的远场声音分类关系中,得到分类结果。
在本实施例中,特征提取模块300包括:
特征提取单元,用于将语音信号进行分帧、加窗及傅里叶变化,得到对 应的语谱图。
在本实施例中,特征提取单元包括:
预处理子单元,用于对语音信号进行分帧和加窗处理,得到预处理信号;
傅里叶变换子单元,用于对预处理信号进行短时傅里叶变换,得到语音 特征;
特征提取子单元,用于提取语音特的的绝对值,得到对应的语谱图的振 幅。
在本实施例中,还包括:
对比模块,用于利用分类结果与预设声音类别计算出声音分类的准确 率;
后训练模块,用于当准确率超出预设阈值时,对人工智能模型进行训练。
在本实施例中,模型训练模块100包括:
第一模型训练单元,用于选取语音信号对应的语谱图作为训练样本,将 训练样本输入到卷积神经网络进行训练,得到实际训练结果。
在本实施例中,模型训练模块100还包括:
第二模型训练单元,用于利用预设场景下的数据作为训练样本,将训练 样本输入到卷积神经网络进行训练,得到实际训练结果;预设场景下的数据 包括干净声音数据、模拟声音数据和真实声音数据。
在本实施例中,干净声音数据是从预设声场数据库中选取出来;
和/或,
模拟声音数据是利用模拟噪声、混响数据与干净声音数据进行叠加和卷 积合成;
和/或,
真实声音数据是通过麦克风采集不同噪声场景下的数据。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较 简单,相关之处参见方法实施例的部分说明即可。
参照图5,示出了本发明的一种远场声音分类方法的计算机设备,具体 可以包括如下:
上述计算机设备12以通用计算设备的形式表现,计算机设备12的组件 可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28, 连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线18结构中的一种或多种,包括存储器总线18或 者存储器控制器,外围总线18,图形加速端口,处理器或者使用多种总线 18结构中的任意总线18结构的局域总线18。举例来说,这些体系结构包括 但不限于工业标准体系结构(ISA)总线18,微通道体系结构(MAC)总线 18,增强型ISA总线18、音视频电子标准协会(VESA)局域总线18以及 外围组件互连(PCI)总线18。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是 任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质, 可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例 如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可 以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。 仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(通 常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失 性磁盘(如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下, 每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可 以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块 42,这些程序模块42被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例 如存储器中,这样的程序模块42包括——但不限于——操作系统、一个或 者多个应用程序、其他程序模块42以及程序数据,这些示例中的每一个或 某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述 的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、 显示器24、摄像头等)通信,还可与一个或者多个使得用户能与该计算机设 备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其他计 算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信 可以通过输入/输出(I/O)界面22进行。并且,计算机设备12还可以通过 网络适配器20与一个或者多个网络(例如局域网(LAN)),广域网(WAN) 和/或公共网络(例如因特网)通信。如图所示,网络适配器20通过总线18 与计算机设备12的其他模块通信。应当明白,尽管图5中未示出,可以结 合计算机设备12使用其他硬件和/或软件模块,包括但不限于:微代码、设 备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器 以及数据备份存储系统34等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功 能应用以及数据处理,例如实现本发明实施例所提供的冠状动脉特异性钙化 检测方法。
也即,上述处理单元16执行上述程序时实现:利用人工智能模型的自 学能力建立远场声音分类关系,其中,所述人工智能模型的自学能力建立的 远场声音分类关系是基于数据增广和多尺度信息的卷积神经网络建立的远 场声音分类关系;获取目标区域内的语音信号;基于所述语音信号的振幅信 息对所述语音信号进行特征提取,得到语谱图;将所述语谱图输入到所述利 用人工智能模型的自学能力建立的远场声音分类关系中,得到分类结果。
在本发明实施例中,本发明还提供一种计算机可读存储介质,其上存储 有计算机程序,该程序被处理器执行时实现如本申请所有实施例提供的远场 声音分类方法:
也即,给程序被处理器执行时实现:利用人工智能模型的自学能力建立 远场声音分类关系,其中,所述人工智能模型的自学能力建立的远场声音分 类关系是基于数据增广和多尺度信息的卷积神经网络建立的远场声音分类 关系;获取目标区域内的语音信号;基于所述语音信号的振幅信息对所述语 音信号进行特征提取,得到语谱图;将所述语谱图输入到所述利用人工智能 模型的自学能力建立的远场声音分类关系中,得到分类结果。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可 以是计算机克顿信号介质或者计算机可读存储介质。计算机可读存储介质例 如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装 置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非 穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬 盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPOM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、 光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中,计算机 可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执 行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的 数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采 用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的 组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算 机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系 统、装置或者器件使用或者与其结合使用的程序。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作 的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言——诸 如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C” 语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部 分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机 上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉 及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到 外部计算机(例如利用因特网服务提供商来通过因特网连接)。本说明书 中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他 实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦 得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以, 所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所 有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术 语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得 包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且 还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或 者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终 端设备中还存在另外的相同要素。
以上对本申请所提供的远场声音分类方法及装置,进行了详细介绍,本 文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的 说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一 般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变 之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种远场声音分类方法,其特征在于,包括:
利用人工智能模型的自学能力建立远场声音分类关系,其中,所述人工智能模型的自学能力建立的远场声音分类关系是基于数据增广和多尺度信息的卷积神经网络建立的远场声音分类关系;
获取目标区域内的语音信号;
基于所述语音信号的振幅信息对所述语音信号进行特征提取,得到语谱图;
将所述语谱图输入到所述利用人工智能模型的自学能力建立的远场声音分类关系中,得到分类结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述语音信号的振幅信息对所述语音信号进行特征提取,得到语谱图的步骤,包括:
将所述语音信号进行分帧、加窗及傅里叶变化,得到对应的语谱图。
3.根据权利要求2所述的方法,其特征在于,所述将所述语音信号进行分帧、加窗及傅里叶变化,得到对应的语谱图的步骤,包括:
对所述语音信号进行分帧和加窗处理,得到预处理信号;
对所述预处理信号进行短时傅里叶变换,得到语音特征;
提取所述语音特的的绝对值,得到所述对应的语谱图的振幅。
4.根据权利要求1所述的方法,其特征在于,所述将所述语谱图输入到利用人工智能模型的自学能力建立的远场声音分类关系中,得到分类结果的步骤之后,还包括:
利用所述分类结果与预设声音类别计算出声音分类的准确率;
当所述准确率超出预设阈值时,对所述人工智能模型进行训练。
5.根据权利要求1所述的方法,其特征在于,所述利用人工智能模型的自学能力建立远场声音分类关系的步骤,包括:
选取所述语音信号对应的语谱图作为训练样本,将所述训练样本输入到卷积神经网络进行训练,得到实际训练结果。
6.根据权利要求1所述的方法,其特征在于,所述利用人工智能模型的自学能力建立远场声音分类关系的步骤,还包括:
利用预设场景下的数据作为训练样本,将所述训练样本输入到卷积神经网络进行训练,得到实际训练结果;所述预设场景下的数据包括干净声音数据、模拟声音数据和真实声音数据。
7.根据权利要求6所述的方法,其特征在于,
所述干净声音数据是从预设声场数据库中选取出来;
和/或,
所述模拟声音数据是利用模拟噪声、混响数据与所述干净声音数据进行叠加和卷积合成;
和/或,
所述真实声音数据是通过麦克风采集不同噪声场景下的数据。
8.一种远场声音分类装置,其特征在于,包括:
模型训练模块,用于利用人工智能模型的自学能力建立远场声音分类关系,其中,所述人工智能模型的自学能力建立的远场声音分类关系是基于数据增广和多尺度信息的卷积神经网络建立的远场声音分类关系;
数据采集模块,用于获取目标区域内的语音信号;
特征提取模块,用于基于所述语音信号的振幅信息对所述语音信号进行特征提取,得到语谱图;
语音分类模块,用于将所述语谱图输入到所述利用人工智能模型的自学能力建立的远场声音分类关系中,得到分类结果。
9.电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的远场声音分类方法的步骤。
10.计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的远场声音分类方法的步骤。
CN202010402018.XA 2020-05-13 2020-05-13 一种远场声音分类方法和装置 Pending CN111540346A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010402018.XA CN111540346A (zh) 2020-05-13 2020-05-13 一种远场声音分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010402018.XA CN111540346A (zh) 2020-05-13 2020-05-13 一种远场声音分类方法和装置

Publications (1)

Publication Number Publication Date
CN111540346A true CN111540346A (zh) 2020-08-14

Family

ID=71977706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010402018.XA Pending CN111540346A (zh) 2020-05-13 2020-05-13 一种远场声音分类方法和装置

Country Status (1)

Country Link
CN (1) CN111540346A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489668A (zh) * 2020-11-04 2021-03-12 北京百度网讯科技有限公司 去混响方法、装置、电子设备和存储介质
CN112992170A (zh) * 2021-01-29 2021-06-18 青岛海尔科技有限公司 模型训练方法及装置、存储介质及电子装置
CN113241081A (zh) * 2021-04-25 2021-08-10 华南理工大学 一种基于梯度反转层的远场说话人认证方法及系统
CN113257283A (zh) * 2021-03-29 2021-08-13 北京字节跳动网络技术有限公司 音频信号的处理方法、装置、电子设备和存储介质
CN113345399A (zh) * 2021-04-30 2021-09-03 桂林理工大学 一种强噪声环境下的机器设备声音监测方法
WO2023098312A1 (zh) * 2021-12-01 2023-06-08 腾讯科技(深圳)有限公司 音频数据处理方法、装置、设备、存储介质和程序产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108922560A (zh) * 2018-05-02 2018-11-30 杭州电子科技大学 一种基于混合深度神经网络模型的城市噪声识别方法
CN109599126A (zh) * 2018-12-29 2019-04-09 广州丰石科技有限公司 一种基于mel能量谱和卷积神经网络的声音故障识别方法
CN109903749A (zh) * 2019-02-26 2019-06-18 天津大学 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法
CN110047512A (zh) * 2019-04-25 2019-07-23 广东工业大学 一种环境声音分类方法、系统及相关装置
US20190259378A1 (en) * 2018-02-20 2019-08-22 Krishna Khadloya Audio type detection
CN110322896A (zh) * 2019-06-26 2019-10-11 上海交通大学 一种基于卷积神经网络的变压器故障声音识别方法
CN110782872A (zh) * 2019-11-11 2020-02-11 复旦大学 基于深度卷积循环神经网络的语种识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190259378A1 (en) * 2018-02-20 2019-08-22 Krishna Khadloya Audio type detection
CN108922560A (zh) * 2018-05-02 2018-11-30 杭州电子科技大学 一种基于混合深度神经网络模型的城市噪声识别方法
CN109599126A (zh) * 2018-12-29 2019-04-09 广州丰石科技有限公司 一种基于mel能量谱和卷积神经网络的声音故障识别方法
CN109903749A (zh) * 2019-02-26 2019-06-18 天津大学 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法
CN110047512A (zh) * 2019-04-25 2019-07-23 广东工业大学 一种环境声音分类方法、系统及相关装置
CN110322896A (zh) * 2019-06-26 2019-10-11 上海交通大学 一种基于卷积神经网络的变压器故障声音识别方法
CN110782872A (zh) * 2019-11-11 2020-02-11 复旦大学 基于深度卷积循环神经网络的语种识别方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489668A (zh) * 2020-11-04 2021-03-12 北京百度网讯科技有限公司 去混响方法、装置、电子设备和存储介质
CN112489668B (zh) * 2020-11-04 2024-02-02 北京百度网讯科技有限公司 去混响方法、装置、电子设备和存储介质
CN112992170A (zh) * 2021-01-29 2021-06-18 青岛海尔科技有限公司 模型训练方法及装置、存储介质及电子装置
CN112992170B (zh) * 2021-01-29 2022-10-28 青岛海尔科技有限公司 模型训练方法及装置、存储介质及电子装置
CN113257283A (zh) * 2021-03-29 2021-08-13 北京字节跳动网络技术有限公司 音频信号的处理方法、装置、电子设备和存储介质
CN113257283B (zh) * 2021-03-29 2023-09-26 北京字节跳动网络技术有限公司 音频信号的处理方法、装置、电子设备和存储介质
CN113241081A (zh) * 2021-04-25 2021-08-10 华南理工大学 一种基于梯度反转层的远场说话人认证方法及系统
CN113241081B (zh) * 2021-04-25 2023-06-16 华南理工大学 一种基于梯度反转层的远场说话人认证方法及系统
CN113345399A (zh) * 2021-04-30 2021-09-03 桂林理工大学 一种强噪声环境下的机器设备声音监测方法
WO2023098312A1 (zh) * 2021-12-01 2023-06-08 腾讯科技(深圳)有限公司 音频数据处理方法、装置、设备、存储介质和程序产品

Similar Documents

Publication Publication Date Title
CN111540346A (zh) 一种远场声音分类方法和装置
Wang et al. Robust environmental sound recognition for home automation
CN112949708A (zh) 情绪识别方法、装置、计算机设备和存储介质
Wang et al. Online non-negative convolutive pattern learning for speech signals
US20210319802A1 (en) Method for processing speech signal, electronic device and storage medium
Dogan et al. A novel ternary and signum kernelled linear hexadecimal pattern and hybrid feature selection based environmental sound classification method
Marlina et al. Makhraj recognition of Hijaiyah letter for children based on Mel-Frequency Cepstrum Coefficients (MFCC) and Support Vector Machines (SVM) method
Salekin et al. Distant emotion recognition
CN111868823A (zh) 一种声源分离方法、装置及设备
Moore et al. Room identification using roomprints
Liu et al. Simple pooling front-ends for efficient audio classification
CN114333881A (zh) 基于环境自适应的音频传输降噪方法、装置、设备及介质
CN111863021A (zh) 一种用于呼吸音数据识别的方法、系统与设备
CN111863035A (zh) 一种用于心音数据识别的方法、系统与设备
CN115273904A (zh) 一种基于多特征融合的愤怒情绪识别方法及装置
Jorge et al. Human-system interface based on speech recognition: application to a virtual nuclear power plant control desk
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
CN113314099B (zh) 语音识别置信度的确定方法和确定装置
Karimi et al. Robust emotional speech classification in the presence of babble noise
Fukuda et al. Extracting emotion from voice
Poorjam et al. Quality control in remote speech data collection
Khalid et al. ORVAE: one-class residual variational autoencoder for voice activity detection in noisy environment
Hadi et al. An efficient real-time voice activity detection algorithm using teager energy to energy ratio
Fennir et al. Acoustic scene classification for speaker diarization
Dhakal Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination