CN117133311A - 音频场景识别方法及电子设备 - Google Patents
音频场景识别方法及电子设备 Download PDFInfo
- Publication number
- CN117133311A CN117133311A CN202310152921.9A CN202310152921A CN117133311A CN 117133311 A CN117133311 A CN 117133311A CN 202310152921 A CN202310152921 A CN 202310152921A CN 117133311 A CN117133311 A CN 117133311A
- Authority
- CN
- China
- Prior art keywords
- audio
- frequency domain
- feature
- frame
- target frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 239000012634 fragment Substances 0.000 claims abstract description 152
- 230000000903 blocking effect Effects 0.000 claims abstract description 6
- 238000009432 framing Methods 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 109
- 230000004927 fusion Effects 0.000 claims description 58
- 238000012545 processing Methods 0.000 claims description 37
- 230000015654 memory Effects 0.000 claims description 30
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 238000003062 neural network model Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 3
- 239000010410 layer Substances 0.000 description 43
- 230000006870 function Effects 0.000 description 35
- 238000004891 communication Methods 0.000 description 34
- 230000006854 communication Effects 0.000 description 34
- 230000008569 process Effects 0.000 description 24
- 238000007726 management method Methods 0.000 description 21
- 230000005236 sound signal Effects 0.000 description 13
- 238000010295 mobile communication Methods 0.000 description 12
- 230000009467 reduction Effects 0.000 description 10
- 210000000988 bone and bone Anatomy 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000007774 longterm Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000005284 excitation Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003416 augmentation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002138 osteoinductive effect Effects 0.000 description 1
- 230000010349 pulsation Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Stereophonic System (AREA)
Abstract
本申请适用于终端技术领域,提供了一种音频场景识别方法及电子设备,通过对待识别音频流进行分帧处理,得到一帧或多帧音频片段;分别对每帧音频片段进行频域特征提取,得到每帧音频片段的频域特征;基于预设音频场景的音频频率分布特征,对每帧音频片段的频域特征进行特征分块,得到每帧音频片段对应的一个或多个频域特征分块;通过预先训练好的场景识别模型分别对每帧音频片段对应的各个频域特征分块进行处理,得到每帧音频片段相对于各个预设音频场景的概率;基于所有音频片段相对于各个预设音频场景的概率,确定待识别音频流对应的目标音频场景,提高了对各个不同音频场景识别的准确率以及音频场景识别的鲁棒性。
Description
技术领域
本申请涉及终端技术领域,尤其涉及一种音频场景识别方法及电子设备。
背景技术
目前,电子设备(例如手机或耳机等)能够实现的智能化功能越来越多,如智慧出行、智能降噪及音质平衡等功能。在实际应用中,很多智能化功能的实现需要以识别出电子设备所处的环境(即音频场景)为基础,例如,电子设备在实现智慧出行功能时,需要先识别出电子设备所处的音频场景,再基于该音频场景为用户推荐合适的出行方式和出行路线等。
现有的音频场景识别方法通常是基于长时音频流(即时长较长的音频流)进行音频场景识别,如此仅能准确地识别出某个固定的音频场景,而对其他音频场景的场景识别准确率较低,尤其在不同音频场景进行切换时的场景识别准确率较低。
发明内容
本申请实施例提供一种音频场景识别方法及电子设备,可以提高对各个不同音频场景识别的准确率以及音频场景识别的鲁棒性。
第一方面,本申请实施例提供一种音频场景识别方法,包括:
对待识别音频流进行分帧处理,得到一帧或多帧音频片段;
分别对每帧所述音频片段进行频域特征提取,得到每帧所述音频片段的频域特征;
基于预设音频场景的音频频率分布特征,对每帧所述音频片段的所述频域特征进行特征分块,得到每帧所述音频片段对应的一个或多个频域特征分块;
通过预先训练好的场景识别模型分别对每帧所述音频片段对应的各个所述频域特征分块进行处理,得到每帧所述音频片段相对于各个所述预设音频场景的概率;所述场景识别模块为基于预设样本集,采用机器学算法对预设神经网络模型进行训练得到的;所述预设样本集中的每条样本数据均包括一个样本音频流的每帧音频片段对应的一个或多个频域特征分块,以及每帧音频片段相对于各个预设音频场景的概率;
基于所有所述音频片段相对于各个所述预设音频场景的概率,确定所述待识别音频流对应的目标音频场景。
其中,待识别音频流为用作音频场景识别的音频流。
示例性的,电子设备获取待识别音频流的方式可以包括但不限于:通过麦克风实时采集音频流,或者通过麦克风每隔第二时长采集一次音频流,并将通过麦克风采集到的音频流作为待识别音频流。其中,第二时长可以根据实际需求设置,此处对其不做特别限定。
示例性的,频域特征可以包括但不限于小波特征、梅尔频率倒普系数(mel-frequency cepstral coefficients,MFCC)特征或梅尔滤波器组(filter banks,fbank)特征。
基于此,在一些实施例中,电子设备可以分别对待识别音频流的每帧音频片段进行小波特征提取,得到待识别音频流的每帧音频片段的小波特征。
在另一些实施例中,电子设备可以分别对待识别音频流的每帧音频片段进行MFCC特征提取,得到待识别音频流的每帧音频片段的MFCC特征。
在又一些实施例中,电子设备可以分别对待识别音频流的每帧音频片段进行fbank特征提取,得到待识别音频流的每帧音频片段的fbank特征。
根据本申请实施例提供的音频场景识别方法,由于电子设备不是直接基于整个长时的待识别音频流进行音频场景识别,而是先将待识别音频流切分为多帧短时的音频片段,再将每帧音频片段的频域特征划分为一个或多个频域特征分块,基于每帧音频片段的一个或多个频域特征分块进行音频场景识别,因此可以提高对短时音频流的识别准确率,如此不仅可以提高对不同音频场景识别的准确率,而且可以提高不同音频场景切换时的场景识别准确率,进而提高音频场景识别的鲁棒性;此外,由于每帧音频片段的频域特征分块是基于预设音频场景的音频频率分布特征切分得到的,因此场景识别模型能够从音频片段中提取出更多有助于音频场景识别的有用音频信息,从而提高音频场景模块输出的每帧音频片段相对于各个预设音频场景的概率的准确率,进一步提高音频场景识别的准确率。
在第一方面的一种可选的实现方式中,所述音频频率分布特征通过一个或多个目标频点和/或目标频段表示;所述目标频点和/或目标频段为所述预设音频场景中的音频流的频域信号中,幅度大于预设幅度阈值的频点和/或频段;
对应地,所述基于各个预设音频场景的音频频率分布特征,对每帧所述音频片段的所述频域特征进行特征分块,得到每帧所述音频片段对应的一个或多个频域特征分块,包括:
将每帧所述音频片段的频域特征中处于所述目标频点上或所述目标频段内的频域特征分别切分为一块,将每帧所述音频片段的频域特征中未处于所述目标频点上和所述目标频段内的频域特征切分为一块或多块,得到每帧所述音频片段对应的一个或多个频域特征分块。
示例性的,假设预设音频场景的音频频率分布特征通过频点Fs/5、频点Fs/4以及频段[Fs/3,2Fs/3]表示,样本音频流的每帧音频片段的频域特征均处于频率范围0~Fs之间,则电子设备可以将样本音频流的每帧音频片段的频域特征切分为频率分别处于频段(0,Fs/5)中、频点Fs/5上、频段(Fs/5,Fs/4)中、频点Fs/4上、频段(Fs/4,Fs/3)中、频段[Fs/3,2Fs/3]中以及频段(2Fs/3,Fs)中的七个频域特征分块,该七个频域特征分块可以分别通过FK1、FK2、FK3、FK4、FK5、FK6及FK7表示。
在第一方面的一种可选的实现方式中,在所述得到每帧所述音频片段对应的一个或多个频域特征分块之后,还包括:
将每帧所述音频片段对应的一个或多个频域特征分块中,与所述目标频点和/或所述目标频段对应的频域特征分块确定为每帧所述音频片段的第一目标频域特征;
将每帧所述音频片段对应的一个或多个频域特征分块中,除所述第一目标频域特征之外的其余频域特征分块确定为每帧所述音频片段的第二目标频域特征。
基于此,音频片段的第一目标频域特征可以用于描述音频片段的有效音频成分的频域特征,音频片段的第二目标频域特征可以用于描述音频片段的无效音频成分的频域特征。其中,无效音频成分指对音频场景识别的准确度贡献较低的音频成分。
以上述示例为例,电子设备可以将样本音频流的每帧音频片段对应的七个频域特征分块中频率分别处于频点Fs/5上、频点Fs/4上及频段[Fs/3,2Fs/3]中的频域特征分块确定为样本音频流的每帧音频片段的第一目标频域特征,即电子设备可以将样本音频流的每帧音频片段的FK2、FK4及FK6这三个频域特征分块确定为样本音频流的每帧音频片段的第一目标频域特征;电子设备可以将样本音频流的每帧音频片段对应的七个频域特征分块中频率分别处于(0,Fs/5)中、频段(Fs/5,Fs/4)中、频段(Fs/4,Fs/3)中及频段(2Fs/3,Fs)中的频域特征分块确定为每帧音频片段的第二目标频域特征,即电子设备可以将样本音频流的每帧音频片段的FK1、FK3、FK5及FK7这四个频域特征分块确定为样本音频流的每帧音频片段的第二目标频域特征。
根据本申请实施例提供的音频场景识别方法,通过将每帧音频片段的频域特征中处于目标频点上或目标频段内的频域特征分别切分为一块,将每帧音频片段的频域特征中未处于目标频点上和目标频段内的频域特征切分为一块或多块,得到每帧音频片段对应的一个或多个频域特征分块,且将每帧音频片段对应的一个或多个频域特征分块中,与目标频点和/或目标频段对应的频域特征分块确定为每帧音频片段的第一目标频域特征,将每帧音频片段对应的一个或多个频域特征分块中,除第一目标频域特征之外的其余频域特征分块确定为每帧音频片段的第二目标频域特征,从而为后续场景识别模块采用不同深度的神经网络结构分别对第一目标频域特征和第二目标频域特征进行特征提取提供基础。
在第一方面的一种可选的实现方式中,所述场景识别模型包括特征提取网络和场景概率预测网络;所述特征提取网络包括第一特征提取模块、第二特征提取模块以及特征融合模块,所述第一特征提取模块的输出端和所述第二特征提取模块的输出端分别与所述特征融合模块的第一输入端和第二输入端连接,所述特征融合模块的输出端与所述场景概率预测网络的输入端连接;所述第一特征提取模块和所述第二特征提取模块均采用神经网络结构,且所述第一特征提取模块的网络深度大于所述第二特征提取模块的网络深度;
对应地,所述通过预先训练好的场景识别模型分别对每帧所述音频片段对应的各个所述频域特征分块进行处理,得到每帧所述音频片段相对于各个所述预设音频场景的概率,包括:
通过所述第一特征提取模块分别对每帧所述音频片段的各个所述第一目标频域特征进行特征提取,得到每帧所述音频片段的各个所述第一目标频域特征分别对应的第一高低维复用特征;
通过所述第二特征提取模块分别对每帧所述音频片段的各个所述第二目标频域特征进行特征提取,得到每帧所述音频片段的各个所述第二目标频域特征分别对应的第二高低维复用特征;
通过所述特征融合模块分别将每帧所述音频片段的所有所述第一高低维复用特征和所有所述第二高低维复用特征进行特征融合,得到每帧所述音频片段的频域融合特征;
通过所述场景概率预测网络基于每帧所述音频片段的频域融合特征,分别预测每帧所述音频片段相对于各个所述预设音频场景的概率。
可选的,特征融合模块可以采用但不限于以下几种方式对接收到的所有第一高低维复用特征和所有第二高低维复用特征进行特征融合,得到音频片段的频域融合特征:
方式1、基于音频片段的各个第一高低维复用特征各自对应的权重和各个第二高低维复用特征各自对应的权重,将音频片段的所有第一高低维复用特征与所有第二高低维复用特征进行加权求和,得到音频片段的频域融合特征。
需要说明的是,音频片段的每个第一高低维复用特征对应的权重和每个第二高低维复用特征对应的权重均可以是电子设备对预设神经网络模型进行训练时学习到的。
示例性的,假设电子设备将每帧音频片段的频域特征切分为FK1、FK2、FK3、FK4、FK5、FK6及FK7七个频域特征分块,该七个频域特征分块中,FK2、FK4及FK6为音频片段的第一目标频域特征,FK1、FK3、FK5及FK7为音频片段的第二目标频域特征,FK2、FK4及FK6各自对应的第一高低维复用特征分别为R11、R12及R13,FK1、FK3、FK5及FK7各自对应的第二高低维复用特征分别为R21、R22、R23及R24,且R11、R12、R13、R21、R22、R23及R24各自对应的权重分别为a1、a2、a3、b1、b2、b3及b4,则电子设备可以通过如下公式(1)得到音频片段的频域融合特征Rrh:
Rrh= a1* R11+ a2* R12+ a3* R13+ b1* R21+ b2* R22+ b3* R23+ b4* R24;公式(1)
方式2、将音频片段的每个第一高低维复用特征和每个第二高低维复用特征分别与对应的权重相乘,并将所有乘以权重后的第一高低维复用特征和所有乘以权重后的第二高低维复用特征进行特征拼接,得到音频片段的频域融合特征。
以方式1中的示例为例,电子设备可以将如下公式(2)所表示的频域特征确定为音频片段的频域融合特征:
Rrh=[ a1* R11, a2* R12, a3* R13, b1* R21, b2* R22,b3* R23, b4* R24];公式(2)
方式3、基于注意力机制对音频片段的所有第一高低维复用特征和所有第二高低维复用特征进行处理,得到音频片段的频域融合特征。
示例性的,注意力机制可以通过压缩和激励(squeeze-and-excitation,SE)网络实现。
示例性的,场景概率预测网络可以为基于神经网络的分类器,基于神经网络的分类器可以用于将音频片段的频域融合特征映射到各个预设音频场景中,从而得到音频片段相对于各个预设音频场景的概率。
根据本申请实施例提供的音频场景识别方法,由于第一目标频域特征用于描述音频片段的有效音频成分的频域特征,第二目标频域特征用于描述音频片段的无效音频成分的频域特征,第一特征提取模块的网络深度大于第二特征提取模块的网络深度,因此采用更深的神经网络结构对第一目标频域特征进行特征提取,采用较浅的神经网络结构对第二目标频域特征进行特征提取,能够在提高音频场景识别的准确率的同时,降低电子设备的计算量。
在第一方面的一种可选的实现方式中,所述第一特征提取模块包括N个级联的第一卷积单元和一个第一特征复用单元,所述第一特征复用单元包括N+1个输入端和一个输出端,所述第一特征复用单元的其中N个输入端分别与N个所述第一卷积单元相对应,所述第一特征复用单元的剩余一个输入端与第一级所述第一卷积单元的输入端共同作为所述第一特征提取模块的输入端,每级所述第一卷积单元的输出端与后一级所述第一卷积单元的输入端连接,且每级所述第一卷积单元的输出端与对应的所述第一特征复用单元的输入端连接;N为大于1的整数,且N大于所述第二特征提取模块中的第二卷积单元的数量;
对应地,所述通过所述第一特征提取模块分别对每帧所述音频片段的各个所述第一目标频域特征进行特征提取,得到每帧所述音频片段的各个所述第一目标频域特征分别对应的第一高低维复用特征,包括:
针对每帧音频片段的每个所述第一目标频域特征,通过每级所述第一卷积单元依次对接收到的所述第一目标频域特征进行卷积处理,并向后一级第一卷积单元和所述第一特征复用单元输出卷积处理后的所述第一目标频域特征;
通过所述第一特征复用单元将所述第一目标频域特征与每级第一卷积单元输出的卷积处理后的所述第一目标频域特征进行特征拼接,得到所述第一目标频域特征对应的第一高低维复用特征。
根据本申请实施例提供的音频场景识别方法,由于音频片段的每个第一目标频域特征对应的第一高低维复用特征是将该第一目标频域特征的低维特征和高维特征进行拼接得到的,因此能够在避免丢失掉音频片段的各个第一目标频域特征的低维特征的同时,从各个第一目标频域特征中获取到更多有效的音频信息,进一步提高了音频场景识别的准确率。
在第一方面的一种可选的实现方式中,所述第二特征提取模块包括M个级联的第二卷积单元和一个第二特征复用单元,所述第二特征复用单元包括M+1个输入端和一个输出端,所述第二特征复用单元的其中M个输入端分别与M个所述第二卷积单元相对应,所述第二特征复用单元的剩余一个输入端与第二级所述第二卷积单元的输入端共同作为所述第二特征提取模块的输入端,每级所述第二卷积单元的输出端与后一级所述第二卷积单元的输入端连接,且每级所述第二卷积单元的输出端与对应的所述第二特征复用单元的输入端连接;M为大于1的整数,且M小于所述第一特征提取模块中的第一卷积单元的数量;
对应地,所述通过所述第二特征提取模块分别对每帧所述音频片段的各个所述第二目标频域特征进行特征提取,得到每帧所述音频片段的各个所述第二目标频域特征分别对应的第二高低维复用特征,包括:
针对每帧音频片段的每个所述第二目标频域特征,通过每级所述第二卷积单元依次对接收到的所述第二目标频域特征进行卷积处理,并向后一级第二卷积单元和所述第二特征复用单元输出卷积处理后的所述第二目标频域特征;
通过所述第二特征复用单元将所述第二目标频域特征与每级第二卷积单元输出的卷积处理后的所述第二目标频域特征进行特征拼接,得到所述第二目标频域特征对应的第二高低维复用特征。
根据本申请实施例提供的音频场景识别方法,由于音频片段的每个第二目标频域特征对应的第二高低维复用特征是将该第二目标频域特征的低维特征和高维特征进行拼接得到的,因此能够在避免丢失掉音频片段的各个第二目标频域特征的低维特征的同时,从各个第二目标频域特征中获取到更多有效音频信息,进一步提高了音频场景识别的准确率。
此外,由于第一特征提取模块的网络深度大于第二特征提取模块的网络深度,因此可以在提高音频场景识别的准确率的同时,降低电子设备的计算量。
在第一方面的一种可选的实现方式中,所述基于所有所述音频片段相对于各个所述预设音频场景的概率,确定所述待识别音频流对应的目标音频场景,包括:
将每帧所述音频片段相对于各个所述预设音频场景的概率中,对应的所述概率大于预设概率阈值的预设音频场景分别确定为每帧所述音频片段对应的候选音频场景;
基于各个所述音频片段对应的候选音频场景,统计各个所述候选音频场景的数量,并将数量最多的所述候选音频场景确定为所述待识别音频流的目标音频场景。
第二方面,本申请实施例提供一种电子设备,包括:一个或多个处理器;一个或多个存储器;所述一个或多个存储器存储有一个或多个计算机可执行程序,所述一个或多个计算机可执行程序包括指令,当所述指令被所述一个或多个处理器执行时,使得所述电子设备执行如上述第一方面的任一实现方式所述的音频场景识别方法中的各步骤。
第三方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序在被计算机调用时使所述计算机执行如上述第一方面的任一实现方式所述的音频场景识别方法中的各步骤。
第四方面,本申请实施例提供一种计算机可执行程序产品,当计算机可执行程序产品在电子设备上运行时,使得电子设备执行上述第一方面的任一实现方式所述的音频场景识别方法中的各步骤。
第五方面,本申请实施例提供一种芯片系统,包括处理器,处理器与存储器耦合,处理器执行存储器中存储的计算机可执行程序,以实现如上述第一方面的任一实现方式所述的音频场景识别方法中的各步骤。该芯片系统可以为单个芯片,或者多个芯片组成的芯片模组。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
图1为本申请实施例提供的一种电子设备的结构示意图;
图2为本申请实施例提供的一种音频场景识别过程和场景识别模型结构的示意图;
图3A为本申请实施例提供的一种SE网络的结构示意图;
图3B为本申请实施例提供的一种SE网络的工作原理示意图;
图4为本申请实施例提供的一种音频场景识别方法的示意性流程图;
图5为本申请实施例提供的一种音频场景识别方法中S405的具体实现流程图;
图6为本申请实施例的一种电子设备的软件结构框图。
具体实施方式
需要说明的是,本申请实施例的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联物的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,除非另有说明,“多个”是指两个或多于两个,“至少一个”、“一个或多个”是指一个、两个或两个以上。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”特征可以明示或者隐含地包括一个或者更多个该特征。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
目前,电子设备(例如手机或耳机等)能够实现的智能化功能越来越多,如智慧出行、智能降噪及音质平衡等功能。在实际应用中,很多智能化功能的实现需要以识别出电子设备所处的环境(即音频场景)为基础,例如,电子设备在实现智慧出行功能时,需要先识别出电子设备所处的音频场景,再基于该音频场景为用户推荐合适的出行方式和出行路线等;再例如,电子设备在实现智能降噪功能时,需要先识别出电子设备所处的音频场景,再采用与该音频场景对应的降噪算法进行通话降噪、录音降噪及耳机降噪等。
现有的音频场景识别方法通常是基于长时音频流(即时长较长的音频流)进行音频场景识别,如此仅能准确地识别出某个固定的音频场景,而对其他音频场景的场景识别准确率较低,尤其在不同音频场景进行切换时的场景识别准确率较低。
针对上述技术问题,本申请实施例提供了一种音频场景识别方法及电子设备,通过将待识别音频流切分为一帧或多帧音频片段,分别提取每帧音频片段的频域特征;并采用预先分析得到的预设音频场景的音频频率分布特征,将待识别音频流的每帧音频片段的频域特征划分为一个或多个频域特征分块;再通过预先训练好的场景识别模型对每帧音频片段对应的各个频域特征分块进行处理,得到每帧音频片段相对于各个所述预设音频场景的概率;最后基于待识别音频流的所有音频片段相对于各个预设音频场景的概率确定出待识别音频流对应的目标音频场景。由于电子设备不是直接基于整个长时的待识别音频流进行音频场景识别,而是先将待识别音频流切分为多帧短时的音频片段,再将每帧音频片段的频域特征划分为一个或多个频域特征分块,基于每帧音频片段的一个或多个频域特征分块进行音频场景识别,因此可以提高对短时音频流的识别准确率,如此不仅可以提高对不同音频场景识别的准确率,而且可以提高不同音频场景切换时的场景识别准确率,进而提高音频场景识别的鲁棒性。
此外,由于每帧音频片段的频域特征分块是基于预设音频场景的音频频率分布特征切分得到的,因此场景识别模型能够从音频片段中提取出更多有助于音频场景识别的有用音频信息,从而提高音频场景模块输出的每帧音频片段相对于各个预设音频场景的概率的准确率,进一步提高音频场景识别的准确率。
本申请实施例提供的音频场景识别方法可以应用于手机、平板电脑、可穿戴设备、音频设备(例如耳机或音箱等)、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本及个人数字助理(personal digital assistant,PDA)等电子设备上,本申请实施例对电子设备的具体类型不做任何限制。
以下以电子设备为手机为例,对本申请实施例提供的音频场景识别方法所适用的电子设备的结构进行说明。如图1所示,为本申请实施例提供的一种电子设备的结构示意图。
电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中,传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,以及骨传导传感器180M等。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,SIM接口,和/或USB接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I2C总线接口通信,实现电子设备100的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过I2S接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现电子设备100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如AR设备等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备100的各种功能应用以及数据处理。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测电子设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,电子设备100通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中,当电子设备100是翻盖机时,电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备100附近有物体。当检测到不充分的反射光时,电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测电子设备100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,电子设备100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,电子设备100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备100对电池142加热,以避免低温导致电子设备100异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备100对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称“触控器件”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器180M也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备100中,不能和电子设备100分离。
可以理解的是,图1示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
请参阅图2,为本申请实施例提供的一种音频场景识别过程和场景识别模型结构的示意图。如图2所示,本申请实施例中,电子设备在进行音频场景识别之前,可以先对各个预设音频场景中的音频流的频率分布情况进行分析,得到预设音频场景的音频频率分布特征。
其中,预设音频场景为需要进行识别的场景。预设音频场景可以根据实际需求设置,示例性的,预设音频场景可以包括公交车、地铁、马路、机场、办公室、公园及公共广场等。
预设音频场景的音频频率分布特征可以用于描述预设音频场景的音频流中有效音频成分的频率分布情况,有效音频成分指对音频场景识别的准确度贡献较高的音频成分。示例性的,预设音频场景的音频频率分布特征可以通过一个或多个目标频点和/或目标频段表示,该目标频点和/或目标频段为预设音频场景的音频流中有效音频成分的频率所在的频点和/或频段。
可以理解的是,不同预设音频场景的音频频率分布特征通常不同,但不同预设音频场景的音频频率分布特征中可以包括相同的目标频点和/或目标频段。
可选的,预设音频场景的音频频率分布特征可以是电子设备通过预先采集各个预设音频场景中的音频流,并对各个预设音频场景中的音频流的频率分布情况进行分析得到的。
示例性的,电子设备可以预先采集各个预设音频场中多个不同时段的音频流,并对各个预设音频场中该多个不同时段的音频流的频率分布情况进行分析,综合各个预设音频场中该多个不同时段的音频流的频率分布情况,确定预设音频场景的音频频率分布特征。上述多个不同时段可以根据实际需求设置,此处对其不做特别限定。例如,上述多个不同时段可以为一天中的0:00~3:00、5:00~7:00、8:00~9:00、12:00~14:00、15:00~16:00及21:00~23:00等。
在一个具体的实现方式中,电子设备在采集到各个预设音频场景中的音频流之后,可以对各个预设音频场景中的音频流进行傅里叶变换处理,得到各个预设音频场景中的音频流的频域信号,并将每个预设音频场景中的音频流的频域信号中幅度大于预设幅度阈值的频点和/或频段分别确定为每个预设音频场景对应的目标频段和/或目标频点,且通过所有预设音频场景对应的目标频段和/或目标频点的组合表示预设音频场景的音频频率分布特征。
其中,预设幅度阈值可以根据实际需求设置,此处对其不做特别限定。
示例性的,假设音频流的采样频率为Fs;预设音频场景包括场景A、场景B及场景C;场景A中的音频流的频域信号中幅度大于预设幅度阈值的频点和/或频段包括频点Fs/4和频段[Fs/3,2Fs/3],场景B中的音频流的频域信号中幅度大于预设幅度阈值的频点和/或频段包括频点Fs/5和频点Fs/4,场景C中的音频流的频域信号中幅度大于预设幅度阈值的频点和/或频段包括频段[Fs/3,2Fs/3]。则电子设备可以将频点Fs/4确定为场景A对应的目标频点,将频段[Fs/3,2Fs/3]确定为场景A对应的目标频段,将频点Fs/5和频点Fs/4确定为场景B对应的目标频点,将频段[Fs/3,2Fs/3]确定为场景C对应的目标频段,并通过频点Fs/5、频点Fs/4及频段[Fs/3,2Fs/3]表示预设音频场景的音频频率分布特征。
此外,电子设备在进行音频场景识别之前,还可以基于预设样本集,采用机器学习算法对预设神经网络模型进行训练,得到用于进行音频场景识别的场景识别模型。
其中,预设样本集可以包括多条样本数据,每条样本数据可以包括一个样本音频流的每帧音频片段对应的一个或多个第一目标频域特征和一个或多个第二目标频域特征,以及每帧音频片段相对于各个预设音频场景的概率。
示例性的,样本音频流可以是电子设备在各个预设音频场景中采集到的音频流。
可选的,每个样本音频流的每帧音频片段对应的一个或多个第一目标频域特征和一个或多个第二目标频域特征可以是电子设备通过如下步骤1~步骤3获得的:
步骤1,对样本音频流进行分帧处理,得到样本音频流的一帧或多帧音频片段。
电子设备可以以帧为切分单位,将样本音频流切分为一帧或多帧音频片段。示例性的,每帧音频片段的时长可以为第一时长,第一时长例如可以为15秒。
步骤2,分别对样本音频流的每帧音频片段进行频域特征提取,得到样本音频流的每帧音频片段的频域特征。
电子设备将样本音频流切分为一帧或多帧音频片段后,可以分别对样本音频流的每帧音频片段进行频域特征提取,得到样本音频流的每帧音频片段的频域特征。
示例性的,频域特征可以包括但不限于小波特征、梅尔频率倒普系数(mel-frequency cepstral coefficients,MFCC)特征或梅尔滤波器组(filter banks,fbank)特征。
基于此,在一些实施例中,电子设备可以分别对样本音频流的每帧音频片段进行小波特征提取,得到样本音频流的每帧音频片段的小波特征。可以理解的是,由于小波特征提取的具体过程为现有技术,因此关于小波特征提取的具体过程可以参考现有技术中的相关描述,此处对其不进行赘述。
在另一些实施例中,电子设备可以分别对样本音频流的每帧音频片段进行MFCC特征提取,得到样本音频流的每帧音频片段的MFCC特征。可以理解的是,由于MFCC特征提取的具体过程为现有技术,因此关于MFCC特征提取的具体过程可以参考现有技术中的相关描述,此处对其不进行赘述。
在又一些实施例中,电子设备可以分别对样本音频流的每帧音频片段进行fbank特征提取,得到样本音频流的每帧音频片段的fbank特征。可以理解的是,由于fbank特征提取的具体过程为现有技术,因此关于fbank特征提取的具体过程可以参考现有技术中的相关描述,此处对其不进行赘述。
步骤3,基于预设音频场景的音频频率分布特征,对样本音频流的每帧音频片段的频域特征进行特征分块,得到样本音频流的每帧音频片段对应的一个或多个频域特征分块。
由于预设音频场景的音频频率分布特征是通过一个或多个目标频点和/或目标频段表示的,因此,在一个可选的实现方式中,电子设备得到样本音频流的每帧音频片段的频域特征后,可以将样本音频流的每帧音频片段的频域特征中处于上述目标频点上或者目标频段内的频域特征分别切分为一块,将样本音频流的每帧音频片段的频域特征中未处于上述目标频点上和目标频段内的频域特征切分为一块或多块,得到样本音频流的每帧音频片段对应的一个或多个频域特征分块。
示例性的,假设预设音频场景的音频频率分布特征通过频点Fs/5、频点Fs/4以及频段[Fs/3,2Fs/3]表示,样本音频流的每帧音频片段的频域特征均处于频率范围0~Fs之间,则电子设备可以将样本音频流的每帧音频片段的频域特征切分为频率分别处于频段(0,Fs/5)中、频点Fs/5上、频段(Fs/5,Fs/4)中、频点Fs/4上、频段(Fs/4,Fs/3)中、频段[Fs/3,2Fs/3]中以及频段(2Fs/3,Fs)中的七个频域特征分块,该七个频域特征分块可以分别通过FK1、FK2、FK3、FK4、FK5、FK6及FK7表示。
可选的,电子设备得到样本音频流的每帧音频片段对应的一个或多个频域特征分块后,可以将样本音频流的每帧音频片段对应的一个或多个频域特征分块中,与上述目标频点和/或目标频段对应的频域特征分块确定为样本音频流的每帧音频片段的第一目标频域特征,将样本音频流的每帧音频片段对应的一个或多个频域特征分块中除第一目标频域特征之外的其余频域特征分块确定为样本音频流的每帧音频片段的第二目标频域特征。即音频片段的第一目标频域特征可以用于描述音频片段的有效音频成分的频域特征,音频片段的第二目标频域特征可以用于描述音频片段的无效音频成分的频域特征。其中,无效音频成分指对音频场景识别的准确度贡献较低的音频成分。
以上述示例为例,电子设备可以将样本音频流的每帧音频片段对应的七个频域特征分块中频率分别处于频点Fs/5上、频点Fs/4上及频段[Fs/3,2Fs/3]中的频域特征分块确定为样本音频流的每帧音频片段的第一目标频域特征,即电子设备可以将样本音频流的每帧音频片段的FK2、FK4及FK6这三个频域特征分块确定为样本音频流的每帧音频片段的第一目标频域特征;电子设备可以将样本音频流的每帧音频片段对应的七个频域特征分块中频率分别处于(0,Fs/5)中、频段(Fs/5,Fs/4)中、频段(Fs/4,Fs/3)中及频段(2Fs/3,Fs)中的频域特征分块确定为每帧音频片段的第二目标频域特征,即电子设备可以将样本音频流的每帧音频片段的FK1、FK3、FK5及FK7这四个频域特征分块确定为样本音频流的每帧音频片段的第二目标频域特征。
可选的,每个样本音频流的每帧音频片段相对于各个预设音频场景的概率可以是通过人为标记得到的。音频片段相对于各个预设音频场景的概率的取值范围可以为[0,1]。示例性的,假设预设音频场景包括场景A、场景B及场景C,样本音频流sample1是电子设备在场景A中采集到的音频流,那么可以人为将样本音频流sample1的每帧音频片段相对于场景A的概率标记为1,将样本音频流sample1的每帧音频片段相对于场景B的概率和相对于场景C的概率均标记为0。
可选的,如图2所示,预设神经网络模型可以包括特征提取网络21和场景概率预测网络22。其中,特征提取网络21可以用于对音频片段的第一目标频域特征和第二目标频域特征进行处理,得到音频片段的频域融合特征。场景概率预测网络22可以用于基于音频片段的频域融合特征,预测音频片段相对于各个预设音频场景的概率。
具体地,特征提取网络21可以包括第一特征提取模块211、第二特征提取模块212以及特征融合模块213。其中,第一特征提取模块211的输出端和第二特征提取模块212的输出端可以分别与特征融合模块的213的第一输入端和第二输入端连接。
第一特征提取模块211可以用于对音频片段的各个第一目标频域特征进行特征提取,得到音频片段的各个第一目标频域特征分别对应的第一高低维复用特征,并向特征融合模块213输出音频片段的各个第一目标频域特征分别对应的第一高低维复用特征。
第二特征提取模块212可以用于对音频片段的各个第二目标频域特征进行特征提取,得到音频片段的各个第二目标频域特征分布对应的第二高低维复用特征,并向特征融合模块213输出音频片段的各个第二目标频域特征分别对应的第二高低维复用特征。
特征融合模块213可以用于将接收到的所有第一高低维复用特征和所有第二高低维复用特征进行特征融合,得到音频片段的频域融合特征。
示例性的,第一特征提取模块211和第二特征提取模块212均可以采用神经网络(neural network,NN)结构。
在一个具体的实现方式中,第一特征提取模块211可以包括N个级联的第一卷积单元(2111-1~2111-N)和一个第一特征复用单元2112。其中,N可以为大于1的整数,N的具体取值可以是电子设备对预设神经网络模型进行训练时学习到的。
可选的,每级第一卷积单元均可以包括一个输入端和一个输出端。第一特征复用单元2112可以包括N+1个输入端和一个输出端。第一特征复用单元2112的其中N个输入端可以分别与N个第一卷积单元相对应,第一特征复用单元2112的剩余一个输入端与第一级第一卷积单元2111-1的输入端可以共同作为第一特征提取模块211的输入端,每级第一卷积单元的输出端可以与后一级第一卷积单元的输入端连接,且每级第一卷积单元的输出端可以与对应的第一特征复用单元2112的输入端连接。其中,第一特征复用单元2112的剩余一个输入端指第一特征复用单元2112的N+1个输入端中除了与N个第一卷积单元分别(2111-1~2111-N)对应的N个输入端之外的剩余一个输入端。
每级第一卷积单元可以用于对其接收到的音频片段的第一目标频域特征进行卷积处理,并向后一级第一卷积单元和第一特征复用单元2112输出卷积处理后的第一目标频域特征。
需要说明的是,每级第一卷积单元输出的卷积处理后的第一目标频域特征的维度高于该第一卷积单元接收到的第一目标频域特征的维度。
针对音频片段的每个第一目标频域特征,第一特征复用单元2112可以将该第一目标频域特征与每级第一卷积单元输出的卷积处理后的该第一目标频域特征进行特征拼接,得到该第一目标频域特征对应的第一高低维复用特征,并向特征融合模块213输出该第一目标频域特征对应的第一高低维复用特征。由于音频片段的每个第一目标频域特征对应的第一高低维复用特征是将该第一目标频域特征的低维特征和高维特征进行拼接得到的,因此能够在避免丢失掉音频片段的各个第一目标频域特征的低维特征的同时,从各个第一目标频域特征中获取到更多有效的音频信息,进一步提高了音频场景识别的准确率。
类似的,第二特征提取模块212可以包括M个级联的第二卷积单元(2121-1~2121-M)和一个第二特征复用单元2122。其中,M可以为大于1的整数,M的具体取值可以是电子设备对预设神经网络模型进行训练时学习到的。
可以理解的是,由于音频片段的第一目标频域特征用于描述音频片段的有效音频成分的频域特征,音频片段的第二目标频域特征用于描述音频片段的无效音频成分的频域特征,因此,为了在提高音频场景识别的准确率的同时,降低电子设备的计算量,第一特征提取模块211的NN深度可以大于第二特征提取模块212的NN深度,即N可以大于M。
可选的,每级第二卷积单元均可以包括一个输入端和一个输出端。第二特征复用单元2122可以包括M+1个输入端和一个输出端。第二特征复用单元2122的其中M个输入端可以分别与M个第二卷积单元相对应,第二特征复用单元2122的剩余一个输入端与第一级第二卷积单元2121-1的输入端可以共同作为第二特征提取模块212的输入端,每级第二卷积单元的输出端可以与后一级第二卷积单元的输入端连接,且每级第二卷积单元的输出端可以与对应的第二特征复用单元2122的输入端连接。其中,第二特征复用单元2122的剩余一个输入端指第二特征复用单元2122的M+1个输入端中除了与M个第二卷积单元(2121-1~2121-M)分别对应的M个输入端之外的剩余一个输入端。
每级第二卷积单元可以用于对其接收到的音频片段的第二目标频域特征进行卷积处理,并向后一级第二卷积单元和第二特征复用单元2122输出卷积处理后的第二目标频域特征。
需要说明的是,每级第二卷积单元输出的卷积处理后的第二目标频域特征的维度高于该第二卷积单元接收到的第二目标频域特征的维度。
针对音频片段的每个第二目标频域特征,第二特征复用单元2122可以用于将该第二目标频域特征与每级第二卷积单元输出的卷积处理后的该第二目标频域特征进行特征拼接,得到该第二目标频域特征对应的第二高低维复用特征,并向特征融合模块213输出该第二目标频域特征对应的第二高低维复用特征。由于音频片段的每个第二目标频域特征对应的第二高低维复用特征是将该第二目标频域特征的低维特征和高维特征进行拼接得到的,因此能够在避免丢失掉音频片段的各个第二目标频域特征的低维特征的同时,从各个第二目标频域特征中获取到更多有效音频信息,进一步提高了音频场景识别的准确率。
可选的,特征融合模块213可以采用但不限于以下几种方式对接收到的所有第一高低维复用特征和所有第二高低维复用特征进行特征融合,得到音频片段的频域融合特征:
方式1、基于音频片段的各个第一高低维复用特征各自对应的权重和各个第二高低维复用特征各自对应的权重,将音频片段的所有第一高低维复用特征与所有第二高低维复用特征进行加权求和,得到音频片段的频域融合特征。
需要说明的是,音频片段的每个第一高低维复用特征对应的权重和每个第二高低维复用特征对应的权重均可以是电子设备对预设神经网络模型进行训练时学习到的。
示例性的,假设电子设备将每帧音频片段的频域特征切分为FK1、FK2、FK3、FK4、FK5、FK6及FK7七个频域特征分块,该七个频域特征分块中,FK2、FK4及FK6为音频片段的第一目标频域特征,FK1、FK3、FK5及FK7为音频片段的第二目标频域特征,FK2、FK4及FK6各自对应的第一高低维复用特征分别为R11、R12及R13,FK1、FK3、FK5及FK7各自对应的第二高低维复用特征分别为R21、R22、R23及R24,且R11、R12、R13、R21、R22、R23及R24各自对应的权重分别为a1、a2、a3、b1、b2、b3及b4,则电子设备可以通过如下公式(1)得到音频片段的频域融合特征Rrh:
Rrh= a1* R11+ a2* R12+ a3* R13+ b1* R21+ b2* R22+ b3* R23+ b4* R24;公式(1)
方式2、将音频片段的每个第一高低维复用特征和每个第二高低维复用特征分别与对应的权重相乘,并将所有乘以权重后的第一高低维复用特征和所有乘以权重后的第二高低维复用特征进行特征拼接,得到音频片段的频域融合特征。
以方式1中的示例为例,电子设备可以将如下公式(2)所表示的频域特征确定为音频片段的频域融合特征:
Rrh=[ a1* R11, a2* R12, a3* R13, b1* R21, b2* R22,b3* R23, b4* R24];公式(2)
方式3、基于注意力机制对音频片段的所有第一高低维复用特征和所有第二高低维复用特征进行处理,得到音频片段的频域融合特征。
示例性的,注意力机制可以通过压缩和激励(squeeze-and-excitation,SE)网络实现。
可选的,如图3A所示,SE网络可以包括压缩层31、激励层32及融合层33。
其中,压缩层31可以用于将音频片段的所有第一高低维复用特征和所有第二高低维复用特征进行拼接,得到一个多维的多通道拼接特征,并将该多维的多通道拼接特征输出至融合层33。其中,多通道拼接特征的通道数与每个音频片段的频域特征分块的数量相等。
此外,压缩层31还用于将多维的多通道拼接特征在特征维度上进行压缩,得到一个一维的多通道拼接特征,并将该一维的多通道拼接特征输出至激励层32。
激励层32用于确定该一维的多通道拼接特征的每个通道对应的权重,并将所有通道对应的权重拼接为一个权重矩阵,且输出该权重矩阵至融合层33。
融合层33可以用于将上述多维的多通道拼接特征与该权重矩阵进行相乘,并将乘以权重矩阵后的多维的多通道拼接特征与上述多维的多通道拼接特征进行相加,得到音频片段的频域融合特征。
示例性的,结合图3B,假设音频片段包括一个第一高低维复用特征R1和一个第二高低维复用特征R2,第一高低维复用特征R1和第二高低维复用特征R2的维度均为4×3,则压缩层31可以将该第一高低维复用特征R1和第二高低维复用特征R2进行拼接,得到一个4×3维度的双通道拼接特征PJ1,即该双通道拼接特征PJ1的维度为4×3×2。
压缩层31可以将该4×3维度的双通道拼接特征PJ1输出至融合层33,且压缩层31可以将该4×3维度的双通道拼接特征PJ1在特征维度上进行压缩,得到一个1×1维度的双通道拼接特征PJ2(即维度为1×1×2),并将该1×1维度的双通道拼接特征PJ2输出至激励层32。激励层32可以确定该1×1维度的双通道拼接特征PJ2的每个通道对应的权重,得到一个1×1×2维度的权重矩阵QZ1,且将该权重矩阵QZ1输出至融合层33。融合层33可以将4×3维度的双通道拼接特征PJ1与权重矩阵QZ1进行相乘得到特征PJ1*QZ1,并将特征PJ1*QZ1与双通道拼接特征PJ1进行相加,得到音频片段的频域融合特征PJ1*QZ+PJ1。
在一些实施例中,场景概率预测网络22可以为基于NN的分类器,基于NN的分类器可以用于将音频片段的频域融合特征映射到各个预设音频场景中,从而得到音频片段相对于各个预设音频场景的概率。示例性的,基于NN的分类器可以由如图2所示的深度神经网络(deep neural networks,DNN)模块221和softmax函数222构成。需要说明的是,关于DNN模块221和softmax函数222的工作原理可以参考现有技术中的相关描述,此处不对其进行赘述。
基于预设神经网络模型的上述结构,电子设备在对预设神经模块模型进行训练时,可以分别将每条样本数据中的每帧音频片段对应的一个或多个第一目标频域特征和一个或多个第二目标频域特征作为预设神经网络模型的输入,将每条样本数据中的每帧音频片段相对于各个预设音频场景的概率作为预设神经网络模型的输出,对预设神经网络模型进行训练,从而学习到上述N的具体取值、M的具体取值、音频片段的每个第一高低维复用特征对应的权重以及音频片段的每个第二高低维复用特征对应的权重。在预设神经网络训练完成后,电子设备可以将训练完成的预设神经模块模型确定为场景识别模型。
电子设备得到预设音频场景的音频频率分布特征和场景识别模型后,可以基于本申请实施例提供的音频场景识别方法对待识别场景进行场景识别。
请参阅图4,为本申请实施例提供的一种音频场景识别方法的示意性流程图。如图4所示,该音频场景识别方法可以包括S401~S406,详述如下:
S401,获取待识别音频流。
待识别音频流为用作音频场景识别的音频流。
示例性的,电子设备获取待识别音频流的方式可以包括但不限于:通过麦克风实时采集音频流,或者通过麦克风每隔第二时长采集一次音频流,并将通过麦克风采集到的音频流作为待识别音频流。其中,第二时长可以根据实际需求设置,此处对其不做特别限定。
S402,对待识别音频流进行分帧处理,得到待识别音频流的一帧或多帧音频片段。
电子设备获取到待识别音频流后,可以以帧为切分单位,将待识别音频流切分为一帧或多帧音频片段。
S403,分别对待识别音频流的每帧音频片段进行频域特征提取,得到待识别音频流的每帧音频片段的频域特征。
电子设备将待识别音频流切分为一帧或多帧音频片段后,可以分别对待识别音频流的每帧音频片段进行频域特征提取,得到待识别音频流的每帧音频片段的频域特征。
示例性的,频域特征可以包括但不限于小波特征、梅尔频率倒普系数(mel-frequency cepstral coefficients,MFCC)特征或梅尔滤波器组(filter banks,fbank)特征。
基于此,在一些实施例中,电子设备可以分别对待识别音频流的每帧音频片段进行小波特征提取,得到待识别音频流的每帧音频片段的小波特征。可以理解的是,由于小波特征提取的具体过程为现有技术,因此关于小波特征提取的具体过程可以参考现有技术中的相关描述,此处对其不进行赘述。
在另一些实施例中,电子设备可以分别对待识别音频流的每帧音频片段进行MFCC特征提取,得到待识别音频流的每帧音频片段的MFCC特征。可以理解的是,由于MFCC特征提取的具体过程为现有技术,因此关于MFCC特征提取的具体过程可以参考现有技术中的相关描述,此处对其不进行赘述。
在又一些实施例中,电子设备可以分别对待识别音频流的每帧音频片段进行fbank特征提取,得到待识别音频流的每帧音频片段的fbank特征。可以理解的是,由于fbank特征提取的具体过程为现有技术,因此关于fbank特征提取的具体过程可以参考现有技术中的相关描述,此处对其不进行赘述。
S404,基于预设音频场景的音频频率分布特征,对待识别音频流的每帧音频片段的频域特征进行特征分块,得到待识别音频流的每帧音频片段对应的一个或多个频域特征分块。
由于预设音频场景的音频频率分布特征是通过一个或多个目标频点和/或目标频段表示的,因此,在一个具体的实现方式中,电子设备得到待识别音频流的每帧音频片段的频域特征后,可以将待识别音频流的每帧音频片段的频域特征中处于上述目标频点上或者目标频段内的频域特征分别切分为一块,将待识别音频流的每帧音频片段的频域特征中未处于上述目标频点上和目标频段内的频域特征切分为一块或多块,得到待识别音频流的每帧音频片段对应的一个或多个频域特征分块。
示例性的,假设预设音频场景的音频频率分布特征通过频点Fs/5、频点Fs/4以及频段[Fs/3,2Fs/3]表示,待识别音频流的每帧音频片段的频域特征均处于频率范围0~Fs之间,则电子设备可以将待识别音频流的每帧音频片段的频域特征切分为频率分别处于频段(0,Fs/5)中、频点Fs/5上、频段(Fs/5,Fs/4)中、频点Fs/4上、频段(Fs/4,Fs/3)中、频段[Fs/3,2Fs/3]中以及频段(2Fs/3,Fs)中的七个频域特征分块,该七个频域特征分块可以分别通过FK1、FK2、FK3、FK4、FK5、FK6及FK7表示。
可选的,电子设备得到待识别音频流的每帧音频片段对应的一个或多个频域特征分块后,可以将待识别音频流的每帧音频片段对应的一个或多个频域特征分块中,与上述目标频点和/或目标频段对应的频域特征分块确定为待识别音频流的每帧音频片段的第一目标频域特征,将待识别音频流的每帧音频片段对应的一个或多个频域特征分块中除第一目标频域特征之外的其余频域特征分块确定为待识别音频流的每帧音频片段的第二目标频域特征。
以上述示例为例,电子设备可以将待识别音频流的每帧音频片段对应的七个频域特征分块中频率分别处于频点Fs/5上、频点Fs/4上及频段[Fs/3,2Fs/3]中的频域特征分块确定为待识别音频流的每帧音频片段的第一目标频域特征,即电子设备可以将待识别音频流的每帧音频片段的FK2、FK4及FK6这三个频域特征分块确定为待识别音频流的每帧音频片段的第一目标频域特征;电子设备可以将待识别音频流的每帧音频片段对应的七个频域特征分块中频率分别处于(0,Fs/5)中、频段(Fs/5,Fs/4)中、频段(Fs/4,Fs/3)中及频段(2Fs/3,Fs)中的频域特征分块确定为每帧音频片段的第二目标频域特征,即电子设备可以将待识别音频流的每帧音频片段的FK1、FK3、FK5及FK7这四个频域特征分块确定为待识别音频流的每帧音频片段的第二目标频域特征。
S405,通过预先训练好的场景识别模型分别对待识别音频流的每帧音频片段对应的各个频域特征分块进行处理,得到待识别音频流的每帧音频片段相对于各个预设音频场景的概率。
具体地,结合图2,由于场景识别模型包括特征提取网络21和场景概率预测网络22,特征提取网络21包括第一特征提取模块211、第二特征提取模块212以及特征融合模块213,因此,在一个具体的实现方式中,S405可以通过如图5所示的S4051~S4053实现,详述如下:
S4051,通过场景识别模型中的第一特征提取模块分别对待识别音频流的每帧音频片段的各个第一目标频域特征进行特征提取,得到待识别音频流的每帧音频片段的各个第一目标频域特征分别对应的第一高低维复用特征。
S4052,通过场景识别模型中的第二特征提取模块分别对待识别音频流的每帧音频片段的各个第二目标频域特征进行特征提取,得到待识别音频流的每帧音频片段的各个第二目标频域特征分布对应的第二高低维复用特征。
S4053,通过场景识别模型中的特征融合模块分别将待识别音频流的每帧音频片段的所有第一高低维复用特征和所有第二高低维复用特征进行特征融合,得到待识别音频流的每帧音频片段的频域融合特征。
需要说明的是,关于第一特征提取模块211、第二特征提取模块212、特征融合模块213以及场景概率预测网络22的具体内容可以参考图2对应的实施例中的相关描述,此次对其不进行赘述。
更具体地,结合图2,由于第一特征提取模块211包括N个级联的第一卷积单元(2111-1~2111-N)和一个第一特征复用单元2112,第一特征复用单元2112包括N+1个输入端和一个输出端,第一特征复用单元2112的其中N个输入端分别与N个第一卷积单元相对应,第一特征复用单元2112的剩余一个输入端与第一级第一卷积单元2111-1的输入端共同作为第一特征提取模块211的输入端,每级第一卷积单元的输出端与后一级第一卷积单元的输入端连接,且每级第一卷积单元的输出端与对应的第一特征复用单元2112的输入端连接。因此,在一个具体的实现方式中,S4051可以包括以下步骤:
针对每帧音频片段的每个第一目标频域特征,通过第一特征提取模块中的每级第一卷积单元依次对接收到的该第一目标频域特征进行卷积处理,并向后一级第一卷积单元和第一特征复用单元输出卷积处理后的该第一目标频域特征;
通过第一特征复用单元将该第一目标频域特征与每级第一卷积单元输出的卷积处理后的该第一目标频域特征进行特征拼接,得到该第一目标频域特征对应的第一高低维复用特征。
需要说明的是,关于第一卷积单元和第一特征复用单元211的具体内容可以参考图2对应的实施例中的相关描述,此次对其不进行赘述。
更具体地,结合图2,由于第二特征提取模块212包括M个级联的第二卷积单元(2121-1~2121-M)和一个第二特征复用单元2122,第二特征复用单元2122包括M+1个输入端和一个输出端,第二特征复用单元2122的其中M个输入端分别与M个第二卷积单元相对应,第二特征复用单元2122的剩余一个输入端与第一级第二卷积单元2121-1的输入端共同作为第二特征提取模块212的输入端,每级第二卷积单元的输出端与后一级第二卷积单元的输入端连接,且每级第二卷积单元的输出端与对应的第二特征复用单元2122的输入端连接。因此,在一个具体的实现方式中,S4052可以包括以下步骤:
针对每帧音频片段的每个第二目标频域特征,通过第二特征提取模块中的每级第二卷积单元依次对接收到的该第二目标频域特征进行卷积处理,并向后一级第二卷积单元和第二特征复用单元输出卷积处理后的该第二目标频域特征;
通过第二特征复用单元将该第二目标频域特征与每级第二卷积单元输出的卷积处理后的该第二目标频域特征进行特征拼接,得到该第二目标频域特征对应的第二高低维复用特征。
需要说明的是,第二卷积单元和第二特征复用单元2122的具体内容可以参考图2对应的实施例中的相关描述,此次对其不进行赘述。
S406,基于待识别音频流的所有音频片段相对于各个预设音频场景的概率,确定待识别音频流对应的目标音频场景。
电子设备得到待识别音频流的各个音频片段相对于各个预设音频场景的概率之后,可以基于待识别音频流的每个音频片段相对于各个预设音频场景的概率,分别确定每个音频片段对应的候选音频场景。之后,电子设备可以基于待识别音频流的各个音频片段各自对应的候选音频场景,统计各个候选音频场景的数量,将数量最多的候选音频场景确定为待识别音频流对应的目标音频场景。
在一个可选的实现方式中,电子设备可以将每个音频片段相对于各个预设音频场景的概率中,对应的概率大于预设概率阈值的预设音频场景分别确定为每个音频片段对应的候选音频场景。其中,预设概率阈值可以根据实际需求设置,此处对其不做特别限定。
示例性的,假设待识别音频流包括三帧音频片段,分别为音频片段1、音频片段2及音频片段3,预设音频场景包括场景A、场景B、及场景C,音频片段1相对于场景A、场景B及场景C的概率分别为10%、50%及70%,音频片段2相对于场景A、场景B及场景C的概率分别为60%、40%及70%,音频片段3相对于场景A、场景B及场景C的概率分别为20%、30%及80%,预设频率阈值为50%,则电子设备可以将场景C确定为音频片段1对应的候选音频场景,将场景A和场景C确定为音频片段2对应的候选音频场景,将场景C确定为音频片段3对应的候选音频场景,基于此,待识别音频流对应的候选音频场景则包括一个场景A和两个场景C,由于待识别音频流对应的候选音频场景中场景C的数量最多,则电子设备可以将场景C确定为待识别音频流对应的目标音频场景。
基于同样的技术构思,本申请实施例还提供了一种电子设备,该电子设备可以包括:显示器;一个或多个处理器;一个或多个存储器;该一个或多个存储器存储有一个或多个计算机程序,该一个或多个计算机程序包括指令,当该指令被上述一个或多个处理器执行时,使得电子设备执行图2所示的任意一个流程中的一个或多个步骤。
该电子设备的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android系统为例,示例性说明电子设备的软件结构。
请参阅图6,为本申请实施例的一种电子设备的软件结构框图。
分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。
应用程序层可以包括一系列应用程序包。
如图6所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图6所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
下面结合捕获拍照场景,示例性说明电子设备软件以及硬件的工作流程。
当电子设备的触摸传感器180K(如图1所示)接收到触摸操作,相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标,触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件,识别该输入事件所对应的控件。以该触摸操作是触摸单击操作,该单击操作所对应的控件为相机应用图标的控件为例,相机应用调用应用框架层的接口,启动相机应用,进而通过调用内核层启动摄像头驱动,通过摄像头193(如图1所示)捕获静态图像或视频。
基于同样的技术构思,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行程序,该计算机可执行程序在被计算机调用时使计算机执行图2所示的任意一个流程中的一个或多个步骤。
基于同样的技术构思,本申请实施例还提供了一种芯片系统,包括处理器,处理器与存储器耦合,该处理器执行存储器中存储的计算机可执行程序,以实现如图2所示的任意一个流程中的一个或多个步骤。该芯片系统可以为单个芯片,或者多个芯片组成的芯片模组。
基于同样的技术构思,本申请实施例还提供了一种计算机可执行程序产品,当计算机可执行程序产品在电子设备上运行时,使得该电子设备执行图2所示的任意一个流程中的一个或多个步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其他实施例的相关描述。应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。
以上所述,仅为本申请实施例的具体实施方式,但本申请实施例的保护范围并不局限于此,任何在本申请实施例揭露的技术范围内的变化或替换,都应涵盖在本申请实施例的保护范围之内。因此,本申请实施例的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种音频场景识别方法,其特征在于,包括:
对待识别音频流进行分帧处理,得到一帧或多帧音频片段;
分别对每帧所述音频片段进行频域特征提取,得到每帧所述音频片段的频域特征;
基于预设音频场景的音频频率分布特征,对每帧所述音频片段的所述频域特征进行特征分块,得到每帧所述音频片段对应的一个或多个频域特征分块;
通过预先训练好的场景识别模型分别对每帧所述音频片段对应的各个所述频域特征分块进行处理,得到每帧所述音频片段相对于各个所述预设音频场景的概率;所述场景识别模块为基于预设样本集,采用机器学算法对预设神经网络模型进行训练得到的;所述预设样本集中的每条样本数据均包括一个样本音频流的每帧音频片段对应的一个或多个频域特征分块,以及每帧音频片段相对于各个预设音频场景的概率;
基于所有所述音频片段相对于各个所述预设音频场景的概率,确定所述待识别音频流对应的目标音频场景。
2.根据权利要求1所述的音频场景识别方法,其特征在于,所述音频频率分布特征通过一个或多个目标频点和/或目标频段表示;所述目标频点和/或目标频段为所述预设音频场景中的音频流的频域信号中,幅度大于预设幅度阈值的频点和/或频段;
对应地,所述基于各个预设音频场景的音频频率分布特征,对每帧所述音频片段的所述频域特征进行特征分块,得到每帧所述音频片段对应的一个或多个频域特征分块,包括:
将每帧所述音频片段的频域特征中处于所述目标频点上或所述目标频段内的频域特征分别切分为一块,将每帧所述音频片段的频域特征中未处于所述目标频点上和所述目标频段内的频域特征切分为一块或多块,得到每帧所述音频片段对应的一个或多个频域特征分块。
3.根据权利要求2所述的音频场景识别方法,其特征在于,在所述得到每帧所述音频片段对应的一个或多个频域特征分块之后,还包括:
将每帧所述音频片段对应的一个或多个频域特征分块中,与所述目标频点和/或所述目标频段对应的频域特征分块确定为每帧所述音频片段的第一目标频域特征;
将每帧所述音频片段对应的一个或多个频域特征分块中,除所述第一目标频域特征之外的其余频域特征分块确定为每帧所述音频片段的第二目标频域特征。
4.根据权利要求3所述的音频场景识别方法,其特征在于,所述场景识别模型包括特征提取网络和场景概率预测网络;所述特征提取网络包括第一特征提取模块、第二特征提取模块以及特征融合模块,所述第一特征提取模块的输出端和所述第二特征提取模块的输出端分别与所述特征融合模块的第一输入端和第二输入端连接,所述特征融合模块的输出端与所述场景概率预测网络的输入端连接;所述第一特征提取模块和所述第二特征提取模块均采用神经网络结构,且所述第一特征提取模块的网络深度大于所述第二特征提取模块的网络深度;
对应地,所述通过预先训练好的场景识别模型分别对每帧所述音频片段对应的各个所述频域特征分块进行处理,得到每帧所述音频片段相对于各个所述预设音频场景的概率,包括:
通过所述第一特征提取模块分别对每帧所述音频片段的各个所述第一目标频域特征进行特征提取,得到每帧所述音频片段的各个所述第一目标频域特征分别对应的第一高低维复用特征;
通过所述第二特征提取模块分别对每帧所述音频片段的各个所述第二目标频域特征进行特征提取,得到每帧所述音频片段的各个所述第二目标频域特征分别对应的第二高低维复用特征;
通过所述特征融合模块分别将每帧所述音频片段的所有所述第一高低维复用特征和所有所述第二高低维复用特征进行特征融合,得到每帧所述音频片段的频域融合特征;
通过所述场景概率预测网络基于每帧所述音频片段的频域融合特征,分别预测每帧所述音频片段相对于各个所述预设音频场景的概率。
5.根据权利要求4所述的音频场景识别方法,其特征在于,所述第一特征提取模块包括N个级联的第一卷积单元和一个第一特征复用单元,所述第一特征复用单元包括N+1个输入端和一个输出端,所述第一特征复用单元的其中N个输入端分别与N个所述第一卷积单元相对应,所述第一特征复用单元的剩余一个输入端与第一级所述第一卷积单元的输入端共同作为所述第一特征提取模块的输入端,每级所述第一卷积单元的输出端与后一级所述第一卷积单元的输入端连接,且每级所述第一卷积单元的输出端与对应的所述第一特征复用单元的输入端连接;N为大于1的整数,且N大于所述第二特征提取模块中的第二卷积单元的数量;
对应地,所述通过所述第一特征提取模块分别对每帧所述音频片段的各个所述第一目标频域特征进行特征提取,得到每帧所述音频片段的各个所述第一目标频域特征分别对应的第一高低维复用特征,包括:
针对每帧音频片段的每个所述第一目标频域特征,通过每级所述第一卷积单元依次对接收到的所述第一目标频域特征进行卷积处理,并向后一级第一卷积单元和所述第一特征复用单元输出卷积处理后的所述第一目标频域特征;
通过所述第一特征复用单元将所述第一目标频域特征与每级第一卷积单元输出的卷积处理后的所述第一目标频域特征进行特征拼接,得到所述第一目标频域特征对应的第一高低维复用特征。
6.根据权利要求4所述的音频场景识别方法,其特征在于,所述第二特征提取模块包括M个级联的第二卷积单元和一个第二特征复用单元,所述第二特征复用单元包括M+1个输入端和一个输出端,所述第二特征复用单元的其中M个输入端分别与M个所述第二卷积单元相对应,所述第二特征复用单元的剩余一个输入端与第二级所述第二卷积单元的输入端共同作为所述第二特征提取模块的输入端,每级所述第二卷积单元的输出端与后一级所述第二卷积单元的输入端连接,且每级所述第二卷积单元的输出端与对应的所述第二特征复用单元的输入端连接;M为大于1的整数,且M小于所述第一特征提取模块中的第一卷积单元的数量;
对应地,所述通过所述第二特征提取模块分别对每帧所述音频片段的各个所述第二目标频域特征进行特征提取,得到每帧所述音频片段的各个所述第二目标频域特征分别对应的第二高低维复用特征,包括:
针对每帧音频片段的每个所述第二目标频域特征,通过每级所述第二卷积单元依次对接收到的所述第二目标频域特征进行卷积处理,并向后一级第二卷积单元和所述第二特征复用单元输出卷积处理后的所述第二目标频域特征;
通过所述第二特征复用单元将所述第二目标频域特征与每级第二卷积单元输出的卷积处理后的所述第二目标频域特征进行特征拼接,得到所述第二目标频域特征对应的第二高低维复用特征。
7.根据权利要求1-6任一项所述的音频场景识别方法,其特征在于,所述基于所有所述音频片段相对于各个所述预设音频场景的概率,确定所述待识别音频流对应的目标音频场景,包括:
将每帧所述音频片段相对于各个所述预设音频场景的概率中,对应的所述概率大于预设概率阈值的预设音频场景分别确定为每帧所述音频片段对应的候选音频场景;
基于各个所述音频片段对应的候选音频场景,统计各个所述候选音频场景的数量,并将数量最多的所述候选音频场景确定为所述待识别音频流的目标音频场景。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
一个或多个存储器;
所述一个或多个存储器存储有一个或多个计算机可执行程序,所述一个或多个计算机可执行程序包括指令,当所述指令被所述一个或多个处理器执行时,使得所述电子设备执行如权利要求1-7任一项所述的音频场景识别方法中的各步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序在被计算机调用时,使所述计算机执行如权利要求1-7任一项所述的音频场景识别方法中的各步骤。
10.一种芯片系统,其特征在于,包括处理器,所述处理器与存储器耦合,所述存储器用于存储计算机程序指令,当所述处理器执行所述计算机程序指令时,使得所述芯片系统实现如权利要求1-7任一项所述的音频场景识别方法中的各步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310152921.9A CN117133311B (zh) | 2023-02-09 | 音频场景识别方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310152921.9A CN117133311B (zh) | 2023-02-09 | 音频场景识别方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117133311A true CN117133311A (zh) | 2023-11-28 |
CN117133311B CN117133311B (zh) | 2024-05-10 |
Family
ID=
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200160878A1 (en) * | 2018-11-16 | 2020-05-21 | Samsung Electronics Co., Ltd. | Electronic device and method of recognizing audio scene |
CN111341319A (zh) * | 2018-12-19 | 2020-06-26 | 中国科学院声学研究所 | 一种基于局部纹理特征的音频场景识别方法及系统 |
CN111477250A (zh) * | 2020-04-07 | 2020-07-31 | 北京达佳互联信息技术有限公司 | 音频场景识别方法、音频场景识别模型的训练方法和装置 |
WO2020238775A1 (zh) * | 2019-05-28 | 2020-12-03 | 华为技术有限公司 | 一种场景识别方法、一种场景识别装置及一种电子设备 |
KR20210011707A (ko) * | 2019-07-23 | 2021-02-02 | 서강대학교산학협력단 | Cnn을 기반으로 한 동영상의 씬 단위 장소 분류 방법 및 이를 이용한 장소 분류 장치 |
CN112562735A (zh) * | 2020-11-27 | 2021-03-26 | 锐迪科微电子(上海)有限公司 | 语音检测方法、装置、设备和存储介质 |
CN113129917A (zh) * | 2020-01-15 | 2021-07-16 | 荣耀终端有限公司 | 基于场景识别的语音处理方法及其装置、介质和系统 |
CN114186094A (zh) * | 2021-11-01 | 2022-03-15 | 深圳市豪恩声学股份有限公司 | 音频场景分类方法、装置、终端设备及存储介质 |
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200160878A1 (en) * | 2018-11-16 | 2020-05-21 | Samsung Electronics Co., Ltd. | Electronic device and method of recognizing audio scene |
CN111341319A (zh) * | 2018-12-19 | 2020-06-26 | 中国科学院声学研究所 | 一种基于局部纹理特征的音频场景识别方法及系统 |
WO2020238775A1 (zh) * | 2019-05-28 | 2020-12-03 | 华为技术有限公司 | 一种场景识别方法、一种场景识别装置及一种电子设备 |
KR20210011707A (ko) * | 2019-07-23 | 2021-02-02 | 서강대학교산학협력단 | Cnn을 기반으로 한 동영상의 씬 단위 장소 분류 방법 및 이를 이용한 장소 분류 장치 |
CN113129917A (zh) * | 2020-01-15 | 2021-07-16 | 荣耀终端有限公司 | 基于场景识别的语音处理方法及其装置、介质和系统 |
CN111477250A (zh) * | 2020-04-07 | 2020-07-31 | 北京达佳互联信息技术有限公司 | 音频场景识别方法、音频场景识别模型的训练方法和装置 |
CN112562735A (zh) * | 2020-11-27 | 2021-03-26 | 锐迪科微电子(上海)有限公司 | 语音检测方法、装置、设备和存储介质 |
CN114186094A (zh) * | 2021-11-01 | 2022-03-15 | 深圳市豪恩声学股份有限公司 | 音频场景分类方法、装置、终端设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115866121B (zh) | 应用界面交互方法、电子设备和计算机可读存储介质 | |
CN111095723B (zh) | 无线充电方法及电子设备 | |
CN114650363B (zh) | 一种图像显示的方法及电子设备 | |
CN113542580B (zh) | 去除眼镜光斑的方法、装置及电子设备 | |
CN116070035B (zh) | 数据处理方法和电子设备 | |
CN115914461B (zh) | 位置关系识别方法和电子设备 | |
CN115641867B (zh) | 语音处理方法和终端设备 | |
CN114828098B (zh) | 数据传输方法和电子设备 | |
CN112416984A (zh) | 一种数据处理方法及其装置 | |
CN117133311B (zh) | 音频场景识别方法及电子设备 | |
CN117133311A (zh) | 音频场景识别方法及电子设备 | |
CN116320123B (zh) | 一种语音信号的输出方法和电子设备 | |
CN116703741B (zh) | 一种图像对比度的生成方法、装置和电子设备 | |
CN116048831B (zh) | 一种目标信号处理方法和电子设备 | |
CN116321265B (zh) | 网络质量评估方法、电子设备以及存储介质 | |
CN116703689B (zh) | 一种着色器程序的生成方法、装置和电子设备 | |
CN115359156B (zh) | 音频播放方法、装置、设备和存储介质 | |
CN115792431B (zh) | 一种异常位置检测方法和电子设备 | |
CN116233599B (zh) | 一种录像模式推荐方法和电子设备 | |
CN114942741B (zh) | 数据传输方法及电子设备 | |
CN114205318B (zh) | 头像显示方法及电子设备 | |
CN116708751B (zh) | 一种拍照时长的确定方法、装置和电子设备 | |
CN116051351B (zh) | 一种特效处理方法和电子设备 | |
CN114006976B (zh) | 一种界面显示方法及终端设备 | |
CN116366785A (zh) | 视频生成系统、方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |