CN111415678B - 对移动设备或可穿戴设备进行开放或封闭空间环境分类 - Google Patents

对移动设备或可穿戴设备进行开放或封闭空间环境分类 Download PDF

Info

Publication number
CN111415678B
CN111415678B CN202010011029.5A CN202010011029A CN111415678B CN 111415678 B CN111415678 B CN 111415678B CN 202010011029 A CN202010011029 A CN 202010011029A CN 111415678 B CN111415678 B CN 111415678B
Authority
CN
China
Prior art keywords
seir
features
processor
frames
spatial environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010011029.5A
Other languages
English (en)
Other versions
CN111415678A (zh
Inventor
M·乔达里
A.库马
G·辛格
R·巴勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
STMICROELECTRONICS INTERNATIONAL NV
STMicroelectronics lnc USA
Original Assignee
STMICROELECTRONICS INTERNATIONAL NV
STMicroelectronics lnc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by STMICROELECTRONICS INTERNATIONAL NV, STMicroelectronics lnc USA filed Critical STMICROELECTRONICS INTERNATIONAL NV
Publication of CN111415678A publication Critical patent/CN111415678A/zh
Application granted granted Critical
Publication of CN111415678B publication Critical patent/CN111415678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/025Services making use of location information using location based information parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Otolaryngology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Environmental & Geological Engineering (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明的各实施例涉及对移动设备或可穿戴设备进行开放或封闭空间环境分类。提供了一种用于将空间环境分类为开放或封闭的方法和装置。在该方法和装置中,一个或多个麦克风在空间环境中检测周围环境声音,并且输出表示周围环境声音的音频信号。处理器确定针对音频信号的空间环境冲激响应(SEIR),并且提取SEIR的一个或多个特征。处理器基于SEIR的一个或多个特征将空间环境分类为开放或封闭。

Description

对移动设备或可穿戴设备进行开放或封闭空间环境分类
技术领域
本公开总体上涉及一种用于移动设备或可穿戴设备的开放或封闭空间环境分类的方法,并且特别地,本公开涉及一种用于使用被动记录的声音进行分类的方法。
背景技术
诸如移动电话、可穿戴设备或个人数字助理的现代消费电子设备通常配备有内置高保真数字麦克风或麦克风阵列,其输入声音以用于通信或语音指令。消费电子设备通常配备有具有执行复杂计算能力的处理器。这允许使用该设备对使用麦克风或麦克风阵列数字记录的声音执行计算密集型操作,并且从声音记录中收集信息。
发明内容
提供一种用于对设备附近的空间的开放空间环境或封闭空间环境进行分类的方法和设备。设备可以是移动设备或可穿戴设备等。设备使用麦克风或麦克风的阵列得到环境中的声音信号,而无需通过扬声器主动发送任何已知信号。设备从存在于空间环境中的、被动记录的周围环境声音估计空间环境冲激响应(SEIR),从而放弃主动音频传输。
设备从SEIR提取特征。设备利用附加特征(诸如声音信号的梅尔频率倒频谱系数(MFCC)、delta MFCC和双delta MFCC)来增强从SEIR提取的特征。数字化麦克风信号的不同帧大小被使用以用于提取从SEIR得到的特征以及MFCC、delta MFCC和双delta MFCC特征。设备联接该些特征,并且将该些特征提供给模式分类器(例如,深度学习分类器),以将空间环境分类为开放或封闭。
附图说明
图1示出了用于对空间环境进行分类的设备的框图。
图2示出了用于空间环境分类的方法的流程图。
图3示出了针对开放空间的空间环境冲激响应(SEIR)包络的一个示例和针对封闭空间的一个示例SEIR包络。
图4图示了针对封闭空间的SEIR包络的细节。
图5示出了一种使用空间环境中存在的周围环境声音对开放空间环境和封闭空间环境进行SEIR估计和特征提取的技术。
图6示出了用于从空间环境的周围环境声音估计SEIR的方法的流程图。
图7示出了用于通过增强从信号窗口得到的特征矢量来生成复合特征矢量的方法的流程图。
图8A和图8B示出了用于联接不同维度的特征矢量以形成复合特征矢量的方法的流程图。
图9示出了DNN分类器的测试准确度的一个示例。
具体实施方式
本文提供的是用于在没有来自用户的明确输入的情况下,将设备周围的空间环境标识为开放或封闭的技术。移动设备或可穿戴设备的空间环境的准确分类是针对各种上下文感知应用的有用上下文输入。
已经尝试利用各种其他传感器(诸如,全球定位系统(GPS)、室内定位系统(IPS)、Wi-Fi、射频(RF)测距、移动网络、无线电访问网络(RAN)、摄像头、扬声器和麦克风等)对移动设备或可穿戴设备的用户的开放空间环境或封闭空间环境进行分类。但是,这些技术具有其相关联的局限性。例如,Wi-Fi基础设施和移动网络的可用性不是通用的,并且由于基于位置和信号强度的检测的准确度,GPS信号可能具有模糊性。另外,IPS、Wi-Fi和基于RAN的分类需要单独的硬件。
使用相机对空间环境进行分类取决于周围的照明,增加功率使用,并且可能引起隐私问题。另外,使用主动测试信号的空间环境分类依赖于由环境中的对象反射的主动发射的信号的回声,这在环境中引入噪声。
为了对设备的空间环境进行分类,使用由麦克风或麦克风的阵列接收的周围环境声音信号来估计空间环境冲激响应(SEIR),而无需显式输出已知的测试信号。设备从SEIR提取新颖的特征。设备可以利用其他特征(诸如来自麦克风信号的梅尔频率倒频谱系数(MFCC)、delta MFCC和双delta MFCC)来增强SEIR的特征。特征被输入到模式分类器(诸如,深度学习架构)中,以用于将空间环境分类为开放或封闭。
图1示出了用于对空间环境进行分类的设备100的框图。设备100可以是移动设备或可穿戴设备等。设备100可以是智能电话、智能手表、个人数字助理(PDA)或便携式音频或语音信号记录器等。设备100包括一个或多个麦克风102、处理器104、存储器106、输出设备108和通信设备110。
设备100确定周围环境是开放空间环境还是封闭空间环境。如本文所描述的,设备100可以确定空间环境是开放空间还是封闭空间,而无需将音频信号主动发射到环境中。
一个或多个麦克风102可以是单个麦克风,或彼此间隔开的多个麦克风,在它们之间具有麦克风间的间隔。多个麦克风可以具有任何几何形状,诸如线性、平面或立方体等。多个麦克风可以具有等距或非等距的间隔。一个或多个麦克风102可以在其附近或周围中定向或全向捕获音频(例如,原始音频)。一个或多个麦克风102可以将表示捕获的音频的数据输出到处理器104。一个或多个麦克风102可以具有足以捕获可用于标识空间环境的类型的音频的方向性、灵敏度、信噪比(SNR)响应或频率响应。
处理器104可以是被配置为执行存储在存储器106中的可执行指令的任何类型的设备。当可执行指令由处理器104执行时,可执行指令使处理器104执行本文描述的功能或技术。处理器104可以是控制器、微控制器或微处理器等,并且可以包括算术和逻辑单元(ALU)以及其他计算单元。处理器104可以执行本文描述的技术。处理器104可以是嵌入式片上系统(SoC)。处理器104可以包括中央处理单元(CPU)或图形处理单元(GPU)等。处理器104可以执行数值计算以对设备100或其用户的开放空间环境或封闭空间环境进行分类。处理器104从一个或多个麦克风102接收表示所捕获的音频的数据。处理器104处理该数据并且对该数据执行算法计算,并将设备100的空间环境分类为开放或封闭。在一个实施例中,处理器104可以将表示所捕获的原始音频的数据发送到另一个设备或处理器,以用于执行本文描述的技术。
处理器104可以最初对该数据执行预处理。然后,处理器104可以对经预处理的数据执行窗口化和/或数据帧化。可以根据试图从预处理数据得到的特征来选择帧大小。处理器104然后估计用于空间环境的空间环境冲激响应(SEIR),并从中得到特征。处理器104可以利用其他特征来增强从SEIR得到的特征,以形成复合特征矢量。
处理器104然后可以基于复合特征矢量或其特征来执行空间环境分类。处理器104获得对设备100的开放空间环境或封闭空间环境的监督分类。处理器104获取事先已知的经训练的模型参数。例如,包括模型参数的模式库可以被存储在存储器106或另一个设备(诸如服务器)中。设备110可以使用通信设备110与服务器通信,并且可以从服务器获取模型参数。另外,设备100可以将可以是工厂设置的模型参数存储在外部或可扩展存储器上。在执行空间环境分类之后,处理器104可以对空间环境分类的输出执行后处理。
存储器106可以是任何非暂态计算机可读存储介质。存储器106可以被配置成存储可执行指令,该可执行指令在由处理器104执行时,使处理器104执行本文描述的操作、方法或技术。可执行指令可以是计算机程序或代码。存储器106可以包括随机存取存储器(RAM)和/或只读存储器(ROM)。存储器106可以存储可执行指令,该可执行指令使处理器104:从一个或多个麦克风102接收表示所捕获的音频的数据,对该数据进行预处理,对经预处理的数据执行窗口化和/或数据帧化,估计用于空间环境的SEIR,从SEIR得到特征,利用其他特征增强从SEIR得到的特征,执行空间环境分类,以及对空间环境分类的输出执行后处理,等。
处理器104可以:存储空间环境分类,使用通信设备110将空间环境分类传送到另一个设备,或者将空间环境分类输出给用户。例如,处理器104可以存储该分类以供在设备上运行的上下文感知的应用使用,或者输出分类以供上下文感知的应用使用。
输出设备108可以是被配置为向用户输出数据的任何类型的设备。例如,输出设备108可以是显示器或扬声器等。输出设备108可以向用户输出空间环境分类的结果等信息。
通信设备110可以是可操作以与另一个设备通信的任何类型的设备。通信设备110可以是发射器、接收器、收发器或调制解调器等。通信设备110可以被配置为使用任何类型的通信协议进行通信。该协议可以是诸如长期演进(LTE)的蜂窝通信协议,或者诸如电气与电子工程师协会(IEEE)802协议的无线通信协议等。设备100可以通过通信设备110与服务器通信。
图2示出了用于空间环境分类的方法200的流程图。如本文所描述的,方法200可以用于确定设备100是在开放空间环境中还是在封闭空间环境中。方法依赖于麦克风音频捕获和深度学习。在方法200中,在202处设备100获得表示由一个或多个麦克风102捕获的音频的数据。该数据可以是时间的函数。在204处,设备100(或其处理器104)对该数据执行预处理。预处理可以包括对数据进行滤波以用于信号增强和对数据(或由数据表示的信号)进行下采样。
在206处,设备100对数据执行时间窗口化和/或帧化。在208处,设备100通过使用利用其他特征增强的SEIR来提取特征来形成复合特征矢量。设备100可以利用梅尔频率倒频谱系数(MFCC)、delta MFCC或双delta MFCC来增强SEIR以形成复合特征矢量。在210处,设备100对复合特征矢量执行模式分类。模式分类可以是深度学习分类并且可以被监督。如此,设备100可以使用具有模型参数的模式库来执行模式分类。
模型参数可以是先验可用的,并且可以基于由观察组成的数据库而被训练。观察结果可以具有很宽的可变性,以利于分类。例如,对于开放空间环境,数据库可以包括针对海滩、体育场、街道和/或大自然的模型参数,并且对于封闭环境,数据库可以包括针对购物中心、办公室和/或家的模型参数。如本文所描述的,具有模型参数的模式库可以被存储在服务器中或由设备100存储。在对复合特征矢量执行模式分类之前,设备可以访问模式库以获得各种开放特殊环境和封闭特殊环境的模型参数。然后,设备100基于复合特征矢量和模式库执行模式分类。
在执行模式分类之后,在212处,设备100对模式分类的结果执行后处理。后处理可以包括对模式分类的输出进行中值滤波。在214处,设备100输出开放空间环境分类或封闭空间环境分类。
图3示出了用于开放式空间302的一个示例SEIR包络和用于封闭式空间304的一个示例SEIR包络。SEIR包络302、304可以是分别表示开放空间环境和封闭空间环境的时间包络的签名。开放空间环境和封闭空间环境的SEIR包络302、304具有不同的特性。封闭空间环境304的SEIR包络具有多次反射和混响,而开放空间环境302的SEIR包络包括与声音从源直接到达麦克风而没有后续反射或混响相关联的签名。SEIR包络的不同特征用于将设备100的空间环境分类为开放式或封闭式。
图4图示了封闭式空间304的SEIR包络的细节。在第一时间实例402处最初产生声音信号(或冲激)。在传播延迟(其表示声音信号到从源行进到一个或多个麦克风102花费的时间)的时段之后,声音信号在第二时间实例404处到达一个或多个麦克风102。在一个或多个麦克风102处的声音的直接和无混响的到达导致SEIR包络的最大峰值。然后,SEIR幅度的幅度衰减,直到第三时间实例406。在第三时间实例406之后,作为声音信号的高密度后期反射的混响到达一个或多个麦克风102。混响均累积至局部最大值。混响随着时间的推移以减小的幅度出现,直到第四时间实例408为止。混响衰减与可以用作SEIR的表示性特征的衰减斜率相关联。在第四时间实例408之后,SEIR包络304呈现出本底噪声。
封闭式空间环境的SEIR包络的特征在于混响,这可能是从墙壁或其他结构反射的结果。混响独特地标识了封闭式空间环境的SEIR包络,并且由于开放式空间环境具有较少反射声音的结构的事实,混响通常不存在于开放式空间环境的SEIR包络中。
为了测量声学系统的冲激响应,可以传送已知的输入测试信号并且可以测量系统输出。系统输出可以相对于输入测试信号被解卷积以获得冲激响应。可以适当地选择输入信号(或激励信号),并且解卷积方法可以是线性或环形的。
本文描述了用于基于记录的周围环境声音信号来被动地提取SEIR的技术。与作为发射的激励信号的反射相反,周围环境声音信号可以在环境中自然地生成。本文使用盲解卷积来估计空间环境的SEIR包络。
图5示出了一种使用空间环境中存在的周围环境声音对开放空间环境和封闭空间环境进行SEIR估计和特征提取的技术。在分离的时间,设备100可以被定位在封闭空间环境502和开放空间环境504中。在512处,设备100使用一个或多个麦克风102测量封闭空间环境502和开放空间环境504中的声音信号,并且存储声音信号。在514处,设备100对音频信号执行盲解卷积。在516处,设备100获得针对开放空间环境或封闭空间环境的SEIR。在518处,设备100从SEIR提取特征,并且将环境分类为开放或封闭。
图6示出了用于从空间环境的周围环境声音来估计空间环境冲激响应(SEIR)的方法的流程图。在602处,一个或多个麦克风102接收空间环境的周围环境声音信号。一个或多个麦克风102可以将表示周围环境声音的数据输出到处理器104。在604处,处理器104将周围环境声音信号划分成第一持续时间(表示为‘t1’)的帧。帧可以彼此具有第一重叠持续时间(表示为‘Δt1’)的重叠。在606处,处理器104确定每个帧的能量比率。可以通过计算帧的能量与前一个帧的能量之间的比率来执行确定能量比率,由此前一个帧可以紧接在该帧之前。
在608处,处理器104选择具有满足能量标准的能量比率的帧。例如,处理器104可以选择具有超过阈值的能量比率的帧。由于在帧开始之前的激励而产生的混响尾音可能在后续帧中具有残留。因此,期望选择具有相对较高能量的帧。例如,处理器104可以选择帧能量比率的分布的较高25百分位中的帧。
在610处,处理器104对所选择的帧执行指数窗口化。在指数窗口化之后,处理器104确定所选择的帧的倒频谱。指数窗口化将帧的所有极点和零点移动到z平面的单位圆内。倒频谱通常需要最小相位的信号。由于空间环境冲激响应通常是混合的相位,该混合的相位具有一些位于单位圆内的零点和位于单位圆外的其他零点,因此可能需要执行窗口化以将帧的所有极点和零点移动到单位圆内。最小相位信号是有利的,这是由于其具有明确的线性相位,因此不需要相位展开。
在指数窗口化之后,在612处,处理器104确定针对所选择的帧的倒频谱。针对帧的倒频谱(表示为‘c(n)’)被确定为:
c(n)=IDFT(log(DFT(y(n))), 等式(1)
其中y(n)表示帧,DFT表示离散傅里叶变换操作,log表示对数,并且IDFT表示逆离散傅里叶变换操作。
在614处,处理器104确定所选择的帧的平均倒频谱。对倒频谱进行平均减小了帧的背景倒频谱水平的影响。处理器104可以确定第二持续时间(表示为‘t2’)上的平均倒频谱。在616处,处理器104获得逆倒频谱时域信号。处理器104可以如下获得逆倒频谱:
h(n)=IDFT(exp(DFT(c(n))), 等式(2)
其中exp表示指数运算。
在倒频谱操作之后,在618处,处理器104执行逆指数窗口化,以将极点和零点移回到它们相应的位置。执行逆指数窗口化可以包括将每个窗口乘以衰减指数。这不会在卷积关系中引入失真。因此,在第二持续时间上获得了SEIR(h(n))。
在一个实施例中,帧大小的第一持续时间可以是500毫秒(ms),并且第一重叠持续时间(Δt1)可以是90%重叠。另外,采样频率可以被设置为16千赫兹(kHz)。周围环境声音信号可以具有60秒的持续时间,并且指数窗口函数可以被表示为:
w(n)=exp(-n/c), 等式(3)
其中c是被确定为帧的第一持续时间的五分之一(或0.1)的常数。SEIR可以包括关于能量衰减的信息,并且SEIR的幅度的绝对值可以被确定。另外,可以在60秒的持续时间上平均倒频谱,并且也可以在60秒上估计SEIR(h(n))。
图7示出了用于通过增强从信号窗口得到的特征矢量来生成复合特征矢量的方法的流程图。信号窗口可以具有不同的持续时间。在702处,设备100捕获音频信号。如本文所描述的,音频信号可以是空间环境的周围环境声音信号,并且可以由一个或多个麦克风102接收。一个或多个麦克风102可以将表示音频信号的数据输出到处理器104。在704处,处理器104对该音频信号进行预处理和时间窗口化。
在706处,如本文所描述的,处理器104估计音频信号的SEIR。处理器104可以选择满足能量比率标准的帧,并且可以对所选的帧进行时间窗口化以计算倒频谱。该时间窗口可以具有500ms的第一持续时间(t1)。然后,处理器104在第二持续时间上对倒频谱进行平均以获得SEIR。
在708处,处理器104提取SEIR的多个特征。多个特征可以具有第一数目(表示为‘N’)。处理器104在具有第二持续时间的时间窗口上提取多个特征,以针对等于第二持续时间的音频信号的持续时间获得N维特征矢量。
在710处,处理器104从音频信号提取基于MFCC的特征。对于基于MFCC的特征的提取,可以使用与SEIR特征提取不同的持续时间将音频信号进行时间窗口化和帧化。对于基于MFCC的特征提取,可以利用与第二持续时间不同的第三持续时间(表示为‘t3’)将音频信号进行时间窗口化。从音频信号提取基于MFCC的特征可以包括基于MFCC、delta MFCC或双delta MFCC来提取特征。在712处,处理器104通过利用在第三持续时间上提取的基于MFCC的特征,来增强在第二持续时间上从SEIR提取的多个特征来形成复合矢量。处理器104可以联接在不同的时间窗口持续时间上提取的特征,以产生复合特征矢量。
图8A和图8B示出了用于联接不同维度的特征矢量以形成复合特征矢量的方法的流程图。在802处,设备100接收音频信号。在804处,设备100或其处理器104根据不同的持续时间对该音频信号执行窗口化。如本文所描述的,每个经窗口化的音频信号可以分别包括重叠的帧。如本文所描述的,可以根据第一持续时间将用于SEIR特征提取的音频信号窗口化,并且可以根据第三持续时间将用于基于MFCC的特征提取的音频信号窗口化。
对于SEIR特征提取,设备100在806处形成具有第一持续时间的帧,并且在808处在第二持续时间上估计如本文所述的SEIR。第二持续时间可以是60秒以及其他持续时间。用于估计SEIR的基于倒频谱的盲解卷积可以定位冲激的时间原点,并且它们的相对振幅也可以被保留。基于估计针对不同空间环境的SEIR,已经观察到用于SEIR的基于倒频谱的盲解卷积包括真实SEIR的初始强反射,直到大约100ms。
在方法800中,假设以音频信号的16kHz采样速率获得对应于62.5ms的1000个样本的SEIR。在810处,处理器104从SEIR提取特征,该些特征在将设备100的空间环境分类为开放式或封闭式时有用。在特征提取之前,可以使SEIR穿过具有大约10的数量级的移动平均滤波器。
在图8A和图8B的示例中,从SEIR提取了13个特征,以组成13维矢量。在812处,处理器104获得SEIR的五个频带中的SEIR幅度的能量,以形成五维矢量。SEIR的五个频带中的SEIR幅度的能量可以如下获得:
在814处,处理器104对SEIR的多个最大值指标进行平均以产生一个特征。经平均的最大指标可以是SEIR幅度的前十个最大指标。在816处,处理器104获得SEIR的时间峰度以产生一个特征。SEIR的时间峰度可以如下获得:
其中μ是SEIR的平均值,并且σ是SEIR的标准偏差。
在818处,处理器104获得在中心频率处的频谱标准偏差(SSD),以获得SEIR的一维特征。对于1000个样本的SEIR,中心频率(fc)可以是500Hz。处理器104可以将SSD确定为:
SDD[f1,f2][H(f)]=E[f1,f2][H2(f)]-E[f1,f2] 2[H(f)], 等式(6)
其中H(f)表示SEIR的傅立叶变换,并且E[f1,f2]表示从第一频率(f1)到第二频率(f2)范围的频带上的变元(argument)的平均。第一频率和第二频率可以分别被设置为f1=fc*(20.5)和f2=fc/(20.5)。
在820处,处理器104获得初始SEIR样本的斜率(一维特征)。处理器104通过获得最大信号值来确定斜率。最大信号值可以是SEIR的初始样本的短间隔的最大幅度。例如,初始样本的间隔可以是SEIR的第一40个样本到第一120个样本。处理器104可以将斜率确定为最大信号值与初始样本的短间隔的最大幅度之间的差。
在822处,处理器获得MFCC特征以用于与SEIR特征进行增强以进行分类。MFCC特征可以包括delta MFCC和双delta MFCC的特征。可以针对SEIR特征和MFCC特征使用不同的窗口大小。例如,时间窗口化持续时间(第三持续时间t3)可以是500ms。可以针对500ms的帧大小确定MFCC、delta MFCC和双delta MFCC,其中连续帧之间有50%的重叠。
处理器104在824a-824e处获得五个帧,并且对于每个帧,处理器104在826aa-826ec处获得13维MFCC特征、13维delta MFCC特征和13维双delta MFCC特征。因此,从每个帧获得39维特征。在828处,处理器104通过联接来自五个连续帧的特征来生成MFCC特征矢量,以获得改进的分类。在830处,处理器104生成复合特征矢量。处理器104可以通过将SEIR特征(九个特征或维度)与基于MFCC的特征(195个特征或维度)联接来生成复合特征矢量。
已经发现,从声音信号的帧得到的MFCC、delta MFCC和双delta MFCC可以最佳地使能环境分类,声音信号的帧与来针对自总共195个特征的前四个帧的特征联接。
处理器104将复合特征矢量输入到模式分类器(例如,深度学习分类器)。模式分类器可以使用深度神经网络(DNN)作为学习架构,以将空间环境分类为开放或封闭。例如,DNN可以利用五个隐藏层实施,并且每个层具有256个神经元,并带有Adam优化器。
图9示出了DNN分类器的测试准确度的一个示例。针对被输入到经训练的DNN的各种特征矢量示出了测试准确度。使用从SEIR提取的特征和基于MFCC的特征形成的复合特征矢量给出了99.9%的最高准确度。相比之下,仅SEIR的9维矢量具有78.5%的准确度,并且MFCC 65维矢量具有79.3%的准确度。195个特征的MFCC、delta MFCC和双delta MFCC矢量具有96.3%的准确度。
在一个实施例中,倒频谱平均值减法(CMS)可以用于针对在不同设备中使用的不同麦克风特性来补偿信号。根据能量比率标准选择的帧的平均倒频谱可以通过在设备的麦克风或麦克风阵列上的各种周围环境声音记录获得。该平均或平均值倒频谱表示麦克风的特性,并且从测试信号的各个输入帧的倒频谱中减去。在减去倒频谱平均值之后获得的倒频谱用于获得基于MFCC的特征,该基于MFCC的特征被提供为DNN的输入。当对基于MFCC的特征执行倒频谱平均值减法时,准确度会得到改善,特别是当由于麦克风换能器特性的差异导致训练和测试条件之间存在不匹配时。
在一个实施例中,可以利用从设备100的其他传感器得到的上下文来增强设备100的开放空间环境或封闭空间环境的上下文,从而有助于用户的整体上下文感知。
上述各种实施例可以被组合以提供另外的实施例。
可以根据以上详细描述对实施例进行这些和其他改变。通常,在所附权利要求中,所使用的术语不应当被解释为将权利要求限制为说明书和权利要求中公开的特定实施例,而是应当解释为包括所有可能的实施例以及这种权利要求被赋予的等同物的全部范围。因此,权利要求不受公开内容的限制。

Claims (17)

1.一种用于将空间环境分类为开放或封闭的方法,包括:
由一个或多个麦克风检测空间环境中的周围环境声音;
向处理器输出表示所述周围环境声音的音频信号;
由所述处理器确定针对所述音频信号的空间环境冲激响应SEIR;
提取所述SEIR的一个或多个特征;以及
通过由所述处理器执行的模式分类器,基于所述SEIR的所述一个或多个特征,将所述空间环境分类为开放或封闭;
其中提取所述SEIR的所述一个或多个特征包括:
获得所述一个或多个特征中的第一SEIR特征,作为所述SEIR的初始样本的多个频带的能量;以及
获得所述一个或多个特征中的第二SEIR特征,作为SEIR幅度的最大指标的平均。
2.根据权利要求1所述的方法,包括:
至少通过以下方式确定所述SEIR:
对所述音频信号执行解卷积;以及
确定针对所解卷积的所述音频信号的倒频谱;
利用从梅尔频率倒频谱系数MFCC、delta MFCC或双delta MFCC提取的特征来增强所述SEIR的所述一个或多个特征,以形成复合矢量;以及
基于所述复合矢量,将所述空间环境分类为开放或封闭。
3.根据权利要求1所述的方法,其中将所述空间环境分类为开放或封闭包括:将所述空间环境的类型标识为办公室、家、购物中心、超市、街道、体育场、海滩或大自然。
4.根据权利要求1所述的方法,包括:
将所述音频信号划分为多个帧;
确定针对所述多个帧中的每个帧的能量比率;
从所述多个帧中选择具有符合标准的相应的能量比率的一组帧;
对所述一组帧执行指数窗口化以最小化相位;
确定针对所述一组帧的倒频谱;以及
对所述一组帧执行逆指数窗口化。
5.根据权利要求1所述的方法,其中提取所述SEIR的所述一个或多个特征包括:
获得所述一个或多个特征中的第三SEIR特征,作为所述SEIR的时间峰度;
获得所述一个或多个特征中的第四SEIR特征,作为在所述SEIR的中心频率处的频谱标准偏差;以及
获得所述一个或多个特征中的第五SEIR特征,作为所述SEIR的样本的斜率。
6.根据权利要求2所述的方法,包括:
对从所述MFCC、delta MFCC或双delta MFCC提取的所述特征执行倒频谱平均值减法,以减少训练和测试条件之间的不匹配。
7.一种用于将空间环境分类为开放或封闭的设备,包括:
一个或多个麦克风,被配置为:
检测空间环境中的周围环境声音;以及
输出表示所述周围环境声音的音频信号;和
处理器,被配置为:
接收表示所述周围环境声音的所述音频信号;
确定针对所述音频信号的空间环境冲激响应SEIR;
提取所述SEIR的一个或多个特征;以及
基于所述SEIR的所述一个或多个特征,将所述空间环境分类为开放或封闭;
其中所述处理器被配置为通过以下方式提取所述SEIR的所述一个或多个特征:
获得所述一个或多个特征中的第一SEIR特征,作为所述SEIR的初始样本的多个频带的能量;以及
获得所述一个或多个特征中的第二SEIR特征,作为SEIR幅度的最大指标的平均。
8.根据权利要求7所述的设备,其中所述处理器被配置为:
至少通过以下方式确定所述SEIR:
对所述音频信号执行解卷积;以及
确定针对所解卷积的所述音频信号的倒频谱;
利用从梅尔频率倒频谱系数MFCC、delta MFCC或双delta MFCC提取的特征来增强所述SEIR的所述一个或多个特征,以形成复合矢量;以及
基于所述复合矢量,将所述空间环境分类为开放或封闭。
9.根据权利要求7所述的设备,其中将所述空间环境分类为开放或封闭包括:将所述空间环境的类型标识为办公室、家、购物中心、超市、街道、体育场、海滩或大自然。
10.根据权利要求7所述的设备,其中所述处理器被配置为:
将所述音频信号划分为多个帧;
确定针对所述多个帧中的每个帧的能量比率;
从所述多个帧中选择具有符合标准的相应的能量比率的一组帧;
对所述一组帧执行指数窗口化以最小化相位;
确定针对所述一组帧的倒频谱;以及
对所述一组帧执行逆指数窗口化。
11.根据权利要求7所述的设备,其中所述处理器被配置为通过以下方式提取所述SEIR的所述一个或多个特征:
获得所述一个或多个特征中的第三SEIR特征,作为所述SEIR的时间峰度;
获得所述一个或多个特征中的第四SEIR特征,作为在所述SEIR的中心频率处的频谱标准偏差;以及
获得所述一个或多个特征中的第五SEIR特征,作为所述SEIR的样本的斜率。
12.根据权利要求8所述的设备,其中所述处理器被配置为:
对从所述MFCC、delta MFCC或双delta MFCC提取的所述特征执行倒频谱平均值减法,以减少训练和测试条件之间的不匹配。
13.一种用于将空间环境分类为开放或封闭的系统,包括:
处理器;和
存储器,被配置为存储可执行指令,所述可执行指令在由所述处理器执行时,使所述处理器:
接收表示空间环境的周围环境声音的音频信号;
确定针对所述音频信号的空间环境冲激响应SEIR;
提取所述SEIR的一个或多个特征;以及
基于所述SEIR的所述一个或多个特征,将所述空间环境分类为开放或封闭;
其中所述可执行指令使所述处理器通过以下方式提取所述SEIR的所述一个或多个特征:
获得所述一个或多个特征中的第一SEIR特征,作为所述SEIR的初始样本的多个频带的能量;以及
获得所述一个或多个特征中的第二SEIR特征,作为SEIR幅度的最大指标的平均。
14.根据权利要求13所述的系统,其中所述可执行指令使所述处理器:
至少通过以下方式确定所述SEIR:
对所述音频信号执行解卷积;以及
确定针对所解卷积的所述音频信号的倒频谱;
利用从梅尔频率倒频谱系数MFCC、delta MFCC或双delta MFCC提取的特征来增强所述SEIR的所述一个或多个特征,以形成复合矢量;以及
基于所述复合矢量,将所述空间环境分类为开放或封闭。
15.根据权利要求13所述的系统,其中将所述空间环境分类为开放或封闭包括:将所述空间环境的类型标识为办公室、家、购物中心、超市、街道、体育场、海滩或大自然。
16.根据权利要求13所述的系统,其中所述可执行指令使所述处理器:
将所述音频信号划分为多个帧;
确定针对所述多个帧中的每个帧的能量比率;
从所述多个帧中选择具有符合标准的相应的能量比率的一组帧;
对所述一组帧执行指数窗口化以最小化相位;
确定针对所述一组帧的倒频谱;以及
对所述一组帧执行逆指数窗口化。
17.根据权利要求13所述的系统,其中所述可执行指令通过以下方式使所述处理器提取所述SEIR的所述一个或多个特征:
获得所述一个或多个特征中的第三SEIR特征,作为所述SEIR的时间峰度;
获得所述一个或多个特征中的第四SEIR特征,作为在所述SEIR的中心频率处的频谱标准偏差;以及
获得所述一个或多个特征中的第五SEIR特征,作为所述SEIR的样本的斜率。
CN202010011029.5A 2019-01-07 2020-01-06 对移动设备或可穿戴设备进行开放或封闭空间环境分类 Active CN111415678B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962789406P 2019-01-07 2019-01-07
US62/789,406 2019-01-07
US16/696,948 2019-11-26
US16/696,948 US10943602B2 (en) 2019-01-07 2019-11-26 Open vs enclosed spatial environment classification for a mobile or wearable device using microphone and deep learning method

Publications (2)

Publication Number Publication Date
CN111415678A CN111415678A (zh) 2020-07-14
CN111415678B true CN111415678B (zh) 2024-02-27

Family

ID=69005623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010011029.5A Active CN111415678B (zh) 2019-01-07 2020-01-06 对移动设备或可穿戴设备进行开放或封闭空间环境分类

Country Status (3)

Country Link
US (1) US10943602B2 (zh)
EP (1) EP3678136B1 (zh)
CN (1) CN111415678B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102255780A (zh) * 2010-05-20 2011-11-23 株式会社曙飞电子 家庭网络系统及其控制方法
CN104781875A (zh) * 2012-11-14 2015-07-15 高通股份有限公司 音频环境分类的系统和方法
WO2015157670A1 (en) * 2014-04-10 2015-10-15 Medelius Pedro J Wearable environmental interaction unit
CN106105272A (zh) * 2014-03-17 2016-11-09 搜诺思公司 基于环境的音频设定
US9870719B1 (en) * 2017-04-17 2018-01-16 Hz Innovations Inc. Apparatus and method for wireless sound recognition to notify users of detected sounds
WO2018046088A1 (en) * 2016-09-09 2018-03-15 Huawei Technologies Co., Ltd. A device and method for classifying an acoustic environment
CN108810838A (zh) * 2018-06-03 2018-11-13 桂林电子科技大学 基于智能手机室内背景声感知的房间级定位方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8660581B2 (en) 2011-02-23 2014-02-25 Digimarc Corporation Mobile device indoor navigation
US20130070928A1 (en) 2011-09-21 2013-03-21 Daniel P. W. Ellis Methods, systems, and media for mobile audio event recognition
US9305559B2 (en) 2012-10-15 2016-04-05 Digimarc Corporation Audio watermark encoding with reversing polarity and pairwise embedding
TWI628454B (zh) * 2014-09-30 2018-07-01 財團法人工業技術研究院 基於聲波的空間狀態偵測裝置、系統與方法
KR102320815B1 (ko) * 2015-06-12 2021-11-02 삼성전자주식회사 전자 장치 및 그 제어 방법
WO2017058732A1 (en) * 2015-09-28 2017-04-06 Nextnav, Llc Altitude-based indoor or outdoor detection

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102255780A (zh) * 2010-05-20 2011-11-23 株式会社曙飞电子 家庭网络系统及其控制方法
CN104781875A (zh) * 2012-11-14 2015-07-15 高通股份有限公司 音频环境分类的系统和方法
CN106105272A (zh) * 2014-03-17 2016-11-09 搜诺思公司 基于环境的音频设定
WO2015157670A1 (en) * 2014-04-10 2015-10-15 Medelius Pedro J Wearable environmental interaction unit
WO2018046088A1 (en) * 2016-09-09 2018-03-15 Huawei Technologies Co., Ltd. A device and method for classifying an acoustic environment
US9870719B1 (en) * 2017-04-17 2018-01-16 Hz Innovations Inc. Apparatus and method for wireless sound recognition to notify users of detected sounds
CN108810838A (zh) * 2018-06-03 2018-11-13 桂林电子科技大学 基于智能手机室内背景声感知的房间级定位方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
M. Mascia et al..《Forensic and anti-forensic analysis of indoor_outdoor classifiers based on acoustic clues》.《2015 23rd European Signal Processing Conference (EUSIPCO)》.2015,第2072-2076页. *
Muhammad Ahmed Shah et al..《Inferring room semantics using acoustic monitoring》.《2017 IEEE 27th International Workshop on Machine Learning for Signal Processing(MLSP)》.2017,第1-5页. *
苑丽苹.《基于冲激响应的封闭空间声学指纹构建研究》.中国优秀硕士学位论文全文数据库.2013,(第09期),全文. *

Also Published As

Publication number Publication date
US20200219528A1 (en) 2020-07-09
EP3678136A1 (en) 2020-07-08
CN111415678A (zh) 2020-07-14
US10943602B2 (en) 2021-03-09
EP3678136B1 (en) 2022-12-21

Similar Documents

Publication Publication Date Title
US9666183B2 (en) Deep neural net based filter prediction for audio event classification and extraction
WO2020108614A1 (zh) 音频识别方法、定位目标音频的方法、装置和设备
CN110556103B (zh) 音频信号处理方法、装置、系统、设备和存储介质
CN108899044B (zh) 语音信号处理方法及装置
JP6129316B2 (ja) 情報に基づく多チャネル音声存在確率推定を提供するための装置および方法
JP5710792B2 (ja) 可聴音と超音波とを用いたソース特定のためのシステム、方法、装置、およびコンピュータ可読媒体
EP2530484B1 (en) Sound source localization apparatus and method
US20180262832A1 (en) Sound Signal Processing Apparatus and Method for Enhancing a Sound Signal
CN110875060A (zh) 语音信号处理方法、装置、系统、设备和存储介质
US20140226838A1 (en) Signal source separation
US9961460B2 (en) Vibration source estimation device, vibration source estimation method, and vibration source estimation program
CN110858488A (zh) 语音活动检测方法、装置、设备及存储介质
WO2020024816A1 (zh) 音频信号处理方法、装置、设备和存储介质
KR101733231B1 (ko) 음원의 3차원 위치 파악 방법 및 그 장치와, 음원의 3차원 위치를 이용한 음질 개선 방법 및 그 장치
JPWO2018037643A1 (ja) 情報処理装置、情報処理方法及びプログラム
CN110169082A (zh) 组合音频信号输出
CN111415678B (zh) 对移动设备或可穿戴设备进行开放或封闭空间环境分类
Al-Sheikh et al. Sound source direction estimation in horizontal plane using microphone array
US11308979B2 (en) Open vs enclosed spatial environment classification for a mobile or wearable device using microphone and deep learning method
Berdugo et al. Speakers’ direction finding using estimated time delays in the frequency domain
Gburrek et al. On source-microphone distance estimation using convolutional recurrent neural networks
WO2021211127A1 (en) Light signal identification
Eaton et al. Direct-to-reverberant ratio estimation on the ACE corpus using a two-channel beamformer
KR101022516B1 (ko) 스펙트럼 피크를 이용한 음향 인식 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법
Chen et al. Robust audio localization with phase unwrapping

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant