CN113782040A - 基于心理声学的音频编码方法及装置 - Google Patents
基于心理声学的音频编码方法及装置 Download PDFInfo
- Publication number
- CN113782040A CN113782040A CN202010444294.2A CN202010444294A CN113782040A CN 113782040 A CN113782040 A CN 113782040A CN 202010444294 A CN202010444294 A CN 202010444294A CN 113782040 A CN113782040 A CN 113782040A
- Authority
- CN
- China
- Prior art keywords
- user
- masking
- information
- audio
- band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本申请提供一种基于心理声学的音频编码方法及装置,涉及音频编码技术领域,能够满足用户的听音需求,提升用户的音质体验。该方法包括:接收音频数据,并且对该音频数据进行解码;获取用户的听觉特征信息,并且根据用户的听觉特征信息,计算用户的心理声学模型参数,以及基于用户的心理声学模型参数,对解码后的音频数据进行编码。其中,用户的听觉特征信息包括下述至少一种:用户的个人信息、用户的听音测试结果信息或用户的频响曲线信息;用户心理声学模型参数包括下述至少一种带内掩蔽参数、低频带间掩蔽直线的斜率、高频带间掩蔽直线的斜率或人耳安静阈值曲线。
Description
技术领域
本申请实施例涉及音频编码技术领域,尤其涉及一种基于心理声学的音频编码方法及装置。
背景技术
电子设备(例如手机、平板电脑等)采用音频传输协议规定的编码标准对音频进行编码,然后将编码后的音频发送至播音设备(例如耳机、智能音箱等),播音设备解码该音频并播放,从而佩戴或持有该播音设备的用户可以听到对应的音频。
对音频进行有损编码能够节省编码所使用的比特数,有损编码是对待编码音频中重要的信息进行编码,不重要的信息不进行编码的编码方法。其中,不进行编码的这部分信息通常是一些人耳感知不到的信息。目前,基于心理声学模型的掩蔽效应可以确定一段音频中哪些信息是人耳感知不到的信息。具体的,在对音频编码的过程中,首先采用预设的四种心理声学模型参数(分别为带内掩蔽参数、低频带间掩蔽直线的斜率、高频带间掩蔽直线的斜率以及人耳安静阈值曲线)确定待编码音频中人耳感知不到的信息。然后再使用相应的编码标准(例如AAC或MP3)对该待编码音频中除人耳感知不到的信息之外的信息(即人耳能够感知到的信息)编码。
然而,上述预设的四种心理声学模型参数是一组根据心理声学实验的统计数据得到的固定参数,基于该预设的心理声学模型参数进行音频编码,其编码结果可能不能满足不同用户对音频质量的需求。
发明内容
本申请实施例提供一种基于心理声学的音频编码方法及装置,能够满足用户的听音需求,提升用户的音质体验。
为达到上述目的,本申请实施例采用如下技术方案:
第一方面,本申请实施例提供一种基于心理声学的音频编码方法,包括:接收音频数据,对该音频数据进行解码,然后获取用户的听觉特征信息,该听觉特征信息包括下述至少一种:用户的个人信息、用户的听音测试结果信息或用户的频响曲线信息;并且根据用户的听觉特征信息,计算用户的心理声学模型参数;以及基于用户的心理声学模型参数,对解码后的音频数据进行编码。该心理声学模型参数包括下述至少一种:带内掩蔽参数、低频带间掩蔽直线的斜率、高频带间掩蔽直线的斜率或人耳安静阈值曲线。
本申请实施例提供的基于心理声学的音频编码方法,电子设备从其他设备接收到音频数据,并解码该音频数据,然后电子设备根据获取的用户的听觉特征信息计算用户的心理声学模型参数,再基于该用户的心理声学模型参数重新编码。由于该用户的听觉特征信息是与该用户的个性化听觉特性和发声设备的硬件特性相关,因此根据该用户的听觉特征信息计算出的心理声学模型参数具有个性化特性,进而基于该用户的心理声学模型参数对上述解码后的音频数据编码,能够满足用户的听音需求,提升用户的音质体验。
一种可能的实现方式中,上述获取用户的听觉特征信息具体包括:获取用户在电子设备的用户信息输入界面上输入的个人信息。用户的个人信息包括下述至少一项:用户的性别信息、年龄信息、听音偏好信息、听音环境信息或工作环境信息。
可选地,用户的个人信息包含用户的基本生理信息和用户的生活习惯等。其中,用户的听音偏好信息体现用户对不同种类的音乐的偏好,用户的听音偏好包括但不限于男低音、女高音、重低音等。听音环境信息体现是用户听音频时所处的环境的状态,可选地,用户的听音环境包括但不限于嘈杂或安静,例如在地铁、公交等公众场合中,用户的听音环境比较嘈杂,在家、办公室中,用户的听音环境比较安静。用户的工作环境信息体现用户长期工作的环境的状态,可选地,用户的工作环境也包括但不限于嘈杂或安静。
应理解,用户的听觉特性与用户的个人信息相关,对于不同用户,用户的个人信息不同,则用户对声音的听觉感受不同,即听觉特性不同。例如,女性比男性对高频的声音更加敏感;用户对声音频率的敏感度会随着年龄的增长而降低;不同听音偏好的用户对不同频率的声音的敏感度不同;听音环境不同,用户对不同频率的声音的敏感度也不同,例如,用户在嘈杂的地铁上,用户对声音不敏感,对于音量比较低的声音,用户可能听不到;工作环境不同,用户对不同频率的声音的敏感度也不同,例如,用户长期工作在嘈杂的环境中,该用户的听力可能受损,如此,用户对声音不敏感,对于音量比较低的声音,用户可能听不到。
一种可能的实现方式中,该听音测试结果信息包括用户的安静阈值测试结果信息和用户的掩蔽测试结果信息。其中,安静阈值测试结果信息包含多个频率值对应的人耳安静阈值,该掩蔽测试结果信息包含掩蔽频段内的多个频率值对应的掩蔽值,其中,一个掩体频率对应一个掩蔽频段。
可选地,采用测试音频对用户进行音频测试得到听音测试结果信息,例如用户可以在电子设备完成音频测试(或者称为听音测试),音频测试包含安静阈值测试和掩蔽测试。
一种可能的实现方式中,上述获取用户的听觉特征信息具体包括:获取用户在电子设备的第一音频测试界面上输入的多个频率值,获取该多个频率值对应的用户的人耳安静阈值,并且根据第一音频测试界面上输入的多个频率值和多个频率值对应的用户的人耳安静阈值获得安静阈值测试结果信息。其中,用户的人耳安静阈值表示测试音频的边界能量值。
本申请实施例中,测试音频的能量大于或等于测试音频的边界能量值时,用户可感知到测试音频;测试音频的能量小于测试音频的边界能量值时,用户感知不到测试音频。对于不同的用户,上述测试音频的边界能量值可能不同,即对于不同的用户,用户的人耳安静阈值可能不同。
用户分别测试每个频率(24个巴克刻度)对应的人耳安静阈值。具体的,在上述第一音频测试界面中,用户滑动频率调节按钮将测试音频的频率固定在某一频率,然后用户从低音量至高音量滑动音量调节按钮,直到用户能听到测试音频的声音,此时,音量调节按钮对应的音量即为该测试音频的边界能量值,也就是测试音频的对应的人耳安静阈值。如此,通过同样的测试方法,遍历上述24个巴克刻度,分别得到24个频率对应的人耳安静阈值,至此,得到多个频率值对应的人耳安静阈值。
一种可能的实现方式中,上述获取用户的听觉特征信息具体包括:获取用户在电子设备的第二音频测试界面上输入的多个频率值,获取该多个频率值对应的掩蔽值,并且根据第二音频测试界面上输入的多个频率值和该多个频率值对应的掩蔽值获得掩蔽测试结果信息。其中,该多个频率值为掩蔽频段内的多个频率值,掩蔽值表示测试音频的边界能量值。
该测试音频的能量大于或等于测试音频的边界能量值时,用户可感知到测试音频。测试音频的能量小于测试音频的边界能量值时,用户感知不到测试音频。对于不同的用户,上述测试音频的边界能量值可能不同,即对于不同的用户,上述掩蔽值可能不同。
用户分别测试每个掩体频率(即24个巴克刻度)对应的掩蔽值。示例性的,在上述第二音频测试界面中,以测试一个掩体频率值对应的掩蔽测试结果信息为例说明掩蔽测试的过程,具体包括如下步骤1至步骤2。
步骤1、用户滑动频率调节按钮将测试音频的掩体频率固定在一个频率值。
步骤2、用户从低频到高频滑动频率调节按钮将被掩体频率固定在某一频率值,进而用户从低音量至高音量滑动音量调节按钮,直到用户能听到测试音频的声音。
应理解,被掩体频率为某一频率值时,调节音量直到用户能听到测试音频的声音,此时该音量调节按钮对应的音量是被掩体频率对应的掩蔽值。用户遍历24个被掩体频率之后,得到多个被掩体频率对应的掩蔽值,即得到掩蔽频段内的多个频率值对应的掩蔽值。
需要说明的是,在步骤2中,用户遍历24个被掩体频率的过程中,被掩体频率在某些频率值时,用户从低音量至高音量滑动音量调节按钮,用户一直能听到测试音频的声音,那么这些被掩体频率处不存在掩蔽值,也就是说在这些被掩体频率处,该掩体对测试音频没有掩蔽作用。应理解,被掩体频率在某些频率值时存在掩蔽值,即用户从低音量至高音量滑动音量调节按钮能够得到被掩体频率对应的掩蔽值。存在掩蔽值的多个被掩体频率组成掩蔽频段(掩体对应的掩蔽频段),即在该掩蔽频段内,掩体对测试音频具有掩蔽作用。
参考步骤1和步骤2的测试方法,用户将掩体频率遍历上述24个巴克刻度,分别得到24个掩体频率对应的掩蔽频段内的多个频率值对应的掩蔽值。
一种可能的实现方式中,上述获取用户的听觉特征信息具体包括:从音频接收端接收用户的频响曲线信息。
用户的频响曲线信息是电子设备从音频播放设备(例如耳机)接收的,该用户的频响曲线信息与音频播放设备的发声设备(例如扬声器)的硬件特性和用户的耳道特性相关。例如,具有主动降噪功能的耳机中,在扬声器的附件设置有反馈麦克风(feedback mic),当用户佩戴耳机听音时,扬声器在播放测试音频的过程中反馈麦克风可以捕获到扬声器播放的音频数据。本申请实施例中,将扬声器播放的音频数据称为第一音频数据,将反馈麦克风捕捉到的音频数据称为第二音频数据,那么上述用户的频响曲线信息是体现各个频率处,第二音频数据经傅里叶变换得到的频域信号与第一音频数据经傅里叶变换得到的频域信号的幅值之比的情况的曲线。
一种可能的实现方式中,上述根据用户的听觉特征信息,确定用户的心理声学模型参数具体包括:根据用户的个人信息,从预设的样本库中确定与用户的个人信息相匹配的多个测试样本;并且对多个测试样本的安静阈值测试结果信息进行拟合,得到用户的人耳安静阈值曲线;对多个测试样本的掩蔽测试结果信息进行拟合,得到用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。
本申请实施例中,电子设备上预先存储了海量测试样本(即多个用户,该多个用户构成样本库)的个人信息以及每个测试样本的听音测试结果信息。
可选地,电子设备根据用户的个人信息,从样本库中确定与用户的个人信息相匹配的多个测试样本的方法包括:电子设备将用户的个人信息与样本库中的个人信息进行匹配,具体匹配过程为:电子设备将用户的个人信息进行量化,形成用户的特征向量,并且计算用户的特征向量和样本库中的测试样本的特征向量的内积,选取内积大于或者等于第一预设阈值的多个特征向量对应的测试样本作为与用户的个人信息相匹配的测试样本。应理解,用户的特征向量与样本库中的测试样本的特征向量的内积越大,说明这两个特征向量越相似,即这两个用户的个人信息越相似。
在一种实现方式中,还可以计算用户的特征向量和样本库中的测试样本的特征向量的平方差,由于平方差越小,说明两个特征向量越相似,从而选择平方差小于或者等于第二预设阈值的多个特征向量对应的测试样本作为与用户的个人信息相匹配的测试样本。
可选地,人耳安静阈值曲线的通用函数表达式为:
其中,L(f)表示人耳安静阈值曲线,f表示频率,a,b以及c是人耳安静阈值曲线的参数,这三个参数的取值范围为3≤a≤4,-0.7≤b≤-0.6,5×10-4≤b≤2×10-3。
本申请实施例中,对多个测试样本的安静阈值测试结果信息进行拟合具体指的是基于上述多个测试样本的安静阈值测试结果信息,确定人耳安静阈值曲线的函数表达式,即求解上述函数表达式中的参数a,b以及c。可选地,基于多个测试样本的安静阈值测试结果信息,采用最小二乘法进行数据拟合,求解得到L(f)的函数表达式中的参数a,b以及c,从而得到人耳安静阈值曲线L(f)。
可选地,电子设备根据多个测试样本的掩蔽测试结果信息,采用线性拟合的方法得到低频带间掩蔽直线的函数和高频带间掩蔽直线的函数,从而确定出低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。示例性的,将低频带间掩蔽直线的函数设为y1=k1x1+b1,其中,x1表示频率,y1表示频率x1对应的掩蔽值,k1为低频带间掩蔽直线的斜率,k1>0,b1为该低频带间掩蔽直线的参数,b1为实数;将高频带间掩蔽直线的函数设为y2=k2x2+b2,其中,x2表示频率,y2表示频率x2对应的掩蔽值,k2为高频带间掩蔽直线的斜率,k2<0,b2为实数。需要说明的是,线性拟合所遵循的原则是:使得测试样本的掩蔽测试结果信息中每个数据点到相应直线的距离的平方和最小,从而求解得到k1、b1和k2,b2。
上述求解得到k1、b1以及k2,b2之后,进一步求解低频带间掩蔽直线(即y=k1x+b1)和高频带间掩蔽直线(即y2=k2x2+b2)的交点,从而确定带内掩蔽参数,该带内掩蔽参数是掩体的能量与上述交点对应的掩蔽值(即能量)的差值。
上述掩体的能量通过下述公式计算:
E=[X(f)]2+[X(f+1)]2+......+[X(f+s)]2
其中,E表示掩体的能量,X(f)表示掩体的频率f处,音频数据经傅里叶变换之后的频域值,s表示掩体所在的巴特谱的频域宽度。
本申请实施例中,根据用户的个人信息确定用户的心理声学模型参数更加契合用户的个性化听觉特性。进而基于该用户的心理声学模型参数对解码后的音频数据进行编码,并将编码后的音频数据传送至音频接收端进行解码再播放,如此,该用户能够听到适合该用户的听觉特性的音频,显著提升用户的音频感知体验。
一种可能的实现方式中,上述根据用户的听觉特征信息,确定用户的心理声学模型参数具体包括:对用户的安静阈值测试结果信息进行拟合,得到用户的人耳安静阈值曲线;并且对用户的掩蔽测试结果信息进行拟合,得到用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。
本申请实施例中,根据用户的听音测试结果信息,拟合得到该用户的心理声学模型参数,该心理声学模型参数与用户的个性化听觉特性和发声设备的硬件特性相关,该心理声学模型参数更加契合该用户的听觉特性。进而基于该用户的心理声学模型参数对解码后的音频数据进行编码,并将编码后的音频数据传送至音频接收端进行解码再播放,如此,该用户能够听到适合该用户的听觉特性的音频,显著提升用户的音频感知体验。
一种可能的实现方式中,上述根据用户的听觉特征信息,确定用户的心理声学模型参数具体包括:根据用户的频响曲线信息,从预设的样本库中确定与用户的频响曲线信息相匹配的多个测试样本;并且对多个测试样本的安静阈值测试结果信息进行拟合,得到用户的人耳安静阈值曲线;对多个测试样本的掩蔽测试结果信息进行拟合,得到用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。
本申请实施例中,电子设备上预先存储了海量测试样本(即多个用户,该多个用户构成样本库)的频响曲线信息以及每个测试样本的听音测试结果信息。
可选地,电子设备根据用户的频响曲线信息,从预设的样本库中确定与用户的频响曲线信息相匹配的多个测试样本的方法包括:电子设备将用户的频响曲线与样本库中的频响曲线信息进行匹配,具体匹配过程包括:电子设备将用户的频响曲线信息量化,得到用户的频响向量,并且计算用户的频响向量和样本库中的测试样本的频响向量的内积,选取内积大于或者等于第三预设阈值的多个频响向量对应的测试样本作为与用户的频响曲线信息相匹配的测试样本。
应理解,用户的频响向量与样本库中的测试样本的频响向量的内积越大,说明这两个频响向量越相似,即这两个用户的频响曲线信息越相似。
在一种实现方式中,还可以计算用户的频响向量和样本库中的测试样本的频响向量的平方差。由于平方差越小,说明两个频响向量越相似,从而选择平方差小于或者等于第四预设阈值的多个频响向量对应的测试样本作为与用户的频响曲线信息相匹配的测试样本。
本申请实施例中,根据用户的频响曲线信息确定的用户的心理声学模型参数与该用户的耳道结构和发音设备的硬件特性相关,该心理声学模型参数更加契合该用户的听觉特性。进而基于该用户的心理声学模型参数对解码后的音频数据进行编码,并将编码后的音频数据传送至音频接收端进行解码再播放,如此,该用户能够听到适合该用户的听觉特性的音频,显著提升用户的音频感知体验。
一种可能的实现方式中,上述根据用户的听觉特征信息,确定用户的心理声学模型参数具体包括:根据用户的个人信息、用户的听音测试结果信息或用户的频响曲线信息中的至少两种听觉特征信息,确定至少两种听觉特征信息各自对应的心理声学模型参数;对至少两种听觉特征信息各自对应的心理声学模型参数进行加权求和,得到用户的心理声学模型参数。具体的,对至少两种听觉特征信息各自对应的心理声学模型参数设置权重,将加权求和的结果信息作为用户的心理声学模型参数。
或者,在一种实现方式中,对至少两种听觉特征信息各自对应的心理声学模型参数设置优先级,将优先级较高的一种听觉特征信息对应的心理声学模型参数作为用户的心理声学模型参数。例如,听觉特征信息包括用户个人信息和用户的听音测试结果信息,由于根据该用户的听音测试结果信息确定的该用户的心理声学模型参数更加符合该用户的听觉特性,因此设置用户的听音测试结果信息对应的心理声学模型参数的优先级高于用户个人信息对应的心理声学模型参数的优先级,因此将用户的听音测试结果信息对应的心理声学模型参数作为该用户的心理声学模型参数。又例如,听觉特征信息包括用户的听音测试结果信息和用户的频响曲线信息,同理,设置用户的听音测试结果信息对应的心理声学模型参数的优先级高于用户的频响曲线信息对应的心理声学模型参数的优先级,因此将用户的听音测试结果信息对应的心理声学模型参数作为该用户的心理声学模型参数。
本申请实施例中,对至少两种用户的听觉特征信息各自对应的心理声学模型参数进行加权求和来确定用户的心理声学模型参数,能够进一步提升用户的心理声学模型参数的准确性,如此,基于该用户的心理声学模型参数对上述解码后的音频数据进行编码,并将编码后的音频数据传送至音频接收端进行解码再播放,该用户能够听到适合该用户的听觉特性的音频,显著提升用户的音频感知体验。
一种可能的实现方式中,心理声学模型参数包括至少一个子带分别对应的心理声学模型参数;其中,一个子带的对应的心理声学模型参数包括下述至少一种:子带的带内掩蔽参数、子带的低频带间掩蔽直线的斜率、子带的高频带间掩蔽直线的斜率或子带的人耳安静阈值曲线。
一种可能的实现方式中,上述基于用户的心理声学模型参数,对解码后的音频数据进行编码,包括:基于用户的心理声学模型参数,确定解码后的音频数据中用户可感知的信息和用户不可感知的信息;并且对解码后的音频数据中用户可感知的信息进行编码。
对解码后的音频数据中用户的不可感知的信息不进行编码。
具体的,根据用户的人耳安静阈值曲线,确定上述音频数据中,小于人耳安静阈值曲线中人耳安静阈值的信息是人耳不可感知的信息,大于或等于人耳安静阈值的信息是人耳可感知的信息。根据低频带间掩蔽直线的斜率、高频带间掩蔽直线的斜率以及带内掩蔽参数能够确定在掩蔽频段内,上述音频数据中小于掩蔽值的信息是人耳不可感知的信息,大于或等于掩蔽值的信息是人耳可感知的信息。
应理解,电子设备将解码后的音频数据划分为至少一个子带(即一个或多个子带);然后基于该至少一个子带各自对应的心理声学模型参数对该至少一个子带分别进行编码。
基于心理声学模型参数对音频数据进行编码的标准可以包括AAC、MP3等,在本申请实施例中,可以根据实际使用需求选择一种编码标准对解码后的音频数据进行编码。
本申请实施例中,以AAC为例简单说明对解码后的音频数据进行编码的过程:首先,原始音频数据(Audio Input)经过时频转化,从时域变换到频域。然后,基于上述确定的四种心理声学模型参数确定变换后的频域信号中用户可感知的信息和不可感知的信息;进而对用户可感知的信息进行量化,对用户不可感知的信息不进行量化;进一步的,对量化的信息进行无噪编码(例如霍夫曼无噪编码或算数无噪编码),最终电子设备将编码后的音频数据打包成码流传送给音频接收端(即音频解码端)。
第二方面,本申请实施例提供一种音频编码装置,包括:接收模块、解码模块、获取模块、确定模块以及编码模块。其中,接收模块用于接收音频数据;解码模块用于对音频数据进行解码;获取模块用于获取用户的听觉特征信息,该听觉特征信息包括下述至少一种:用户的个人信息、用户的听音测试结果信息或用户的频响曲线信息。确定模块用于根据用户的听觉特征信息,计算用户的心理声学模型参数,该心理声学模型参数包括下述至少一种:带内掩蔽参数、低频带间掩蔽直线的斜率、高频带间掩蔽直线的斜率或人耳安静阈值曲线。编码模块用于基于用户的心理声学模型参数,对解码后的音频数据进行编码。
一种可能的实现方式中,上述获取模块具体用于获取用户在电子设备的用户信息输入界面上输入的个人信息,用户的个人信息包括下述至少一项:用户的性别信息、年龄信息、听音偏好信息、听音环境信息或工作环境信息。
一种可能的实现方式中,听音测试结果信息包括用户的安静阈值测试结果信息和用户的掩蔽测试结果信息。其中,安静阈值测试结果信息包含多个频率值对应的人耳安静阈值,掩蔽测试结果信息包含掩蔽频段内的多个频率值对应的掩蔽值,其中,一个掩体频率对应一个掩蔽频段。
一种可能的实现方式中,上述获取模块具体用于获取用户在所述电子设备的第一音频测试界面上输入的多个频率值,获取该多个频率值对应的用户的人耳安静阈值,根据第一音频测试界面上输入的多个频率值和该多个频率值对应的用户的人耳安静阈值获得安静阈值测试结果信息。其中,用户的人耳安静阈值表示测试音频的边界能量值;并且获取用户在电子设备的第二音频测试界面上输入的多个频率值,获取该多个频率值对应的掩蔽值,根据第二音频测试界面上输入的多个频率值和该多个频率值对应的掩蔽值获得掩蔽测试结果信息。其中,多个频率值为掩蔽频段内的多个频率值,掩蔽值表示测试音频的边界能量值。该测试音频的能量大于或等于测试音频的边界能量值时,用户可感知到测试音频。
一种可能的实现方式中,上述确定模块具体用于根据用户的个人信息,从预设的样本库中确定与用户的个人信息相匹配的多个测试样本;并且对多个测试样本的安静阈值测试结果信息进行拟合,得到用户的人耳安静阈值曲线;对多个测试样本的掩蔽测试结果信息进行拟合,得到用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。
一种可能的实现方式中,上述确定模块具体用于对用户的安静阈值测试结果信息进行拟合,得到用户的人耳安静阈值曲线;并且对用户的掩蔽测试结果信息进行拟合,得到用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。
一种可能的实现方式中,上述确定模块具体用于根据用户的频响曲线信息,从预设的样本库中确定与用户的频响曲线信息相匹配的多个测试样本;并且对多个测试样本的安静阈值测试结果信息进行拟合,得到用户的人耳安静阈值曲线;对多个测试样本的掩蔽测试结果信息进行拟合,得到用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。
一种可能的实现方式中,上确定模块具体用于根据用户的个人信息、用户的听音测试结果信息或用户的频响曲线信息中的至少两种听觉特征信息,计算至少两种听觉特征信息各自对应的心理声学模型参数,并且对至少两种听觉特征信息各自对应的心理声学模型参数进行加权求和,得到用户的心理声学模型参数。
一种可能的实现方式中,心理声学模型参数包括至少一个子带分别对应的心理声学模型参数;其中,一个子带的对应的心理声学模型参数包括下述至少一种:子带的带内掩蔽参数、子带的低频带间掩蔽直线的斜率、子带的高频带间掩蔽直线的斜率或子带的人耳安静阈值曲线。
一种可能的实现方式中,上述编码模块具体用于基于用户的心理声学模型参数,确定解码后的音频数据中用户可感知的信息和用户不可感知的信息;并且对解码后的音频数据中用户可感知的信息进行编码。应理解,对解码后的音频数据中用户的不可感知的信息不进行编码。
第三方面,本申请实施例提供一种电子设备,包括存储器和与存储器连接的至少一个处理器,存储器用于存储指令,该指令被至少一个处理器读取后,电子设备执行上述第一方面及其第一方面任意可能的实现方式中的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,用于储存为上述电子设备所用的计算机软件指令,其包含用于执行上述第一方面或上述第一方面的任意一种可能的实现方式所设计的程序。
第五方面,本申请实施例提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面的任意一种可能的实现方式中所述的方法。
第六方面,本申请实施例提供一种芯片,包括存储器和处理器。存储器用于存储计算机指令。处理器用于从存储器中调用并运行该计算机指令,以执行上述第一方面及其第一方面任意可能的实现方式中的方法。
附图说明
图1为本申请实施例提供的一种心理声学模型参数的示意图;
图2为本申请实施例提供的一种基于心理声学模型的编码方法的应用场景示意图;
图3为本申请实施例提供的一种手机的硬件示意图;
图4为本申请实施例提供的一种基于心理声学模型的编码方法示意图一;
图5为本申请实施例提供的一种电子设备的显示界面实例示意图一;
图6为本申请实施例提供的一种电子设备的显示界面实例示意图二;
图7为本申请实施例提供的一种电子设备的显示界面实例示意图三;
图8为本申请实施例提供的一种基于心理声学模型的编码方法示意图二;
图9为本申请实施例提供的一种基于心理声学模型的编码方法示意图三;
图10为本申请实施例提供的一种基于心理声学模型的编码方法示意图四;
图11为本申请实施例提供的一种基于心理声学模型的编码方法示意图五;
图12为本申请实施例提供的一种音频编码装置的结构示意图一;
图13为本申请实施例提供的一种音频编码装置的结构示意图二。
具体实施方式
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
本申请实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一预设阈值和第二预设阈值等是用于区别不同的预设阈值,而不是用于描述预设阈值的特定顺序;第一音频测试界面和第二音频测试界面等是用于区别不同的音频测试界面,而不是用于描述音频测试界面的特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,除非另有说明,“多个”的含义是指两个或两个以上。例如,多个处理单元是指两个或两个以上的处理单元;多个系统是指两个或两个以上的系统。
首先对本申请实施例提供的一种基于心理声学的音频编码方法及装置中涉及的一些概念做解释说明。
心理声学:是研究声音和声音引起的听觉之间关系的学科,通常使用心理声学模型来描述声音和声音引起的听觉之间关系。心理声学模型是基于人的听觉器官的生理结构和感知模式对人听感的统计性质的数学表述模型,能够解释人各种听感的生理原理。
掩蔽效应:是一种人耳听觉心理的主观感受,是人耳对某些频率的声音阻碍另一些频率声音的听觉的现象。例如,同时听两个人讲话时,一个人讲话的音量很大,另一个人讲话的音量比较小,对于听者,可能只能听见音量大的人的声音,听不到音量小的人的声音,即音量较高的声音掩蔽了音量较小的声音。
本申请实施例中,通过心理声学模型能够分析人耳的这种掩蔽效应,即根据心理声学模型能够确定一段音频中哪些信息是可感知的信息,哪些信息是不可感知的信息,不可感知的信息即为被掩蔽的信息。掩蔽效应主要取决于心理声学模型的一组参数,并且音频数据的每个频率均对应一组心理声学模型参数。采用心理声学模型对音频数据进行编码的具体原理是:基于心理声学模型参数确定待编码音频中不可感知的信息和可感知的信息,并对可感知的信息进行编码,对不可感知的信息不进行编码。
应理解,待编码音频中可感知的信息指的是用户能够听到的信息,不可感知的信息指的是用户听不到的信息。对用户能够听到的信息进行编码,对用户听不到的信息不编码,能够满足用户的听觉需求,并且在一定程度上能够节省音频编码的开销。
通常,基于心理声学模型进行音频数据编码时,将音频数据分为多个子带(一个子带指的是音频数据的一个频段),对于每一个子带分别确定一组心理声学模型参数,然后基于每个子带对应的心理声学模型参数对该子带进行编码,从而完成对一段音频数据的编码。
本申请实施例中,一个子带对应的心理声学模型参数包括下述至少一种:带内掩蔽参数、低频带间掩蔽直线的斜率、高频带间掩蔽直线的斜率或人耳安静阈值曲线。图1是心理声学模型参数的一种示意图,如图1所示,以一个频段为例,上述四种心理声学模型参数分别为带内掩蔽参数dr、低频带间掩蔽直线l1的斜率k1、高频带间掩蔽直线l2的斜率k2以及人耳安静阈值曲线L。具体的,该频段对应一个掩体,掩体指的是该频段中能量最高的音频信息,该掩体的能量决定了上述四种参数的值。
结合图1,人耳安静阈值曲线用于反映在该掩体的作用下,用户听一段音频的过程中,在每个频率处用户的人耳安静阈值。该用户的人耳安静阈值表示该音频的边界能量值,不同的用户对应的边界能量值可能不同。人耳安静阈值曲线是由多个频率值和该多个频率值对应的多个人耳安静阈值确定的。应理解,音频的能量大于或等于该音频的边界能量值时,用户可感知到该音频(即用户能够听到该音频);音频的能量小于该音频的能量值时,用于感知不到该音频(即用户听不到该音频),以图1中音频的频率3kHz为例,该用户对应的边界能量值为0dB。当音频的能量小于0dB时,用户听不到该音频;当音频的能量大于或等于0dB时,用户能够听到该音频。例如,图1中的频段A对应的信息是人耳能感知到的,频段B对应的信息是人耳感知不到的。
对于某一掩体,低频带间掩蔽直线为小于掩体频率的一个频段对应的掩蔽直线,高频带间掩蔽直线为大于该掩体频率的一个频段对应的掩蔽直线。应注意,低频带间掩蔽直线的斜率大于0,高频带间掩蔽直线的斜率小于0。
本申请实施例中,掩蔽直线(包括低频带间掩蔽直线和高频带间掩蔽直线)对应的能量值称为掩蔽值,掩蔽直线对应的频段中每个频率均对应一个掩蔽值,掩蔽值表示音频的边界能量值。当音频的能量大于或等于音频的边界能量值时,用户可感知到音频;当音频的能量小于音频的边界能量值时,用于感知不到该音频。
例如在图1中,低频带间掩蔽直线l1对应的频段为该低频带间掩蔽直线l1与人耳安静阈值曲线L的交点对应的频率至该掩体中心频率的频段,将该低频带间掩蔽直线l1对应的频段称为低频掩蔽频段d1。在该低频掩蔽频段d1内,音频中能量小于对应的掩蔽值的信息是人耳不可感知的信息。例如,图1中的频段C对应的信息是人耳感知不到的。同理,高频带间掩蔽直线l2对应的频段为该高频带间掩蔽直线l2与人耳安静阈值曲线L的交点对应的频率至该掩体中心频率的频段,将该高频带间掩蔽直线l2对应的频段称为高频掩蔽频段d2。在该高频掩蔽频段d2内,音频中能量小于对应的掩蔽值的信息是人耳不可感知的信息。例如,图1中的频段D和频段E对应的信息是人耳感知不到的。
需要说明的是,在本申请实施例中,将低频掩蔽频段d1和高频带间掩蔽频段d2组成的频段统一称为掩蔽频段。
基于传统技术存在的问题,本申请实施例提供一种基于心理声学的音频编码方法及装置,电子设备接收音频数据,并且对该音频数据进行解码之后,该电子设备获取用户的听觉特征信息,并根据用户的听觉特征信息,计算用户的心理声学模型参数,以及基于用户的心理声学模型参数,对解码后的音频数据进行编码。其中,用户的听觉特征信息包括下述至少一种:用户的个人信息、用户的听音测试结果信息或用户的频响曲线信息;用户的心理声学模型参数包括下述至少一种:带内掩蔽参数、低频带间掩蔽直线的斜率、高频带间掩蔽直线的斜率或人耳安静阈值曲线。本申请实施例中,电子设备从其他设备接收到音频数据,并解码该音频数据,然后电子设备根据获取的用户的听觉特征信息计算用户的心理声学模型参数,再基于该用户的心理声学模型参数重新编码。由于该用户的听觉特征信息是与该用户的个性化听觉特性和发声设备的硬件特性相关,因此根据该用户的听觉特征信息计算出的心理声学模型参数具有个性化特性,进而基于该用户的心理声学模型参数对上述解码后的音频数据编码,能够满足用户的听音需求,提升用户的音质体验。
图2为本申请实施例提供的基于心理声学的音频编码方法及装置的一种应用场景的示意图。在图2中,电子设备201和电子设备202之间通过无线传输的方式进行通信,例如电子设备201与电子设备202通过蓝牙进行通信,或者通过其他无线网络进行通信。应理解,本申请实施例涉及电子设备201与电子设备202之间传输音频数据,其中,电子设备201为音频发送端,电子设备202为音频接收端。具体的,电子设备201从其他设备接收到音频数据后,对音频数据解码,并且根据用户的听觉特征信息计算出该用户的心理声学模型参数,然后基于该用户的心理声学模型参数,确定解码后的音频数据中无需编码的信息和需要编码的信息,进而对需要编码的信息进行编码。应理解,此处,无需编码的信息即为用户感知不到的信息,需要编码的信息即为用户能够感知到的信息。电子设备201对该解码后的音频数据重新编码之后,将编码后的音频数据发送至电子设备202,电子设备202接收到该音频之后,对该音频进行解码并播放。
可选地,图2中的电子设备201(即音频发送端,也是音频编码端)可以为手机、电脑(例如笔记本电脑、台式电脑)、平板电脑(手持平板电脑、车载平板电脑)等电子设备。图2中的电子设备202可以为耳机,例如真无线立体声(true wireless stereo,TWS)耳机、无线头戴式耳机、无线颈圈式耳机、普通无线入耳式耳机以及无线骨传导蓝牙耳机等,该电子设备202还可以为其他终端设备,例如智能音箱、智能手表、智能眼镜以及车载音箱等。本申请实施例对电子设备201和电子设备202的具体类型和结构等不作限定。
在本申请实施例中,以电子设备201和电子设备202通过蓝牙传输音频为例来说明基于心理声学的音频编码的过程。应理解,上述电子设备201和电子设备202均支持蓝牙功能,二者建立无线蓝牙连接之后传输音频。
示例性的,以图2所示的电子设备201(即音频发送端或者音频编码端)为手机为例,图3为本申请实施例提供的一种手机的硬件结构示意图。如图3所示,手机300包括处理器310,存储器(包括外部存储器接口320和内部存储器321),通用串行总线(universalserial bus,USB)接口330,充电管理模块340,电源管理模块341,电池342,天线1,天线2,移动通信模块350,无线通信模块360,音频模块370,扬声器370A,受话器370B,麦克风370C,耳机接口370D,传感器模块380,按键390,马达391,指示器392,摄像头393,显示屏394,以及用户标识模块(subscriber identification module,SIM)卡接口395等。其中,传感器模块380可以包括陀螺仪传感器380A,加速度传感器380B,环境光传感器380C,深度传感器380D,磁传感器,压力传感器,距离传感器,接近光传感器,心率传感器,气压传感器,指纹传感器,温度传感器,触摸传感器,骨传导传感器等。
可以理解的是,本申请实施例示意的结构并不构成对手机300的具体限定。在本申请另一些实施例中,手机300可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器310可以包括一个或多个处理单元,例如:例如:处理器310可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频或音频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是手机300的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器310中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器310中的存储器为高速缓冲存储器。该存储器可以保存处理器310刚用过或循环使用的指令或数据。如果处理器310需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器310的等待时间,因而提高了系统的效率。
在一些实施例中,处理器310可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器310可以包含多组I2C总线。处理器310可以通过不同的I2C总线接口分别耦合触摸传感器,充电器,闪光灯,摄像头393等。例如:处理器310可以通过I2C接口耦合触摸传感器,使处理器310与触摸传感器3通过I2C总线接口通信,实现手机300的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器310可以包含多组I2S总线。处理器310可以通过I2S总线与音频模块370耦合,实现处理器310与音频模块370之间的通信。在一些实施例中,音频模块370可以通过I2S接口向无线通信模块360传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块370与无线通信模块360可以通过PCM总线接口耦合。在一些实施例中,音频模块370也可以通过PCM接口向无线通信模块360传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器310与无线通信模块360。例如:处理器310通过UART接口与无线通信模块360中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块370可以通过UART接口向无线通信模块360传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器310与显示屏394,摄像头393等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器310和摄像头393通过CSI接口通信,实现手机300的拍摄功能。处理器310和显示屏394通过DSI接口通信,实现手机300的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器310与摄像头393,显示屏394,无线通信模块360,音频模块370,传感器模块380等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对手机300的结构限定。在本申请另一些实施例中,手机300也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块340用于从充电器接收充电输入。电源管理模块341用于连接电池342,充电管理模块340与处理器310。电源管理模块341接收电池342和/或充电管理模块340的输入,为处理器310,内部存储器321,显示屏394,摄像头393,和无线通信模块360等供电。电源管理模块341还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。
手机300的无线通信功能可以通过天线1,天线2,移动通信模块350,无线通信模块360,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。手机300中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块350可以提供应用在手机300上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块350可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(lownoise amplifier,LNA)等。移动通信模块350可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块350还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块350的至少部分功能模块可以被设置于处理器310中。在一些实施例中,移动通信模块350的至少部分功能模块可以与处理器310的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器370A,受话器370B等)输出声音信号,或通过显示屏394显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器310,与移动通信模块350或其他功能模块设置在同一个器件中。
无线通信模块360可以提供应用在手机300上的包括无线局域网(wireless localarea networks,WLAN)(如Wi-Fi网络),蓝牙(bluetooth,BT),全球导航卫星系统(globalnavigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块360可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块360经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器310。无线通信模块360还可以从处理器310接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,手机300的天线1和移动通信模块350耦合,天线2和无线通信模块360耦合,使得手机300可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code divisionmultiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),新无线(New Radio,NR),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。
手机300通过GPU,显示屏394,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏394和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。在本申请实施例中,GPU可以用于进行三维模型渲染和虚实叠加。处理器310可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏394用于显示图像,视频等。在本申请实施例中,显示屏394可以用于显示虚叠加后的图像。显示屏394包括显示面板。显示面板可以采用液晶显示屏(liquid crystaldisplay,LCD),有机发光二极管(organic light-emitting diode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,AMOLED),柔性发光二极管(flex light-emitting diode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot light emitting diodes,QLED)等。在一些实施例中,手机300可以包括1个或N个显示屏394,N为大于1的正整数。
手机300可以通过ISP,摄像头393,视频编解码器,GPU,显示屏394以及应用处理器等实现拍摄功能。
ISP用于处理摄像头393反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头393中。
摄像头393用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,手机300可以包括1个或N个摄像头393,N为大于1的正整数。
数字信号处理器用于处理数字信号,例如处理数字图像信号或数字音频信号,还可以处理其他数字信号。例如,手机300在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频或音频编解码器用于对数字视频或音频压缩或解压缩。手机300可以支持一种或多种音频编解码器,例如,高级音频传输协议(advanced audio distributionprofile,A2DP)默认的SBC,动态图像专家组(moving picture experts group,MPEG)的高级音频编码(advanced audio coding,AAC)系列的编码器等。这样,手机300可以播放或录制多种编码格式的音频。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现手机300的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解,动作生成等等。
外部存储器接口320可以用于连接外部存储卡,例如Micro SD卡,实现扩展手机300的存储能力。外部存储卡通过外部存储器接口320与处理器310通信,实现数据存储功能。
内部存储器321可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器321可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储手机300使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器321可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器310通过运行存储在内部存储器321的指令,和/或存储在设置于处理器中的存储器的指令,执行手机300的各种功能应用以及数据处理。
手机300可以通过音频模块370,扬声器370A,受话器370B,麦克风370C,耳机接口370D,以及应用处理器等实现音频功能。例如,音乐播放,录音等。
音频模块370用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块370还可以用于对音频信号编码和解码。
扬声器370A,也称“喇叭”,用于将音频电信号转换为声音信号。手机300可以通过扬声器370A收听音乐,或收听免提通话。
受话器370B,也称“听筒”,用于将音频电信号转换成声音信号。当手机300接听电话或语音信息时,可以通过将受话器370B靠近人耳接听语音。
麦克风370C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风370C发声,将声音信号输入到麦克风370C。手机300可以设置至少一个麦克风370C。在另一些实施例中,手机300可以设置两个麦克风370C,除了采集声音信号,还可以实现降噪功能(该降噪功能的麦克风为反馈麦克风)。在另一些实施例中,手机300还可以设置三个,四个或更多麦克风370C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
陀螺仪传感器380A可以用于确定手机300的运动姿态。在一些实施例中,可以通过陀螺仪传感器380A确定手机300围绕三个轴(即,x,y和z轴)的角速度。
加速度传感器380B可检测手机300的运动方向和运动加速度。当手机300静止时可检测出重力的大小及方向。还可以用于识别手机300的姿态,应用于横竖屏切换,计步器等应用。
环境光传感器380C用于感知环境光亮度。手机300可以根据感知的环境光亮度自适应调节显示屏394亮度。环境光传感器380C也可用于拍照时自动调节白平衡。在一些实施例中,环境光传感器380C还可以与接近光传感器配合,检测手机300是否在口袋里,以防误触。
深度传感器380D用于确定物体上每一个点到手机300的距离。在一些实施例中,深度传感器380D可以采集目标物体的深度数据,生成目标物体的深度图。其中,该深度图中每一个像素表示该像素点对应的物体上的点到手机300的距离。
指示器392可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
按键390包括开机键,音量键等。按键390可以是机械按键。也可以是触摸式按键。马达391可以产生振动提示。指示器392可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。SIM卡接口395用于连接SIM卡。SIM卡可以通过插入SIM卡接口395,或从SIM卡接口395拔出,实现和手机300的接触和分离。
结合上述图2所示的应用场景,如图4所示,本申请实施例提供的基于心理声学的音频编码方法包括步骤401至步骤404。
步骤401、接收音频数据,对该音频数据进行解码。
本申请实施例中,电子设备从其他设备(例如另一个电子设备)接收的音频数据是采用其他的编码方法编码的音频数据,例如可以是采用预设的心理声学模型参数编码的音频数据,本申请实施例不作限定。
步骤402、获取用户的听觉特征信息,该听觉特征信息包括下述至少一种:用户的个人信息、用户的听音测试结果信息或用户的频响曲线信息。
本申请实施例中,用户的个人信息包含用户的基本生理信息和用户的生活习惯等。具体的,用户的个人信息包括下述至少一项:用户的性别信息、年龄信息、听音偏好信息、听音环境信息或工作环境信息。其中,用户的听音偏好信息体现用户对不同种类的音乐的偏好,用户的听音偏好包括但不限于男低音、女高音、重低音等。听音环境信息体现用户听音频时所处的环境的状态,可选地,用户的听音环境包括但不限于嘈杂或安静,例如在地铁、公交等公众场合中,用户的听音环境比较嘈杂,在家、办公室中,用户的听音环境比较安静。用户的工作环境信息体现用户长期工作的环境的状态,可选地,用户的工作环境也包括但不限于嘈杂或安静。
应理解,用户的听觉特性与用户的个人信息相关,对于不同用户,用户的个人信息不同,则用户对声音的听觉感受不同,即听觉特性不同。例如,女性比男性对高频的声音更加敏感;用户对声音频率的敏感度会随着年龄的增长而降低;不同听音偏好的用户对不同频率的声音的敏感度不同;听音环境不同,用户对不同频率的声音的敏感度也不同,例如,用户在嘈杂的地铁上,用户对声音不敏感,对于音量比较低的声音,用户可能听不到;工作环境不同,用户对不同频率的声音的敏感度也不同,例如,用户长期工作在嘈杂的环境中,该用户的听力可能受损,如此,用户对声音不敏感,对于音量比较低的声音,用户可能听不到。
在一种实现方式中,电子设备通过下述步骤4021获取用户的个人信息。
步骤4021、获取用户在电子设备的用户信息输入界面上输入的个人信息。
可选地,用户可以在电子设备上输入用户的个人信息。示例性的,以电子设备为手机为例,如图5所示,用户在手机500的设置菜单的相关选项(例如用户听觉特征信息设置选项)输入用户的个人信息。在手机500显示如图5中的(a)所示的界面501中,用户选中“用户基本信息填写”选项502之后,手机500显示如图5中的(b)所示的界面503,该界面503即为用户信息输入界面,用户可以在界面503中输入该用户的个人信息,例如性别信息、年龄信息、听音偏好信息、工作/生活环境信息以及听音环境信息。具体的,在界面503中,用户可以根据实际情况选择或输入个人信息。
本申请实施例中,听音测试结果信息包括用户的安静阈值测试结果信息和用户的掩蔽测试结果信息。其中,安静阈值测试结果信息包含多个频率值对应的人耳安静阈值,掩蔽测试结果信息包含掩蔽频段内的多个频率值对应的掩蔽值。
在一种实现方式中,采用测试音频对用户进行音频测试得到听音测试结果信息,例如用户可以在电子设备完成音频测试(或者称为听音测试),音频测试包含安静阈值测试和掩蔽测试。电子设备通过下述步骤4022a至步骤4022b获取用户的听音测试结果信息。
步骤4022a、获取用户在电子设备的第一音频测试界面上输入的多个频率值和该多个频率值对应的用户的人耳安静阈值,从而获得安静阈值测试结果信息。
其中,用户的人耳安静阈值是测试音频的边界能量值,应理解,上述多个频率值中每个频率值均对应一个人耳安静阈值。当测试音频的能量大于或等于测试音频的边界能量值时,用户可感知到测试音频;当测试音频的能量小于测试音频的边界能量值时,用户感知不到测试音频。
仍以手机500为例,图6为安静阈值测试的过程示意图,如图6中的(a)所示,手机500显示界面501中,用户在该界面501中选中“听音测试”选项504之后,手机500显示如图6中的(b)所示的界面505,进一步的,用户在界面505中选中“听力阈值测试”选项506,手机500显示如图6中的(c)所示的界面507,界面507包括频率调节模块508和音量调节模块509。该界面507即为第一音频测试界面。
其中,频率调节模块508是一个包含24个巴克刻度的频率刻度尺。应理解,巴克刻度是一种频率的度量方式,是将物理频率转换到心理声学的频率的一种度量方式。该频率刻度尺中包括频率调节按钮508a,并且该频率刻度中从左到右频率依次升高,用户向左或向右滑动该频率调节按钮508a以调节测试音频的频率。音量调节模块509是一个音量刻度尺,该音量刻度尺中包括音量调节按钮509a,并且该音频刻度尺中从左到右对应的刻度表示频率依次升高,用户向左或向右滑动该音量调节按钮509a以调节测试音频的音量。应理解,在某频率处音频的音量即为该频率处音频的能量。
结合图6中的(c)所示的界面507详细介绍安静阈值测试的过程,用户分别测试每个频率(即24个巴克刻度)对应的人耳安静阈值。具体的,用户滑动频率调节按钮508a将测试音频的频率固定在某一频率,然后用户从低音量至高音量滑动音量调节按钮509a,直到用户能听到测试音频,此时,音量调节按钮509a对应的音量即为该测试音频的边界能量值,也就是测试音频对应的人耳安静阈值。如此,通过同样的测试方法,遍历上述24个巴克刻度,分别得到24个频率对应的人耳安静阈值,至此,得到多个频率值对应的人耳安静阈值。
如下表1为安静阈值测试结果信息的一种示例。
表1
测试音频的频率(巴克刻度) | 人耳安静阈值(dB) |
1 | 58 |
2 | 46 |
3 | 32 |
4 | 20 |
… | … |
21 | 22 |
22 | 12 |
23 | 26 |
24 | 30e |
步骤4022b、获取用户在电子设备的第二音频测试界面上输入的多个频率值和该多个频率值对应的掩蔽值,从而获得掩蔽测试结果信息。
其中,多个频率值为掩蔽频段内的多个频率值,一个掩体频率对应一个掩蔽频段。掩蔽值表示测试音频的边界能量值,应理解,该多个频率值中每个频率值均对应一个掩蔽值。当测试音频的能量大于或等于测试音频的边界能量值时,用户可感知到测试音频;当测试音频的能量小于测试音频的边界能量值时,用户感知不到测试音频。
以手机500为例,图7为掩蔽测试的过程示意图,在手机500显示如图7中的(a)所示的界面505中,用户选中“心理声学掩蔽测试”选项510之后,手机500显示如图7中的(b)所示的界面511,界面511中包括掩体频率调节模块512、被掩体频率调节模块513以及音量调节模块514。掩体频率调节模块512中包含频率调节按钮512a,被掩体频率调节模块513中包含频率调节按钮513a,音量调节模块514中包含音量调节按钮514a。
在图7中的(b)所示的界面511即为上述第二音频测试界面,在该界面511中,用户分别测试每个掩体频率(即24个巴克刻度)对应的掩蔽值。示例性的,以测试一个掩体频率值对应的掩蔽测试结果信息为例说明掩蔽测试的过程,具体包括如下步骤1至步骤2。
步骤1、用户滑动频率调节按钮512a将测试音频的掩体频率固定在一个频率值。
步骤2、用户从低频到高频滑动频率调节按钮513a将被掩体频率固定在某一频率值,进而用户从低音量至高音量滑动音量调节按钮514a,直到用户能听到测试音频的声音。
应理解,被掩体频率为某一频率值,调节音量直到用户能听到测试音频的声音,此时音量调节按钮514a对应的音量是被掩体频率对应的掩蔽值。用户遍历24个被掩体频率之后,得到多个被掩体频率对应的掩蔽值,即得到掩蔽频段内的多个频率值对应的掩蔽值。
需要说明的是,在步骤2中,用户遍历24个被掩体频率的过程中,被掩体频率在某些频率值时,用户从低音量至高音量滑动音量调节按钮514a,用户一直能听到测试音频的声音,那么这些被掩体频率处不存在掩蔽值,也就是说在这些被掩体频率处,该掩体对测试音频没有掩蔽作用。应理解,被掩体频率在某些频率值时存在掩蔽值,即用户从低音量至高音量滑动音量调节按钮514a能够得到被掩体频率对应的掩蔽值。存在掩蔽值的多个被掩体频率组成掩蔽频段(掩体对应的掩蔽频段),即在该掩蔽频段内,掩体对测试音频具有掩蔽作用。
参考步骤1和步骤2的测试方法,用户将掩体频率遍历上述24个巴克刻度,分别得到24个掩体频率对应的掩蔽频段内的多个频率值对应的掩蔽值。
如下表2为掩蔽测试结果信息的一种示例。
表2
应注意,表2中的数据仅是一种示例,表2中的“*”表示不存在掩蔽值。
在一种实现方式中,电子设备通过下述步骤4023获取用户的频响曲线信息。
步骤4023、接收用户的频响曲线信息。
本申请实施例中,用户的频响曲线信息是电子设备从音频播放设备(例如耳机)接收的,该用户的频响曲线信息与音频播放设备的发声设备(例如扬声器)硬件特性和用户的耳道特性相关。例如,具有主动降噪功能的耳机中,在扬声器的附件设置有反馈麦克风(feedback mic),当用户佩戴耳机听音时,扬声器在播放测试音频的过程中反馈麦克风可以捕获到扬声器播放的音频数据。本申请实施例中,将扬声器播放的音频数据称为第一音频数据,将反馈麦克风捕捉到的音频数据称为第二音频数据,那么用户的频响曲线是体现各个频率处,第二音频数据经傅里叶变换得到的频域信号与第一音频数据经傅里叶变换得到的频域信号的幅值之比的情况的曲线。
步骤403、根据用户的听觉特征信息,计算用户的心理声学模型参数。
本申请实施例中,用户的心理声学模型参数包括下述至少一种:带内掩蔽参数、低频带间掩蔽直线的斜率、高频带间掩蔽直线的斜率或人耳安静阈值曲线。
应理解,通常在对音频数据进行编码时,按照频率从小到大的顺序将音频数据划分为一个或多个子带;然后对一个或多个子带分别进行编码,进而完成对该音频数据的编码。本申请实施例中,上述用户的心理声学模型参数包括至少一个子带分别对应的心理声学模型参数。其中,一个子带的对应的心理声学模型参数包括下述至少一种:子带的带内掩蔽参数、子带的低频带间掩蔽直线的斜率、子带的高频带间掩蔽直线的斜率或子带的人耳安静阈值曲线。基于心理声学的音频编码是基于一个或多个子带分别对应的心理声学模型参数对该一个或多个子带进行编码。
关于心理声学模型参数中的这四种参数的解释可结合图1,并参考上述对心理模型参数的概念介绍处的详细描述。
可选地,用户的听觉特征信息包含用户的个人信息、用户的听音测试结果信息或用户的频响曲线信息中的一项或多项。电子设备可以根据用户的个人信息确定用户的心理声学模型参数,也可以根据用户的听音测试结果信息确定用户的心理声学模型参数,或者根据用户的频响曲线信息确定用户的心理声学模型参数。电子设备也可以根据用户的个人信息、用户的听音测试结果信息或用户的频响曲线信息中的任两项或者三项确定用户的心理声学模型参数,本申请实施例不作限定。
可选地,结合图4,如图8所示,当电子设备获取的用户的听觉特征信息为用户的个人信息时,上述步骤403具体包括步骤4031a至步骤4031c。
步骤4031a、根据用户的个人信息,从预设的样本库中确定与用户的个人信息相匹配的多个测试样本。
本申请实施例中,电子设备上预先存储了海量测试样本(即多个用户,该多个用户构成样本库)的个人信息以及每个测试样本的听音测试结果信息,该听音测试结果信息是通过上述步骤4022a至步骤4022b中描述的听音测试的过程对样本库中的测试样本进行听音测试得到的。
可选地,电子设备根据用户的个人信息,从预设的样本库中确定与用户的个人信息相匹配的多个测试样本的方法包括:电子设备将用户的个人信息与样本库中的个人信息进行匹配,具体匹配过程为:
a、将用户的个人信息进行量化,形成用户的特征向量。
本申请实施例中,电子设备将用户的性别信息、年龄信息、听音偏好信息、听音环境信息或工作环境信息进行量化,并且量化至[0,1]的区间内(即归一化),形成用户的特征向量。应理解,电子设备上存储的测试样本的个人信息也是量化后的个人信息。
b、计算用户的特征向量和样本库中的测试样本的特征向量的内积。
c、选取内积大于或者等于第一预设阈值的多个特征向量对应的测试样本作为与用户的个人信息相匹配的测试样本。
应理解,用户的特征向量与样本库中的测试样本的特征向量的内积越大,说明这两个特征向量越相似,即这两个用户的个人信息越相似。
在一种实现方式中,还可以计算用户的特征向量和样本库中的测试样本的特征向量的平方差,由于平方差越小,说明两个特征向量越相似,从而选择平方差小于或者等于第二预设阈值的多个特征向量对应的测试样本作为与用户的个人信息相匹配的测试样本。
可选地,也可以采用其他匹配方法,从样本库中确定与用户的个人信息相匹配的多个测试样本,本申请实施例不作限定。
进而,对多个测试样本的听音测试结果信息进行拟合,得到用户的心理声学模型参数,参见步骤4031b至步骤4031c。
步骤4031b、对多个测试样本的安静阈值测试结果信息进行拟合,得到用户的人耳安静阈值曲线。
可选地,人耳安静阈值曲线的通用函数表达式为:
其中,L(f)表示人耳安静阈值曲线,f表示掩体频率,a,b以及c是人耳安静阈值曲线的参数,这三个参数的取值范围为3≤a≤4,-0.7≤b≤-0.6,5×10-4≤b≤2×10-3。
本申请实施例中,对多个测试样本的安静阈值测试结果信息进行拟合具体指的是基于上述多个测试样本的安静阈值测试结果信息,确定人耳安静阈值曲线的函数表达式,即求解上述函数表达式中的参数a,b以及c。
示例性的,上述多个测试样本的数量是m(m为大于或等于2的正整数),该m个测试样本的安静阈值测试结果信息如下表3所示:
表3
表3中,n为24(即24个巴克刻度)。
本申请实施例中,用户的个人信息对人耳安静阈值曲线有着重要的影响。例如,女性比男性对高频的声音敏感,因此,在人耳安静阈值曲线的高频部分,女性的人耳安静阈值小于男性的人耳安静阈值。又例如,对于偏好男低音或者重低音的用户,该用户的人耳安静阈值曲线的低频部分对应的人耳安静阈值小于其他用户(例如偏好女高音的用户)的人耳安静阈值。又例如,用户的对高频的敏感度会随着年龄的增长而下降,因此,对于年纪较大的用户,该用户的人耳安静阈值曲线的高频部分对应的人耳安静阈值大于其他用户(年龄小于该用户的其他用户)的人耳安静阈值。又例如,长期工作或生活在嘈杂的环境下,用户的听力受损,因此,用户的人耳安静阈值将在全频带中增大。又例如,在地铁或公交等操作的听音环境中,用户的人耳安静阈值将在全频带中增大。
步骤4031c、对多个测试样本的掩蔽测试结果信息进行拟合,得到用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。
可选地,电子设备根据多个测试样本的掩蔽测试结果信息,采用线性拟合的方法得到低频带间掩蔽直线的函数和高频带间掩蔽直线的函数,从而确定出低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。示例性的,将低频带间掩蔽直线的函数设为y1=k1x1+b1,其中,x1表示频率,y1表示频率x1对应的掩蔽值,k1为低频带间掩蔽直线的斜率,k1>0,b1为该低频带间掩蔽直线的参数,b1为实数。将高频带间掩蔽直线的函数设为y2=k2x2+b2,其中,x2表示频率,y2表示频率x2对应的掩蔽值,k2为高频带间掩蔽直线的斜率,k2<0,b2为实数。需要说明的是,线性拟合所遵循的原则是:使得测试样本的掩蔽测试结果信息中每个数据点到相应直线的距离的平方和最小,从而求解得到k1、b1和k2、b2。
上述求解得到k1、b1以及k2,b2之后,进一步求解低频带间掩蔽直线(即y=k1x+b1)和高频带间掩蔽直线(即y2=k2x2+b2)的交点,从而确定带内掩蔽参数(dr),该带内掩蔽参数是掩体的能量与上述交点对应的掩蔽值(即能量)的差值。
上述掩体的能量通过下述公式计算:
E=[X(f)]2+[X(f+1)]2+......+[X(f+s)]2
其中,E表示掩体的能量,X(f)表示掩体的频率f处,音频数据经傅里叶变换之后的频域值,s表示掩体所在的巴特谱的频域宽度。
本申请实施例中,用户的个人信息对低频带间掩蔽直线的斜率、高频带间掩蔽直线的斜率以及带内掩蔽参数也有着重要的影响。例如,女性比男性对高频的声音敏感,因此,在高频处,女性的低频带间掩蔽直线的斜率大于男性的低频带间掩蔽直线的斜率,女性的高频带间掩蔽直线的斜率大于男性的高频带间掩蔽直线的斜率,且女性的带内掩蔽参数大于男性的带内掩蔽参数。
又例如,用户的对高频的敏感度会随着年龄的增长而下降,因此,对于年纪较大的用户,在高频处,该用户的低频带间掩蔽直线的斜率小于其他用户(年龄小于该用户的其他用户)的低频带间掩蔽直线的斜率,该用户的高频带间掩蔽直线的斜率小于其他用户的高频带间掩蔽直线的斜率,该用户的带内掩蔽参数小于其他用户的带内掩蔽参数。
又例如,对于偏好男低音或者重低音的用户,在低频处,该用户的低频带间掩蔽直线的斜率大于其他用户(例如偏好女高音的用户)的低频带间掩蔽直线的斜率,该用户的高频带间掩蔽直线的斜率大于其他用户的高频带间掩蔽直线的斜率,该用户的带内掩蔽参数大于其他用户的带内掩蔽参数。
又例如,长期工作或生活在嘈杂的环境下,用户的听力受损,因此,在各个频段处,该用户的低频带间掩蔽直线的斜率小于其他用户(例如工作或生活在安静环境下的用户)的低频带间掩蔽直线的斜率,该用户的高频带间掩蔽直线的斜率小于其他用户的高频带间掩蔽直线的斜率,且该用户的带内掩蔽参数小于其他用户的带内掩蔽参数。
又例如,在地铁或公交等操作的听音环境中,在各个频段处,该用户的低频带间掩蔽直线的斜率减小,该用户的高频带间掩蔽直线的斜率减小,且该用户的带内掩蔽参数变小。
本申请实施例中,根据用户的个人信息,从预设的样本库中确定出与该用户的个人信息相匹配的多个测试样本(即该用户匹配的多个测试样本),进而根据该多个测试样本的听音测试结果信息拟合得到用户的心理声学模型参数,如此,能够根据用户的个性化听觉特性选取更加合适的心理声学模型参数,相比于传统技术,该心理声学模型参数更加契合该用户的听觉特性。进而基于该用户的心理声学模型参数对解码后的音频数据进行编码,并将编码后的音频数据传送至音频接收端(例如耳机)进行解码再播放,如此,该用户能够听到适合该用户的听觉特性的音频,显著提升用户的音频感知体验。
可选地,结合图4,如图9所示,当电子设备获取的用户的听觉特征信息为用户的听音测试结果信息时,上述步骤403具体包括步骤4032a至步骤4032b。
步骤4032a、对用户的安静阈值测试结果信息进行拟合,得到用户的人耳安静阈值曲线。
步骤4032b、对用户的掩蔽测试结果信息进行拟合,得到用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。
本申请实施例中,对用户的安静阈值测试结果信息进行拟合,得到用户的人耳安静阈值曲线的方法与上述步骤4031b中对多个测试样本的安静阈值测试结果信息进行拟合,得到用户的人耳安静阈值曲线的方法类似。并且对用户的掩蔽测试结果信息进行拟合,得到用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率的方法与上述步骤4031c中对多个测试样本的掩蔽测试结果信息进行拟合,得到用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率的方法也类似。因此,对于步骤4032a至步骤4032b的描述可参考上述对于步骤4031b至步骤4031c的详细描述,此处不再赘述。
本申请实施例中,根据用户的听音测试结果信息,拟合得到该用户的心理声学模型参数,该心理声学模型参数与用户的个性化听觉特性和发声设备的硬件特性相关,相比于传统技术,该心理声学模型参数更加契合该用户的听觉特性。进而基于该用户的心理声学模型参数对解码后的音频数据进行编码,并将编码后的音频数据传送至音频接收端(例如耳机)进行解码再播放,如此,该用户能够听到适合该用户的听觉特性的音频,显著提升用户的音频感知体验。
可选地,结合图4,如图10所示,当电子设备获取的用户的听觉特征信息为用户的听音测试结果信息时,上述步骤403具体包括步骤4033a至步骤4033c。
步骤4033a、根据用户的频响曲线信息,从预设的样本库中确定与用户的频响曲线信息相匹配的多个测试样本。
本申请实施例中,电子设备上预先存储了海量测试样本(即多个用户,该多个用户构成样本库)的频响曲线信息以及每个测试样本的听音测试结果信息,该频响曲线信息是按照上述步骤402中描述的由音频播放设备的发声设备播放的音频数据和反馈麦克风捕获的音频数据确定的。该听音测试结果信息是通过上述步骤402中描述的听音测试的过程对样本库中的测试样本进行听音测试得到的。
可选地,电子设备根据用户的频响曲线信息,从预设的样本库中确定与用户的频响曲线信息相匹配的多个测试样本的方法包括:电子设备将用户的频响曲线信息与样本库中的频响曲线信息进行匹配,具体匹配过程包括:
a、电子设备将用户的频响曲线信息量化,得到用户的频响向量。
示例性的,电子设备将用户的频响曲线信息按照巴克刻度划分为24个分段,将频响曲线信息中每一个频段的中心频率点对应的数值作为分段的特征值,从而得到24维的特征向量,并且量化到[0,1]的区间内(即归一化),将该特征向量确定为用户的频响向量。应理解,电子设备上存储的测试样本的频响曲线信息即为用户的频响向量。
b、计算用户的频响向量和样本库中的测试样本的频响向量的内积。
c、选取内积大于或者等于第三预设阈值的多个频响向量对应的测试样本作为与用户的频响曲线信息相匹配的测试样本。
应理解,用户的频响向量与样本库中的测试样本的频响向量的内积越大,说明这两个频响向量越相似,即这两个用户的频响曲线信息越相似。
在一种实现方式中,还可以计算用户的频响向量和样本库中的测试样本的频响向量的平方差。由于平方差越小,说明两个频响向量越相似,从而选择平方差小于或者等于第四预设阈值的多个频响向量对应的测试样本作为与用户的频响曲线信息相匹配的测试样本。
进而,对多个测试样本的听音测试结果信息进行拟合,得到用户的心理声学模型参数,参见步骤4033b至步骤4033c。
步骤4033b、对多个测试样本的安静阈值测试结果信息进行拟合,得到用户的人耳安静阈值曲线。
步骤4033c、对多个测试样本的掩蔽测试结果信息进行拟合,得到用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。
通过频响曲线信息进行匹配得到多个测试样本之后,对多个测试样本的听音测试结果信息进行拟合的过程与上述步骤4031b至步骤4031c类似,对步骤4033b至步骤4033c的描述可参考对步骤4031b至步骤4031c的详细描述,此处不再赘述。
本申请实施例中,根据用户的频响曲线信息,从样本库中确定出与该用户的频响曲线信息相匹配的多个测试样本(即该用户匹配的多个测试样本),进而根据该多个测试样本的听音测试结果信息拟合得到用户的心理声学模型参数,该心理声学模型参数是与用户的耳道结构和发音设备的硬件特性相关的,相比于传统技术,该心理声学模型参数更加契合该用户的听觉特性。进而基于该用户的心理声学模型参数对解码后的音频数据进行编码,并将编码后的音频数据传送至音频接收端(例如耳机)进行解码再播放,如此,该用户能够听到适合该用户的听觉特性的音频,显著提升用户的音频感知体验。
本申请实施例中,当用户的听觉特征信息为用户的个人信息、用户的听音测试结果信息或用户的频响曲线信息中的至少两种时,上述步骤403具体可以包括步骤4034a至步骤4034b。
步骤4034a、根据用户的个人信息、用户的听音测试结果信息或用户的频响曲线信息中的至少两种听觉特征信息,确定至少两种听觉特征信息各自对应的心理声学模型参数。
本申请实施例中,确定至少两种听觉特征信息各自对应的心理声学模型参数的方法可参考上述实施例的相关内容。例如,用户的听觉特征信息包括用户个人信息和用户的听音测试结果信息,则电子设备根据用户个人信息,采用上述步骤4031a至步骤4031c描述的过程确定用户的心理声学模型参数,并且根据用户的听音测试结果信息,采用上述步骤4032a至步骤4032b描述的过程确定用户的心理声学模型参数。
步骤4034b、对至少两种听觉特征信息各自对应的心理声学模型参数进行加权求和,得到用户的心理声学模型参数。
具体的,对至少两种听觉特征信息各自对应的心理声学模型参数设置权重,将加权求和得到的结果信息作为用户的心理声学模型参数。例如,听觉特征信息包括用户个人信息和用户的听音测试结果信息,用户个人信息对应的心理声学模型参数的权重设置为0.2,用户的听音测试结果信息对应的心理声学模型参数的权重设置为0.8,因此将0.2倍的用户的听音测试结果信息对应的心理声学模型参数与0.8倍的听音测试结果信息对应的心理声学模型参数之和作为该用户的心理声学模型参数。
或者,在一种实现方式中,上述确定出至少两种听觉特征信息各自对应的心理声学模型参数之后,可以对至少两种听觉特征信息各自对应的心理声学模型参数设置优先级,将优先级较高的一种听觉特征信息对应的心理声学模型参数作为用户的心理声学模型参数。例如,听觉特征信息包括用户个人信息和用户的听音测试结果信息,由于根据该用户的听音测试结果信息确定的该用户的心理声学模型参数更加符合该用户的听觉特性,因此设置用户的听音测试结果信息对应的心理声学模型参数的优先级高于用户个人信息对应的心理声学模型参数的优先级,因此将用户的听音测试结果信息对应的心理声学模型参数作为该用户的心理声学模型参数。又例如,听觉特征信息包括用户的听音测试结果信息和用户的频响曲线信息,同理,设置用户的听音测试结果信息对应的心理声学模型参数的优先级高于用户的频响曲线信息对应的心理声学模型参数的优先级,因此将用户的听音测试结果信息对应的心理声学模型参数作为该用户的心理声学模型参数。
可选地,也可以根据实际需求采用其他方法,根据从至少两种听觉特征信息各自对应的心理声学模型参数,确定用户的心理声学模型参数的方法,本申请实施例不作限定。
本申请实施例中,对至少两种用户的听觉特征信息各自对应的心理声学模型参数进行加权求和来确定用户的心理声学模型参数,能够进一步提升用户的心理声学模型参数的准确性,如此,基于该用户的心理声学模型参数对上述解码后的音频数据进行编码,并将编码后的音频数据传送至音频接收端进行解码再播放,该用户能够听到适合该用户的听觉特性的音频,显著提升用户的音频感知体验。
步骤404、基于用户的心理声学模型参数,对解码后的音频数据进行编码。
本申请实施例中,上述用户的心理声学模型参数包括一个或多个子带对应的心理声学模型参数,电子设备根据一个或多个子带对应的心理声学模型参数对解码后的音频数据的一个或多个子带分别进行编码。
可选地,电子设备完成对上述解码后的音频数据的编码之后,该电子设备将该编码后的音频数据发送至音频接收端(例如耳机或其他设备),进而音频接收端对编码后的音频数据进行解码并播放。
结合图4,如图11所示,上述步骤404具体包括步骤4041至步骤4042。
步骤4041、基于用户的心理声学模型参数,确定解码后的音频数据中用户可感知的信息和用户不可感知的信息。
应理解,解码后的音频数据中可感知的信息指的是用户能够听到的信息,不可感知的信息指的是用户听不到的信息。
本申请实施例中,电子设备根据用户的人耳安静阈值曲线,低频带间掩蔽直线的斜率、高频带间掩蔽直线的斜率以及带内掩蔽参数能够确定解码后的音频数据中用户可感知的信息和用户不可感知的信息。具体的,根据用户的人耳安静阈值曲线,确定上述音频数据中,小于人耳安静阈值曲线中人耳安静阈值的信息是人耳不可感知的信息,大于或等于人耳安静阈值的信息是人耳可感知的信息。根据低频带间掩蔽直线的斜率、高频带间掩蔽直线的斜率以及带内掩蔽参数能够确定在掩蔽频段内,上述音频数据中小于掩蔽值的信息是人耳不可感知的信息,大于或等于掩蔽值的信息是人耳可感知的信息。具体可结合图1并参考图1中的四种参数的详细描述,此处不再赘述。
需要说明的是,本申请实施例中,上述根据用户的听觉特征信息,计算带内掩蔽参数、低频带间掩蔽直线的斜率、高频带间掩蔽直线的斜率或人耳安静阈值曲线中的一种或多种。若根据用户的听觉特征信息,计算得到的心理声学模型参数是四种参数中的部分参数,则其他参数的值可以是预设的值或者是采用其他方法得到,本申请实施例不作限定。例如,根据用户的听觉特征信息,计算的参数为人耳安静阈值曲线,那么带内掩蔽参数、低频带间掩蔽直线的斜率以及高频带间掩蔽直线的斜率可以为预设的值或者采用其他方法得到的值。
步骤4042、对解码后的音频数据中用户可感知的信息进行编码。
应理解,对解码后的音频数据中用户的不可感知的信息不进行编码。
可选地,基于心理声学模型参数对音频数据进行编码的标准可以包括AAC、MP3等,在本申请实施例中,可以根据实际使用需求选择一种编码标准对解码后的音频数据进行编码。
示例性的,本申请实施例中,以AAC为例简单说明对解码后的音频数据进行编码的过程:首先,音频数据(Audio Input)经过时频转化,从时域变换到频域。然后,基于上述确定的四种心理声学模型参数确定变换后的频域信号中用户可感知的信息和不可感知的信息;进而对用户可感知的信息进行量化,对用户不可感知的信息不进行量化;进一步的,对量化的信息进行无噪编码(例如霍夫曼无噪编码或算数无噪编码),最终电子设备将编码后的音频数据打包成码流传送给音频接收端(即音频解码端)。
综上,本申请实施例提供的音频编码方法中,电子设备对接收到的音频数据进行解码,再根据用户的听觉特征信息计算得到用户的心理声学模型参数,进而基于该用户的心理声学模型参数对解码后的音频数据重新编码的过程可以理解为电子设备对其接收到的音频数据转码的过程。
本申请实施例提供的基于心理声学的音频编码方法,电子设备接收音频数据,并且对该音频数据进行解码之后,该电子设备获取用户的听觉特征信息,并根据用户的听觉特征信息,计算用户的心理声学模型参数,以及基于用户的心理声学模型参数,对解码后的音频数据进行编码。其中,用户的听觉特征信息包括下述至少一种:用户的个人信息、用户的听音测试结果信息或用户的频响曲线信息。用户的心理声学模型参数包括下述至少一种:带内掩蔽参数、低频带间掩蔽直线的斜率、高频带间掩蔽直线的斜率或人耳安静阈值曲线。本申请实施例中,电子设备从其他设备接收到音频数据,并解码该音频数据,然后电子设备根据获取的用户的听觉特征信息计算用户的心理声学模型参数,再基于该用户的心理声学模型参数重新编码,由于该用户的听觉特征信息是与该用户的个性化听觉特性和发声设备的硬件特性相关,因此根据该用户的听觉特征信息计算出的心理声学模型参数具有个性化特性,进而基于该用户的心理声学模型参数对上述解码后的音频数据编码,能够满足用户的听音需求,提升用户的音质体验。
本申请实施例提供的基于心理声学的音频编码方法可以由音频编码装置执行,根据上述方法示例对音频编码装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图12示出了上述实施例中所涉及的音频编码装置的一种可能的结构示意图,如图12所示,音频编码装置可以包括:接收模块1001、解码模块1002、获取模块1003、确定模块1004以及编码模块1005。其中,接收模块1001用于支持该音频编码装置执行上述方法实施例中的步骤401中接收音频数据的动作。解码模块1002用于支持该音频编码装置执行上述方法实施例中的步骤401中对音频数据解码的动作。获取模块1003用于支持该音频编码装置执行上述方法实施例中的步骤402(包括步骤4021,步骤4022a至步骤4022b,步骤4023);确定模块1004用于支持该音频编码装置执行上述方法实施例中的步骤403(包括步骤4031a至步骤4031c,或者步骤4032a至步骤4032b,或者步骤4033a至步骤4033c,或者步骤4034a至步骤4034b);编码模块1005用于支持该音频编码装置执行上述方法实施例中的步骤404(包括步骤4041至步骤4042)。其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
在采用集成的单元的情况下,图13示出了上述实施例中所涉及的音频编码装置的一种可能的结构示意图。如图13所示,音频编码装置可以包括:处理模块2001和通信模块2002。处理模块2001可以用于对该音频编码装置的动作进行控制管理,例如,处理模块2001用于支持该音频编码装置执行上述方法实施例中的步骤401中对音频数据解码的动作、步骤402(包括步骤4021,步骤4022a至步骤4022b,步骤4023)、步骤403(包括步骤4031a至步骤4031c,或者步骤4032a至步骤4032b,或者步骤4033a至步骤4033c,或者步骤4034a至步骤4034b)以及步骤404(包括步骤4041至步骤4042),和/或用于本文所描述的技术的其它过程。通信模块2002用于支持该音频编码装置与其他网络实体的通信,例如,通信模块2002用于支持该音频编码装置执行上述方法实施例中的步骤401中接收音频数据的动作。可选的,如图13所示,该音频编码装置还可以包括存储模块2003,用于存储该音频编码装置的程序代码和数据。
其中,处理模块2001可以是处理器或控制器(例如可以是上述如图3所示的处理器310),例如可以是CPU、通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请实施例公开内容所描述的各种示例性的逻辑方框、模块和电路。上述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信模块2002可以是收发器、收发电路或通信接口等(例如可以是上述如图3所示的移动通信模块350或无线通信模块360)。存储模块2003可以是存储器(例如可以是上述如图3所示的外部存储器320或内部存储器321)。
当处理模块2001为处理器,通信模块2002为收发器,存储模块2003为存储器时,处理器、收发器和存储器可以通过总线连接。总线可以是外设部件互连标准(peripheralcomponent interconnect,PCI)总线或扩展工业标准结构(extended Industry standardarchitecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例中的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))方式或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、磁盘、磁带)、光介质(例如,数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state drives,SSD))等。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (22)
1.一种基于心理声学的音频编码方法,其特征在于,包括:
接收音频数据,对所述音频数据进行解码;
获取用户的听觉特征信息,所述听觉特征信息包括下述至少一种:个人信息、听音测试结果信息或频响曲线信息;
根据所述用户的听觉特征信息,计算所述用户的心理声学模型参数,所述心理声学模型参数包括下述至少一种:带内掩蔽参数、低频带间掩蔽直线的斜率、高频带间掩蔽直线的斜率或人耳安静阈值曲线;
基于所述用户的心理声学模型参数,对解码后的音频数据进行编码。
2.根据权利要求1所述的方法,其特征在于,所述获取用户的听觉特征信息,包括:
获取所述用户在电子设备的用户信息输入界面上输入的个人信息,所述个人信息包括下述至少一项:性别信息、年龄信息、听音偏好信息、听音环境信息或工作环境信息。
3.根据权利要求1或2所述的方法,其特征在于,
所述听音测试结果信息包括安静阈值测试结果信息和掩蔽测试结果信息;其中,所述安静阈值测试结果信息包含多个频率值对应的人耳安静阈值,所述掩蔽测试结果信息包含掩蔽频段内的多个频率值对应的掩蔽值,其中,一个掩体频率对应一个掩蔽频段。
4.根据权利要求3所述的方法,其特征在于,所述获取用户的听觉特征信息,包括:
获取所述用户在所述电子设备的第一音频测试界面上输入的多个频率值,获取所述多个频率值对应的所述用户的人耳安静阈值,根据所述第一音频测试界面上输入的多个频率值和所述多个频率值对应的所述用户的人耳安静阈值获得所述安静阈值测试结果信息,其中,所述用户的人耳安静阈值表示测试音频的边界能量值;
获取所述用户在所述电子设备的第二音频测试界面上输入的多个频率值,获取所述多个频率值对应的掩蔽值,根据所述第二音频测试界面上输入的多个频率值和所述多个频率值对应的掩蔽值获得所述掩蔽测试结果信息;其中,所述多个频率值为掩蔽频段内的多个频率值,所述掩蔽值表示所述测试音频的边界能量值。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述用户的听觉特征信息,计算所述用户的心理声学模型参数,包括:
根据所述用户的个人信息,从预设的样本库中确定与所述用户的个人信息相匹配的多个测试样本;
对所述多个测试样本的安静阈值测试结果信息进行拟合,得到所述用户的人耳安静阈值曲线;
对所述多个测试样本的掩蔽测试结果信息进行拟合,得到所述用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。
6.根据权利要求3或4所述的方法,其特征在于,所述根据所述用户的听觉特征信息,计算所述用户的心理声学模型参数,包括:
对所述用户的安静阈值测试结果信息进行拟合,得到所述用户的人耳安静阈值曲线;
对所述用户的掩蔽测试结果信息进行拟合,得到所述用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述根据所述用户的听觉特征信息,计算所述用户的心理声学模型参数,包括:
根据所述用户的频响曲线信息,从预设的样本库中确定与所述用户的频响曲线信息相匹配的多个测试样本;
对所述多个测试样本的安静阈值测试结果信息进行拟合,得到所述用户的人耳安静阈值曲线;
对所述多个测试样本的掩蔽测试结果信息进行拟合,得到所述用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述根据所述用户的听觉特征信息,计算所述用户的心理声学模型参数,包括:
根据所述用户的个人信息、所述用户的听音测试结果信息或所述用户的频响曲线信息中的至少两种听觉特征信息,计算所述至少两种听觉特征信息各自对应的心理声学模型参数;
对所述至少两种听觉特征信息各自对应的心理声学模型参数进行加权求和,得到所述用户的心理声学模型参数。
9.根据权利要求1至8任一项所述的方法,其特征在于,
所述心理声学模型参数包括至少一个子带对应的心理声学模型参数;其中,一个子带的对应的心理声学模型参数包括下述至少一种:所述子带的带内掩蔽参数、所述子带的低频带间掩蔽直线的斜率、所述子带的高频带间掩蔽直线的斜率或所述子带的人耳安静阈值曲线。
10.根据权利要求1至9任一项所述的方法,其特征在于,所述基于所述用户的心理声学模型参数,对解码后的音频数据进行编码,包括:
基于所述用户的心理声学模型参数,确定所述解码后的音频数据中所述用户可感知的信息和所述用户不可感知的信息;
对所述解码后的音频数据中所述用户可感知的信息进行编码。
11.一种音频编码装置,其特征在于,包括:接收模块、解码模块、获取模块、确定模块以及编码模块;
所述接收模块,用于接收音频数据;
所述解码模块,用于对所述音频数据进行解码;
所述获取模块,用于获取用户的听觉特征信息,所述听觉特征信息包括下述至少一种:所述用户的个人信息、所述用户的听音测试结果信息或所述用户的频响曲线信息;
所述确定模块,用于根据所述用户的听觉特征信息,计算所述用户的心理声学模型参数,所述心理声学模型参数包括下述至少一种:带内掩蔽参数、低频带间掩蔽直线的斜率、高频带间掩蔽直线的斜率或人耳安静阈值曲线;
所述编码模块,用于基于所述用户的心理声学模型参数,对解码后的音频数据进行编码。
12.根据权利要求11所述的音频编码装置,其特征在于,
所述获取模块,具体用于获取所述用户在电子设备的用户信息输入界面上输入的个人信息,所述用户的个人信息包括下述至少一项:所述用户的性别信息、年龄信息、听音偏好信息、听音环境信息或工作环境信息。
13.根据权利要求11或12所述的音频编码装置,其特征在于,
所述听音测试结果信息包括所述用户的安静阈值测试结果信息和所述用户的掩蔽测试结果信息;其中,所述安静阈值测试结果信息包含多个频率值对应的人耳安静阈值,所述掩蔽测试结果信息包含掩蔽频段内的多个频率值对应的掩蔽值,其中,一个掩体频率对应一个掩蔽频段。
14.根据权利要求13所述的音频编码装置,其特征在于,
所述获取模块,具体用于获取所述用户在所述电子设备的第一音频测试界面上输入的多个频率值,获取所述多个频率值对应的所述用户的人耳安静阈值,根据所述第一音频测试界面上输入的多个频率值和所述多个频率值对应的所述用户的人耳安静阈值获得所述安静阈值测试结果信息,其中,所述用户的人耳安静阈值表示测试音频的边界能量值;并且获取所述用户在所述电子设备的第二音频测试界面上输入的多个频率值,获取所述多个频率值对应的掩蔽值,根据所述第二音频测试界面上输入的多个频率值和所述多个频率值对应的掩蔽值获得所述掩蔽测试结果信息;其中,所述多个频率值为掩蔽频段内的多个频率值,所述掩蔽值表示所述测试音频的边界能量值。
15.根据权利要求11至14任一项所述的音频编码装置,其特征在于,
所述确定模块,具体用于根据所述用户的个人信息,从预设的样本库中确定与所述用户的个人信息相匹配的多个测试样本;并且对所述多个测试样本的安静阈值测试结果信息进行拟合,得到所述用户的人耳安静阈值曲线;对所述多个测试样本的掩蔽测试结果信息进行拟合,得到所述用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。
16.根据权利要求13或14所述的音频编码装置,其特征在于,
所述确定模块,具体用于对所述用户的安静阈值测试结果信息进行拟合,得到所述用户的人耳安静阈值曲线;并且对所述用户的掩蔽测试结果信息进行拟合,得到所述用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。
17.根据权利要求11至16任一项所述的音频编码装置,其特征在于,
所述确定模块,具体用于根据所述用户的频响曲线信息,从样本库中确定与所述用户的频响曲线信息相匹配的多个测试样本;并且对所述多个测试样本的安静阈值测试结果信息进行拟合,得到所述用户的人耳安静阈值曲线;对所述多个测试样本的掩蔽测试结果信息进行拟合,得到所述用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。
18.根据权利要求11至17任一项所述的音频编码装置,其特征在于,
所述确定模块,具体用于根据所述用户的个人信息、所述用户的听音测试结果信息或所述用户的频响曲线信息中的至少两种听觉特征信息,计算所述至少两种听觉特征信息各自对应的心理声学模型参数;并且对所述至少两种听觉特征信息各自对应的心理声学模型参数进行加权求和,得到所述用户的心理声学模型参数。
19.根据权利要求11至18任一项所述的音频编码装置,其特征在于,
所述心理声学模型参数包括至少一个子带分别对应的心理声学模型参数;其中,一个子带的对应的心理声学模型参数包括下述至少一种:所述子带的带内掩蔽参数、所述子带的低频带间掩蔽直线的斜率、所述子带的高频带间掩蔽直线的斜率或所述子带的人耳安静阈值曲线。
20.根据权利要求11至19任一项所述的音频编码装置,其特征在于,
所述编码模块,具体用于基于所述用户的心理声学模型参数,确定所述解码后的音频数据中所述用户可感知的信息和所述用户不可感知的信息;并且对所述解码后的音频数据中所述用户可感知的信息进行编码。
21.一种电子设备,其特征在于,包括存储器和与所述存储器连接的至少一个处理器,
所述存储器用于存储指令,所述指令被所述至少一个处理器读取后,所述电子设备执行如权利要求1至10任一项所述的方法。
22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机指令,当所述计算机指令在计算机上运行时,以执行如权利要求1至10任一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010444294.2A CN113782040B (zh) | 2020-05-22 | 2020-05-22 | 基于心理声学的音频编码方法及装置 |
EP21807555.4A EP4145443A4 (en) | 2020-05-22 | 2021-04-09 | PSYCHOACOUSTICS BASED AUDIO CODING METHOD AND APPARATUS |
PCT/CN2021/086256 WO2021232995A1 (zh) | 2020-05-22 | 2021-04-09 | 基于心理声学的音频编码方法及装置 |
US17/990,388 US12334087B2 (en) | 2020-05-22 | 2022-11-18 | Psychoacoustics-based audio encoding method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010444294.2A CN113782040B (zh) | 2020-05-22 | 2020-05-22 | 基于心理声学的音频编码方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113782040A true CN113782040A (zh) | 2021-12-10 |
CN113782040B CN113782040B (zh) | 2024-07-30 |
Family
ID=78709137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010444294.2A Active CN113782040B (zh) | 2020-05-22 | 2020-05-22 | 基于心理声学的音频编码方法及装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US12334087B2 (zh) |
EP (1) | EP4145443A4 (zh) |
CN (1) | CN113782040B (zh) |
WO (1) | WO2021232995A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115856456A (zh) * | 2023-02-27 | 2023-03-28 | 国网山东省电力公司广饶县供电公司 | 一种电缆电荷测试数据传输方法 |
CN117093182A (zh) * | 2023-10-10 | 2023-11-21 | 荣耀终端有限公司 | 一种音频播放方法、电子设备和计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101115051A (zh) * | 2006-07-25 | 2008-01-30 | 华为技术有限公司 | 音频信号处理方法、系统以及音频信号收发装置 |
US20200027467A1 (en) * | 2018-07-20 | 2020-01-23 | Mimi Hearing Technologies GmbH | Systems and methods for encoding an audio signal using custom psychoacoustic models |
US20200029159A1 (en) * | 2018-07-20 | 2020-01-23 | Mimi Hearing Technologies GmbH | Systems and methods for modifying an audio signal using custom psychoacoustic models |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6915264B2 (en) * | 2001-02-22 | 2005-07-05 | Lucent Technologies Inc. | Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding |
US7627481B1 (en) * | 2005-04-19 | 2009-12-01 | Apple Inc. | Adapting masking thresholds for encoding a low frequency transient signal in audio data |
FR2898443A1 (fr) * | 2006-03-13 | 2007-09-14 | France Telecom | Procede de codage d'un signal audio source, dispositif de codage, procede et dispositif de decodage, signal, produits programme d'ordinateur correspondants |
WO2008086112A1 (en) * | 2007-01-04 | 2008-07-17 | Sound Id | Personalized sound system hearing profile selection process |
ES2375192T3 (es) * | 2007-08-27 | 2012-02-27 | Telefonaktiebolaget L M Ericsson (Publ) | Codificación por transformación mejorada de habla y señales de audio. |
EP2190217B1 (en) * | 2008-11-24 | 2012-02-22 | Oticon A/S | Method to reduce feedback in hearing aids and corresponding apparatus and corresponding computer program product |
KR101569702B1 (ko) * | 2009-08-17 | 2015-11-17 | 삼성전자주식회사 | 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치 |
US10687155B1 (en) * | 2019-08-14 | 2020-06-16 | Mimi Hearing Technologies GmbH | Systems and methods for providing personalized audio replay on a plurality of consumer devices |
US20150281853A1 (en) * | 2011-07-11 | 2015-10-01 | SoundFest, Inc. | Systems and methods for enhancing targeted audibility |
EP2830065A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency |
WO2015034115A1 (ko) * | 2013-09-05 | 2015-03-12 | 삼성전자 주식회사 | 오디오 신호의 부호화, 복호화 방법 및 장치 |
EP3067885A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding a multi-channel signal |
US10043527B1 (en) * | 2015-07-17 | 2018-08-07 | Digimarc Corporation | Human auditory system modeling with masking energy adaptation |
WO2017143333A1 (en) * | 2016-02-18 | 2017-08-24 | Trustees Of Boston University | Method and system for assessing supra-threshold hearing loss |
US10497354B2 (en) * | 2016-06-07 | 2019-12-03 | Bose Corporation | Spectral optimization of audio masking waveforms |
US10628604B1 (en) * | 2016-11-01 | 2020-04-21 | Airlines Reporting Corporation | System and method for masking digital records |
KR102302683B1 (ko) * | 2017-07-07 | 2021-09-16 | 삼성전자주식회사 | 음향 출력 장치 및 그 신호 처리 방법 |
US10827265B2 (en) * | 2018-01-25 | 2020-11-03 | Cirrus Logic, Inc. | Psychoacoustics for improved audio reproduction, power reduction, and speaker protection |
EP3614380B1 (en) * | 2018-08-22 | 2022-04-13 | Mimi Hearing Technologies GmbH | Systems and methods for sound enhancement in audio systems |
DE102019204527B4 (de) * | 2019-03-29 | 2020-11-19 | Technische Universität München | Kodierungs-/dekodierungsvorrichtungen und verfahren zur kodierung/dekodierung von vibrotaktilen signalen |
-
2020
- 2020-05-22 CN CN202010444294.2A patent/CN113782040B/zh active Active
-
2021
- 2021-04-09 WO PCT/CN2021/086256 patent/WO2021232995A1/zh unknown
- 2021-04-09 EP EP21807555.4A patent/EP4145443A4/en active Pending
-
2022
- 2022-11-18 US US17/990,388 patent/US12334087B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101115051A (zh) * | 2006-07-25 | 2008-01-30 | 华为技术有限公司 | 音频信号处理方法、系统以及音频信号收发装置 |
US20200027467A1 (en) * | 2018-07-20 | 2020-01-23 | Mimi Hearing Technologies GmbH | Systems and methods for encoding an audio signal using custom psychoacoustic models |
US20200029159A1 (en) * | 2018-07-20 | 2020-01-23 | Mimi Hearing Technologies GmbH | Systems and methods for modifying an audio signal using custom psychoacoustic models |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115856456A (zh) * | 2023-02-27 | 2023-03-28 | 国网山东省电力公司广饶县供电公司 | 一种电缆电荷测试数据传输方法 |
CN115856456B (zh) * | 2023-02-27 | 2023-06-23 | 国网山东省电力公司广饶县供电公司 | 一种电缆电荷测试数据传输方法 |
CN117093182A (zh) * | 2023-10-10 | 2023-11-21 | 荣耀终端有限公司 | 一种音频播放方法、电子设备和计算机可读存储介质 |
CN117093182B (zh) * | 2023-10-10 | 2024-04-02 | 荣耀终端有限公司 | 一种音频播放方法、电子设备和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP4145443A4 (en) | 2023-06-07 |
CN113782040B (zh) | 2024-07-30 |
EP4145443A1 (en) | 2023-03-08 |
WO2021232995A1 (zh) | 2021-11-25 |
US12334087B2 (en) | 2025-06-17 |
US20230091607A1 (en) | 2023-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113676804B (zh) | 一种主动降噪方法及装置 | |
CN113873378B (zh) | 一种耳机噪声处理方法、装置及耳机 | |
CN113873379B (zh) | 一种模式控制方法、装置及终端设备 | |
CN111179282A (zh) | 图像处理方法、图像处理装置、存储介质与电子设备 | |
WO2021227696A1 (zh) | 一种主动降噪方法及装置 | |
CN114727212B (zh) | 音频的处理方法及电子设备 | |
CN110070863A (zh) | 一种语音控制方法及装置 | |
US12334087B2 (en) | Psychoacoustics-based audio encoding method and apparatus | |
WO2022206825A1 (zh) | 一种调节音量的方法、系统及电子设备 | |
KR20160075060A (ko) | 배터리 정보에 따른 기능 제어 방법 및 그 전자 장치 | |
CN112783330A (zh) | 电子设备的操作方法、装置和电子设备 | |
CN113473013A (zh) | 图像美化效果的显示方法、装置和终端设备 | |
CN112599144B (zh) | 音频数据处理方法、音频数据处理装置、介质与电子设备 | |
CN113129916B (zh) | 一种音频采集方法、系统及相关装置 | |
CN112507161A (zh) | 一种音乐播放方法及装置 | |
US20240164725A1 (en) | Physiological detection signal quality evaluation method, electronic device, and storage medium | |
CN117667001A (zh) | 一种音量调节方法、电子设备及系统 | |
CN116049535A (zh) | 信息推荐方法、装置、终端装置及存储介质 | |
CN114120987B (zh) | 一种语音唤醒方法、电子设备及芯片系统 | |
CN116665692B (zh) | 语音降噪方法和终端设备 | |
CN114120950B (zh) | 一种人声屏蔽方法和电子设备 | |
CN113196800A (zh) | 无线头戴式耳机的混合麦克风 | |
CN114584913B (zh) | Foa信号和双耳信号的获得方法、声场采集装置及处理装置 | |
CN114999535A (zh) | 在线翻译过程中的语音数据处理方法及装置 | |
CN116962937A (zh) | 穿戴设备、拾音方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |