CN109147804A - 一种基于深度学习的音质特性处理方法及系统 - Google Patents
一种基于深度学习的音质特性处理方法及系统 Download PDFInfo
- Publication number
- CN109147804A CN109147804A CN201810583119.4A CN201810583119A CN109147804A CN 109147804 A CN109147804 A CN 109147804A CN 201810583119 A CN201810583119 A CN 201810583119A CN 109147804 A CN109147804 A CN 109147804A
- Authority
- CN
- China
- Prior art keywords
- data
- acoustic feature
- audio
- feature
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 47
- 238000003672 processing method Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 172
- 238000012545 processing Methods 0.000 claims abstract description 105
- 238000000605 extraction Methods 0.000 claims abstract description 57
- 230000003542 behavioural effect Effects 0.000 claims abstract description 21
- 241001269238 Data Species 0.000 claims abstract description 17
- 238000003062 neural network model Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 96
- 239000013598 vector Substances 0.000 claims description 48
- 230000007613 environmental effect Effects 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 29
- 238000011156 evaluation Methods 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 24
- 230000004927 fusion Effects 0.000 claims description 23
- 230000006399 behavior Effects 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 16
- 238000009826 distribution Methods 0.000 claims description 15
- 230000009467 reduction Effects 0.000 claims description 15
- 238000002474 experimental method Methods 0.000 claims description 12
- 238000013461 design Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 11
- 230000000153 supplemental effect Effects 0.000 claims description 11
- 238000012544 monitoring process Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 17
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000013139 quantization Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 7
- 230000006835 compression Effects 0.000 description 7
- 238000007906 compression Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 5
- 238000009432 framing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 241000208340 Araliaceae Species 0.000 description 4
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 4
- 235000003140 Panax quinquefolius Nutrition 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 235000008434 ginseng Nutrition 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 206010034719 Personality change Diseases 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000003902 lesion Effects 0.000 description 3
- 239000011435 rock Substances 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 210000003813 thumb Anatomy 0.000 description 3
- 238000000540 analysis of variance Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000009123 feedback regulation Effects 0.000 description 1
- 210000003811 finger Anatomy 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000155 melt Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 230000009329 sexual behaviour Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3005—Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/32—Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/16—Automatic control
- H03G5/165—Equalizers; Volume or gain control in limited frequency bands
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Circuit For Audible Band Transducer (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
本发明提供一种基于深度学习的音质特性处理方法及系统。所述方法包括:对包含待处理音频数据的用户偏好数据进行特征提取得到所述待处理的音频数据的数据特征;基于所述数据特征,利用训练好的基线模型,生成所述待处理的音频数据的音质处理结果;所述基线模型是利用广泛大众或单个用户的音频数据,行为数据及其他相关数据训练得到的神经网络模型。根据本发明方法及系统,基于深度学习方法对音质特性进行处理的方法,并利用用户反馈数据进行模型在线学习,实现用户个性化音质调节。
Description
技术领域
本发明涉及音质处理技术领域,更具体地涉及一种基于深度学习的音质特性处理方法及系统。
背景技术
音质是人对音频质量的主观评价,且每个人有不同的音质偏好。无论是音频播放设备供应商还是音频门户平台,设法提升和增强音质,是能够提升用户听音体验的最直接方法之一。但是,目前在音质评价指标模型不完备情况下,不仅那些我们无法客观量化的指标尚无法进行调节,即使是能够量化或建模的音质特性,由于每个人的音质偏好不同,也面临着如何实现个性化的自动调节的问题。
现有技术中的音质调节方法,一般是由用户自己调节,但是这种办法对用户体验并不友好,而针对特对音频自身特性或用户偏好的自适应音质调节方法还缺乏应用;另一种方法是,通过对音乐的标题,作者等标签特征做分析,利用音乐推荐算法,将用户对音乐的偏好与某一类或几类风格靠拢,利用该类风格已有的业内通用音质设置去给用户做推荐。
但是多类别和未知类别的音频却很难进行调节设置,且这种方法的数据是人工标注,一旦脱离网络环境,可能除了音乐的波形外,很难获取其他信息,比如音乐风格,用户评价,和推荐算法需要用到的其他参数,这时这种方法就失效了。
综上,现有技术中存在的主要问题包括:
1、大多数音质特性普遍缺乏自动调节技术,尤其是针对个人用户的个性化音质处理技术。
2、利用已有风格或类型的经验数据进行调节的音质,如EQ,对于未知类别的音频无法进行调节,对于具有多种类别特性的音频缺少经验数据融合的方法,且依赖网上的人工评价信息。
3、人工损伤的音频信息还原技术需要更好方法。
4、可量化的音质特性如何与用户主观感受建立起关联以实现音质特性增强。
5、未知量化方法的特性将如何处理。
发明内容
为了解决上述问题中的至少一个而提出了本发明。本发明提出了一种关于基于深度学习的音质特性处理的方案,基于深度学习方法对音质特性进行处理的方法,并利用用户反馈数据进行模型在线学习,实现用户个性化音质调节。本发明还根据音质指标的量化方法,数据获取方式,信号域特征等维度将音质特性划分为多个大类,针对每一类的特点设计特定音质调节模型,对于现有已知的音质指标可在实现音质调整和用户个性化定制,对未知的音质指标可根据其性质归属到所述多个大类,按既有框架进行训练和调节,无法归属到六类中的未知音质特性,可在本框架基础上进行扩展,直到涵盖所有音质特性。
根据本发明一方面,提供了一种基于深度学习的音质特性处理方法,包括:
对包含待处理音频数据的用户偏好数据进行特征提取得到所述待处理的音频数据的数据特征;
基于所述数据特征,利用训练好的基线模型,生成音质处理结果;
所述基线模型是利用广泛大众或单个用户的音频数据,行为数据及其他相关数据训练得到的神经网络模型。
示例性地,用户偏好数据包括反映用户对音质特性偏好的数据。
示例性地,所述用户偏好数据包括用户行为数据、用户音频列表数据、播放中的音频数据、环境噪声数据、设备数据及其他参数数据中的至少一种。
示例性地,所述特征提取的方法包括FFT,STFT,MFCC,一帧或多帧的时域波形,和其他人工设计特征中的至少一种。
示例性地,所述数据特征包括时域和/或频域特征。
示例性地,所述基线模型的训练方法包括:
基于训练数据进行特征提取得到训练数据的数据特征,将所述数据特征作为输入层输入,将能够反应所述音质特性的特征作为输出层目标,训练得到所述基线模型;或对用户偏好数据进行特征提取,采用无监督的深度学习方法,得到所述基线模型。
示例性地,所述音质特性包括经验融合类,人为损伤类,音质设置可反馈类,经验公式可调类,信号域可计算类,噪声杂音类或其他类。
示例性地,所述经验融合类音质特性的基线模型的训练包括:
基于音频数据库提取音频数据的类别标签特征以及所述音频数据的数据特征;
将所述音频数据的数据特征作为输入层数据,所述类别标签特征作为输出层数据,训练得到经验融合类音质特性的基线模型。
示例性地,所述人为损伤类音质特性的基线模型的训练包括:
基于音频数据库中的高质量音频数据样本进行人为处理得到有损的低质量音频数据样本,并对所述有损的低质量音频数据样本和所述高质量音频数据样本分别进行特征提取得到低质量音频数据特征和高质量音频数据特征;
将所述低质量音频数据特征作为输入层数据,高质量音频数据特征作为输出层数据,训练得到人为损伤类音质特性的基线模型。
示例性地,所述音质设置可反馈类音质特性的基线模型的训练包括:
基于大众用户音频数据中的环境数据和与所述环境数据相应的行为数据,分别进行特征提取,得到所述环境数据的环境参数特征和所述行为数据的音质特性设置特征;
将所述环境参数特征作为输入层数据,所述音质特性设置特征作为输出层数据,训练得到音质设置可反馈类音质特性的基线模型。示例性地,所述公式经验可调类音质特性的基线模型的训练包括:
基于音频数据库中的音频数据,进行特征提取得到原始数据特征;
对所述音频数据进行音质特性调整并对调整后的音频数据提取特征得到调整参数特征,通过主观评测实验建立将所述调整参数特征映射到主观评测的网络模型,得到最佳音质特性调整参数;
将所述原始数据特征作为输入层数据,所述最佳音质特性调整参数作为输出层数据,训练得到所述经验公式可调类音质特性的基线模型。
示例性地,所述信号域可计算类音质特性的基线模型的训练包括:
基于音频数据库中的音频数据进行特征提取得到音质特性特征;
将所述音质特性特征进行聚类得到聚类模型;
基于个人用户偏好的音频数据进行特征提取得到个人用户偏好的音质特性特征,并输入所述聚类模型,生成个人用户偏好的音质特性分布特征向量;
基于所述个人用户偏好的音质特性分布特征向量,训练一个无监督神经网络模型作为所述信号域可计算类音质特性的基线模型。
示例性地,所述噪声杂音类音质特性的分类基线模型的训练包括:
基于音频数据库中的包含杂音或正常音类别标签特征的音频数据,进行特征提取得到数据特征及其对应的类别标签特征;
基于所述数据特征及其对应的类别标签特征训练得到噪声杂音类音质特性的分类基线模型。
示例性地,所述生音质处理结果包括:
根据所述噪声杂音类音质特性的分类基线模型的杂音辨别结果对所述待处理的音频数据进行处理;若所述杂音辨别结果属于可滤除的杂音类别,则利用训练好的降噪基线模型得到降噪后的音频数据;若所述杂音辨别结果属于不可滤除的杂音类别,则提示用户或删除所述待处理的音频数据。
示例性地,所述其他类音质特性的基线模型的训练包括:
基于音频数据库获取能够直接或间接反映其他类音质特性的音频数据;
基于所述反映其他类音质特性的音频数据进行特征提取,形成其他类音质特性特征提取模型,得到其他类音质特性特征;
将所述其他类音质特性特征作为输入层,通过所述其他类音质特性特征映射到主观评测的网络模型所得到的主观感受评价作为输出层,或基于个人用户对所述其他类音质特性的偏好特征,训练生成其他类音质特性的基线模型。
根据本发明的另一方面,提供了一种基于深度学习的音频音质个性化处理方法,其特征在于,包括:
实时提取个人用户偏好数据;
基于所述音质特性的基线模型,在线学习所述个人用户偏好数据,训练得到个性化音质特性处理模型;
利用所述个性化音质特性处理模型生成个性化的音质特性处理结果;
所述基线模型是利用广泛大众或单个用户的音频数据,行为数据及其他相关数据训练得到的神经网络模型。
示例性地,所述个人用户偏好数据包括反映用户对音质特性偏好的数据。
示例性地,所述个人用户偏好数据包括用户行为数据、用户音频列表数据、播放中的音频数据、环境噪声数据、设备数据及其他参数数据中的至少一种。
示例性地,所述基线模型的训练方法包括:
基于训练数据进行特征提取得到训练数据的数据特征,将所述数据特征作为输入层输入,将能够反应所述音质特性的特征作为输出层目标,训练得到所述基线模型;或
对用户偏好数据进行特征提取,采用无监督的深度学习方法,得到所述基线模型。
示例性地,所述特征提取的方法包括FFT,STFT,MFCC,一帧或多帧的时域波形,和其他人工设计特征中的至少一种。
示例性地,所述数据特征包括时域和/或频域特征。
示例性地,所述在线学习方法包括:
基于所述基线模型输出音质特性处理结果,通过个人用户对所述音质特性处理结果的反馈数据,更新所述基线模型得到个性化音质特性处理模型;和/或
通过个人用户对所述个性化音质特性处理结果的反馈数据,进行再学习,更新现有的个性化音质特性处理模型,得到新的个性化音质特性处理模型。
示例性地,所述在线学习还包括:所述用户行为数据中的个人用户反馈行为次数积累到预定值时,基于所述个人用户偏好数据,对所述基线模型或现有的个性化音频音质模型进行再学习。
示例性地,所述音质特性包括经验融合类,人为损伤类,音质设置可反馈类,经验公式可调类,信号域可计算类,噪声杂音类或其他类。
示例性地,所述经验融合类音质特性的在线学习方法包括:
当所述用户偏好数据中的用户偏好列表更新时,音质特性参数融合的结果更新,此时基线模型不更新;和/或
当用户反馈后的所述音质特性的数据特征发生变化时,基于用户反馈的音质特性的数据特征对基线模型进行重训练,得到经验融合类音质特性的个性化音质特性处理模型。
示例性地,所述人为损伤类音质特性的在线学习方法包括:判断所述用户偏好数据中的音频数据的音频格式,提示用户下载,或自动下载相应的基线模型;基于下载的所述基线模型训练适合多种音频格式提升的混合模型,得到人为损伤类音质特性的个性化音质特性处理模型。
示例性地,所述音质设置可反馈类音质特性的在线学习方法包括:
基线模型或现有的个性化音质特性处理模型根据当前的音频数据的环境参数信息输出音质特性处理结果,根据用户随所述输出音质特性处理结果的反馈训练更新所述基线模型,或现有的个性化音质特性处理模型,形成音质设置可反馈类音质特性的个性化模型。
示例性地,所述经验公式可调类音质特性的在线学习方法包括:用基线模型或现有的个性化音质特性处理模型输出的处理参数对待处理的音频数据进行处理,如果用户接受,所述基线模型或现有的个性化音质特性处理模型不需要更新;反之用户不接受,对所述输出的处理参数进行调整,则用调整后的音频数据和处理参数对基线模型或现有的个性化音质特性处理模型进行更新。
示例性地,所述信号域可计算类音质特性的在线学习方法包括:利用编码器计算所述待推荐的音频数据的音质特性特征编码与个人用户偏好的音质特性特征编码集的匹配度,将所述匹配度最高的预定数量的待推荐的音频数据推荐给个人用户为用户推荐了一个或多个音频数据,如果用户接受推荐的音频数据,则该音频数据就可以视为用户偏好的音频数据,将该音频数据加入个人用户偏好的音频数据;用更新后的个人用户偏好的音频数据更新编码器。
示例性地,所述噪声杂音类音质特性的在线学习方法包括:如果用户特别讨厌或者经常遇到某类别的噪声,通过用户反馈信息为用户定制该类别噪声的专用分类器或去噪器。
示例性地,所述其它类音质特性的在线学习方法包括:所述其他类音质特性适用于如前所述在线学习的方法,而具体的在线学习过程根据音质特性特征有相应的变化或简化。
根据本发明的另一方面,提供了一种基于深度学习的音频音质个性化的系统,其特征在于,包括:音频播放终端、云平台、以及在线学习模块,其中,
所述音频播放终端包括用于存储用户偏好数据;
所述云平台包括用于形成基线模型,所述基线模型是利用广泛大众或单个用户的音频数据,行为数据及其他相关数据训练得到的神经网络模型;
所述在线学习模块,包括接收所述用户偏好数据,以及对所述基线模型进行在线学习,形成个性化音频音质模型。
示例性地,所述系统还包括监控管理平台,用于负责所述系统的调度、管理和监控。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是根据本发明实施例的基于深度学习的音质特性处理方法的示意性流程图;
图2A是根据本发明实施例的基于深度学习的经验融合类音质特性示意性的原理图;
图2B是根据本发明实施例的类别标签特征提取过程的示意性原理图;
图2C是根据本发明实施例的还原类别标签过程的示意性原理图;
图3是根据本发明实施例的基于深度学习的人为损伤类音质特性的处理方法的示意性原理图;
图4是根据本发明实施例的基于深度学习的音质设置可反馈类音质特性的处理方法及其在线学习的示意性原理图;
图5A是根据本发明实施例的基于深度学习的经验公式可调类音质特性的处理方法的示意性原理图;
图5B是根据本发明实施例的主观评测实验过程的示意性原理图;
图6是根据本发明实施例的基于深度学习的信号域可计算类音质特性的处理方法的示意性原理图;
图7是根据本发明实施例的基于深度学习的噪声杂音类音质特性的处理方法的示意性原理图;
图8是根据本发明实施例的基于深度学习的其他类音质特性的示的处理方法的示意性原理图;
图9是根据本发明实施例的基于深度学习的个性化音质特性处理方法的示意性流程图;
图10是根据本发明实施例的个性化音质特性处理模型的训练方法的示意性原理图;
图11是根据本发明实施例的基于深度学习的个性化音质特性处理方法的在线学习方法的示意性原理图;
图12是根据本发明实施例的经验融合类音质特性的在线学习的原理性示意图;
图13是根据本发明实施例的经验公式可调类音质特性的在线学习的原理性示意图;
图14是根据本发明实施例的信号域可计算类音质特性的在线学习的原理性示意图;
图15是根据本发明实施例的基于深度学习的音质特性处理或的个性化音质特性处理的系统的原理性示意图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
根据本发明一方面,提供了种基于深度学习的音质特性处理方法。参照图1,描述根据本发明实施例的基于深度学习的音质特性处理方法。如图1所示,一种基于深度学习的音质特性处理方法包括:
对包括待处理的音频数据的用户偏好数据(s1)进行特征提取(s2)得到所述待处理的音频数据的数据特征;
基于所述数据特征,利用训练好的基线模型(s3),生成所述待处理的音频数据的音质处理结果(s4);
所述基线模型是利用广泛大众或单个用户的音频数据,行为数据及其他相关数据训练得到的神经网络模型。
所述用户偏好数据包括反映用户对音质特性偏好的数据,包括且不限于用户行为数据、用户音频列表数据、播放中的音频数据、环境噪声数据、设备数据及其他参数数据中的至少一种。
不同的音质特性具有不同的特点,而具有相同或相似特点的音质特性可以通过相同或相似的方法对音质特性进行处理,所述处理包括且不限于音质特性的增强和/或推荐和/或提示。
如下表1所示,根据预定标准对音质特性分类,所述音质特性包括且不限于经验融合类,人为损伤类,音质设置可反馈类,经验公式可调类,信号域可计算类,噪声杂音类或其他类;所述预定标准包括且不限于数据获取难度、数据量化难度或主观与数据的映射建立难度。
数据获取难度:是指与音质特性相关的用户偏好数据是否容易获取。例如,用户对EQ(Equalizer)偏好是一种数据难获取的音质特性,一般用户很少手动调整EQ,因此很难取得用户对某个音频数据的EQ偏好设置;人工对音乐的编码压缩是一种数据容易获取的音质特性,如将flac无损音乐转码为mp3音乐,可以肯定的是人们更偏好flac音乐而非mp3,这种偏好是显而易见的,转码前后的相关数据,如信号波形,就可作为偏好数据。
数据量化难度:是指用户偏好数据是否能通过某些特征提取方法得到能直接映射音质特性的不同程度及变化的数据特征。例如,EQ是数据难量化的音质特性,EQ是一系列人工设计的曲线,表现形式是各频点的加强或衰减的程度,是一个高维数据,难以反映EQ音质特性的强度;人工编码压缩是容易量化的音质特性,用码率大小,采样频率大小等少量参数就可以表征这个音质特性强度,同一个原始音频编码,码率低,采样频率低的音频格式的音质肯定和高采样频率和高码率音频格式音质有区别。
主观与数据关系建立难度:是指用户对音质特性的主观感受能否和数据特征直接对应。例如,低音强度是很难与主观感受对应的音质特性,不是所有人都喜欢低音很强的音乐,即使我们能够很轻易的根据频谱计算出音频的低音强度,也无法立即确定这个数值对某个用户的感受会造成好的或坏的影响;人工编码压缩是很容易跟主观映射的音质特性,因为只要对无损音频进行压缩,必然会使所有人的主观感受下降,同一种编码格式码率越低感受越差。
此外,所述预定标准还可以包括反映音质特性特征的参数,例如音质特性强度,音质特性强度是指能表征音质特性的显著程度的参数。比如,低音强度这个特性,如果音频低频段能量占频谱总能量的比重越大,低音强度音质特性强度越大,不同的音质特性强度量化方法可能不同,有的可能无法量化。一般来说,音质特性强度可以量化的音质特性都是能较容易数据量化的。
表1
下面,参照图2A-图8,基于上述不同类型的音质特性,描述根据本发明实施例的基于深度学习的音质特性处理方法。
1、经验融合类音质特性:
经验融合类音质特性(例如,EQ均衡)的相关数据难以获取,难以量化,主观感受与数据难以建立映射,但是对于特定属性或类别的音频数据,有本领域公认的调节音质特性参数方法,例如符合爵士风格的音乐,用爵士风格的音质特性参数,就能满足一般人的偏好。
音频数据库中的音频数据被用户或其他途径打上了类别标签,包括且不限于“爵士”、“经典”、“演讲”,“演唱会”等,一个音频数据应对应多个类别标签。对音频数据的类别标签进行归一化,得到音频数据对应每个类别的概率向量,对这个向量进行特征化,方法包括且不限于:矩阵分解,因子分解机,词向量化等。利用音乐波形的时频域特征作为输入,类别标签特征向量作为输出,训练一个经验融合类深度神经网络。如果用户偏好一个无类别标签的音频数据或标签不全的音频数据,则利用特征提取方法和训练得到的经验融合类深度神经网络将这个音频数据的音频波形映射到一个类别标签特征向量上。根据类别标签特征向量,融合已有的音质特性参数设计,反馈给用户。
参见图2A,对于经验融合类音质特性,所述音质特性处理方法包括:
基于音频数据库提取音频数据的类别标签特征(210)以及所述音频数据的数据特征(211)。
其中,提取所述类别标签特征的方法包括且不限于矩阵分解,因子分解机,词向量化等方法;所述音频数据的数据特征包括且不限于音频波形中具有明显类别特色部分的特征;所述数据特征的提取方法包括且不限于fft(Fast Fourier Transformation),mfcc(Mel-Frequency Cepstral Coefficient)等。
在一个实施例中,以矩阵分解为例,说明对音乐数据的类别标签特征提取的过程。参见图2B,大众用户对不同音乐的类别标签(如,风格标签)进行标注形成标注矩阵120,标注矩阵120中的数据代表标注的次数,如有12个用户将音乐“我的祖国”标注为“民乐”类别,则标注矩阵120中行为“我的祖国”,列为“民乐”的数据就是12。标注矩阵120的每一行,称为一首音乐的“风格标签”。
原始的标注矩阵120每一行显然是一个稀疏的向量,如一首音乐的风格标签,有几个坐标是正整数,其他的为0是正常的,但很少会有所有坐标都是正整数情况,也就是说多数音乐应该只对应几种风格,甚至只是一种风格。因此这个标注矩阵120是很稀疏的,我们需要对它进行风格标签特征提取,使每首音乐的风格特征更加密集,且能更好的反映相似音乐之间特征的相关度。
将标准矩阵120进行分解,得到的分解结果为风格标签特征矩阵121和权重矩阵122,其中,风格标签特征矩阵121的每一行是一首音乐的风格标签特征,可以看作是风格标签这个稀疏向量的压缩,相似音乐的风格标签特征之间具有较高的相似度,如《我的祖国》和《十送红军》的特征余弦相关度,显然高于《我的祖国》和《七里香》;权重矩阵122的每一列对应一个音乐风格,一列的数值表征这个音乐风格,对风格标签特征矩阵121的风格标签特征每个元素的权重。风格标签特征矩阵121和权重矩阵122相乘结果是对原始的标注矩阵的近似还原。
将所述音频数据的数据特征作为输入层数据,所述类别标签特征作为输出层数据,训练得到经验融合类音质特性的基线模型(212)。
对待处理的音频数据进行特征提取得到数据特征并作为输入数据,输入所述经验融合类音质特性的基线模型,得到所述待处理的音频数据的类别标签特征(213)。
在一个实施例中,获取一首用户偏好的音乐,从音乐波形中提取的特征作为输入,使用经验融合类音质特性的基线模型进行运算,输出的结果是对这首音乐的风格特征向量即类别标签特征。对于一个用户音乐的不同时间段的时域波形,可能会输出不同的风格特征,得到最后的风格特征估计结果的方法包括且不限于:各段输出的平均,或采取其他的融合方式(如投票);最终一首音乐输出一个风格特征向量。
将所述待处理的音频数据的类别标签特征还原成所述待处理的音频数据的的类别标签(214),基于所述待处理的音频数据的类别标签形成用户偏好类别画像(215)。
在一个实施例中,以矩阵分解为例,说明对音乐数据的风格标签特征还原成风格标签的过程。参见图2C,所述深层神经网络模型输出的特征向量为音乐数据的风格标签特征200,乘以权重矩阵201(即风格标签特征提取中的权重矩阵122),还原出该音乐数据可能的风格标签202。此处需要说明的是,如果前面采取其他的风格标签特征提取方法,如因子分解机,还原风格标签的方法应与特征提取方法相对应。
根据所述用户偏好类别画像和相应类别的音质特性参数进行融合(216),得到个性化音质特性参数。
其中,所述用户偏好类别画像反映的是用户对于各类别音频数据的偏好程度,所述用户偏好类别画像包括且不限于反映各类别音频数据所占的比例或权重的图(如柱状图,饼状图)。在一个实施例中,用户经常点击的音乐的音乐标签特征,在摇滚风格的坐标上有最大数值,画像可能会显示摇滚是用户的主要偏好,那么摇滚类别在画像中所占的比例大。
将所述个性化音质特性参数作为音质处理结果推荐给用户(217)。
2、人为损伤类音质特性:
人为损伤类音质特性的相关数据都具有易获的特性,比如有损编码音频,能够很容易地获得编码前后的音频数据,这类特性可以直接建立损伤后和损伤前数据的映射网络。
参见图3,对于人为损伤类音质特性,所述音质特性处理方法包括:
基于音频数据库中的高质量音频数据样本进行处理得到有损的低质量音频数据样本,并对所述有损的低质量音频数据样本和所述高质量音频数据样本分别进行特征提取得到低质量音频数据特征和高质量音频数据特征(220)。
其中,高质量音频数据样本包括无损音频数据或者高质量音频数据,所述高质量频数据样本中包括且不限于:pcm(Pulse Code Modulation)格式,wav格式,flac(FreeLossless Audio Code)格式,其他格式的无损音频数据或者高码率的音频数据;所述高码率的音频数据包括且不限于高码率或较高采样频率的语音数据或者其他形式的,未经过人为损伤的无损音频数据。这些数据进行特征提取后是重构网络的输出层目标。高质量音频数据的人工损伤,典型的场景包括且不限于:采样速率为16kHz,编码速率为23.85kbps(KBit Per Second,千比特每秒)的amr-wb(Adaptive Multi-Rate Wideband)语音,转码为采样速率为8kHz,编码速率为12.2kbps的amr-nb(Adaptive Multi-Rate narrowband)语音。
所述处理包括其且不限于编解码等人工损伤。
得到低质量音频数据特征和高质量音频数据特征的方法包括且不限于对所述有损的低质量音频数据样本或所述高质量音频数据样本分帧后,进行特征提取;所述特征提取的方法包括且不限于STFT(短时傅里叶变换)等;提取得到的特征包括且不限于音频的频域幅度或相位信息,时域特征或一段时域波形。
将所述低质量音频数据特征作为输入层数据,高质量音频数据特征作为输出层数据(221),训练得到人为损伤类音质特性的基线模型(223)。
对待处理的音频数据(222)进行特征提取得到数据特征并作为输入数据输入所述人为损伤类音质特性的基线模型,得到重构后的高质量音频数据。
其中,所述待处理的音频数据包括且不限于存储或播放的需要进行音质特性提升的音频数据,进一步包括且不限于:用户正在播放或在列表中的音频数据,或储存在云端或用户端的音频数据。所述待处理的音频数据如果是离线存放的数据则对这些数据进行分帧,如果是在线播放的数据则缓存一帧或几帧数据。
对待处理的音频数据进行特征提取的方法包括不限于STFT(短时傅里叶变换)等;提取的特征包括且不限于音频波形的频域幅度或相位信息,时域特征或一段时域波形。;所述重构后的高质量音频数据包括且不限于重构后的时域音频波形。
将所述重构后的高质量音频数据缓存以供用户播放或储存(224)。
此处,需要说明的是,上述音频数据包括且不限于以数据流的形式进行传输。
3、音质设置可反馈类音质特性:
对于音质设置可反馈类音质特性,获取一个人的数据需要一定代价,但是获取很多人的数据就相对容易。因此,可以先用广泛的大众用户的反馈数据训练一个基线模型,基于特定用户的在线反馈数据对基线模型进行在线学习,即可获得特定用户的偏好模型。也就是说,采用深度学习方法,训练大众用户在播放音频数据时的大众用户偏好数据(包含且不限于播放的音频数据的数据参数,环境参数,设备参数等),映射到大众用户相应的反馈调节设置的神经网络模型,形成一个基线模型。将基线模型的音质特性调节结果反馈给特定用户后,使用基线模型进行在线学习,根据特定用户的反馈更新模型,形成反映特定用户自身习惯的个性化音质调节模型。
参见图4,对于音质设置可反馈类音质特性,所述音质特性处理方法包括:
基于大众用户音频数据中的环境数据和与所述环境数据相应的行为数据,分别进行特征提取,得到所述环境数据的环境参数特征和所述行为数据的音质特性设置特征(230)。
其中,所述大众用户音频数据包括且不限于音频数据的环境数据,以及相应的行为数据。所述环境数据根据音质特性的不同包含各种不同的参数特征,具体包含的内容根据具体的音质特性而定,例如,音量调节这一音质特性可能与环境噪声、音乐风格、播放设备都有关系,大众用户在高噪声背景下一般都会把音量提高。所以所述环境数据包括且不限于用户做出调节动作时相应的音频、环境、音频设备的数据或参数(包括且不限于环境噪声,音乐信号域信息,音乐风格;环境噪声集,如机场,步行街等现场噪声,设备参数等)。所述相应的行为数据包括且不限于大众用户相应的音频特性设置等数据,如采集用户在不同噪声环境下,不同的设备上听音乐时,采取的音频特性设置等数据。
将所述环境参数特征作为输入层数据,所述音质特性设置特征作为输出层数据,训练得到音质设置可反馈类音质特性的基线模型(231)。
4、经验公式可调类音质特性:
经验公式可调类音质特性的特点是能够用人为依据经验公式调整音频信号的方法得到具有增强该音质特性的音频,调整的参数不同音质特性的强度也不同,调整参数称为音质特性调整参数。而该类音质特性不一定是所有人都偏好的,因此还需要评价人对不同程度的音质特性的主观感受。通过对不同程度调整过的音频音质进行主观评测实验,找到调整的最佳参数;再通过神经网络建立音频数据特征到最佳调整参数的映射的基线模型。也就是说,对音质特性的强度进行主观评测,建立音质特性调整参数到主观感受的映射关系,然后训练音频信号域信息到音质特性调整参数的映射网络,从而实现音频信号域到主观感受的映射。对于特定用户,还可以用特定用户的反馈来在线学习基线模型。
参见图5A,对于经验公式可调类音质特性,所述音质特性处理方法包括:
基于音频数据库中的音频数据(400),分帧后进行特征提取得到原始数据特征(401);
其中,所述音频数据包括且不限于未进行音质特性增强处理的原始音乐波形或信号域数据等;所述特征提取的方法包括且不限于STFT。
对所述音频数据进行音质特性调整并对调整后的音频数据提取特征得到调整参数特征(402),通过主观评测实验建立将所述调整参数特征映射到主观评测的网络模型(403),得到最佳音质特性调整参数;
其中,所述音质特性调整包括且不限于按已知的经验公式对所述音频数据进行音质特性调整;所述音质特性调整包括且不限于音质特性增强或减弱。所述主观评测实验是将音质特性调整参数映射到大众用户的平均主观感上,具体实验方法包括且不限于最小可觉差实验。
在一个实施例中,以一个最小可觉差主观实验为例描述所述主观评测实验的过程。参见图5B,对一个原始音乐数据进行音质特性增强处理,处理函数为f,处理参数为P=p;如p可以表征对某个频点的提升倍数,提升后可以使某些音质特性强度增大,则音质特性增强后音乐为m(1)=f(p);以增加参数△p再对原始音乐进行处理,则处理后音乐为m(2)=f(p+△p);以此类推,用参数P(n)=p+△p*(n-1)处理的音乐记为m(n),评测者对m(2)和m(1)进行比较,直到找到一个参数P(n)令m(n+1)音质的主观感受比m(n)差,这时p+△p*(n-1)为音质特性增强处理的最佳参数。对同一个音乐进行评测,不同评测者的评价结果可能不同,可以对这些评价进行平均,就可得到一个音频的对于一种音质特性的最佳音质特性增强参数。
具体来说,继续参见图5B,第n个阶段(410)用参数p+△p*(n-1)对音频进行处理;评测者对第n阶段和第n-1阶段产生的音频的主观评测(411),如果n阶段的音频音质好于n-1阶段,则计分为1,412表示平均所有评测者打分,一旦第n+1阶段,n阶段平均打分大于n+1阶段平均打分,说明参数p+△p*n是一个过度的处理参数,而p+△p*(n-1)是刚好合适的参数。
示例性地,第1个阶段的p可以是一组0值,用这组参数处理的结果当然就是原始的音频,那么第2阶段对比的就是原始音频和经过△p处理的音频,如果评测者认为原始音频最好,那么说明这个音频不适合增强这种音质特性,比如通透性这种音质特性可能只适合那种具有自然风格的音乐,而有的类型的音乐不适合做音质特性增强,一旦发现原始波形比做过处理的结果主观感受更好,那么这类音频就是不适合增强那种风格,因此该音频最佳增强参数就是一组0值。
将所述原始数据特征作为输入层数据,所述最佳音质特性调整参数作为输出层数据,训练得到所述经验公式可调类音质特性的基线模型(404)。
对待处理的音频数据(406)进行特征提取得到数据特征(407)并作为输入数据,输入所述经验公式可调类音质特性的基线模型(408),得到所述待处理的音频数据的最佳音质特性调整参数。
其中,所述待处理的音频数据包括且不限于用户的音频列表中的音频数据或用户在播放的音频数据。
将所述待处理的音频数据的最佳音质特性调整参数反馈给用户(405)。
其中,所述反馈的方式包括且不限于通过反馈参数的方式反馈给用户端,由用户端软件进行处理;或在线播放且基于云平台进行处理,直接反馈处理后的波形。
5、信号域可计算类音质特性:
信号域可计算类音质特性的相关数据可以通过音频信号域信息计算出来。因此数据的获得和量化都是很容易的,但是这种音质特性不是所有人都偏好的,因此需要评价人对不同强度的音质特性的反应,用户对这种音质特性的喜欢程度称为对该音质特性的用户偏好特性。由于具有不同强度的这类音质特性的音频数据获得较容易,不需要人工制造,因此采取和公式可挑选型不同的算法,采用无监督深度学习方法对从用户音频列表的音频信号域提取出的音质特征进行特征压缩学习,学习到用户对此类音质的偏好特性,然后根据学习到的特性从已有音频库中找到与之有相似特性的其他音频数据推荐给用户。
因此,对于信号域可计算类音质特性,采用无监督深度学习方法对从用户音频列表的音频数据的信号域提取出的音质特征进行特征压缩学习,学习到用户对此类音质特性的偏好特性,然后根据学习到的特性从已有音频库中找到与之有相似特性的其他音乐推荐给用户。
参见图6,对于信号域可计算类音质特性,所述音质特性处理方法包括:
基于音频数据库中的音频数据(500),分帧后进行特征提取得到音质特性特征(501)。
其中,所述音频数据包括且不限于音频波形,且所述音频数据的风格类别应该涵盖了目前已知的风格类别。所述音质特性特征的提取包括且不限于按照已知的音质特性计算方法计算,所述音质特性特征包括且不限于音质特性的特征向量或音质特征强度。
示例性地,所述音质特性的特征向量可以是一个m维度的向量。在一个实施例中,以低音强度这个音质特性为例,低音强度是表征音乐低音部分是否强劲有力的音质特性,一般可以通过低频带的能量和全频带能量占比求出,是一个数值;设低频带有m个频点,全频带k个频点,每个频点幅度是S(i),i=1,2……k,则全频带幅度那么低音强度这个音质特性的特征向量可以设计为V=[v1,v2……vm],其中Vi=S(i)/E,即V的元素的数值是各频点幅度与全频点幅度的比值,V各元素的和可看作低音强度。对于其他的音质特性可以根据实际计算方法选取特征向量。
示例性地,音质特性特征可以是音质特征强度,所述音质特征强度包括且不限于数值数据。那么,音质特性的特征向量是计算音质特征强度的中间结果。
但是,实际应用中,一般采用计算音质特征向量而不是直接输出数值,因为前者的信息量更丰富,更适合进行机器学习算法聚类。将所述音质特性特征进行聚类(502)得到聚类模型,将所述音质特性特征聚类成N类。其中,所述聚类方法包括且不限于Kmeans聚类算法。
基于个人用户偏好的音频数据(503)进行特征提取得到个人用户偏好的音质特性特征(504),并输入所述聚类模型,生成个人用户偏好的音质特性分布特征向量(505)。
其中,所述个人用户偏好的音频数据的搜集方式包括且不限于选取用户经常播放的音频数据和/或常驻播放列表的音频数据和/或点赞的音频数据。
所述音质特性分布特征向量表示所述音频数据的音质特性特征的分布。例如,对于一个音频,共有c个帧,这些帧进行特征提取后,会被归纳进N类,我们用一个特征向量表示c个帧的类分布,记为向量U=[U1,U2,U3……UN],其中Ui=音频中属于第i个类别的帧的数量,比如U=[3,4,7,9……],音质特征属于1类的帧有3个,2类有4个,3类有7个,并且显然这里的向量U则称为这个音频的音质特性特征分布向量。
基于所述个人用户偏好的音质特性分布特征向量,训练一个无监督神经网络模型(506)作为编码器。其中,所述无监督神经网络模型即信号域可计算类音质特性的基线模型,对输入特征进行编码压缩,包括且不限于自编码器,受限玻尔兹曼机,深度信念网络等。将个人用户偏好的音质特性分布特征向量输入所述编码器,得到个人用户偏好的音质特性特征编码集(507)。
在一个实施例中,基于所述编码器,从中截取网络中的一个隐层,以用户偏好音频的音质特性特征分布向量输入网络,该隐层的输出可以看作输入特征的编码。如果训练的是单隐层的自编码器,则隐层是唯一的;如果是受限玻尔兹曼机,则隐层也是唯一的;如果是多层的自编码器或深度信念网络,则需要在多个隐层中选取一个。每一个用户偏好的音频数据的音质特性特征分布向量对应一个编码,多个用户偏好音频数据特征的编码组成了用户偏好的音质特性编码集。这些编码特征可以看作用户对该音质特性的偏好的抽象表征模型。
基于至少一个待推荐的音频数据(508),分帧后进行特征提取生成至少一个待推荐的音频数据音质特性特征(509),并输入所述聚类模型进行聚类,得到待推荐的音频数据的音质特性分布特征向量(510)。
其中,所述待推荐的音频数据的选取方法包括且不限于:随机从音频库中选取的音频数据和/或通过音乐门户网站的推荐算法推荐的音乐数据。
将所述待推荐的音频数据的音质特性分布特征向量输入所述编码器(511),得到所述待推荐的音频数据的音质特性特征编码(512)。
计算所述待推荐的音频数据的音质特性特征编码与个人用户偏好的音质特性特征编码集的匹配度(513)。
其中,两个编码向量之间的匹配度可以用相似度算法计算,包括且不限于:余弦相似度,欧氏距离等;一个编码向量和一组编码向量的匹配度的算法包括且不限于:将该向量和一组向量每一个向量的相似度加和平均,或者取最大的k个相似度相加平均,或者平均一组向量的数值得到平均向量,计算平均向量与该向量相似度。
将所述匹配度最高的预定数量的待推荐的音频数据推荐给个人用户(514)。
在一个实施例中,如果用户不喜欢推荐给个人用户的音乐(比如用户删除或者不播放这些音乐),则将这些音乐从用户偏好的音乐中删除,否则将这些被推荐音乐作为用户偏好的一部分,在合适的时候重复训练新的所述编码器。
6、噪声杂音类音质特性:
噪声杂音类音质特性的特点是只要出现这种音质特性,就会引发大多数人感官的不适,而且这类音质特性的强度越大,主观感受越差。可以训练杂音检测的模型,通过深度学习方法计算一帧的杂音概率或杂音类别的杂音分类网络,用特定类别杂音训练降噪神经网络,杂音分类网络得到噪声类别后,选取特定的模型进行降噪。
参见附图7,对于噪声杂音类音质特性,所述音质特性处理方法包括:
基于音频数据库中的包含杂音或正常音类别标签特征的音频数据(600),进行特征提取得到数据特征及其对应的类别标签特征(601)。其中,所述特征提取的方法包括且不限于MFCC。
基于所述数据特征及其对应的类别标签特征训练得到噪声杂音类音质特性的分类基线模型(602)。其中,所述噪声杂音类音质特性的分类基线模型能够分辨一个音频帧是正常音频还是属于某一类杂音,即为杂音分类器。此外,实际应用中,可获得的杂音的样本可能会远少于可获得的正常音频,这类问题可以采取一些训练策略解决,如用集成学习的方法将正常音频样本分散于多个分类器中。
基于待处理的音频数据(603)进行分帧和特征提取得到待处理的音频数据的数据特征(604),输入所述噪声杂音类音质特性的分类基线模型,得到杂音辨别结果(605)。其中,所述杂音辨别结果包括且不限于音频数据帧的杂音类别或正常音频。在一个实施例中,所述杂音辨别结果还包括是否音频数据中含有大量杂音,所述含有大量杂音包含且不限于杂音帧连续出现一定数量,即需要对这个音频进行处理。
根据所述杂音辨别结果对所述待处理的音频数据进行处理(606)。其中,所述处理的方式包括且不限于去噪音频增强,提示用户,或删除音频数据等。
进一步地,若所述杂音辨别结果属于可滤除的杂音类别(包括且不限于babble环境噪声、啸叫、电流声等),则利用训练好的噪声杂音类音质特性的降噪基线模型得到降噪后的音频数据(607);若所述杂音辨别结果属于不可滤除的杂音类别,则提示用户或删除所述待处理的音频数据(608)。
在一个实施例中,根据理想二值掩蔽方法(Ideal Binary Mask)和特征映射方法,所述噪声杂音类音质特性的降噪基线模型的训练包括:
基于音频数据库中音频数据的时域或频域特征,将其分成时域或频域单元,将每个时域或频域单元分类为噪声类或正常音频类,去除所述噪声类时域或频域单元,得到纯净音频数据。
将所述音频数据的时域或频域特征作为输入层数据,所述纯净音频数据时域或频域特征作为输出层数据,训练得到所述噪声杂音类音质特性的降噪基线模型。
7、其他类音频特性:
其他类音质特性是未知属性的音质特性,例如,没有量化方法的音质特性。因此,需要设法从音频波形中获取能够直接或间接反映相关音质特性的数据,或对音频波形进行某种处理,获得具有相关音质特性的音频数据。对上述数据进行特征提取,特征能够反映音质特性的参数,建立数据到音质特性的映射关系,方法包括且不限于:无监督的自编码器,受限玻尔兹曼机等方法。依据数据特征性质,建立特征与主观感受之间的联系,方法包括且不限于:主观评测实验或用无监督深度学习方法学习用户对该特征的偏好。最后利用用户对数据的反馈作为训练集,在线学习基线模型。模型包括且不限于,数据或数据特征到主观感受的映射网络。
参见图8,对于其他类音质特性,所述音质特性处理方法进一步包括:
基于音频数据库(700)获取能够直接或间接反映其他类音质特性的音频数据(701)。
所述音频数据库中的音频数据包括且不限于音频波形、标题风格标签等参数信息,且应该与需要研究的未知属性的其他类音质特性有所关联,如果难以判断是否有所关联,则尽可能搜集能覆盖各类风格的不同类型的音频数据。
获取反映其他类音质特性的音频数据包括且不限于从用户端的存储或接收的音频数据中获取,或对音频波形进行某种处理以获得具有相关音质特性的音频数据。获取反映其他类音质特性的音频数据基本方法包括且不限于通过经验分析,数据统计特性分析、主观实验等;例如,所述其他类音质特性可能跟中频(Midrange)这个音质特性维度有关,甚至可能是属于中频特性的范畴,那么提取音频数据信号的中频段频谱,就是一种有效的数据提取方式。此外,还可以通过相对复杂的方法获取反映其他类音质特性的音频数据,包括且不限于搜集明显具有所述其他类音质特性的样本,用小数据可训练的机器学习方法包括且不限于SVM(Support Vector Machine,支持向量机),KNN(k-NearestNeighbor,邻近算法)等;输入基于样本数据提取的数据特征,对所述其他类音质特性的音频数据和其他音频数据进行区分,判断是否该数据特征对这类音质特性有一定分类能力,如果分类能力不明显,可以尝试其他数据模型。所述判断分类能力是否明显的方法包括且不限于统计方法,如ANOVA(Analysis of Variance,方差分析)。
基于所述反映其他类音质特性的音频数据进行特征提取,形成其他类音质特性特征提取模型(702),得到其他类音质特性特征。
因为所述其他类音质特性音频数据只是跟所述其他类音质特性有关联,但是无法直接反映所述其他类音质特性的强度或特征,则需要对所述其他类音质特性音频数据进行特征提取,得到能够直接反映所述其他类音质特性的特征,或者形成能算出所述其他类音质特性强度的模型。特征提取的基本方法包括且不限于特征设计,可能需要设计相关统计参数来表征所述其它类音质特性的某些属性。本领域技术人员应该知晓这里可能没有唯一正确的特征设计,可能要尝试很多不同的设计,并根据主观实验的结果进行调整。特征提取的较复杂的方法包括且不限于采用无监督深度学习方法,得到所述其他类音质特性特征提取模型,包括且不限于自编码器,受限玻尔兹曼机等;对有明显音质特性特征的音频数据模型进行编码,这里得到的结果可能是物理意义不明确的,但是效果可能会好于人工特征设计。(类似于信号域可计算类音质特性处理方法中阐述的特征提取方法,如图6)。
将所述其他类音质特性特征作为输入层,通过所述其他类音质特性特征映射到主观评测的网络模型所得到的主观感受评价作为输出层,或基于个人用户对所述其他类音质特性的偏好特征,训练生成其他类音质特性的基线模型(703)。训练方法包括且不限于:主观评测实验或无监督深度学习。
依据所述其他类音质特性的性质,包括且不限于如下两种情况:一种情况是所述其他类音质特性只能通过人为调整音频数据获得,因此我们只能从涵盖各类风格的音频数据库中获取特征数据,这时特征数据是不能反映用户偏好的,这时需要设计一个主观评测实验(类似于经验公式可调类音质特性,参见图5B),将音频数据的所述其他类音质特性特征映射到能表征多数人的平均主观感受好坏的数据上。另一种情况是,用户偏好的音频数据能展现出所述其他类音质特性的强度,这时利用无监督深度学习方法来提取用户对所述其他类音质特性的偏好特征(类似于信号域可计算类音质特性中的特征自学习方法,参见图6),例如,音频数据的音质特性特征与用户对音质特性的偏好特征之间的匹配度计算,就是一种音质特性特征到主观偏好的映射,匹配度越高,说明用户可能对这个音频越喜欢。
基于待处理的音频数据(704),进行其他类音质特性特征提取(705),输入所述其他类音质特性的基线模型得到用户主观感受评价,生成其他类音质特性处理结果(707)。所述其他类音质特性处理结果包括且不限于按照所述其他类音质特性的基线模型输出的参数进行音质特性增强,或决定是否推荐所述待推荐的音频数据。
虽然基于所述音质特性的基线模型,可以得到所述音质特性的处理方式,但是由于每个人的音质特性偏好不同,为了实现个性化的自动调节,可以搜集包含了用户对推荐音质特性参数的反馈数据的用户偏好数据,利用这些数据在原基线模型参数基础上对所述基线模型进行再学习得到个性化音质特性处理模型。实际上,包括且不限于:音质设置可反馈类,公式(经验)可调类,信号域可计算类,其他类等类型的音质特性,能够获得用户对音质参数设置的反馈的音质特性处理方法,都可以在用户使用过程中用反馈调节基线模型或个性化音质特性处理模型。
根据本发明另一方面,提供了种基于深度学习的个性化音质特性处理方法。参照图9,描述根据本发明实施例的基于深度学习的个性化音质特性处理方法。如图9所示,一种基于深度学习的音质特性处理方法包括:
实时提取个人用户偏好数据(10);
基于所述音质特性的基线模型,在线学习所述个人用户偏好数据,训练得到个性化音质特性处理模型(20);
利用所述个性化音质特性处理模型生成个性化的音质特性处理结果(30);
所述基线模型是利用广泛大众或单个用户的音频数据,行为数据及其他相关数据训练得到的神经网络模型。
用户在日常的音频数据播放的过程中会不断的产生直接或间接反映用户对所述音频数据的音质偏好的用户偏好数据,播放终端实时记录这些用户偏好数据的变化。
因此,所述用户偏好数据包括且不限于用户行为数据、用户音频列表数据、播放中的音频数据、环境噪声数据、其他参数数据中的至少一种。
其中,用户行为数据是能直接或间接反映出用户的音质特性偏好的行为数据,包括且不限于音量调节,删除音频,播放音频,下载音频等;用户行为数据可以反映用户对音质特性的设置偏好。
用户音频列表数据是用户偏好音频的参数数据,包括且不限于常驻用户端的音频播放列表中音频的参数数据,用户点赞多的音频的参数数据,以及用户收藏的音频的参数数据;所述参数数据是全面反映音频数据的信息数据,包括且不限于音频波形,风格,标题,作者,专辑等;用户音频列表数据可以反映用户对不同音频数据的偏好。
播放中的音频数据是用户在对音质特性设置进行反馈时正在播放的音频数据的参数数据,所述播放中的音频数据包括且不限于音频波形,风格,标题,作者,专辑等。
环境噪声数据是用户在对音质特性设置进行反馈时,麦克风接收到的环境声音参数数据,所述环境噪声数据包括且不限于波形,噪声类型等。环境噪声数据可以反应用户在不同环境下对音质特性的设置偏好。
其他参数数据是其他能够反映用户的音质特性偏好的参数数据,所述其它参数数据可以被用户端接收或存储。
参照图10,描述根据本发明实施例的训练得到个性化音质特性处理模型的方法。如图10所示,所述训练得到个性化音质特性处理模型的方法包括:
基于所述音质特性的基线模型(800),以及个人用户对所述基线模型输出的音质特性处理结果的反馈数据(803)进行在线学习(801),更新所述基线模型或现有的个性化音质特性处理模型(802)。其中,所述反馈数据包括且不限于:对推荐算法推荐的音频的喜欢(如播放,点赞)或不喜欢(如从列表中删除,从设备中删除),对音质特性设置的更改(如调整音量),做出反馈时的其他参数(如环境噪声的类型,幅度,播放的音频的风格,幅度),反馈次数等用户偏好数据。
所述更新的方法包括且不限于当所述用户反馈次数积累到一个批次(batch)时,用户反馈学习基线模型,或上一批次反馈学习过的个性化音质特性处理模型。
示例性地,当所述个性化音质特性处理模型不再更新的时候,为用户固化一套音质特性设置参数。所述不再训练的标准包括且不限于:用户不再或很少对新的音质特性参数做出反馈动作,比如一周,一个月长的时间用户不再反馈,这时可以将当前的最新音质特性设置参数导出,为用户进行参数设置;用户可选择将最新音质特性设置参数导出和或存储为文件。
在一个实施例中,参见图11,描述根据本发明实施例的在线学习的方法。如图11所示,所述在线学习的方法包括:
基于个人用户的音频数据(901),输入所述基线模型(902),生成推荐的音质特性处理结果。
其中,所述个人用户的音频数据包括且不限于个人用户当前的音频的环境数据,音频列表信息,偏好信息等数据,且都是用户偏好数据的子集。
将所述推荐的音质特性处理结果配置给个人用户端或云端(903)。
当所述个人用户的反馈数据中的反馈次数达到预定值,作为一个反馈批次T=1(904),将T=1批次的个人用户的反馈数据(906)作为输入层训练更新所述基线模型,得到个性化音质特性处理模型M(T=1)(907)。
其中,用户如果对所述推荐的音质特性处理结果感到满意,就暂时不会去调整音质特性设置,没有新的反馈数据给模型进行更新,则训练结束(905)。反之,用户在未来一段时间仍去调整音质特性设置,说明当前模型不是用户个性化音质特性处理,要基于当前模型继续进行在线学习。
基于所述个性化音质特性处理模型M(T=1)输出的音质特性处理结果反馈给用户(908),再进行用户反馈的过程,如果用户不满意,就会有新的反馈数据,则累计第T=2批次的个人用户的反馈数据(909)。
采用第T=2批次的个人用户的反馈数据训练更新所述个性化音质特性处理模型M(T=1)得到个性化音质特性处理模型M(T=2)(910),以此类推,直到用户不再反馈或较长时间不再反馈为止。
由于用户的偏好是一种主观行为,是难以量化的,因此我们很难在模型的特征输入层输入用户的偏好。一种方法是对于一个用户,只用这个用户的音质特性调节行为数据训练一个专属模型,而深层神经网络需要很多数据去训练,但是实际上我们很难一次性获取很多一个用户的行为数据去训练深层神经网络,那么可以是通过用其他用户的数据训练好一个基线模型,对于特定用户,一旦接收到这个用户的偏好性行为,如调节音量这个音质特性,则对这个基线模型进行在线学习,在基线模型已经通过广泛的用户的数据学到了音质特性调节任务的通用特征。
如前述图10中所示,其描述了音质特性在线学习的一般方法:基于所述音质特性的基线模型输出音质特性处理结果,通过个人用户对所述音质特性处理结果的反馈数据,进行在线学习,更新所述基线模型得到个性化音质特性处理模型;而所述个性化音质特性处理模型输出个性化音质特性处理结果,同样地,通过个人用户对所述个性化音质特性处理结果的反馈数据,不断进行在线学习,更新现有的个性化音质特性处理模型,得到新的个性化音质特性处理模型,那么输出的音质处理结果越来越接近个人用户偏好,直至最后用户接受,不再进行反馈。
实际上,能够获得用户对音质参数设置的反馈的音质特性(包括且不限于:音质设置可反馈类,公式(经验)可调类,信号域可计算类,其他类等),都可以在用户使用过程中利用反馈数据调节现有的音质特性处理模型(包括且不限于基线模型或现有的个性化音质特性处理模型)。因此,对于不同的音质特性,因为其音质特性的特点不同,其基线模型训练过程和音质推荐设置的方式可能有显著不同,因此细节上可能与前述音质特性在线学习的一般方法所描述的过程有一些差异,一般会有一定简化。
下面,对不同类型的音质特性分别进行说明其在线学习的方法:
1、经验融合类音质特性:
参见图12,经验融合类音质特性的在线学习包括且不限于如下两个方法:
(1)待处理的音频数据(如用户偏好音频列表)更新时,用户偏好类别画像也会更新,这时音质特性参数(如风格)融合的结果也会更新,音质特征参数的推荐结果也会更趋向当前用户的偏好,此时基线模型实际上是不更新的;
(2)用户可能会反馈音频的类别标签(如风格标签),音频数据的风格标签特征发生变化,基于用户反馈的偏好风格标签对基线模型进行重训练,得到经验融合类音质特性的个性化音质特性处理模型。
2、人为损伤类音质特性:
因为对有损音频数据的有效重构对任何有正常听觉的用户的主观感受都必然有所提升,用户对于这一类音质可能没有普遍的偏好,所以在线学习的方法是根据用户的常用音频格式对用户推荐已有的模型,或者定制混合模型。
在一个实施例中,如果用户经常听128kbps的MP3音乐,系统为用户下载了128kbps的MP3提升为flac音质的模型,但是可能用户播放的音频格式会发生改变,如变成了wma,那么在线学习的方法可以是:判断用户现有音频格式,提示用户下载,或自动下载相应的重构模型;训练适合多种音频格式提升的混合模型,这种混合模型是能够支持两种或以上编码形式的音频的重构,提升质量上可能不如单一格式输入的模型,但是对节省播放设备空间存储有一定优势。
3、音质设置可反馈类音质特性:
参见图4,音质设置可反馈类音质特性的在线学习方法包括但不限于:
基于所述音质设置可反馈类音质特性的基线模型以及用户反馈(234)训练更新所述基线模型,或上一次在线学习得到的模型,形成化音质设置可反馈类音质特性的个性化模型(233)。
具体来说,基线模型,或上一次在线学习得到的模型包括但不限于部署在用户端或云端;用户播放音频数据时,基线模型,或上一次用户反馈后训练的模型会根据当前的音频数据的环境参数信息输出一个音质特性调节值,用户如果对此值满意,则模型不再训练,反则用户会重新调整音质特性,记录这个调整值,达到一定数量时,将其输入现有模型,对现有模型进行在线学习。
通过用户持续对现有模型输出的音质特性设置进行调整的音质特性设置数据,不断更新现有模型,直到用户不在或较少纠正模型的设置,这时认为所述个性化模型训练完毕。
4、经验公式可调类音质特性:
参见图13,对于经验公式可调类音质特性,用基线模型推荐的处理参数对一个音频数据进行处理,用户可能接受这种处理(接受的表现包括且不限于:多次播放,加入播放列表,下载等),或者不接受(不接受的表现包括且不限于:删除,移除播放列表等)。如果用户接受,模型不需要更新。反之用户不接受,则说明处理参数是不合适的,这里包括两种情况:基线模型认为音频数据不适合做处理,即处理参数是一组0向量;基线模型对音频数据进行了处理,处理参数变更。无论哪种情况,处理参数都会进行调整。用调整后的音频和处理参数对模型进行更新。
5、信号域可计算类音质特性:
信号域可计算类音质特性的基线模型基本是利用单个用户偏好数据进行训练的,因此不存在明显的大众风格的基线模型,如基于每个用户的原始音频列表的音频训练出的模型。参见图6和图14,在线学习的方法是:利用编码器(511),计算所述待推荐的音频数据的音质特性特征编码(512)与个人用户偏好的音质特性特征编码集的匹配度(513),将所述匹配度最高的预定数量的待推荐的音频数据推荐给个人用户(514)为用户推荐了一个或多个音频数据,用户可能接受(接受的表现包括且不限于:多次播放,加入播放列表,下载等),或者不接受(不接受的表现包括且不限于:删除,移除播放列表等)。用户如果接受推荐的音频数据,则该音频数据就可以视为用户偏好的音频数据,将该音频数据加入个人用户偏好的音频数据(503)。用更新的个人用户偏好的音频数据(503)更新编码器(511),即完成一次在线学习。
6、噪声杂音类音质特性:
噪声杂音类音质特性只要出现对一般的用户都会造成感受降低,因此不是一个用户偏好的音质特性,而一般是用户讨厌的音质特性。因此,需要补充杂音样本,通过云端引擎对基线模型进行更新,为所有用户更新基线模型。在线学习的方法包括且不限于:如果某个用户特别讨厌或者经常遇到某些类别的噪声,可以通过用户反馈信息为用户定制某些噪声的专用分类器或去噪器,包括且不限于的场景:为机场工作的用户定制机场噪声的降噪模型。
7、其他类音质特性:
其他类音质特性适用于前述图10和图11描述根据本发明实施例的音质特性的在线学习的一般方法,而具体的实施方式根据音质特性的特征可能会有细节的变化或简化。
根据本发明另一方面,提供了一种基于深度学习的音质特性处理的系统。
参见图15,描述根据本发明实施例的基于深度学习的音质特性处理的系统。如图15所示,所述系统包括:音频播放终端10,在线学习引擎11,云平台12以及监控管理平台13;
音频播放终端10,包括且不限于:服务器,pc,平板电脑,音箱,手机,耳机等设备,所述音频播放终端10能够播放音频,并能存储数据,能够跟服务器端的设备进行通信。所述音频播放终端10存放的音质相关的数据,包括且不限于:用户行为数据,终端设备数据,用户音频列表数据,环境噪声数据等,以上数据反映直接或间接反映了,或影响了用户对音质的偏好,统称为用户偏好数据。
所述音频播放终端10包括:
音质特性设置接口101,用于接收系统推荐的音质增强调节设置,将其配置与用户端或者用户登陆的云端,能够管理音质增强调节配置的模块;
用户行为和数据反馈接口102,用于将用户行为,和用户端接受和存储的相关数据反馈给在线学习引擎11的模块;
终端设备数据模块103,用于储存或获取音质相关的,模型训练需要的用户端设备参数的模块;
用户行为数据模块104,用于储存用户对音质特性设置的行为数据,尤其是能直接或间接反映出用户音质偏好的行为数据,如音量调节,删除音频,播放音频,下载音频等;
用户音频列表数据模块105,用于储存用户偏好的音频的列表,包括且不限于常驻用户端的音频播放列表,用户点赞多的音频,用户收藏的音频数据的参数数据;所述参数数据包括且不限于音频波形,风格,标题,作者,专辑等;
播放中的音频数据模块106,用于储存是用户在对音质设置进行反馈时,正在播放的音频的参数,包括且不限于音频波形,风格,标题,作者,专辑等;
环境噪声数据模块107,用于储存用户在对音质设置进行反馈时,麦克风接收到的环境声音参数,包括且不限于噪声波形,噪声类型等;其他参数模块108,用于储存其他与音质相关的,用户端能够接收或存储的参数。
在线学习引擎11,能够接收用户端传递的数据,并对数据进行分析,对基线模型进行在线训练,接收用户偏好数据输入在线学习的模型反馈音质推荐结果。
在线学习引擎11包括:
用户终端在线学习算法库模块111,是可以部署在用户端的,包括较轻量级的音质增强算法,用于通过对接收到的用户行为和参数反馈接口传递的数据进行分析,对基线模型进行更新,形成个性化模型;过程中和/或训练完成后会接收用户偏好数据输入在线学习的模型反馈音质推荐结果。
云端在线学习算法库模块112,是可以部署在云端的音质增强算法,用于可以通过对接收到的用户行为和参数反馈接口传递的用户偏好数据进行分析,对基线模型进行更新,形成个性化模型。过程中和/或训练完成后会接收用户偏好数据输入在线学习的模型反馈音质推荐结果。
用户偏好数据积累模块113,是对接收到的用户行为和参数反馈接口传递的用户偏好数据进行存储,筛选,剔除,上传云端用户行为数据库的模块。
所述用户偏好数据具体可包括如下表2分类:
表2
云平台12,包含音频数据库,用户偏好数据库,挖掘互联网音频相关数据,能够利用这些数据训练基线模型,接收用户偏好数据输入基线模型反馈音质处理结果。
所述云平台12包括:
模型计算引擎121,用于对云端各类数据进行分析,训练系统基线模型的模块,训练完成后会接收用户偏好数据输入基线模型反馈音质推荐结果。
音频数据库模块122,用于储存广泛覆盖各种类型和风格的音频数据。
用户行为数据库模块123,用于通过各种渠道,包括且不限于通过用户偏好数据积累模块上传的数据,搜集起来的用户的偏好数据。网络音频数据分析引擎模块124,能够对互联网上的音频信息进行数据挖掘和分析的模块,途径包括且不限于:取得音乐门户网站上对音乐的风格标注,获取音乐门户网站对某个音频的相似音乐的推荐列表等。挖掘和分析的结果提供给模型计算引擎进行模型计算。
监控管理平台13,用于负责整个系统调度,管理和监控。
根据本发明实施例的基于深度学习的音质特性处理方法、个性化音质特性处理方法及基于深度学习的音质特性处理的系统,相比现有技术,具备如下有益效果:
1、训练基线模型实现基础的音质增强,利用用户在线反馈信息对基线模型进行在线学习,实现用户音质个性化定制。
2、采用分类标签特征提取和用户偏好统计方法,实现更合理的多类别通用音质特性设置融合。
3、所有模型均从音频的时域或频域特征映射到主观感受或音质参数设置,不需要参考人工评价,音频标题等数据,实现了“基于音频自身内容”的音频音质调节和增强,不用依赖于人工信息。这样做的好处是音频音质增强理论上可以脱离网络环境,一旦最终个性化模型训练完成,落地了模型的离线设备也可以独立进行调节。
4、提出基于深度学习的有损音频格式信息还原技术。
5、采用无监督的深度学习方法学习对用户对于部分可量化音质特性的偏好特征。
6、提出那些目前无法量化和未来更细分类的音质特性的增强调节通用方案。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。
Claims (33)
1.一种基于深度学习的音质特性处理方法,其特征在于,所述方法包括:
对包含待处理音频数据的用户偏好数据进行特征提取得到所述待处理的音频数据的数据特征;
基于所述数据特征,利用训练好的基线模型,生成所述待处理的音频数据的音质处理结果;
所述基线模型是利用广泛大众或单个用户的音频数据,行为数据及其他相关数据训练得到的神经网络模型。
2.如权利要求1所述的音质特性处理方法,其特征在于,用户偏好数据包括反映用户对音质特性偏好的数据。
3.如权利要求1所述的音质特性处理方法,其特征在于,所述用户偏好数据包括用户行为数据、用户音频列表数据、播放中的音频数据、环境噪声数据、设备数据及其他参数数据中的至少一种。
4.如权利要求1所述的音质特性处理方法,其特征在于,所述特征提取的方法包括FFT,STFT,MFCC,一帧或多帧的时域波形,和其他人工设计特征中的至少一种。
5.如权利要求1所述的音频音质推荐方法,其特征在于,所述数据特征包括时域和/或频域特征。
6.如权利要求1所述的音质特性处理方法,其特征在于,所述基线模型的训练方法包括:
基于训练数据进行特征提取得到训练数据的数据特征,将所述数据特征作为输入层输入,将能够反应所述音质特性的特征作为输出层目标,训练得到所述基线模型;或对用户偏好数据进行特征提取,采用无监督的深度学习方法,得到所述基线模型。
7.如权利要求1所述的音质特性处理方法,其特征在于,所述音质特性包括经验融合类,人为损伤类,音质设置可反馈类,经验公式可调类,信号域可计算类,噪声杂音类或其他类。
8.如权利要求7所述的音质特性处理方法,其特征在于,所述经验融合类音质特性的基线模型的训练包括:
基于音频数据库提取音频数据的类别标签特征以及所述音频数据的数据特征;
将所述音频数据的数据特征作为输入层数据,所述类别标签特征作为输出层数据,训练得到经验融合类音质特性的基线模型。
9.如权利要求7所述的音质特性处理方法,其特征在于,所述人为损伤类音质特性的基线模型的训练包括:
基于音频数据库中的高质量音频数据样本进行人为处理得到有损的低质量音频数据样本,并对所述有损的低质量音频数据样本和所述高质量音频数据样本分别进行特征提取得到低质量音频数据特征和高质量音频数据特征;
将所述低质量音频数据特征作为输入层数据,高质量音频数据特征作为输出层数据,训练得到人为损伤类音质特性的基线模型。
10.如权利要求7所述的音质特性处理方法,其特征在于,所述音质设置可反馈类音质特性的基线模型的训练包括:
基于大众用户音频数据中的环境数据和与所述环境数据相应的行为数据,分别进行特征提取,得到所述环境数据的环境参数特征和所述行为数据的音质特性设置特征;
将所述环境参数特征作为输入层数据,所述音质特性设置特征作为输出层数据,训练得到音质设置可反馈类音质特性的基线模型。
11.如权利要求7所述的音质特性处理方法,其特征在于,所述公式经验可调类音质特性的基线模型的训练包括:
基于音频数据库中的音频数据,进行特征提取得到原始数据特征;
对所述音频数据进行音质特性调整并对调整后的音频数据提取特征得到调整参数特征,通过主观评测实验建立将所述调整参数特征映射到主观评测的网络模型,得到最佳音质特性调整参数;
将所述原始数据特征作为输入层数据,所述最佳音质特性调整参数作为输出层数据,训练得到所述经验公式可调类音质特性的基线模型。
12.如权利要求7所述的音质特性处理方法,其特征在于,所述信号域可计算类音质特性的基线模型的训练包括:
基于音频数据库中的音频数据进行特征提取得到音质特性特征;
将所述音质特性特征进行聚类得到聚类模型;
基于个人用户偏好的音频数据进行特征提取得到个人用户偏好的音质特性特征,并输入所述聚类模型,生成个人用户偏好的音质特性分布特征向量;
基于所述个人用户偏好的音质特性分布特征向量,训练一个无监督神经网络模型作为所述信号域可计算类音质特性的基线模型。
13.如权利要求7所述的音质特性处理方法,其特征在于,所述噪声杂音类音质特性的分类基线模型的训练包括:
基于音频数据库中的包含杂音或正常音类别标签特征的音频数据,进行特征提取得到数据特征及其对应的类别标签特征;
基于所述数据特征及其对应的类别标签特征训练得到噪声杂音类音质特性的分类基线模型。
14.如权利要求13所述的音质特性处理方法,其特征在于,
所述生音质处理结果包括:
根据所述噪声杂音类音质特性的分类基线模型的杂音辨别结果对所述待处理的音频数据进行处理;若所述杂音辨别结果属于可滤除的杂音类别,则利用训练好的降噪基线模型得到降噪后的音频数据;若所述杂音辨别结果属于不可滤除的杂音类别,则提示用户或删除所述待处理的音频数据。
15.如权利要求7所述的音频音质推荐方法,其特征在于,所述其他类音质特性的基线模型的训练包括:
基于音频数据库获取能够直接或间接反映其他类音质特性的音频数据;
基于所述反映其他类音质特性的音频数据进行特征提取,形成其他类音质特性特征提取模型,得到其他类音质特性特征;
将所述其他类音质特性特征作为输入层,通过所述其他类音质特性特征映射到主观评测的网络模型所得到的主观感受评价作为输出层,或基于个人用户对所述其他类音质特性的偏好特征,训练生成其他类音质特性的基线模型。
16.一种基于深度学习的音频音质个性化处理方法,其特征在于,包括:
实时提取个人用户偏好数据;
基于所述音质特性的基线模型,在线学习所述个人用户偏好数据,训练得到个性化音质特性处理模型;
利用所述个性化音质特性处理模型生成个性化的音质特性处理结果;
所述基线模型是利用广泛大众或单个用户的音频数据,行为数据及其他相关数据训练得到的神经网络模型。
17.如权利要求16所述的音频音质个性化处理方法,其特征在于,所述个人用户偏好数据包括反映用户对音质特性偏好的数据。
18.如权利要求16所述的音频音质个性化处理方法,其特征在于,所述个人用户偏好数据包括用户行为数据、用户音频列表数据、播放中的音频数据、环境噪声数据、设备数据及其他参数数据中的至少一种。
19.如权利要求16所述的音频音质个性化处理方法,其特征在于,所述基线模型的训练方法包括:
基于训练数据进行特征提取得到训练数据的数据特征,将所述数据特征作为输入层输入,将能够反应所述音质特性的特征作为输出层目标,训练得到所述基线模型;或
对用户偏好数据进行特征提取,采用无监督的深度学习方法,得到所述基线模型。
20.如权利要求16所述的音频音质个性化处理方法,其特征在于,所述特征提取的方法包括FFT,STFT,MFCC,一帧或多帧的时域波形,和其他人工设计特征中的至少一种。
21.如权利要求16所述的音频音质个性化处理方法,其特征在于,所述数据特征包括时域和/或频域特征。
22.如权利要求16所述的音频音质个性化处理方法,其特征在于,所述在线学习方法包括:
基于所述基线模型输出音质特性处理结果,通过个人用户对所述音质特性处理结果的反馈数据,更新所述基线模型得到个性化音质特性处理模型;和/或
通过个人用户对所述个性化音质特性处理结果的反馈数据,进行再学习,更新现有的个性化音质特性处理模型,得到新的个性化音质特性处理模型。
23.如权利要求22所述的音频音质个性化处理方法,其特征在于,所述在线学习还包括:所述用户行为数据中的个人用户反馈行为次数积累到预定值时,基于所述个人用户偏好数据,对所述基线模型或现有的个性化音频音质模型进行再学习。
24.如权利要求16所述的音频音质个性化处理方法,其特征在于,所述音质特性包括经验融合类,人为损伤类,音质设置可反馈类,经验公式可调类,信号域可计算类,噪声杂音类或其他类。
25.如权利要求24所述的音频音质个性化处理方法,其特征在于,所述经验融合类音质特性的在线学习方法包括:
当所述用户偏好数据中的用户偏好列表更新时,音质特性参数融合的结果更新,此时基线模型不更新;和/或
当用户反馈后的所述音质特性的数据特征发生变化时,基于用户反馈的音质特性的数据特征对基线模型进行重训练,得到经验融合类音质特性的个性化音质特性处理模型。
26.如权利要求24所述的音频音质个性化处理方法,其特征在于,所述人为损伤类音质特性的在线学习方法包括:判断所述用户偏好数据中的音频数据的音频格式,提示用户下载,或自动下载相应的基线模型;基于下载的所述基线模型训练适合多种音频格式提升的混合模型,得到人为损伤类音质特性的个性化音质特性处理模型。
27.如权利要求24所述的音频音质个性化处理方法,其特征在于,所述音质设置可反馈类音质特性的在线学习方法包括:
基线模型或现有的个性化音质特性处理模型根据当前的音频数据的环境参数信息输出音质特性处理结果,根据用户随所述输出音质特性处理结果的反馈训练更新所述基线模型,或现有的个性化音质特性处理模型,形成音质设置可反馈类音质特性的个性化模型。
28.如权利要求24所述的音频音质个性化处理方法,其特征在于,所述经验公式可调类音质特性的在线学习方法包括:
用基线模型或现有的个性化音质特性处理模型输出的处理参数对待处理的音频数据进行处理,如果用户接受,所述基线模型或现有的个性化音质特性处理模型不需要更新;反之用户不接受,对所述输出的处理参数进行调整,则用调整后的音频数据和处理参数对基线模型或现有的个性化音质特性处理模型进行更新。
29.如权利要求24所述的音频音质个性化处理方法,其特征在于,所述信号域可计算类音质特性的在线学习方法包括:
利用编码器计算所述待推荐的音频数据的音质特性特征编码与个人用户偏好的音质特性特征编码集的匹配度,将所述匹配度最高的预定数量的待推荐的音频数据推荐给个人用户为用户推荐了一个或多个音频数据,如果用户接受推荐的音频数据,则该音频数据就可以视为用户偏好的音频数据,将该音频数据加入个人用户偏好的音频数据;用更新后的个人用户偏好的音频数据更新编码器。
30.如权利要求24所述的音频音质个性化处理方法,其特征在于,所述噪声杂音类音质特性的在线学习方法包括:如果用户特别讨厌或者经常遇到某类别的噪声,通过用户反馈信息为用户定制该类别噪声的专用分类器或去噪器。
31.如权利要求24所述的音频音质个性化处理方法,其特征在于,所述其它类音质特性的在线学习方法包括:所述其他类音质特性适用于如权利要求22所述的在线学习的方法,而具体的在线学习过程根据音质特性特征有相应的变化或简化。
32.一种基于深度学习的音频音质个性化的系统,其特征在于,包括:音频播放终端、云平台、以及在线学习模块,其中,
所述音频播放终端包括用于存储用户偏好数据;
所述云平台包括用于形成基线模型,所述基线模型是利用广泛大众或单个用户的音频数据,行为数据及其他相关数据训练得到的神经网络模型;
所述在线学习模块,包括接收所述用户偏好数据,以及对所述基线模型进行在线学习,形成个性化音频音质模型。
33.如权利要求32所述的音频音质个性化的系统,其特征在于,所述系统还包括监控管理平台,用于负责所述系统的调度、管理和监控。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810583119.4A CN109147804A (zh) | 2018-06-05 | 2018-06-05 | 一种基于深度学习的音质特性处理方法及系统 |
US17/114,349 US11462237B2 (en) | 2018-06-05 | 2019-06-03 | Deep learning based method and system for processing sound quality characteristics |
JP2020567946A JP7137639B2 (ja) | 2018-06-05 | 2019-06-03 | ディープラーニングに基づく音質特性処理方法及びシステム |
EP19814588.0A EP3816998A4 (en) | 2018-06-05 | 2019-06-03 | METHOD AND SYSTEM FOR PROCESSING SOUND CHARACTERISTICS BASED ON DEEP LEARNING |
PCT/CN2019/089755 WO2019233358A1 (zh) | 2018-06-05 | 2019-06-03 | 一种基于深度学习的音质特性处理方法及系统 |
US17/896,752 US11790934B2 (en) | 2018-06-05 | 2022-08-26 | Deep learning based method and system for processing sound quality characteristics |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810583119.4A CN109147804A (zh) | 2018-06-05 | 2018-06-05 | 一种基于深度学习的音质特性处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109147804A true CN109147804A (zh) | 2019-01-04 |
Family
ID=64802006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810583119.4A Pending CN109147804A (zh) | 2018-06-05 | 2018-06-05 | 一种基于深度学习的音质特性处理方法及系统 |
Country Status (5)
Country | Link |
---|---|
US (2) | US11462237B2 (zh) |
EP (1) | EP3816998A4 (zh) |
JP (1) | JP7137639B2 (zh) |
CN (1) | CN109147804A (zh) |
WO (1) | WO2019233358A1 (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109785850A (zh) * | 2019-01-18 | 2019-05-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种噪声检测方法、装置和存储介质 |
CN110047514A (zh) * | 2019-05-30 | 2019-07-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种伴奏纯净度评估方法以及相关设备 |
WO2019233358A1 (zh) * | 2018-06-05 | 2019-12-12 | 安克创新科技股份有限公司 | 一种基于深度学习的音质特性处理方法及系统 |
WO2019233364A1 (zh) * | 2018-06-05 | 2019-12-12 | 安克创新科技股份有限公司 | 基于深度学习的音频音质增强 |
CN110580914A (zh) * | 2019-07-24 | 2019-12-17 | 安克创新科技股份有限公司 | 一种音频处理方法、设备及具有存储功能的装置 |
CN111027675A (zh) * | 2019-11-22 | 2020-04-17 | 南京大学 | 一种多媒体播放设置自动调节方法及系统 |
CN111292722A (zh) * | 2019-12-13 | 2020-06-16 | 中国科学院深圳先进技术研究院 | 异步联合架构的模型训练方法、终端、服务器及存储装置 |
CN111783996A (zh) * | 2020-06-18 | 2020-10-16 | 杭州海康威视数字技术股份有限公司 | 一种数据处理方法、装置及设备 |
CN111918174A (zh) * | 2019-05-08 | 2020-11-10 | 阿里巴巴集团控股有限公司 | 音量增益平衡的方法、设备、电子设备及交通工具 |
CN112069598A (zh) * | 2020-08-26 | 2020-12-11 | 广州汽车集团股份有限公司 | 一种车内扬声器布置位置确定方法、装置及车辆 |
CN112118485A (zh) * | 2020-09-22 | 2020-12-22 | 英华达(上海)科技有限公司 | 音量自适应调整方法、系统、设备及存储介质 |
CN112201247A (zh) * | 2019-07-08 | 2021-01-08 | 北京地平线机器人技术研发有限公司 | 语音增强方法和装置、电子设备和存储介质 |
CN112333596A (zh) * | 2020-11-05 | 2021-02-05 | 江苏紫米电子技术有限公司 | 一种耳机均衡器的调整方法、装置、服务器及介质 |
CN112466315A (zh) * | 2020-12-02 | 2021-03-09 | 公安部第三研究所 | 一种音视频的高码率获取方法 |
CN112632318A (zh) * | 2020-12-24 | 2021-04-09 | 安克创新科技股份有限公司 | 一种音频推荐方法、装置、系统及存储介质 |
WO2021082823A1 (zh) * | 2019-10-30 | 2021-05-06 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、计算机设备及存储介质 |
CN113823318A (zh) * | 2021-06-25 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的倍率确定方法、音量调节方法及装置 |
CN113938805A (zh) * | 2020-07-14 | 2022-01-14 | 广州汽车集团股份有限公司 | 一种低音音质的量化方法及装置 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147807B (zh) * | 2018-06-05 | 2023-06-23 | 安克创新科技股份有限公司 | 一种基于深度学习的音域平衡方法、装置及系统 |
CN111199750B (zh) * | 2019-12-18 | 2022-10-28 | 北京葡萄智学科技有限公司 | 一种发音评测方法、装置、电子设备及存储介质 |
CN111652735A (zh) * | 2020-04-17 | 2020-09-11 | 世纪保众(北京)网络科技有限公司 | 基于用户行为标签特征及商品特征的保险产品推荐的方法 |
US20210350819A1 (en) * | 2020-05-07 | 2021-11-11 | Netflix, Inc. | Techniques for training a multitask learning model to assess perceived audio quality |
CN113949955B (zh) * | 2020-07-16 | 2024-04-09 | Oppo广东移动通信有限公司 | 降噪处理方法、装置、电子设备、耳机及存储介质 |
CN112185421B (zh) * | 2020-09-29 | 2023-11-21 | 北京达佳互联信息技术有限公司 | 音质检测方法、装置、电子设备及存储介质 |
GB2599928A (en) * | 2020-10-14 | 2022-04-20 | Sony Interactive Entertainment Inc | Apparatus and method for audio data analysis |
US11948598B2 (en) * | 2020-10-22 | 2024-04-02 | Gracenote, Inc. | Methods and apparatus to determine audio quality |
CN113343047B (zh) * | 2021-06-18 | 2024-05-31 | 北京百度网讯科技有限公司 | 数据处理方法、数据检索方法及装置 |
US11689666B2 (en) | 2021-06-23 | 2023-06-27 | Cisco Technology, Inc. | Proactive audio optimization for conferences |
CN113993026A (zh) * | 2021-10-19 | 2022-01-28 | 江苏米笛声学科技有限公司 | 耳机svm机器学习自适应调节方法 |
KR20240048363A (ko) * | 2022-10-06 | 2024-04-15 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN115376501B (zh) * | 2022-10-26 | 2023-02-14 | 深圳市北科瑞讯信息技术有限公司 | 语音增强方法及装置、存储介质、电子设备 |
CN115662464B (zh) * | 2022-12-29 | 2023-06-27 | 广州市云景信息科技有限公司 | 一种智能识别环境噪声的方法及系统 |
CN116825123B (zh) * | 2023-06-19 | 2024-06-07 | 广东保伦电子股份有限公司 | 一种基于音频推送的音质优化方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682761A (zh) * | 2011-03-12 | 2012-09-19 | 谢津 | 个性化的声音处理系统和设备 |
CN103037100A (zh) * | 2012-12-21 | 2013-04-10 | 广东欧珀移动通信有限公司 | 一种适用于智能手机的智能切换eq音效的方法 |
CN103186527A (zh) * | 2011-12-27 | 2013-07-03 | 北京百度网讯科技有限公司 | 建立音乐分类模型的系统、推荐音乐的系统及相应方法 |
CN106528035A (zh) * | 2015-09-09 | 2017-03-22 | 三星电子株式会社 | 控制声音的设备和方法及训练类型识别模型的设备和方法 |
CN107112025A (zh) * | 2014-09-12 | 2017-08-29 | 美商楼氏电子有限公司 | 用于恢复语音分量的系统和方法 |
CN107274883A (zh) * | 2017-07-04 | 2017-10-20 | 清华大学 | 语音信号重构方法及装置 |
CN107564538A (zh) * | 2017-09-18 | 2018-01-09 | 武汉大学 | 一种实时语音通信的清晰度增强方法及系统 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6539395B1 (en) * | 2000-03-22 | 2003-03-25 | Mood Logic, Inc. | Method for creating a database for comparing music |
FR2835125B1 (fr) * | 2002-01-24 | 2004-06-18 | Telediffusion De France Tdf | Procede d'evaluation d'un signal audio numerique |
JP2010192995A (ja) | 2009-02-16 | 2010-09-02 | Kenwood Corp | 音響機器 |
CN102654860B (zh) | 2011-03-01 | 2015-05-06 | 北京彩云在线技术开发有限公司 | 一种个性化音乐推荐方法及系统 |
US20160149547A1 (en) | 2014-11-20 | 2016-05-26 | Intel Corporation | Automated audio adjustment |
JP6587401B2 (ja) | 2015-03-23 | 2019-10-09 | パイオニア株式会社 | 音質調整装置及び音質調整方法 |
US10460247B2 (en) | 2015-12-08 | 2019-10-29 | Adobe Inc. | Attribute weighting for media content-based recommendation |
CN106098081B (zh) * | 2016-06-01 | 2020-11-27 | 腾讯科技(深圳)有限公司 | 声音文件的音质识别方法及装置 |
JP6664670B2 (ja) | 2016-07-05 | 2020-03-13 | クリムゾンテクノロジー株式会社 | 声質変換システム |
JP6563874B2 (ja) | 2016-08-16 | 2019-08-21 | 日本電信電話株式会社 | 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム |
JP6623376B2 (ja) | 2016-08-26 | 2019-12-25 | 日本電信電話株式会社 | 音源強調装置、その方法、及びプログラム |
US10838686B2 (en) * | 2017-07-13 | 2020-11-17 | Josh Kovacevic | Artificial intelligence to enhance a listening experience |
KR102465970B1 (ko) * | 2017-08-11 | 2022-11-10 | 삼성전자주식회사 | 주변 상황에 기초하여 음악을 재생하는 방법 및 장치 |
CN109147804A (zh) * | 2018-06-05 | 2019-01-04 | 安克创新科技股份有限公司 | 一种基于深度学习的音质特性处理方法及系统 |
-
2018
- 2018-06-05 CN CN201810583119.4A patent/CN109147804A/zh active Pending
-
2019
- 2019-06-03 EP EP19814588.0A patent/EP3816998A4/en active Pending
- 2019-06-03 US US17/114,349 patent/US11462237B2/en active Active
- 2019-06-03 JP JP2020567946A patent/JP7137639B2/ja active Active
- 2019-06-03 WO PCT/CN2019/089755 patent/WO2019233358A1/zh unknown
-
2022
- 2022-08-26 US US17/896,752 patent/US11790934B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682761A (zh) * | 2011-03-12 | 2012-09-19 | 谢津 | 个性化的声音处理系统和设备 |
CN103186527A (zh) * | 2011-12-27 | 2013-07-03 | 北京百度网讯科技有限公司 | 建立音乐分类模型的系统、推荐音乐的系统及相应方法 |
CN103037100A (zh) * | 2012-12-21 | 2013-04-10 | 广东欧珀移动通信有限公司 | 一种适用于智能手机的智能切换eq音效的方法 |
CN107112025A (zh) * | 2014-09-12 | 2017-08-29 | 美商楼氏电子有限公司 | 用于恢复语音分量的系统和方法 |
CN106528035A (zh) * | 2015-09-09 | 2017-03-22 | 三星电子株式会社 | 控制声音的设备和方法及训练类型识别模型的设备和方法 |
CN107274883A (zh) * | 2017-07-04 | 2017-10-20 | 清华大学 | 语音信号重构方法及装置 |
CN107564538A (zh) * | 2017-09-18 | 2018-01-09 | 武汉大学 | 一种实时语音通信的清晰度增强方法及系统 |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11462237B2 (en) | 2018-06-05 | 2022-10-04 | Anker Innovations Technology Co., Ltd. | Deep learning based method and system for processing sound quality characteristics |
WO2019233358A1 (zh) * | 2018-06-05 | 2019-12-12 | 安克创新科技股份有限公司 | 一种基于深度学习的音质特性处理方法及系统 |
WO2019233364A1 (zh) * | 2018-06-05 | 2019-12-12 | 安克创新科技股份有限公司 | 基于深度学习的音频音质增强 |
US11790934B2 (en) | 2018-06-05 | 2023-10-17 | Anker Innovations Technology Co., Ltd. | Deep learning based method and system for processing sound quality characteristics |
CN109785850A (zh) * | 2019-01-18 | 2019-05-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种噪声检测方法、装置和存储介质 |
CN111918174A (zh) * | 2019-05-08 | 2020-11-10 | 阿里巴巴集团控股有限公司 | 音量增益平衡的方法、设备、电子设备及交通工具 |
CN111918174B (zh) * | 2019-05-08 | 2022-04-01 | 阿里巴巴集团控股有限公司 | 音量增益平衡的方法、设备、电子设备及交通工具 |
CN110047514A (zh) * | 2019-05-30 | 2019-07-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种伴奏纯净度评估方法以及相关设备 |
CN112201247B (zh) * | 2019-07-08 | 2024-05-03 | 北京地平线机器人技术研发有限公司 | 语音增强方法和装置、电子设备和存储介质 |
CN112201247A (zh) * | 2019-07-08 | 2021-01-08 | 北京地平线机器人技术研发有限公司 | 语音增强方法和装置、电子设备和存储介质 |
CN110580914A (zh) * | 2019-07-24 | 2019-12-17 | 安克创新科技股份有限公司 | 一种音频处理方法、设备及具有存储功能的装置 |
US11869524B2 (en) | 2019-10-30 | 2024-01-09 | Tencent Technology (Shenzhen) Company Limited | Audio processing method and apparatus, computer device, and storage medium |
WO2021082823A1 (zh) * | 2019-10-30 | 2021-05-06 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、计算机设备及存储介质 |
CN111027675A (zh) * | 2019-11-22 | 2020-04-17 | 南京大学 | 一种多媒体播放设置自动调节方法及系统 |
CN111027675B (zh) * | 2019-11-22 | 2023-03-07 | 南京大学 | 一种多媒体播放设置自动调节方法及系统 |
CN111292722A (zh) * | 2019-12-13 | 2020-06-16 | 中国科学院深圳先进技术研究院 | 异步联合架构的模型训练方法、终端、服务器及存储装置 |
CN111292722B (zh) * | 2019-12-13 | 2023-08-15 | 中国科学院深圳先进技术研究院 | 异步联合架构的模型训练方法、终端、服务器及存储装置 |
CN111783996A (zh) * | 2020-06-18 | 2020-10-16 | 杭州海康威视数字技术股份有限公司 | 一种数据处理方法、装置及设备 |
CN111783996B (zh) * | 2020-06-18 | 2023-08-25 | 杭州海康威视数字技术股份有限公司 | 一种数据处理方法、装置及设备 |
CN113938805A (zh) * | 2020-07-14 | 2022-01-14 | 广州汽车集团股份有限公司 | 一种低音音质的量化方法及装置 |
CN113938805B (zh) * | 2020-07-14 | 2024-04-23 | 广州汽车集团股份有限公司 | 一种低音音质的量化方法及装置 |
CN112069598A (zh) * | 2020-08-26 | 2020-12-11 | 广州汽车集团股份有限公司 | 一种车内扬声器布置位置确定方法、装置及车辆 |
CN112118485B (zh) * | 2020-09-22 | 2022-07-08 | 英华达(上海)科技有限公司 | 音量自适应调整方法、系统、设备及存储介质 |
CN112118485A (zh) * | 2020-09-22 | 2020-12-22 | 英华达(上海)科技有限公司 | 音量自适应调整方法、系统、设备及存储介质 |
CN112333596A (zh) * | 2020-11-05 | 2021-02-05 | 江苏紫米电子技术有限公司 | 一种耳机均衡器的调整方法、装置、服务器及介质 |
CN112333596B (zh) * | 2020-11-05 | 2024-06-04 | 江苏紫米电子技术有限公司 | 一种耳机均衡器的调整方法、装置、服务器及介质 |
CN112466315A (zh) * | 2020-12-02 | 2021-03-09 | 公安部第三研究所 | 一种音视频的高码率获取方法 |
CN112632318A (zh) * | 2020-12-24 | 2021-04-09 | 安克创新科技股份有限公司 | 一种音频推荐方法、装置、系统及存储介质 |
CN113823318A (zh) * | 2021-06-25 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的倍率确定方法、音量调节方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2021525493A (ja) | 2021-09-24 |
WO2019233358A1 (zh) | 2019-12-12 |
EP3816998A4 (en) | 2022-03-30 |
US20210264938A1 (en) | 2021-08-26 |
US11462237B2 (en) | 2022-10-04 |
EP3816998A1 (en) | 2021-05-05 |
US20230056955A1 (en) | 2023-02-23 |
JP7137639B2 (ja) | 2022-09-14 |
US11790934B2 (en) | 2023-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109147804A (zh) | 一种基于深度学习的音质特性处理方法及系统 | |
CN110019931B (zh) | 音频分类方法、装置、智能设备和存储介质 | |
US11837208B2 (en) | Audio processing techniques for semantic audio recognition and report generation | |
Aucouturier et al. | The bag-of-frames approach to audio pattern recognition: A sufficient model for urban soundscapes but not for polyphonic music | |
Yang et al. | Psychoacoustical evaluation of natural and urban sounds in soundscapes | |
CN101599271B (zh) | 一种数字音乐情感的识别方法 | |
CN109147807A (zh) | 一种基于深度学习的音域平衡方法、装置及系统 | |
CN110111773A (zh) | 基于卷积神经网络的音乐信号多乐器识别方法 | |
CN109785859A (zh) | 基于语音分析的管理音乐的方法、装置和计算机设备 | |
CN106295717B (zh) | 一种基于稀疏表示和机器学习的西洋乐器分类方法 | |
Zhang | Music feature extraction and classification algorithm based on deep learning | |
CN110047514A (zh) | 一种伴奏纯净度评估方法以及相关设备 | |
CN109147816B (zh) | 对音乐进行音量调节的方法及设备 | |
CN108735192B (zh) | 一种结合曲风的钢琴演奏音质评价系统及方法 | |
CN106302987A (zh) | 一种音频推荐方法及设备 | |
Thorogood et al. | Impress: A Machine Learning Approach to Soundscape Affect Classification for a Music Performance Environment. | |
CN112632318A (zh) | 一种音频推荐方法、装置、系统及存储介质 | |
Haque et al. | An analysis of content-based classification of audio signals using a fuzzy c-means algorithm | |
CN109189982A (zh) | 一种基于svm主动学习的音乐情感分类方法 | |
Foucard et al. | Multi-scale temporal fusion by boosting for music classification. | |
Selvan et al. | Emotion detection on phone calls during emergency using ensemble model with hyper parameter tuning | |
Sharma et al. | Audio songs classification based on music patterns | |
CN113806586B (zh) | 数据处理方法、计算机设备以及可读存储介质 | |
Omman et al. | Speech Emotion Recognition Using Bagged Support Vector Machines | |
Das Adhikary et al. | Taxonomy of Music Genre Using Machine Intelligence from Feature Melting Technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |