CN113053405A - 基于音频场景下的音频原始数据处理方法及装置 - Google Patents
基于音频场景下的音频原始数据处理方法及装置 Download PDFInfo
- Publication number
- CN113053405A CN113053405A CN202110275305.3A CN202110275305A CN113053405A CN 113053405 A CN113053405 A CN 113053405A CN 202110275305 A CN202110275305 A CN 202110275305A CN 113053405 A CN113053405 A CN 113053405A
- Authority
- CN
- China
- Prior art keywords
- audio
- data
- scene
- learning model
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 75
- 238000010801 machine learning Methods 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims description 18
- 238000005457 optimization Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 10
- 238000013075 data extraction Methods 0.000 claims description 6
- 230000001629 suppression Effects 0.000 claims description 6
- 230000008713 feedback mechanism Effects 0.000 abstract description 13
- 238000004458 analytical method Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Stereophonic System (AREA)
Abstract
本发明属于大数据技术领域,本发明提供了一种基于音频场景下的音频原始数据处理方法及装置,基于音频场景下的音频原始数据处理方法包括:获取目标音频场景下的音频原始数据;根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据。本发明解决了实时音频应用场景下缺少质量反馈机制,默认参数调优无法广泛适应现有应用场景的情况,可广泛应用在实时音视频多场景情况下,形成正向质量反馈机制,且不影响现有音频系统使用,具备快速推广的条件。
Description
技术领域
本发明属于大数据技术领域,具体涉及一种基于音频场景下的音频原始数据处理方法及装置。
背景技术
现有技术中,音频会话场景下的音频质量评价主要从三个维度进行,即噪声抑制、回声消除以及人声增益,此三类评价一般采用人工MOS主观评价打分来评判音频质量,但这种评判方式存在主观风险,且耗时久,反馈机制冗长,不利于线上音频会话质量即使改善,如何能够建立正向反馈机制,实时对音频相关参数进行调整控制,成为提升音频质量的关键。
发明内容
本发明属于大数据技术领域,针对现有技术中的问题,本发明解决了实时音频应用场景下缺少质量反馈机制,默认参数调优无法广泛适应现有应用场景的情况,可广泛应用在实时音视频多场景情况下,形成正向质量反馈机制,且不影响现有音频系统使用,具备快速推广的条件。
为解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供一种基于音频场景下的音频原始数据处理方法,包括:
获取目标音频场景下的音频原始数据;
根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据。
一实施例中,生成所述机器学习模型的步骤包括:
获取多个音频场景下的音频原始数据;
提取所述多个音频场景下的音频原始数据的特征数据;
根据所述特征数据以及预先设定的约束条件对所述机器学习模型的初始模型进行训练,以生成所述机器学习模型。
一实施例中,创建所述音频场景库的步骤包括:
建立多个音频场景下的音频原始数据的特征数据与其对对应的音频场景之间的映射关系,以创建所述音频场景库。
一实施例中,所述根据所述特征数据以及预先设定的约束条件对所述机器学习模型的初始模型进行训练,以生成所述机器学习模型,包括:
将多个特征数据输入至算法池,以生成多个初始模型;
利用所述算法池中的多个算法,根据所述特征数据以及所述约束条件对多个初始模型进行训练,以生成多个机器学习模型。
一实施例中,所述根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据,包括:
提取所述目标音频场景下的音频原始数据的特征数据;
根据所述特征数据在所述音频场景库中匹配其对应的音频场景;
根据所述音频场景确定所述目标音频场景对应的音频调优参数;
将所述特征数据以及所述音频调优参数输入至所述机器学习模型,以处理所述音频原始数据。
第二方面,本发明提供一种基于音频场景下的音频原始数据处理装置,包括:
数据获取模块,用于获取目标音频场景下的音频原始数据;
音频原始数据处理模块,用于根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据。
一实施例中,基于音频场景下的音频原始数据处理装置还包括:学习模型生成模块,用于生成所述机器学习模型,所述学习模型生成模块包括:
数据获取单元,用于获取多个音频场景下的音频原始数据;
特征数据提取第一单元,用于提取所述多个音频场景下的音频原始数据的特征数据;
学习模型生成单元,用于根据所述特征数据以及预先设定的约束条件对所述机器学习模型的初始模型进行训练,以生成所述机器学习模型。
一实施例中,基于音频场景下的音频原始数据处理装置还包括:场景库生成模块,用于创建所述音频场景库;
所述音频场景库具体用于建立多个音频场景下的音频原始数据的特征数据与其对对应的音频场景之间的映射关系,以创建所述音频场景库。
一实施例中,所述学习模型生成单元包括:
多初始模型生成单元,用于将多个特征数据输入至算法池,以生成多个初始模型;
多学习模型生成单元,用于利用所述算法池中的多个算法,根据所述特征数据以及所述约束条件对多个初始模型进行训练,以生成多个机器学习模型。
一实施例中,所述音频原始数据处理模块包括:
特征数据提取第二单元,用于提取所述目标音频场景下的音频原始数据的特征数据;
音频场景匹配单元,用于根据所述特征数据在所述音频场景库中匹配其对应的音频场景;
音频调优参数确定单元,用于根据所述音频场景确定所述目标音频场景对应的音频调优参数;
音频原始数据处理单元,用于将所述特征数据以及所述音频调优参数输入至所述机器学习模型,以处理所述音频原始数据。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现基于音频场景下的音频原始数据处理方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现基于音频场景下的音频原始数据处理方法的步骤。
从上述描述可知,本发明实施例提供的基于音频场景下的音频原始数据处理方法及装置,首先获取目标音频场景下的音频原始数据;然后根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据。本发明在实时音频应用场景下能够对音频原始数据处理有较好效果,其有益效果具体如下:
1、解决了实时音频应用场景下缺少质量反馈机制,默认参数调优无法广泛适应现有应用场景的情况,可广泛应用在实时音视频多场景情况下,形成正向质量反馈机制,且不影响现有音频系统使用,具备快速推广的条件;
2、于已有成熟技术组合,如机器学习算法、3A技术,具备快速实现的条件。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的实施例中基于音频场景下的音频原始数据处理方法流程示意图一;
图2为本发明的实施例中基于音频场景下的音频原始数据处理方法流程示意图二;
图3为本发明的实施例中步骤200的流程示意图;
图4为本发明的实施例中基于音频场景下的音频原始数据处理方法流程示意图三;
图5为本发明的实施例中步骤400的流程示意图;
图6为本发明的实施例中步骤303的流程示意图;
图7为本发明的实施例中步骤200的流程示意图;
图8为本发明的具体应用实例中基于音频场景下的音频原始数据处理装置的结构框图;
图9为本发明的具体应用实例中质量分析系统1的结构框图;
图10为本发明的具体应用实例中质量调优系统2的结构框图;
图11为本发明的具体应用实例中基于音频场景下的音频原始数据处理方法的流程示意图;
图12为本发明的具体应用实例中分析系统1的工作流程图;
图13为本发明的具体应用实例中基于音频场景下的音频原始数据处理装置结构框图;
图14为本发明的实施例中学习模型生成模块30的结构框图;
图15为本发明的实施例中学习模型生成单元303的结构框图;
图16为本发明的实施例中音频原始数据处理模块20的结构框图;
图17为本发明的实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明的实施例提供一种基于音频场景下的音频原始数据处理方法的具体实施方式,参见图1,该方法具体包括如下内容:
步骤100:获取目标音频场景下的音频原始数据。
可以理解的是,还需要对音频原始数据进行预处理,如针对音频原始数据进行去除干扰频率(20-20000hz以外)、额外毛刺、分离底噪等的数据清洗操作,以获取具备准确性以及完整性高的音频数据。进一步地,可利用盲源分离技术即独立分量分析法和卡尔曼滤波结合的方法,分离含有背景噪声的混合语音。
步骤200:根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据。
步骤200在实施时,具体为:首先提取目标音频场景下的音频原始数据的特征数据,并由此在音频场景库中匹配特征数据所对应的音频调优参数,接着,将特征数据输入至及其学习模型中,并结合音频调优参数提升音频原始数据的质量,以提升当前实时音频会话场景(目标音频场景)下的会话质量。
从上述描述可知,本发明实施例提供的基于音频场景下的音频原始数据处理方法,首先获取目标音频场景下的音频原始数据;然后根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据。本发明在实时音频应用场景下能够对音频原始数据处理有较好效果,其有益效果具体如下:
1、解决了实时音频应用场景下缺少质量反馈机制,默认参数调优无法广泛适应现有应用场景的情况,可广泛应用在实时音视频多场景情况下,形成正向质量反馈机制,且不影响现有音频系统使用,具备快速推广的条件;
2、于已有成熟技术组合,如机器学习算法、3A技术,具备快速实现的条件。
一实施例中,参见图2,基于音频场景下的音频原始数据处理方法还包括:
步骤300:生成所述机器学习模型。进一步地,参见图3,步骤300进一步包括:
步骤301:获取多个音频场景下的音频原始数据;
步骤302:提取所述多个音频场景下的音频原始数据的特征数据;
步骤303:根据所述特征数据以及预先设定的约束条件对所述机器学习模型的初始模型进行训练,以生成所述机器学习模型。
在步骤301至步骤303中,首先,获取广泛音频会话场景下的原始音频频谱数据,并分别提取各个场景下的原始音频数据的特征数据,以供机器学习模型使用,接着,生成不同的机器学习算法各自的初始模型,将特征数据输入至多个初始模型中进行训练,当达到预设的约束条件时,停止训练,此时的模型即为最终的机器学习模型。在一优选的实施例中,此约束条件为误差达到预设阈值。
一实施例中,参见图4,基于音频场景下的音频原始数据处理方法还包括:
步骤400:创建所述音频场景库,进一步地,参见图5,步骤400包括:
步骤401:建立多个音频场景下的音频原始数据的特征数据与其对对应的音频场景之间的映射关系,以创建所述音频场景库。
首先确定音频场景与其特征数据空间之间的映射关系,接着确定特征数据空间与特征数据的映射关系,从而建立多个音频场景下的音频原始数据的特征数据与其对对应的音频场景之间的映射关系,以创建音频场景库。
一实施例中,参见图6,步骤303进一步包括:
步骤3031:将多个特征数据输入至算法池,以生成多个初始模型;
步骤3032:利用所述算法池中的多个算法,根据所述特征数据以及所述约束条件对多个初始模型进行训练,以生成多个机器学习模型。
这里不局限于单一的机器学习算法,因为不同的对话场景对应着不同的特征数据,应根据特征数据在由多个机器学习算法所组成的算法池中进行选择,以生成最为合适的机器学习模型,备选的机器学习算法包括但不限于:K-means算法、分类和回归树算法、朴素贝叶斯算法以及支持向量机算法等。
一实施例中,参见图7,步骤200进一步包括:
步骤201:提取所述目标音频场景下的音频原始数据的特征数据;
步骤202:根据所述特征数据在所述音频场景库中匹配其对应的音频场景;
步骤203:根据所述音频场景确定所述目标音频场景对应的音频调优参数;
步骤204:将所述特征数据以及所述音频调优参数输入至所述机器学习模型,以处理所述音频原始数据。
可以理解的是,现有技术中,针对提升音频原始数据质量(即对话质量)仅专注于噪声抑制、回声消除以及人声增益,并没有考虑到不同的对话场景(音频场景)中需要不同的方法来提升声音质量,在步骤201至步骤204中,首先提取待提升声音质量的音频场景对应的音频原始数据的特征数据,由该特征数据匹配最合适的机器学习算法,并在场景库中进行查询,以确定音频调优参数,由此来排除噪音数据、增益人声等操作,以提高各种对话场景下的声音质量。
本发明针对在实时音频会话场景下,通过综合会话场景分析、语音清晰度分析以及会话音频结构分析,形成最终音频质量分析结果并正反馈给参数调优系统,由参数调优系统调整噪声抑制、人声增益等相关系统参数,在整个系统中实现质量循环调优,从而提升当前实时音频会话场景下的会话质量。
为进一步地说明本方案,本发明还提供基于音频场景下的音频原始数据处理方法的具体应用实例,具体包括如下内容。
在本具体应用实例中,还提供一种基于音频场景下的音频原始数据处理装置,参见图8,该装置包括:质量分析系统1,质量调优系统2以及音频系统。
质量分析系统1,主要指的是从各个不同维度对音频数据流进行质量分析,包括该音频会话发生主要场景,语音清晰度分析及音频结构分析。
质量调优系统2,通过质量分析系统1收集音频质量情况,根据分析系统的质量情况对各类系统参数进行有针对性的调整,比如针对具体场景、具体频率噪音的质量优化,对人声的增益等。
图9是质量分析系统1的结构框图,如图9所示,质量分析系统1包括数据处理及特征工程模块11、建模模块12、会话场景预测模块13、会话音频结构分析模块14,具体来说:
数据处理及特征工程模块11,负责收集会话音频频率特征等原始数据并提取特征以供算法及模型使用,主要包括:获取广泛音频会话场景下的原始音频频谱数据,针对音频频率数据进行去除干扰频率(20-20000hz以外)、额外毛刺、分离底噪等的数据清洗,对各类音频特征进行特征构建,构建新特征空间与特征构建的内容进行映射。可以理解的是,经过数据处理及特征工程模块11后,可以获得具备准确性、完整性、一致性、可用于机器学习算法的的高质量数据。
建模模块12,负责训练和挑选出预测效果较好的几种机器学习模型。该模块主要实现以下功能:构建机器学习算法池、训练单个机器学习算法模型、评估模型预测效果。
会话场景预测模块13,负责对当前会话音频场景进行预测。使用从建模装置12中获取的预测效果较好的单个模型对当前会话场景进行预测。
会话音频结构分析模块14,负责对当前会话结构进行分析,使用从建模装置12中获取的预测效果较好的单个模型对当前音频结构进行评估。
图10是质量调优系统2的结构框图,如图10所示,数据分析系统包括数据分析模块21,数据传输模块22,具体地:
数据分析模块21,负责对质量分析系统1输出的会话场景、音频结构内容进行分析处理,使用专家规则匹配适应于对应场景下、对应音频结构的最优调优组合并应用于音频调优,使当前音频会话质量处于最优状态。
数据传输模块22,负责与质量分析系统1进行数据传输;
基于上述的基于音频场景下的音频原始数据处理装置,本具体应用实例所提供的基于音频场景下的音频原始数据处理方法包括:首先由质量分析系统1收集当前音频系统中的音频数据通过分析其场景、清晰度、结构,质量调优系统2获取分析结果后匹配对应调优参数,将具体参数通过传输模块传输至音频系统进行调整,形成正向反馈机制,参见图11,具体地:
步骤S101,质量分析系统1接收音频系统传输的音频流,对该音频流做建模前数据处理及特征构建,减少音频中异常类、无效类数据;
步骤S102,对处理过的原始数据进行训练、预测并匹配出预测效果较好的机器学习模型,输出算法及模型;
步骤S103,使用匹配到的算法、模型对原始数据进行分析,确定其场景匹配度及音频组成结构并将结果输出到质量调优系统2;
步骤S104,质量调优系统2接收到质量分析系统1数据后,通过专家规则匹配场景库、音频结构库的对应音频调优参数,并输出到音频系统进行音频调优,最优化音频质量。
图12是分析系统1的工作流程图,具体包括:
步骤S201,质量分析系统1接收音频系统的音频数据流,交由数据处理及特征工程模块进行前期数据处理及特征建模,通过数据处理及特征建模,去除异常类、无效类数据并形成统一、完整的高质量数据;
步骤S202,建模模块对处理后的数据进行建模处理,包括构建机器学习算法池、训练单个机器学习算法模型、评估模型预测效果;
步骤S203,通过建模模块匹配的算法及模型,对音频发生场景进行预测,预测其场景匹配度并输出场景匹配度数据;
步骤S204,通过建模模块匹配的算法及模型,对音频数据结构进行预测,估算其音频结构组成。
从上述描述可知,本发明具体应用实例所提供一种基于音频场景下的音频原始数据处理方法,在实时音频会话场景下,通过质量分析系统与质量调优系统的反馈调整机制,实现对当前实时音频会话质量的调优;其中质量分析系统包括了会话场景分析子系统、语音清晰度分析子系统及会话音频结构分析子系统;质量调优系统主要调整噪声抑制、回声消除以及人声增益的相关系统参数,并持续接收质量分析系统数据,不断调整参数以达到最优效果。
基于同一发明构思,本申请实施例还提供了一种基于音频场景下的音频原始数据处理装置,可以用于实现上述实施例所描述的方法,如下面的实施例。由于基于音频场景下的音频原始数据处理装置解决问题的原理与基于音频场景下的音频原始数据处理方法相似,因此基于音频场景下的音频原始数据处理装置的实施可以参见基于音频场景下的音频原始数据处理方法实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本发明的实施例提供一种能够实现基于音频场景下的音频原始数据处理方法的基于音频场景下的音频原始数据处理装置的具体实施方式,参见图13,基于音频场景下的音频原始数据处理装置具体包括如下内容:
数据获取模块10,用于获取目标音频场景下的音频原始数据;
音频原始数据处理模块20,用于根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据。
一实施例中,基于音频场景下的音频原始数据处理装置还包括:学习模型生成模块30,用于生成所述机器学习模型,参见图14,所述学习模型生成模块30包括:
数据获取单元301,用于获取多个音频场景下的音频原始数据;
特征数据提取第一单元302,用于提取所述多个音频场景下的音频原始数据的特征数据;
学习模型生成单元303,用于根据所述特征数据以及预先设定的约束条件对所述机器学习模型的初始模型进行训练,以生成所述机器学习模型。
一实施例中,基于音频场景下的音频原始数据处理装置还包括:场景库生成模块,用于创建所述音频场景库;
所述音频场景库具体用于建立多个音频场景下的音频原始数据的特征数据与其对对应的音频场景之间的映射关系,以创建所述音频场景库。
一实施例中,参见图15,所述学习模型生成单元303包括:
多初始模型生成单元3031,用于将多个特征数据输入至算法池,以生成多个初始模型;
多学习模型生成单元3032,用于利用所述算法池中的多个算法,根据所述特征数据以及所述约束条件对多个初始模型进行训练,以生成多个机器学习模型。
一实施例中,参见图16,所述音频原始数据处理模块20包括:
特征数据提取第二单元201,用于提取所述目标音频场景下的音频原始数据的特征数据;
音频场景匹配单元202,用于根据所述特征数据在所述音频场景库中匹配其对应的音频场景;
音频调优参数确定单元203,用于根据所述音频场景确定所述目标音频场景对应的音频调优参数;
音频原始数据处理单元204,用于将所述特征数据以及所述音频调优参数输入至所述机器学习模型,以处理所述音频原始数据。
从上述描述可知,本发明实施例提供的基于音频场景下的音频原始数据处理装置,首先获取目标音频场景下的音频原始数据;然后根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据。本发明在实时音频应用场景下能够对音频原始数据处理有较好效果,其有益效果具体如下:
1、解决了实时音频应用场景下缺少质量反馈机制,默认参数调优无法广泛适应现有应用场景的情况,可广泛应用在实时音视频多场景情况下,形成正向质量反馈机制,且不影响现有音频系统使用,具备快速推广的条件;
本申请的实施例还提供能够实现上述实施例中的基于音频场景下的音频原始数据处理方法中全部步骤的一种电子设备的具体实施方式,参见图17,电子设备具体包括如下内容:
处理器(processor)1201、存储器(memory)1202、通信接口(CommunicationsInterface)1203和总线1204;
其中,处理器1201、存储器1202、通信接口1203通过总线1204完成相互间的通信;通信接口1203用于实现服务器端设备以及客户端设备等相关设备之间的信息传输;
处理器1201用于调用存储器1202中的计算机程序,处理器执行计算机程序时实现上述实施例中的基于音频场景下的音频原始数据处理方法中的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤100:获取目标音频场景下的音频原始数据;
步骤200:根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据。
本申请的实施例还提供能够实现上述实施例中的基于音频场景下的音频原始数据处理方法中全部步骤的一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的基于音频场景下的音频原始数据处理方法的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤100:获取目标音频场景下的音频原始数据;
步骤200:根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书实施例的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。
Claims (12)
1.一种基于音频场景下的音频原始数据处理方法,其特征在于,包括:
获取目标音频场景下的音频原始数据;
根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据。
2.根据权利要求1所述的基于音频场景下的音频原始数据处理方法,其特征在于,创建所述机器学习模型的步骤包括:
获取多个音频场景下的音频原始数据;
提取所述多个音频场景下的音频原始数据的特征数据;
根据所述特征数据以及预先设定的约束条件对所述机器学习模型的初始模型进行训练,以生成所述机器学习模型。
3.根据权利要求2所述的基于音频场景下的音频原始数据处理方法,其特征在于,预先创建所述音频场景库的步骤包括:
建立多个音频场景下的音频原始数据的特征数据与其对对应的音频场景之间的映射关系,以创建所述音频场景库。
4.根据权利要求2所述的基于音频场景下的音频原始数据处理方法,其特征在于,所述根据所述特征数据以及预先设定的约束条件对所述机器学习模型的初始模型进行训练,以生成所述机器学习模型,包括:
将多个特征数据输入至算法池,以生成多个初始模型;
利用所述算法池中的多个算法,根据所述特征数据以及所述约束条件对多个初始模型进行训练,以生成多个机器学习模型。
5.根据权利要求4所述的基于音频场景下的音频原始数据处理方法,其特征在于,所述根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据,包括:
提取所述目标音频场景下的音频原始数据的特征数据;
根据所述特征数据在所述音频场景库中匹配其对应的音频场景;
根据所述音频场景确定所述目标音频场景对应的音频调优参数;
将所述特征数据以及所述音频调优参数输入至所述机器学习模型,以对所述音频原始数据进行人声增益、回声消除以及噪声抑制。
6.一种基于音频场景下的音频原始数据处理装置,其特征在于,包括:
数据获取模块,用于获取目标音频场景下的音频原始数据;
音频原始数据处理模块,用于根据所述音频原始数据、预生成的机器学习模型以及预先创建的音频场景库处理所述音频原始数据。
7.根据权利要求6所述的基于音频场景下的音频原始数据处理装置,其特征在于,还包括:学习模型生成模块,用于生成所述机器学习模型,所述学习模型生成模块包括:
数据获取单元,用于获取多个音频场景下的音频原始数据;
特征数据提取第一单元,用于提取所述多个音频场景下的音频原始数据的特征数据;
学习模型生成单元,用于根据所述特征数据以及预先设定的约束条件对所述机器学习模型的初始模型进行训练,以生成所述机器学习模型。
8.根据权利要求7所述的基于音频场景下的音频原始数据处理装置,其特征在于,还包括:场景库生成模块,用于创建所述音频场景库;
所述音频场景库具体用于建立多个音频场景下的音频原始数据的特征数据与其对对应的音频场景之间的映射关系,以创建所述音频场景库。
9.根据权利要求7所述的基于音频场景下的音频原始数据处理装置,其特征在于,所述学习模型生成单元包括:
多初始模型生成单元,用于将多个特征数据输入至算法池,以生成多个初始模型;
多学习模型生成单元,用于利用所述算法池中的多个算法,根据所述特征数据以及所述约束条件对多个初始模型进行训练,以生成多个机器学习模型。
10.根据权利要求9所述的基于音频场景下的音频原始数据处理装置,其特征在于,所述音频原始数据处理模块包括:
特征数据提取第二单元,用于提取所述目标音频场景下的音频原始数据的特征数据;
音频场景匹配单元,用于根据所述特征数据在所述音频场景库中匹配其对应的音频场景;
音频调优参数确定单元,用于根据所述音频场景确定所述目标音频场景对应的音频调优参数;
音频原始数据处理单元,用于将所述特征数据以及所述音频调优参数输入至所述机器学习模型,以对所述音频原始数据进行人声增益、回声消除以及噪声抑制。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至5任一项所述基于音频场景下的音频原始数据处理方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至5任一项所述基于音频场景下的音频原始数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110275305.3A CN113053405B (zh) | 2021-03-15 | 2021-03-15 | 基于音频场景下的音频原始数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110275305.3A CN113053405B (zh) | 2021-03-15 | 2021-03-15 | 基于音频场景下的音频原始数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113053405A true CN113053405A (zh) | 2021-06-29 |
CN113053405B CN113053405B (zh) | 2022-12-09 |
Family
ID=76512257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110275305.3A Active CN113053405B (zh) | 2021-03-15 | 2021-03-15 | 基于音频场景下的音频原始数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113053405B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617797A (zh) * | 2013-12-09 | 2014-03-05 | 腾讯科技(深圳)有限公司 | 一种语音处理方法,及装置 |
WO2018155481A1 (ja) * | 2017-02-27 | 2018-08-30 | ヤマハ株式会社 | 情報処理方法および情報処理装置 |
CN109343902A (zh) * | 2018-09-26 | 2019-02-15 | Oppo广东移动通信有限公司 | 音频处理组件的运行方法、装置、终端及存储介质 |
CN110136696A (zh) * | 2019-05-22 | 2019-08-16 | 上海声构信息科技有限公司 | 音频数据的监控处理方法和系统 |
CN111477250A (zh) * | 2020-04-07 | 2020-07-31 | 北京达佳互联信息技术有限公司 | 音频场景识别方法、音频场景识别模型的训练方法和装置 |
-
2021
- 2021-03-15 CN CN202110275305.3A patent/CN113053405B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617797A (zh) * | 2013-12-09 | 2014-03-05 | 腾讯科技(深圳)有限公司 | 一种语音处理方法,及装置 |
WO2018155481A1 (ja) * | 2017-02-27 | 2018-08-30 | ヤマハ株式会社 | 情報処理方法および情報処理装置 |
CN109343902A (zh) * | 2018-09-26 | 2019-02-15 | Oppo广东移动通信有限公司 | 音频处理组件的运行方法、装置、终端及存储介质 |
CN110136696A (zh) * | 2019-05-22 | 2019-08-16 | 上海声构信息科技有限公司 | 音频数据的监控处理方法和系统 |
CN111477250A (zh) * | 2020-04-07 | 2020-07-31 | 北京达佳互联信息技术有限公司 | 音频场景识别方法、音频场景识别模型的训练方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113053405B (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020014899A1 (zh) | 语音控制方法、中控设备和存储介质 | |
CN110164463B (zh) | 一种语音转换方法、装置、电子设备及存储介质 | |
EP3899936B1 (en) | Source separation using an estimation and control of sound quality | |
CN114333865A (zh) | 一种模型训练以及音色转换方法、装置、设备及介质 | |
CN115373861B (zh) | Gpu资源调度方法、装置、电子设备及存储介质 | |
CN111243574A (zh) | 一种语音模型自适应训练方法、系统、装置及存储介质 | |
CN112995756A (zh) | 短视频的生成方法及装置、短视频生成系统 | |
KR102254522B1 (ko) | 인공지능을 이용한 파라메트릭 이퀄라이징 음향 조율 시스템의 제어 방법, 장치 및 프로그램 | |
CN110677716B (zh) | 音频处理方法、电子设备和存储介质 | |
CN113409803A (zh) | 语音信号处理方法、装置、存储介质及设备 | |
CN113053405B (zh) | 基于音频场景下的音频原始数据处理方法及装置 | |
CN114974281A (zh) | 语音降噪模型的训练方法、装置、存储介质及电子装置 | |
Wu et al. | Improved lower bounds for sum coloring via clique decomposition | |
JP2020027182A (ja) | 学習データ生成方法、学習方法、及び評価装置 | |
CN116361130B (zh) | 基于虚拟现实人机交互系统的评价方法 | |
CN117037820A (zh) | 基于扩散的内容与风格解耦的语音转换方法 | |
US20220187916A1 (en) | Information processing device | |
CN115374305A (zh) | 智能音箱的音效调整方法及装置 | |
CN116959464A (zh) | 音频生成网络的训练方法、音频生成方法以及装置 | |
CN116149848A (zh) | 负载预测方法、装置、电子设备及存储介质 | |
CN109492130B (zh) | 一种数据操作方法及系统 | |
WO2021240677A1 (ja) | 映像処理装置、映像処理方法、訓練装置、訓練方法、及び、記録媒体 | |
CN111312267B (zh) | 一种语音风格的转换方法、装置、设备和存储介质 | |
CN103390404A (zh) | 信息处理装置、信息处理方法和信息处理程序 | |
CN113297289A (zh) | 从数据库提取业务数据的方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |