CN110335615A - 音频数据的处理方法、装置、电子设备及存储介质 - Google Patents
音频数据的处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110335615A CN110335615A CN201910367661.0A CN201910367661A CN110335615A CN 110335615 A CN110335615 A CN 110335615A CN 201910367661 A CN201910367661 A CN 201910367661A CN 110335615 A CN110335615 A CN 110335615A
- Authority
- CN
- China
- Prior art keywords
- audio
- audio data
- data
- obtains
- sample rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 68
- 238000005070 sampling Methods 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 53
- 230000008569 process Effects 0.000 claims description 35
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012952 Resampling Methods 0.000 claims description 7
- 230000005055 memory storage Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 22
- 101100438245 Solanum tuberosum PCM8 gene Proteins 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C7/00—Arrangements for writing information into, or reading information out from, a digital store
- G11C7/16—Storage of analogue signals in digital stores using an arrangement comprising analogue/digital [A/D] converters, digital memories and digital/analogue [D/A] converters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本申请提供一种音频数据的处理方法、装置、电子设备及存储介质,该方法包括:获取待处理音频数据及待配置音频参数,所述待配置音频参数包括待配置声道数、待配置采样率和待配置采样位数中的至少一种;根据所述待配置音频参数对所述待处理音频数据进行相应的处理,获得音频二进制数据。实现了根据用户需求的声道数、采样率和采样位数,导出音频数据,一方面提高了录音产生的音频文件的导出灵活性和可用性,另一方面提高了用户体验。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种音频数据的处理方法、装置、电子设备及存储介质。
背景技术
在视听类业务或重交互的业务场景下,通常需要在WEB前端采集用户语音。
现有技术中,通常采用基于getUserMedia结合AudioContext的方式实现前端录音与音频文件导出。具体包括两个部分:一是音频数据采集流程,通过getUserMedia结合AudioContext获得音频数据,作为导出流程的待处理音频数据。二是音频数据导出流程,音频数据导出由用户手动触发,将待处理音频数据进行处理并封装成WAVE格式。具体包括:待处理音频数据数组扁平化-声道信息数组扁平化-设置WAVE格式文件头-将采样点进行16位PCM编码-编码后数据写入WAVE格式文件内容,获得音频二进制文件。其中,getUserMedia和AudioContext是浏览器本身提供的API接口。AudioContext接口表示由音频模块连接而成的音频处理图,每个模块对应一个AudioNode(节点),AudioContext可以控制它所包含的节点的创建,以及音频处理、解码操作的执行。getUserMedia会提示用户给予使用媒体输入的许可,媒体输入会产生一个媒体流MediaStream,里面包含了请求的媒体类型的轨道。
但是现有技术的音频数据导出流程的采样率、声道数和采样位数都是固定的配置,通常采用双声道、48kHz采样率和16位采样位数,这种情况下,产出的音频文件体积较大,比如4s的录音可以达到700-800KB,不利于网络传输。或者有些场景需要将导出获得的音频数据流转到算法组进行语音识别,这种情况对导出的音频数据的采样率、声道数及采样位数有特殊要求。因此,现有的音频数据导出方式不够灵活,不能满足用户的需求。
发明内容
本申请提供一种音频数据的处理方法、装置、电子设备及存储介质,以解决现有技术导出方式不够灵活,不能满足用户需求等缺陷。
本申请第一个方面提供一种音频数据的处理方法,包括:
获取待处理音频数据及待配置音频参数,所述待配置音频参数包括待配置声道数、待配置采样率和待配置采样位数中的至少一种;
根据所述待配置音频参数对所述待处理音频数据进行相应的处理,获得音频二进制数据。
本申请第二个方面提供一种音频数据的处理装置,包括:
获取模块,用于获取待处理音频数据及待配置音频参数,所述待配置音频参数包括待配置声道数、待配置采样率和待配置采样位数中的至少一种;
处理模块,用于根据所述待配置音频参数对所述待处理音频数据进行相应的处理,获得音频二进制数据。
本申请第三个方面提供一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机程序;所述至少一个处理器执行所述存储器存储的计算机程序,以实现第一个方面提供的方法。
本申请第四个方面提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现第一个方面提供的方法。
本申请提供的音频数据的处理方法、装置、电子设备及存储介质,通过根据待配置音频参数对待处理音频数据进行相应的处理,获得音频二进制数据,实现了根据用户需求的声道数、采样率和采样位数,导出音频数据,一方面提高了录音产生的音频文件的导出灵活性和可用性,另一方面提高了用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为WAVE格式文件整体结构示意图;
图2为本申请一实施例提供的音频数据的处理方法的流程示意图;
图3为本申请另一实施例提供的音频数据的处理方法的流程示意图;
图4为本申请一实施例提供的根据待配置声道数进行调整的流程示意图;
图5为本申请一实施例提供的根据待配置采样率进行调整的流程示意图;
图6为本申请一实施例提供的PCM16LE转换到PCM8的映射流程示意图;
图7为本申请一实施例提供的WAVE格式文件头的确定流程示意图;
图8为本申请一实施例提供的示例性音频数据导出流程示意图;
图9为本申请一实施例提供的预配置的快捷构造流程示意图;
图10为本申请一实施例提供的音频数据的处理装置的结构示意图;
图11为本申请一实施例提供的电子设备的结构示意图;
图12为适用于本公开实施例的电子设备800的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先对本申请所涉及的名词进行解释:
PCM:Pulse Code Modulation,脉冲编码调制。是把一个时间连续,取值连续的模拟信号变换成时间离散,取值离散的数字信号后在信道中传输。脉冲编码调制就是对模拟信号先抽样,再对样值幅度量化,编码的过程。抽样,就是对模拟信号进行周期性扫描,把时间上连续的信号变成时间上离散的信号,抽样必须遵循奈奎斯特抽样定理。该模拟信号经过抽样后还应当包含原信号中所有信息,也就是说能无失真的恢复原模拟信号。它的抽样速率的下限是由抽样定理确定的。抽样速率采用8KHZ。量化,就是把经过抽样得到的瞬时值将其幅度离散,即用一组规定的电平,把瞬时抽样值用最接近的电平值来表示,通常是用二进制表示。
采样率:每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数是采样周期或者叫作采样时间。
声道数:是指支持能不同发声的音响的个数,它是衡量音响设备的重要指标之一。单声道的声道数为1个声道,双声道的声道数为2个声道,立体声道的声道数包括2个声道和4个声道两种。
采样位数:是样本的数据位数。
WAVE格式:WAVE格式是多媒体中使用的声波文件格式之一,它是以RIFF(ResourceInterchange File Format,资源交换文件格式)格式为标准的。每个WAVE文件包含两个子块“fmt”和“data”。结构上由WAVE_HEADER、WAVE_FMT、WAVE_DATA、采样数据4个部分组成。如图1所示,为WAVE格式文件整体结构示意图。其中,RIFF对应的4字节为RIFF标识;ChunkSize是指文件长度,通常情况下一个Chunk是指多媒体数据的一个基本逻辑单元,比如视频的一帧数据、音频的一帧数据等等;Subchunk1Size表示子块1(fmt子块)的长度;AudioFormat表示格式类别;Subchunk2Size表示字块2(data子块)的长度;sample1-sample7表示采样数据;right channel samples和left channel samples分别表示右声道和左声道;和采样率、声道数、采样位数相关的字段有:
NumChannels:声道数;
SampleRate:采样率;
ByteRate,码率,等于SampleRate*BlockAlign;
BlockAlign,数据块的调整数,等于NumChannels*BitsPerSample/8;
BitsPerSample:采样位数。
本申请实施例提供的音频数据的处理方法,适用于前端录音的场景。采集流程获得待处理音频数据后,可以根据用户需求的待配置音频参数对待处理音频数据进行相应的处理,获得音频二进制数据,实现了音频数据的灵活导出,提高音频数据的可用性及用户体验。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
实施例一
本实施例提供一种音频数据的处理方法,用于在导出音频数据时根据用户需求进行处理。本实施例的执行主体为音频数据的处理装置,该装置可以设置在电子设备中。
如图2所示,为本实施例提供的音频数据的处理方法的流程示意图,该方法包括:
步骤101,获取待处理音频数据及待配置音频参数。
其中,待配置音频参数包括待配置声道数、待配置采样率和待配置采样位数中的至少一种。
具体的,在音频数据采集流程结束获得待处理音频数据后,当需要导出WAVE格式的音频数据时,可以获取该待处理音频数据及待配置音频参数。待配置音频参数为用户需要重新配置的待配置采样率、待配置声道数和待配置采样位数中的至少一种。也即待配置音频参数与音频数据采集流程的原有配置不同,原采样率为48kHz,双声道,16位采样位数。待配置音频参数可以有至少一项与原有配置不同,可以是其中任意一项与原有配置不同,也可以是其中任意组合的两项与原有配置不同,还可以是三项都与原有配置不同。可以理解地,为了统一处理流程,待配置音频参数可以包括待配置采样率、待配置声道和待配置采样位数,而通过各项的具体参数值来判断其是否与原有配置相同。比如待配置音频参数的三个参数中,只有一个与原有配置不同而另两个参数与原有配置相同,等等。具体可以根据实际需求设置,本实施例不做限定。
示例性的,待配置采样率为16kHz,待配置声道数为1个声道(单声道),待配置采样位数为8位。
步骤102,根据待配置音频参数对待处理音频数据进行相应的处理,获得音频二进制数据。
具体的,在获取到待处理音频数据及待配置音频参数后,则可以根据待配置音频参数对待处理音频数据进行相应的处理,获得音频二进制数据。
示例性的,需要对待处理音频数据进行数组扁平化处理,获得第一音频数据;根据待配置声道数,对第一音频数据进行调整,并进行声道信息数组扁平化处理,获得第二音频数据;根据待配置采样率对第二音频数据进行调整获得第三音频数据;采用与待配置采样位数对应的编码方式对第三音频数据进行PCM编码,获得音频二进制数据。
示例性地,根据待配置声道数对第一音频数据进行调整,比如若待配置声道数是单声道,保留第一音频数据中第一个声道对应的音频数据,若是双声道,保留两个声道对应的音频数据。
示例性地,根据待配置采样率对第二音频数据进行调整获得第三音频数据,比如对第二音频数据根据待配置采样率做重采样,获得第三音频数据。
示例性地,采用待配置采样位数对应的编码方式,对第三音频数据进行PCM编码,获得音频二进制数据,比如若待配置采样位数为8位,则采用8位PCM编码对第三音频数据进行PCM编码,获得音频二进制数据。
可选地,要支持灵活的采样率、声道、采样位数,WAVE格式文件头也需要根据待配置音频参数动态配置。比如根据待配置采样率、待配置声道数和待配置采样位数,以及WAVE规范设置对应的文件头字段并设置其他通用字段。
本实施例提供的音频数据的处理方法,通过根据待配置音频参数对待处理音频数据进行相应的处理,获得音频二进制数据,实现了根据用户需求的声道数、采样率和采样位数,导出音频数据,一方面提高了录音产生的音频文件的导出灵活性和可用性,另一方面提高了用户体验。
实施例二
本实施例对实施例一提供的方法做进一步补充说明。
如图3所示,为本实施例提供的音频数据的处理方法的流程示意图。
作为一种可实施的方式,在上述实施例一的基础上,可选地,步骤102具体包括:
步骤1021,对待处理音频数据进行数组扁平化处理,获得第一音频数据。
具体的,在获取到待处理音频数据及待配置音频参数后,可以对待处理音频数据进行数组扁平化处理,获得第一音频数据。数组扁平化是指将一个多维数组变为一维数组,具体的数组扁平化处理方式可以采用现有技术中任意可实施的方式,比如reduce方式:遍历数组每一项,若值为数组则递归遍历,否则concat;再比如toString&split方式:调用数组的toString方法,将数组变为字符串然后再用split分割还原为数组;等等。本实施例不做限定。
步骤1022,根据待配置声道数,对第一音频数据进行调整,并进行声道信息数组扁平化处理,获得第二音频数据。
具体的,在获得第一音频数据后,则根据待配置声道数,对第一音频数据进行调整,并进行声道信息数组扁平化处理,获得第二音频数据。
示例性地,如图4所示,为本实施例提供的根据待配置声道数进行调整的流程示意图。若待配置声道数是单声道,保留第一音频数据中第一个声道对应的音频数据(也称音频采样数据),若是双声道,保留两个声道对应的音频数据。并对调整后的音频数据进行声道信息数组扁平化处理,获得第二音频数据。具体的进行声道信息数组扁平化处理方式可以为现有技术中任意可实施的方式,比如reduce方式:遍历数组每一项,若值为数组则递归遍历,否则concat;再比如toString&split方式:调用数组的toString方法,将数组变为字符串然后再用split分割还原为数组;等等。本实施例不做限定。
需要说明的是,待配置声道数应小于或等于音频设备的原声道数。在进行声道信息数组扁平化处理时,跳过丢弃的声道音频数据即可。
步骤1023,根据待配置采样率,对第二音频数据进行调整,获得第三音频数据。
具体的,在获得第二音频数据后,可以根据待配置采样率,对第二音频数据进行调整,获得第三音频数据。
可选地,对第二音频数据根据待配置采样率做重采样,获得第三音频数据。
示例性的,如图5所示,为本实施例提供的根据待配置采样率进行调整的流程示意图。通常前端录音的音频的采样率(原采样率)是音频设备默认使用的44.1kHz(或48kHz)。用户需要原采样率以外的采样率时,比如需要16kHz,可以对第二音频数据根据待配置采样率做重采样。具体可以是根据待配置采样率(即图中的新采样率)和原采样率的比值,间隔采样第二音频数据,丢弃掉其他采样点数据,从而模拟采样率的比例下降。当待配置采样率比原采样率高时,需要在第二音频数据的采样点中间差值新的采样点。具体过程如下:
计算待配置采样率和设备默认原采样率的比率,设为k。初始化一个是第二音频数据(即图中的原音频数据)的采样点列表长度k倍的新采样点数组。循环遍历新创建的数组,对数组中的每个采样点做如下处理:
设当前索引为i,当待配置采样率高于原采样率(48kHz),即k>1时,根据比率k和第二音频数据第i/k(向下取整)采样点,在当前采样点前线性插入k-1个新采样点;当待配置采样率不高于原采样率(48kHz),即k<=1时,取第二音频数据i/k(向下取整)处采样点值复制到新列表中。
照此流程重采样得到待配置采样率的数据点,也即第三音频数据。
步骤1024,采用待配置采样位数对应的编码方式,对第三音频数据进行PCM编码,获得音频二进制数据。
具体的,在获得了第三音频数据后,则可以采用待配置采样位数对应的编码方式,对第三音频数据进行PCM编码,获得音频二进制数据。比如若待配置采样位数为8位,则采用8位PCM编码对第三音频数据进行PCM编码,获得音频二进制数据。
示例性的,如图6所示,为本实施例提供的PCM16LE转换到PCM8的映射流程示意图。原采样位数是16位,在对音质或位数没有明确要求时,可以转成8位。PCM16LE格式的采样数据的取值范围是-32768到32767,而PCM8格式的采样数据的取值范围是0到255。因此PCM16LE转换到PCM8需要将-32768到32767的16bit有符号数值转换为0到255的8bit无符号数值。在实际处理过程中,增加一种PCM8的编码实现方式。PCM8的实现方式在PCM16LE上修改了数值转换一步。
作为另一种可实施的方式,在上述实施例一的基础上,可选地,步骤101之后,该方法还包括:
步骤2011,根据待配置音频参数,确定WAVE格式文件头数据。
相应地,在步骤102之后,该方法还包括:
步骤2012,将WAVE格式文件头数据和音频二进制数据写入WAVE格式文件中,获得音频二进制文件。
具体的,如图7所示,为本实施例提供的WAVE格式文件头的确定流程示意图。要支持灵活的采样率、声道、采样位数,WAVE格式文件头也需要根据待配置音频参数动态配置。比如根据待配置采样率、待配置声道数和待配置采样位数,以及WAVE规范设置对应的文件头字段并设置其他通用字段。其中设置对应的文件头字段具体包括:NumChannels,SampleRate,ByteRate,BlockAlign,BitsPerSample,各字段具体含义已在上面详细说明,在此不再赘述。
在根据待配置音频参数,确定了WAVE格式文件头数据并获得了音频二进制数据之后,则可以将WAVE格式文件头数据和音频二进制数据写入WAVE格式文件中,获得音频二进制文件。
可选地,步骤1022具体可以包括:
若待配置声道数为单声道,对第一音频数据中的第一个声道对应的音频数据进行声道信息数组扁平化处理,获得第二音频数据;
若待配置声道数不是单声道,对第一音频数据进行声道信息数组扁平化处理,获得第二音频数据。
可选地,步骤1023具体可以包括:
步骤10231,获取待配置采样率与原采样率的比率。
步骤10232,根据比率,对第二音频数据进行重采样处理,获得第三音频数据。
可选地,步骤1024具体可以包括:
若待配置采样位数为8位,采用8位PCM编码方式对第三音频数据进行PCM编码,获得音频二进制数据;
若待配置采样位数为16位,采用16位PCM编码方式对第三音频数据进行PCM编码,获得音频二进制数据。
可选地,根据待配置音频参数,确定WAVE格式文件头数据,包括:
步骤2021,根据待配置采样位数和待配置声道数确定数据块调整数。
具体的,数据块调整数=待配置采样位数*待配置声道数/8。
步骤2022,根据待配置采样率和数据块调整数,确定码率。
具体的,码率=待配置采样率*数据块调整数。
步骤2023,根据待配置采样率、待配置声道数、待配置采样位数、数据块调整数和码率,确定WAVE格式文件头数据。
具体的,在确定了数据块调整数和码率后,则可以根据待配置采样率、待配置声道数、待配置采样位数、数据块调整数和码率,确定WAVE格式文件头数据。具体WAVE格式文件头的格式与上述格式一致,只是其中具体值与上述不同。也即需要根据WAVE规范设置对应的WAVE格式文件头数据。
通过上述方法,需要算法组进行音频识别时,只需要在导出时根据需要的待配置音频参数进行导出即可。并且,使用16kHz采样率、单声道、8bit录音配置的录音方案,一个500ms的录音大概15KB,换算下来4s大约120KB,比此前的体积小了很多。在不强调音质的场景下,网络时延更小,用户体验更好。
作为一种示例性的实施方式,如图8所示,为本实施例提供的示例性音频数据导出流程示意图。
作为另一种可实施的方式,可选地,考虑到前端录音场景下,音频流通常来自getUserMedia方式,为了减少模板代码,可以封装一个快捷构造,帮助用户自动由getUserMedia构造一个可以使用的对象,减少用户的重复工作。如图9所示,为本实施例提供的预配置的快捷构造流程示意图。其中,音频数据recBuffers即为待处理音频数据。
需要说明的是,本实施例中各可实施的方式可以单独实施,也可以在不冲突的情况下以任意组合方式结合实施本申请不做限定。
本实施例提供的音频数据的处理方法,通过根据待配置音频参数对待处理音频数据进行相应的处理,获得音频二进制数据,实现了根据用户需求的声道数、采样率和采样位数,导出音频数据,一方面提高了录音产生的音频文件的导出灵活性和可用性,另一方面提高了用户体验。
实施例三
本实施例提供一种音频数据的处理装置,用于执行上述实施例一的方法。
如图10所示,为本实施例提供的音频数据的处理装置的结构示意图。该音频数据的处理装置30包括获取模块31和处理模块32。
其中,获取模块,用于获取待处理音频数据及待配置音频参数,待配置音频参数包括待配置声道数、待配置采样率和待配置采样位数中的至少一种;处理模块,用于根据待配置音频参数对待处理音频数据进行相应的处理,获得音频二进制数据。
关于本实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
根据本实施例提供的音频数据的处理装置,通过根据待配置音频参数对待处理音频数据进行相应的处理,获得音频二进制数据,实现了根据用户需求的声道数、采样率和采样位数,导出音频数据,一方面提高了录音产生的音频文件的导出灵活性和可用性,另一方面提高了用户体验。
实施例四
本实施例对上述实施例三提供的装置做进一步补充说明,以执行上述实施例二提供的方法。
作为一种可实施的方式,在上述实施例三的基础上,可选地,处理模块,具体用于:
对待处理音频数据进行数组扁平化处理,获得第一音频数据;
根据待配置声道数,对第一音频数据进行调整,并进行声道信息数组扁平化处理,获得第二音频数据;
根据待配置采样率,对第二音频数据进行调整,获得第三音频数据;
采用待配置采样位数对应的编码方式,对第三音频数据进行PCM编码,获得音频二进制数据。
作为另一种可实施的方式,在上述实施例三的基础上,可选地,处理模块,还用于:在获取待处理音频数据及待配置音频参数之后,根据待配置音频参数,确定WAVE格式文件头数据;
相应地,在根据待配置音频参数对待处理音频数据进行相应的处理,获得音频二进制数据之后,处理模块,还用于:
将WAVE格式文件头数据和音频二进制数据写入WAVE格式文件中,获得音频二进制文件。
可选地,处理模块,具体用于:
若待配置声道数为单声道,对第一音频数据中的第一个声道对应的音频数据进行声道信息数组扁平化处理,获得第二音频数据;
若待配置声道数不是单声道,对第一音频数据进行声道信息数组扁平化处理,获得第二音频数据。
可选地,处理模块,具体用于:
获取待配置采样率与原采样率的比率;
根据比率,对第二音频数据进行重采样处理,获得第三音频数据。
可选地,处理模块,具体用于:
若待配置采样位数为8位,采用8位PCM编码方式对第三音频数据进行PCM编码,获得音频二进制数据;
若待配置采样位数为16位,采用16位PCM编码方式对第三音频数据进行PCM编码,获得音频二进制数据。
可选地,处理模块,具体用于:
根据待配置采样位数和待配置声道数确定数据块调整数;
根据待配置采样率和数据块调整数,确定码率;
根据待配置采样率、待配置声道数、待配置采样位数、数据块调整数和码率,确定WAVE格式文件头数据。
关于本实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
需要说明的是,本实施例中各可实施的方式可以单独实施,也可以在不冲突的情况下以任意组合方式结合实施本申请不做限定。
根据本实施例的音频数据的处理装置,通过根据待配置音频参数对待处理音频数据进行相应的处理,获得音频二进制数据,实现了根据用户需求的声道数、采样率和采样位数,导出音频数据,一方面提高了录音产生的音频文件的导出灵活性和可用性,另一方面提高了用户体验。
实施例五
本实施例提供一种电子设备,用于执行上述实施例提供的方法。
如图11所示,为本实施例提供的电子设备的结构示意图。该电子设备50包括:至少一个处理器51和存储器52;
存储器存储计算机程序;至少一个处理器执行存储器存储的计算机程序,以实现上述实施例提供的方法。
根据本实施例的电子设备,通过根据待配置音频参数对待处理音频数据进行相应的处理,获得音频二进制数据,实现了根据用户需求的声道数、采样率和采样位数,导出音频数据,一方面提高了录音产生的音频文件的导出灵活性和可用性,另一方面提高了用户体验。
在一种示例性的实施例中,可选地,如图12所示,为适用于本公开实施例的电子设备800的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图12示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图12所示,电子设备800可以包括处理装置(例如中央处理器、图形处理器等)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有电子设备800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
通常,以下装置可以连接至I/O接口805:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807;包括例如磁带、硬盘等的存储装置808;以及通信装置809。通信装置809可以允许电子设备800与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备800,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置809从网络上被下载和安装,或者从存储装置808被安装,或者从ROM 802被安装。在该计算机程序被处理装置801执行时,执行本公开实施例的方法中限定的上述功能。
实施例六
本实施例提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,计算机程序被执行时实现上述任一实施例提供的方法。
根据本实施例的计算机可读存储介质,通过根据待配置音频参数对待处理音频数据进行相应的处理,获得音频二进制数据,实现了根据用户需求的声道数、采样率和采样位数,导出音频数据,一方面提高了录音产生的音频文件的导出灵活性和可用性,另一方面提高了用户体验。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (10)
1.一种音频数据的处理方法,其特征在于,包括:
获取待处理音频数据及待配置音频参数,所述待配置音频参数包括待配置声道数、待配置采样率和待配置采样位数中的至少一种;
根据所述待配置音频参数对所述待处理音频数据进行相应的处理,获得音频二进制数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待配置音频参数对所述待处理音频数据进行相应的处理,获得音频二进制数据,包括:
对所述待处理音频数据进行数组扁平化处理,获得第一音频数据;
根据所述待配置声道数,对所述第一音频数据进行调整,并进行声道信息数组扁平化处理,获得第二音频数据;
根据所述待配置采样率,对所述第二音频数据进行调整,获得第三音频数据;
采用所述待配置采样位数对应的编码方式,对所述第三音频数据进行PCM编码,获得所述音频二进制数据。
3.根据权利要求1所述的方法,其特征在于,在所述获取待处理音频数据及待配置音频参数之后,所述方法还包括:
根据所述待配置音频参数,确定WAVE格式文件头数据;
相应地,在根据所述待配置音频参数对所述待处理音频数据进行相应的处理,获得音频二进制数据之后,所述方法还包括:
将所述WAVE格式文件头数据和所述音频二进制数据写入WAVE格式文件中,获得音频二进制文件。
4.根据权利要求2所述的方法,其特征在于,所述根据所述待配置声道数,对所述第一音频数据进行调整,并进行声道信息数组扁平化处理,获得第二音频数据,包括:
若所述待配置声道数为单声道,对所述第一音频数据中的第一个声道对应的音频数据进行声道信息数组扁平化处理,获得所述第二音频数据;
若所述待配置声道数不是单声道,对所述第一音频数据进行声道信息数组扁平化处理,获得所述第二音频数据。
5.根据权利要求2所述的方法,其特征在于,所述根据所述待配置采样率,对所述第二音频数据进行调整,获得第三音频数据,包括:
获取所述待配置采样率与原采样率的比率;
根据所述比率,对所述第二音频数据进行重采样处理,获得所述第三音频数据。
6.根据权利要求2所述的方法,其特征在于,所述采用所述待配置采样位数对应的编码方式,对所述第三音频数据进行PCM编码,获得所述音频二进制数据,包括:
若所述待配置采样位数为8位,采用8位PCM编码方式对所述第三音频数据进行PCM编码,获得所述音频二进制数据;
若所述待配置采样位数为16位,采用16位PCM编码方式对所述第三音频数据进行PCM编码,获得所述音频二进制数据。
7.根据权利要求3所述的方法,其特征在于,根据所述待配置音频参数,确定WAVE格式文件头数据,包括:
根据所述待配置采样位数和所述待配置声道数确定数据块调整数;
根据所述待配置采样率和所述数据块调整数,确定码率;
根据所述待配置采样率、所述待配置声道数、所述待配置采样位数、所述数据块调整数和所述码率,确定所述WAVE格式文件头数据。
8.一种音频数据的处理装置,其特征在于,包括:
获取模块,用于获取待处理音频数据及待配置音频参数,所述待配置音频参数包括待配置声道数、待配置采样率和待配置采样位数中的至少一种;
处理模块,用于根据所述待配置音频参数对所述待处理音频数据进行相应的处理,获得音频二进制数据。
9.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机程序;所述至少一个处理器执行所述存储器存储的计算机程序,以实现权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910367661.0A CN110335615B (zh) | 2019-05-05 | 2019-05-05 | 音频数据的处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910367661.0A CN110335615B (zh) | 2019-05-05 | 2019-05-05 | 音频数据的处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110335615A true CN110335615A (zh) | 2019-10-15 |
CN110335615B CN110335615B (zh) | 2021-11-16 |
Family
ID=68139379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910367661.0A Active CN110335615B (zh) | 2019-05-05 | 2019-05-05 | 音频数据的处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110335615B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111028848A (zh) * | 2019-11-25 | 2020-04-17 | 北京声智科技有限公司 | 压缩语音处理方法、装置及电子设备 |
CN112261140A (zh) * | 2020-10-23 | 2021-01-22 | 深圳市泰祺科技有限公司 | 音频数据处理方法、装置、设备及存储介质 |
CN112437315A (zh) * | 2020-09-02 | 2021-03-02 | 上海幻电信息科技有限公司 | 适应多系统版本的音频适配方法及系统 |
CN112634857A (zh) * | 2020-12-15 | 2021-04-09 | 京东数字科技控股股份有限公司 | 一种语音合成方法、装置、电子设备和计算机可读介质 |
WO2024001405A1 (zh) * | 2022-07-01 | 2024-01-04 | 哲库科技(上海)有限公司 | 音频处理方法、装置、芯片、电子设备及存储介质 |
WO2024000534A1 (zh) * | 2022-06-30 | 2024-01-04 | 北京小米移动软件有限公司 | 音频信号的编码方法、装置、电子设备和存储介质 |
CN118132076A (zh) * | 2024-04-30 | 2024-06-04 | 深圳唯创知音电子有限公司 | 音频二进制文件的生成方法、电子设备及可读存储介质 |
CN112634857B (zh) * | 2020-12-15 | 2024-07-16 | 京东科技控股股份有限公司 | 一种语音合成方法、装置、电子设备和计算机可读介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103188186A (zh) * | 2011-12-27 | 2013-07-03 | 安立股份有限公司 | 重采样处理装置和方法、以及数字调制信号产生装置 |
WO2014161996A2 (en) * | 2013-04-05 | 2014-10-09 | Dolby International Ab | Audio processing system |
CN104510492A (zh) * | 2013-10-06 | 2015-04-15 | 吴伟 | 不可听信号的听诊方法及装置 |
CN107578783A (zh) * | 2017-08-14 | 2018-01-12 | 上海定菱网络科技有限公司 | 音视频直播中的音频降噪方法及系统、存储器及电子设备 |
-
2019
- 2019-05-05 CN CN201910367661.0A patent/CN110335615B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103188186A (zh) * | 2011-12-27 | 2013-07-03 | 安立股份有限公司 | 重采样处理装置和方法、以及数字调制信号产生装置 |
WO2014161996A2 (en) * | 2013-04-05 | 2014-10-09 | Dolby International Ab | Audio processing system |
CN104510492A (zh) * | 2013-10-06 | 2015-04-15 | 吴伟 | 不可听信号的听诊方法及装置 |
CN107578783A (zh) * | 2017-08-14 | 2018-01-12 | 上海定菱网络科技有限公司 | 音视频直播中的音频降噪方法及系统、存储器及电子设备 |
Non-Patent Citations (2)
Title |
---|
陈俊海: "《声音制作基础》", 30 September 2012 * |
马潮: "《AVR单片机嵌入式系统原理与应用实践》", 30 August 2011 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111028848A (zh) * | 2019-11-25 | 2020-04-17 | 北京声智科技有限公司 | 压缩语音处理方法、装置及电子设备 |
CN111028848B (zh) * | 2019-11-25 | 2022-10-11 | 北京声智科技有限公司 | 压缩语音处理方法、装置及电子设备 |
CN112437315A (zh) * | 2020-09-02 | 2021-03-02 | 上海幻电信息科技有限公司 | 适应多系统版本的音频适配方法及系统 |
CN112261140A (zh) * | 2020-10-23 | 2021-01-22 | 深圳市泰祺科技有限公司 | 音频数据处理方法、装置、设备及存储介质 |
CN112634857A (zh) * | 2020-12-15 | 2021-04-09 | 京东数字科技控股股份有限公司 | 一种语音合成方法、装置、电子设备和计算机可读介质 |
CN112634857B (zh) * | 2020-12-15 | 2024-07-16 | 京东科技控股股份有限公司 | 一种语音合成方法、装置、电子设备和计算机可读介质 |
WO2024000534A1 (zh) * | 2022-06-30 | 2024-01-04 | 北京小米移动软件有限公司 | 音频信号的编码方法、装置、电子设备和存储介质 |
WO2024001405A1 (zh) * | 2022-07-01 | 2024-01-04 | 哲库科技(上海)有限公司 | 音频处理方法、装置、芯片、电子设备及存储介质 |
CN118132076A (zh) * | 2024-04-30 | 2024-06-04 | 深圳唯创知音电子有限公司 | 音频二进制文件的生成方法、电子设备及可读存储介质 |
CN118132076B (zh) * | 2024-04-30 | 2024-07-16 | 深圳唯创知音电子有限公司 | 音频二进制文件的生成方法、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110335615B (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335615A (zh) | 音频数据的处理方法、装置、电子设备及存储介质 | |
US10867618B2 (en) | Speech noise reduction method and device based on artificial intelligence and computer device | |
CN108831437B (zh) | 一种歌声生成方法、装置、终端和存储介质 | |
JP6272474B2 (ja) | 音声処理方法、及び端末装置 | |
CA3168916A1 (en) | Method and apparatus for compressing and decompressing a higher order ambisonics representation | |
CN110189394B (zh) | 口型生成方法、装置及电子设备 | |
CN104423590A (zh) | 解复用触觉信号的方法和系统 | |
CN110047121B (zh) | 端到端的动画生成方法、装置及电子设备 | |
CN103294447A (zh) | 一种生成随机数的方法和装置 | |
CN109815448B (zh) | 幻灯片生成方法及装置 | |
CN109410918A (zh) | 用于获取信息的方法及装置 | |
CN111583941B (zh) | 家电设备录音方法、装置、存储介质和家电设备 | |
CN110503979B (zh) | 音频输出效果的监测方法、装置、介质及电子设备 | |
CN109600665A (zh) | 用于处理数据的方法和装置 | |
US11295726B2 (en) | Synthetic narrowband data generation for narrowband automatic speech recognition systems | |
WO2020024949A1 (zh) | 确定时间戳的方法和装置 | |
CN113035246B (zh) | 音频数据同步处理方法、装置、计算机设备及存储介质 | |
CN111402867B (zh) | 混合采样率声学模型训练方法、装置及电子设备 | |
CN112433697B (zh) | 一种资源展示方法、装置、电子设备及存储介质 | |
CN115278456A (zh) | 一种音响设备及音频信号处理方法 | |
CN113223487B (zh) | 一种信息识别方法及装置、电子设备和存储介质 | |
CN111028848B (zh) | 压缩语音处理方法、装置及电子设备 | |
CN114090817A (zh) | 一种人脸特征数据库动态构建方法、装置及存储介质 | |
CN112969038A (zh) | 数据传输方法、装置、电子设备及计算机可读存储介质 | |
CN111768762B (zh) | 语音识别方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |