CN108399921B

CN108399921B - 一种音频竖线波形图的生成方法

Info

Publication number: CN108399921B
Application number: CN201810163270.2A
Authority: CN
Inventors: 郭艳杰
Original assignee: Beijing Kuwo Technology Co Ltd
Current assignee: Beijing Kuwo Technology Co Ltd
Priority date: 2018-02-27
Filing date: 2018-02-27
Publication date: 2021-09-24
Anticipated expiration: 2038-02-27
Also published as: CN108399921A

Abstract

本发明涉及一种音频竖线波形图的生成方法，步骤如下：创建AVAsset对象，读取音频文件中的音轨AudioTrack，ASBD数据结构，得到音频文件描述信息，获取声道数和采样率，将音频总时间转换为总帧数，得到总采样帧数，将总采样帧数除以波形图宽度像素数，得到每像素需要展现的帧数，生竖线线条时，首先建立宽度像素值个数的矩形区域Layer，然后按每像素一个Layer排列，最后对音频数据进行格式化，设定矩形区域Layer的高度。本发明，获取音频后，将波形图每像素和音频的帧数相对应，根据音频数据格式化的形成波形图的像素，处理速度快，图形准确性好，系统开销较佳，可作为波形图标准生成模块供其他功能调用，易于后期维护及使用。

Description

一种音频竖线波形图的生成方法

技术领域

本发明涉及波形图绘制技术领域，具体说是一种音频竖线波形图的生成方法。

背景技术

声波是一种纵波，来回振动导致空气分子产生疏密相间的排列。但是这种二维空间的方式非常不便于表示声音的属性，于是我们取任意一个点，测量这个点的气压随时间的变化，这样就变成了横轴为时间，纵轴为压力变化的图像。气压距离标准值偏差越大，说明振动越剧烈，响度越大，所以振幅越大的波形表示声音越大。波形越紧密说明单位时间内振动的次数越多，频率越高，音高越高。

但是这样有个问题，就是对于单频率的振动，可以很容易表示出来，而我们听到的声音往往是很复杂的频率的叠加。因为各个频率的波形都叠在一起了，就像把很多个周期振幅相位都不等的三角函数图像加在一起，导致波形图难以直观的看出有用的信息。此时，我们就需要频谱来帮忙了。频谱通过对波形的傅里叶变换，把波形中的每个频率拆开来，再在纵轴上展开，越往上频率越高。频谱是三维的，越亮表示在这个频率上越响，越暗表示越弱。所以频谱相对于波形图，是包含有更多信息的，唯一的缺点就是无法表示整体音量总和的大小，所以一般和波形配合观看。

综上，波形是将声音的振幅图形化，频谱是将声音的频率图形化。

波形声音设备（例如麦克风）可以捕捉声音，并将其转换为数值，然后把它们储存到内存或者磁盘中形成波形文件，波形文件的扩展名是.WAV。这样，声音就可以播放了。波形文件是数字化的波形声音，是一种使用二进制表示的串行比特流，它遵循一定的标准或者规范编码，其数据是按时间顺序组织的。

采样的位数指的是描述数字信号所使用的位数。8位(8bit)代表2的8次方=256，16位(16bit)则代表2的16次方=65536/1024=64K。

采样率（采样频率）是一秒钟内对声音信号的采样次数，采样率越高声音音质理论就越真实，音频文件（波形文件）就越大。

我们可以根据波形文件的头信息获取他的采样，然后从录音缓存区中随着时间顺序去读取对应的一个数值，然后通过这个数值去绘制对应的波形图，但目前没有相应的具体算法被公开。

波形文件的头信息即wav格式的音频数据的头部信息基本上是固定不变的，总共44个字节，包括以下内容：

1."RIFF"（4个字节）

固定字符串，RIFF是英文Resource Interchange File Format的缩写

2.录音数据长度 +（44 -8）（4个字节）

类型可以是int或long，但必须保证类型占4个字节大小

3."WAVE "（4个字节）

固定字符串，表示是wav文件

4."fmt " （4个字节）

固定字符串，注意最后有一个空格

5.size1（4个字节）

值为16，如果为18则最后多了2个字节的附加信息

6.format tag（2个字节）

值为1

7.channel（2个字节）

声道数，1为单声道，2为多声道

8.sampleRate（4个字节）

采样率，值为8000，16000等

9.bytePerSec（4个字节）

每秒所需的字节数

10.blockAlign（2个字节）

每个采样需要的字节数，计算公式：声道数 * 每个采样需要的bit / 8

11.bitPerSample（2个字节）

每个采样需要的bit数，一般为8或16

12."data"（4个字节）

固定字符串

13.size2（4个字节）

录音数据的长度，不包括头部长度。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种音频竖线波形图的生成方法，获取音频后，将波形图每像素和音频的帧数相对应，根据音频数据格式化的形成波形图的像素，处理速度快，图形准确性好，系统开销较佳，可作为波形图标准生成模块供其他功能调用，易于后期维护及使用。

为达到以上目的，本发明采取的技术方案是：

一种音频竖线波形图的生成方法，其特征在于，包括如下步骤：

为一个音频文件创建AVAsset对象，

通过AVAsset对象读取音频文件中的音轨AudioTrack，

通过AVAsset对象读取音频文件中的ASBD数据结构，得到音频文件描述信息，

获取音频文件描述信息中记录的中的声道数Channel和采样率sampleRate，

将音频文件描述信息中记录的音频总时间转换为总帧数，得到总采样帧数，

将总采样帧数除以波形图宽度像素数，得到每像素需要展现的帧数，

生成波形图中的竖线线条时，首先建立宽度像素值个数的矩形区域Layer，然后按每像素一个Layer排列，最后对音轨AudioTrack中的音频数据进行格式化，设定矩形区域Layer的高度。

在上述技术方案的基础上，通过AVAsset对象的AVAssetReader方法从原始数据里获取解码后的音频数据，

将音频数据通过AVAsset对象的ReaderTrackOutput方法形成音频流。

在上述技术方案的基础上，音频流存入读取数据缓冲NextSampleBuffer中，

读取数据缓冲NextSampleBuffer包括以下属性：

缓冲长度bufferLength，

缓冲地址bufferAddress，

其中，通过计算将缓冲长度bufferLength转换为buffer帧数，按帧循环读取当前缓冲，

如果当前帧数小于每像素展现帧数，则当前像素音频数据加冲地址，且所述缓冲地址强制转换为Float数据进行累加，

如果当前帧数等于或大于每像素展现帧数，则视为读满了一个像素的数据。

在上述技术方案的基础上，在当前帧数等于或大于每像素展现帧数时，计算总值/像素帧数得到像素音频均值，保存像素音频均值到音频数据，

在音频数据小于波形图宽时，重复读取下一像素数据。

本发明所述的音频竖线波形图的生成方法，获取音频后，将波形图每像素和音频的帧数相对应，根据音频数据格式化的形成波形图的像素，处理速度快，图形准确性好，系统开销较佳，可作为波形图标准生成模块供其他功能调用，易于后期维护及使用。

附图说明

本发明有如下附图：

图1 本发明的流程图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

如图1所示，本发明所述的音频竖线波形图的生成方法，包括如下步骤：

为一个音频文件创建AVAsset对象，

通过AVAsset对象读取音频文件中的音轨AudioTrack，

通过AVAsset对象读取音频文件中的ASBD数据结构，得到音频文件描述信息，所述ASBD数据结构定义了一个音频流最普遍的特征：它有多少声道，它在什么格式下，比特率等等，

将音频数据通过AVAsset对象的ReaderTrackOutput方法形成音频流。

读取数据缓冲NextSampleBuffer包括以下属性：

缓冲长度bufferLength，

缓冲地址bufferAddress，

在音频数据小于波形图宽时，重复读取下一像素数据。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种音频竖线波形图的生成方法，其特征在于，包括如下步骤：

为一个音频文件创建AVAsset对象，

通过AVAsset对象读取音频文件中的音轨AudioTrack，

所述ASBD数据结构定义了一个音频流最普遍的特征：有多少声道，在什么格式下，比特率，

将总采样帧数除以波形图宽度对应的像素的个数，得到每像素需要展现的帧数，

生成波形图中的竖线线条时，首先按波形图宽度对应的像素的个数建立同样数量的矩形区域Layer，然后按每像素一个Layer排列，最后对音轨AudioTrack中的音频数据进行格式化，设定矩形区域Layer的高度。

2.如权利要求1所述的音频竖线波形图的生成方法，其特征在于：通过AVAsset对象的AVAssetReader方法从原始数据里获取解码后的音频数据，

将音频数据通过AVAsset对象的ReaderTrackOutput方法形成音频流。

3.如权利要求2所述的音频竖线波形图的生成方法，其特征在于：音频流存入名称为NextSampleBuffer的数据缓冲中，

名称为NextSampleBuffer的数据缓冲包括以下属性：

缓冲长度bufferLength，

缓冲地址bufferAddress，

如果当前帧数小于每像素展现帧数，则当前像素音频数据加缓冲地址，且所述缓冲地址强制转换为Float数据进行累加，

4.如权利要求3所述的音频竖线波形图的生成方法，其特征在于：在当前帧数等于或大于每像素展现帧数时，计算总采样帧数/像素帧数得到像素音频均值，保存像素音频均值到音频数据，

在音频数据小于波形图宽时，重复读取下一像素数据。