CN111261194A - 一种基于pcm技术的音量分析方法 - Google Patents

一种基于pcm技术的音量分析方法 Download PDF

Info

Publication number
CN111261194A
CN111261194A CN202010352652.7A CN202010352652A CN111261194A CN 111261194 A CN111261194 A CN 111261194A CN 202010352652 A CN202010352652 A CN 202010352652A CN 111261194 A CN111261194 A CN 111261194A
Authority
CN
China
Prior art keywords
audio
acquiring
information
array
pcm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010352652.7A
Other languages
English (en)
Inventor
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Baiying Technology Co Ltd
Original Assignee
Zhejiang Baiying Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Baiying Technology Co Ltd filed Critical Zhejiang Baiying Technology Co Ltd
Priority to CN202010352652.7A priority Critical patent/CN111261194A/zh
Publication of CN111261194A publication Critical patent/CN111261194A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H17/00Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves, not provided for in the preceding groups
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Abstract

本发明涉及一种基于PCM技术的音量分析方法,包括以下步骤:S1:输入待测音频信号,并将其转化为PCM音频数据裸流,得到WAV格式音频数据;S2:分析WAV音频,通过头部信息,获取音频数据的采样频率和量化位数;S3:剥离WAV音频的头部信息,根据剩余的字节数据获取byte数组;S4:获取当前需要分析的声道信息和时间信息;S5:利用步骤S2、S3、S4中以获取的信息,计算得到short数组;S6:基于short数组计算均方差,并将其记为rms;S7:将rms输入DBSPL公式进行转换,计算得到音量值。本发明能够更好的描述声压级,通过转换得到正数的音量值描述音频音量,提供更好的音频分析质检能力。

Description

一种基于PCM技术的音量分析方法
技术领域
本发明涉及语言分析技术,具体涉及一种基于PCM技术的音量分析方法。
背景技术
音频是多媒体中的一种重要媒体。我们能够听见的音频信号的频率范围大约是20Hz-2OkHz,其中语音大约分布在300Hz-4kHz之内,而音乐和其他自然声响是全范围分布的。声音经过模拟设备记录或再生,成为模拟音频,再经数字化成为数字音频。这里所说的音频分析就是以数字音频信号为分析对象,以数字信号处理为分析手段,提取信号在时域、频域内一系列特性的过程。
各种特定频率范围的音频分析有各自不同的应用领域。例如,对于300-4kHz之间的语音信号的分析主要应用于语音识别,其用途是确定语音内容或判断说话者的身份;而对于20-20kHz之间的全范围的语音信号分析则可以用来衡量各类音频设备的性能。所谓音频设备就是将实际的声音拾取到将声音播放出来的全部过程中需要用到的各类电子设备,例如话筒、功率放大器、扬声器等,衡量音频设备的主要技术指标有频率响应特性、谐波失真、信噪比、动态范围等。
而在现有的音频分析和质量检查中,缺少音量的分析,导致对客服和用户的声音描述上缺少一定的音量信息,无法很好的分析讲话声音大小对客服服务的影响。
且Java类库中没有发现很好的对于音频音量的计算类库,常规音量计算方法的参照值为满刻度电平,因此计算值大多用于计算机领域描述,得到的为负值,无法很好的描述日常声压级(即正数的音量值)。
负数的音量对于用户难以理解和配置,无法形成好的产品输出。
发明内容
为了解决上述问题,本发明提供了一种基于PCM技术的音量分析方法,通过不同于满刻度电平的音量计算方式,更好的描述声压级,通过转换得到正数的音量值描述音频音量,通过产品化输出提供更好的音频分析质检能力。
本发明的技术方案如下所示:
一种基于PCM技术的音量分析方法,包括以下步骤:
S1:输入待测音频信号,并将其转化为标准WAV格式音频数据;
S2:获取所述标准WAV格式音频数据的前44字节的头部信息和剩余数据区的PCM音频数据裸流;
S3:分析WAV音频,通过头部信息,获取音频数据的采样频率和量化位数;
S4:剥离WAV音频的头部信息,根据剩余的字节数据获取byte数组;
S5:获取当前需要分析的声道信息和时间信息;
S6:利用步骤S2、S3、S4、S5中以获取的信息,计算得到short数组;
S7:基于short数组计算均方差,并将其记为rms;
S8:将rms输入DBSPL公式进行转换,计算得到音量值。
优选的,所述步骤S1中使用转换类库或通用工具类库将输入的非WAV格式的待测音频信号转换成为WAV格式音频数据。
优选的,所述步骤S2中的头部信息为WAV音频的前44字节的信息。
优选的,所述步骤S5中short数组的计算过程为:获取45字节到末尾的全量PCM音频数据byte数组,根据当前使用的CPU信息判断大小端存储,并通过计算将byte数组计算得到short数组。
优选的,所述步骤S5中short数组的计算过程还包括:根据场景分析音频声道数,若为双声道,则获取当前需要分析的声道信息,然后将short数组进行以2取模后拆分为左右声道的两个short数组,并根据需要分析音量的声道和时间段获取对应的一段short数组。
优选的,所述均方差的计算公式为:
Figure 424507DEST_PATH_IMAGE001
,其中
Figure 309286DEST_PATH_IMAGE002
为样本值,
Figure 412806DEST_PATH_IMAGE003
为样本平均值,
Figure 674023DEST_PATH_IMAGE004
为样本数量,
Figure 155951DEST_PATH_IMAGE005
为均方差。
更优选的,所述DBSPL公式为:
Figure 149315DEST_PATH_IMAGE006
Figure 965961DEST_PATH_IMAGE007
本发明的有益效果为:本发明相对于传统的满刻度电平的音量计算方式,能够更好的描述声压级,通过转换得到正数的音量值描述音频音量;本发明还通过产品化输出提供更好的音频分析质检能力;且方便用户配置使用。
附图说明
图1为本发明的实现流程图示意图。
具体实施方式
下面将结合附图对本发明的实施例作进一步说明。
如图1所示,一种基于PCM技术的音量分析方法,包括:
1.首先将音频进行规整,转化为基础的PCM音频数据裸流,这里使用转换类库或通用工具类库将非WAV格式音频转换成为WAV格式音频数据。
2.分析WAV音频,通过前44字节的头信息,分析得到音频的采样频率,量化位数值。
3.剥离WAV的头部信息,获取45字节到末尾的全量PCM音频数据byte数组,根据当前使用的CPU信息判断大小端存储,并通过计算将byte数组计算得到short数组,用于描述每一个音频采样点的量化值。short数组的计算涉及到位运算和大小端存储模式,本实施例中使用通用工具类进行转换。
5.根据场景分析音频声道数,如果为双声道,则获取当前需要分析的声道信息,然后通过将short数组进行以2取模后拆分为左右声道的两个short数组,并且根据需要分析音量的声道和时间段获取对应的一段short数组。
4.基于本段short数组,通过均方差公式:
Figure 516022DEST_PATH_IMAGE001
计算short数组的均方差,即本段音频数字信号的有效值,记为rms。其中
Figure 101725DEST_PATH_IMAGE002
为样本值,
Figure 344618DEST_PATH_IMAGE003
为样本平均值,
Figure 586244DEST_PATH_IMAGE004
为样本数量,
Figure 923684DEST_PATH_IMAGE005
为标准差,在本实施例中指的是均方差。
5.将rms输入DBSPL公式:
Figure 380204DEST_PATH_IMAGE006
进行转换,计算得到音量值。其中
Figure 777688DEST_PATH_IMAGE008
为音量值,
Figure 506609DEST_PATH_IMAGE009
指的是上述步骤4中计算得到的
Figure 398473DEST_PATH_IMAGE005
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (6)

1.一种基于PCM技术的音量分析方法,其特征在于,包括以下步骤:
S1:输入待测音频信号,并将其转化为标准WAV格式音频数据;
S2:获取所述标准WAV格式音频数据的前44字节的头部信息和剩余数据区的PCM音频数据裸流;
S3:分析WAV音频,通过头部信息,获取音频数据的采样频率和量化位数;
S4:剥离WAV音频的头部信息,根据剩余的字节数据获取byte数组;
S5:获取当前需要分析的声道信息和时间信息;
S6:利用步骤S2、S3、S4、S5中以获取的信息,计算得到short数组;
S7:基于short数组计算均方差,并将其记为rms;
S8:将rms输入DBSPL公式进行转换,计算得到音量值。
2.根据权利要求1所述基于PCM技术的音量分析方法,其特征在于,所述步骤S1中使用转换类库或通用工具类库将输入的非WAV格式的待测音频信号转换成为WAV格式音频数据。
3.根据权利要求2所述基于PCM技术的音量分析方法,其特征在于,所述步骤S5中short数组的计算过程为:获取45字节到末尾的全量PCM音频数据byte数组,根据当前使用的CPU信息判断大小端存储,并通过计算将byte数组计算得到short数组。
4.根据权利要求4所述基于PCM技术的音量分析方法,其特征在于,所述步骤S5中short数组的计算过程还包括:根据场景分析音频声道数,若为双声道,则获取当前需要分析的声道信息,并将short数组进行以2取模后拆分为左右声道的两个short数组,根据需要分析音量的声道和时间段获取对应的一段short数组。
5.根据权利要求1所述基于PCM技术的音量分析方法,其特征在于,所述均方差的计算公为:
Figure DEST_PATH_IMAGE001
6.根据权利要求5所述基于PCM技术的音量分析方法,其特征在于,所述DBSPL公式为:
Figure DEST_PATH_IMAGE002
CN202010352652.7A 2020-04-29 2020-04-29 一种基于pcm技术的音量分析方法 Pending CN111261194A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010352652.7A CN111261194A (zh) 2020-04-29 2020-04-29 一种基于pcm技术的音量分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010352652.7A CN111261194A (zh) 2020-04-29 2020-04-29 一种基于pcm技术的音量分析方法

Publications (1)

Publication Number Publication Date
CN111261194A true CN111261194A (zh) 2020-06-09

Family

ID=70951679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010352652.7A Pending CN111261194A (zh) 2020-04-29 2020-04-29 一种基于pcm技术的音量分析方法

Country Status (1)

Country Link
CN (1) CN111261194A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111724824A (zh) * 2020-06-11 2020-09-29 北京凯视达信息技术有限公司 一种音频的储存和检索方法
CN112242150A (zh) * 2020-09-30 2021-01-19 上海佰贝科技发展股份有限公司 一种检测立体声的方法及其系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1096477A2 (en) * 1999-10-26 2001-05-02 Sony Corporation Apparatus for converting reproducing speed and method of converting reproducing speed
CN1495705A (zh) * 1995-12-01 2004-05-12 ���־糡ϵͳ�ɷ����޹�˾ 多通道声码器
CN1867968A (zh) * 2003-10-08 2006-11-22 J.W.联合公司 用于声音压缩的系统和方法
JP2011081316A (ja) * 2009-10-09 2011-04-21 Sanyo Electric Co Ltd 音量制御装置及び電子機器
CN102547523A (zh) * 2011-12-15 2012-07-04 无锡中星微电子有限公司 一种音量调节的方法及装置
CN105531759A (zh) * 2013-09-12 2016-04-27 杜比实验室特许公司 用于下混合音频内容的响度调整
WO2018015752A1 (en) * 2016-07-20 2018-01-25 Malcolm Law Sample synchronisation
CN110322898A (zh) * 2019-05-28 2019-10-11 平安科技(深圳)有限公司 婴儿哭声检测方法、装置及计算机可读存储介质
CN110808067A (zh) * 2019-11-08 2020-02-18 福州大学 基于二值多频带能量分布的低信噪比声音事件检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1495705A (zh) * 1995-12-01 2004-05-12 ���־糡ϵͳ�ɷ����޹�˾ 多通道声码器
EP1096477A2 (en) * 1999-10-26 2001-05-02 Sony Corporation Apparatus for converting reproducing speed and method of converting reproducing speed
CN1867968A (zh) * 2003-10-08 2006-11-22 J.W.联合公司 用于声音压缩的系统和方法
JP2011081316A (ja) * 2009-10-09 2011-04-21 Sanyo Electric Co Ltd 音量制御装置及び電子機器
CN102547523A (zh) * 2011-12-15 2012-07-04 无锡中星微电子有限公司 一种音量调节的方法及装置
CN105531759A (zh) * 2013-09-12 2016-04-27 杜比实验室特许公司 用于下混合音频内容的响度调整
WO2018015752A1 (en) * 2016-07-20 2018-01-25 Malcolm Law Sample synchronisation
CN110322898A (zh) * 2019-05-28 2019-10-11 平安科技(深圳)有限公司 婴儿哭声检测方法、装置及计算机可读存储介质
CN110808067A (zh) * 2019-11-08 2020-02-18 福州大学 基于二值多频带能量分布的低信噪比声音事件检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YWL5320: "获取PCM音频数据的声音分贝值", 《CSDN》 *
今忆ZOE: "通过pcm音频数据计算分贝", 《简书》 *
永恒哎哎: "基于pcm音频的音量分析", 《简书》 *
痞子衡: "痞子衡嵌入式:PCM编码与Waveform音频文件(.wav)格式详解", 《博客园》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111724824A (zh) * 2020-06-11 2020-09-29 北京凯视达信息技术有限公司 一种音频的储存和检索方法
CN112242150A (zh) * 2020-09-30 2021-01-19 上海佰贝科技发展股份有限公司 一种检测立体声的方法及其系统
CN112242150B (zh) * 2020-09-30 2024-04-12 上海佰贝科技发展股份有限公司 一种检测立体声的方法及其系统

Similar Documents

Publication Publication Date Title
CN101202087B (zh) 音频录音测试装置及方法
CN108597498A (zh) 一种多麦克风语音采集方法及装置
CN101023469A (zh) 数字滤波方法和装置
US6246978B1 (en) Method and system for measurement of speech distortion from samples of telephonic voice signals
CN111261194A (zh) 一种基于pcm技术的音量分析方法
CN101192182B (zh) 音频放音测试装置及方法
CN113259832A (zh) 麦克风阵列的检测方法、装置、电子设备及存储介质
WO2018058989A1 (zh) 一种音频信号的重建方法和装置
CN112492453A (zh) 一种针对音频接口的自动化检测方法
CN111107284A (zh) 一种视频字幕实时生成系统及生成方法
CN107403629B (zh) 远场拾音性能评价方法和系统、电子设备
JP2006227330A (ja) 音響信号に対する情報の埋め込み装置・方法、音響信号からの情報の抽出装置・方法
Jiang et al. Analysis and modeling of timbre perception features of chinese musical instruments
CN114121038A (zh) 音响语音测试方法、装置、设备及存储介质
CN111028860B (zh) 音频数据处理方法、装置、计算机设备以及存储介质
CN111885474A (zh) 麦克风测试方法及装置
CN115691556B (zh) 一种设备端多通道语音质量的检测方法
CN112233693A (zh) 一种音质评估方法、装置和设备
US5899974A (en) Compressing speech into a digital format
CN115145531A (zh) 一种自定义声卡系统
CN111933156B (zh) 基于多重特征识别的高保真音频处理方法及装置
TWI390397B (zh) 音頻錄音測試裝置及方法
Al-saif et al. Synthesis and Characterization of Some Age classification using speech signal
CN116778954A (zh) 一种广播系统静音检测方法、音频输出设备及存储介质
CN114927127A (zh) 一种多媒体音频分析和处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200609

RJ01 Rejection of invention patent application after publication