CN112948326A - 一种基于ffmpeg及sox的音频文件格式统一方法及装置 - Google Patents

一种基于ffmpeg及sox的音频文件格式统一方法及装置 Download PDF

Info

Publication number
CN112948326A
CN112948326A CN202110252519.9A CN202110252519A CN112948326A CN 112948326 A CN112948326 A CN 112948326A CN 202110252519 A CN202110252519 A CN 202110252519A CN 112948326 A CN112948326 A CN 112948326A
Authority
CN
China
Prior art keywords
audio
format
ffmpeg
audio file
sox
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110252519.9A
Other languages
English (en)
Inventor
董金杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Baiying Technology Co Ltd
Original Assignee
Zhejiang Baiying Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Baiying Technology Co Ltd filed Critical Zhejiang Baiying Technology Co Ltd
Priority to CN202110252519.9A priority Critical patent/CN112948326A/zh
Publication of CN112948326A publication Critical patent/CN112948326A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本发明涉及一种基于ffmpeg及sox的音频文件格式统一方法及装置,包括以下步骤,(1)输入初始音频文件;(2)获取并识别初始音频文件格式;(3)通过sox工具或ffmpeg工具进行转换得到标准wav音频文件。针对不同格式的音频文件例如mp3,aac,flag,amr,adpcm编码的wav文件、ogg格式音频和vox格式音频的初始音频使用sox工具或ffmpeg工具进行格式转化,得到标准wav文件,采用java的javax.sound.sampled.AudioSystem类对标准wav进行读取,最终得到标准wav格式音频文件,以便后续对音频进行质检等后续业务处理,增加音频识别及质检的准确性,减轻客户负担。

Description

一种基于ffmpeg及sox的音频文件格式统一方法及装置
技术领域
本发明涉及音频检测技术领域,具体为一种基于ffmpeg及sox的音频文件格式统一方法及装置。
背景技术
音频格式是指要在计算机内播放或是处理音频文件,是对声音文件进行数、模转换的过程,目前多为PCM(脉冲编码调制)语音数据,而常见的音频格式又分为MP3、Ogg、AMR、FLAC、AIFF等格式,而作为微软公司开发的最为常见的音频格式之一的WAV格式是一种标准数字音频文件,支持MSADPCM、CCITTALAW等多种压缩算法,能够记录各种单声道或立体声的声音信息,并且可以保证声音不失真,真实记录自然声波形,基本无数据压缩。
由于WAV支持多种音频数字、取样音频和声道,标准格式化的WAV文件与CD格式一样,声音文件质量与CD相差无几,因此在对音频检测的过程中,尝尝需要用到WAV格式的音频进行检测,以保证检测的准确性。
但是由于业务处理中,要求客户独自提供标准的wav音频文件,从而解析出PCM音频流,对客户的要求过高,对于只能提供非标准wav音频文件的客户,又无法满足质检等业务处理需求,因此本发明提出一种基于ffmpeg及sox的音频文件格式统一方法,方便客户进行格式转换操作以便进行后期的音频检测。
发明内容
针对现有方案的不足,本发明公开了一种基于ffmpeg及sox的音频文件格式统一方法及装置。
本发明技术方案是:一种基于ffmpeg及sox的音频文件格式统一方法,包括如下步骤:
(1)输入初始音频文件;
(2)获取并识别初始音频文件格式;
(3)通过sox工具或ffmpeg工具进行转换得到标准wav音频文件。
优选地,输入的初始音频格式为mp3格式,aac格式,flag格式,amr格式,adpcm编码或非pcm编码的wav格式,ogg格式,vox格式中的一种。
优选地,识别初始音频格式过程中,若音频为wav格式音频,通过音频读取工具进行读取;判断是否为标准wav格式音频。
优选地,识别初始音频格式过程中,若音频为vox格式音频,通过sox工具进行转换得到标准wav音频文件。
优选地,识别初始音频格式过程中,若音频为非vox格式音频,通过ffmpeg工具进行转换得到标准wav音频文件。
优选地,所述的音频读取工具为java的javax.sound.sampled.AudioSystem类。
优选地,判断为非标准wav格式音频,则通过ffmpeg工具进行转换得到标准wav音频文件。
一种基于ffmpeg及sox的音频文件格式统一装置,其包括
音频接收模块,用于接收初始音频文件;
音频格式判断模块,用于判断初始音频文件的格式;
音频读取模块,用于读取音频格式为wav的音频文件;
音频转换模块,包括ffmpeg工具和sox工具,用于将非标准wav音频文件转换成标准wav音频文件。
本发明的有益效果是:
本方法可将市面上主流的mp3,aac,flag,amr,adpcm编码的wav文件、ogg格式音频和vox格式音频转换为标准的wav文件,满足进行质检等后续业务处理的需求,并且操作简单,对于无法提供标准的wav音频文件而导致无法满足业务处理需求的客户来说节省了客户寻找第三方解决问题的成本并且操作简单高效,有利于推广使用。
附图说明
图1为本发明方法流程图。
具体实施方式
为进一步了解本发明的内容,结合实施例对本发明作详细描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本实施例涉及一种基于ffmpeg及sox的音频文件格式统一方法,包括如下步骤:
(1)输入初始音频文件;输入的初始音频格式为mp3格式,aac格式,flag格式,amr格式,adpcm编码或非pcm编码的wav格式,ogg格式,vox格式中的一种;
(2)获取并识别初始音频文件格式;若音频为wav格式音频,通过音频读取工具进行读取;如果能够正常读取,则为标准wav格式音频,如果不能读取,则为非标准wav格式音频,需要通过ffmpeg工具进行转换得到标准wav音频文件;若音频为vox格式音频,通过sox工具进行转换得到标准wav音频文件。若音频为非vox格式音频,通过ffmpeg工具进行转换得到标准wav音频文件。
所述的音频读取工具为java的javax.sound.sampled.AudioSystem类。
一种基于ffmpeg及sox的音频文件格式统一装置,用于上述方法,其包括
音频接收模块,用于接收初始音频文件;
音频格式判断模块,用于判断初始音频文件的格式;
音频读取模块,用于读取音频格式为wav的音频文件;
音频转换模块,包括ffmpeg工具和sox工具,用于将非标准wav音频文件转换成标准wav音频文件。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方案,实际的结构并不局限于此。所以本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (8)

1.一种基于ffmpeg及sox的音频文件格式统一方法,其特征在于:其包括以下步骤:
(1)输入初始音频文件;
(2)获取并识别初始音频文件格式;
(3)通过sox工具或ffmpeg工具进行转换得到标准wav音频文件。
2.根据权利要求1所述的基于ffmpeg及sox的音频文件格式统一方法,其特征在于:输入的初始音频格式为mp3格式,aac格式,flag格式,amr格式,adpcm编码或非pcm编码的wav格式,ogg格式,vox格式中的一种。
3.根据权利要求1所述的基于ffmpeg及sox的音频文件格式统一方法,其特征在于:识别初始音频格式过程中,若音频为wav格式音频,通过音频读取工具进行读取;判断是否为标准wav格式音频。
4.根据权利要求1所述的基于ffmpeg及sox的音频文件格式统一方法,其特征在于:识别初始音频格式过程中,若音频为vox格式音频,通过sox工具进行转换得到标准wav音频文件。
5.根据权利要求1所述的基于ffmpeg及sox的音频文件格式统一方法,其特征在于:识别初始音频格式过程中,若音频为非vox格式音频,通过ffmpeg工具进行转换得到标准wav音频文件。
6.根据权利要求3所述的基于ffmpeg及sox的音频文件格式统一方法,其特征在于:所述的音频读取工具为java的javax.sound.sampled.AudioSystem类。
7.根据权利要求3所述的基于ffmpeg及sox的音频文件格式统一方法,其特征在于:判断为非标准wav格式音频,则通过ffmpeg工具进行转换得到标准wav音频文件。
8.一种基于ffmpeg及sox的音频文件格式统一装置,其特征在于:使用上述1-7任意一项权利要求所述的方法,其包括
音频接收模块,用于接收初始音频文件;
音频格式判断模块,用于判断初始音频文件的格式;
音频读取模块,用于读取音频格式为wav的音频文件;
音频转换模块,包括ffmpeg工具和sox工具,用于将非标准wav音频文件转换成标准wav音频文件。
CN202110252519.9A 2021-03-09 2021-03-09 一种基于ffmpeg及sox的音频文件格式统一方法及装置 Pending CN112948326A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110252519.9A CN112948326A (zh) 2021-03-09 2021-03-09 一种基于ffmpeg及sox的音频文件格式统一方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110252519.9A CN112948326A (zh) 2021-03-09 2021-03-09 一种基于ffmpeg及sox的音频文件格式统一方法及装置

Publications (1)

Publication Number Publication Date
CN112948326A true CN112948326A (zh) 2021-06-11

Family

ID=76228674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110252519.9A Pending CN112948326A (zh) 2021-03-09 2021-03-09 一种基于ffmpeg及sox的音频文件格式统一方法及装置

Country Status (1)

Country Link
CN (1) CN112948326A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008040245A (ja) * 2006-08-08 2008-02-21 Mitsubishi Electric Corp Mpeg4−aacフォーマット変換装置
CN110047472A (zh) * 2019-03-15 2019-07-23 平安科技(深圳)有限公司 语音信息的批量转换方法、装置、计算机设备及存储介质
CN110176256A (zh) * 2019-04-15 2019-08-27 平安科技(深圳)有限公司 录音文件格式转换方法、装置、计算机设备以及存储介质
CN111078930A (zh) * 2019-12-13 2020-04-28 集奥聚合(北京)人工智能科技有限公司 音频文件数据处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008040245A (ja) * 2006-08-08 2008-02-21 Mitsubishi Electric Corp Mpeg4−aacフォーマット変換装置
CN110047472A (zh) * 2019-03-15 2019-07-23 平安科技(深圳)有限公司 语音信息的批量转换方法、装置、计算机设备及存储介质
CN110176256A (zh) * 2019-04-15 2019-08-27 平安科技(深圳)有限公司 录音文件格式转换方法、装置、计算机设备以及存储介质
CN111078930A (zh) * 2019-12-13 2020-04-28 集奥聚合(北京)人工智能科技有限公司 音频文件数据处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
(美)J.MAGID等著;李谦等译, 机械工业出版社 *

Similar Documents

Publication Publication Date Title
US10977299B2 (en) Systems and methods for consolidating recorded content
US8150687B2 (en) Recognizing speech, and processing data
JP4619623B2 (ja) ボイスメッセージ処理システムおよび方法
US20050222843A1 (en) System for permanent alignment of text utterances to their associated audio utterances
JP5088741B2 (ja) 2者間の対話の音声データを処理するシステム、方法およびプログラム
WO2015008162A2 (en) Systems and methods for textual content creation from sources of audio that contain speech
US8620670B2 (en) Automatic realtime speech impairment correction
CN102522084A (zh) 一种将语音数据转换为文本文件的方法和系统
CN107591167B (zh) 一种实现车载多媒体音频兼容性自动检测的方法及系统
US20080281599A1 (en) Processing audio data
CN111417054B (zh) 多音频数据通道阵列生成方法、装置、电子设备和存储介质
Grigoras et al. Analytical framework for digital audio authentication
CN112948326A (zh) 一种基于ffmpeg及sox的音频文件格式统一方法及装置
JP2003131700A (ja) 音声情報出力装置及びその方法
CN111261194A (zh) 一种基于pcm技术的音量分析方法
Plichta et al. Digitizing speech recordings for archival purposes
US5893900A (en) Method and apparatus for indexing an analog audio recording and editing a digital version of the indexed audio recording
US6594601B1 (en) System and method of aligning signals
CN213694055U (zh) 一种语音采集设备
Koenig et al. Selected Characteristics of MP3 Files Re-encoded With Audio Editing Software
KR970066847A (ko) 데이터 기록방법 및 그 장치
CN1103105C (zh) 用于记录和/或再现一脉冲码调制数字音频信号的系统
Ahn et al. A comparative analysis of metadata structures and attributes of Samsung smartphone voice recording files for forensic use
CN116994597B (zh) 一种音频处理系统、方法及存储介质
CN108399921A (zh) 一种音频竖线波形图的生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210611

RJ01 Rejection of invention patent application after publication