CN112948326A - 一种基于ffmpeg及sox的音频文件格式统一方法及装置 - Google Patents
一种基于ffmpeg及sox的音频文件格式统一方法及装置 Download PDFInfo
- Publication number
- CN112948326A CN112948326A CN202110252519.9A CN202110252519A CN112948326A CN 112948326 A CN112948326 A CN 112948326A CN 202110252519 A CN202110252519 A CN 202110252519A CN 112948326 A CN112948326 A CN 112948326A
- Authority
- CN
- China
- Prior art keywords
- audio
- format
- ffmpeg
- audio file
- sox
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000006243 chemical reaction Methods 0.000 claims abstract description 6
- 238000007689 inspection Methods 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本发明涉及一种基于ffmpeg及sox的音频文件格式统一方法及装置,包括以下步骤,(1)输入初始音频文件;(2)获取并识别初始音频文件格式;(3)通过sox工具或ffmpeg工具进行转换得到标准wav音频文件。针对不同格式的音频文件例如mp3,aac,flag,amr,adpcm编码的wav文件、ogg格式音频和vox格式音频的初始音频使用sox工具或ffmpeg工具进行格式转化,得到标准wav文件,采用java的javax.sound.sampled.AudioSystem类对标准wav进行读取,最终得到标准wav格式音频文件,以便后续对音频进行质检等后续业务处理,增加音频识别及质检的准确性,减轻客户负担。
Description
技术领域
本发明涉及音频检测技术领域,具体为一种基于ffmpeg及sox的音频文件格式统一方法及装置。
背景技术
音频格式是指要在计算机内播放或是处理音频文件,是对声音文件进行数、模转换的过程,目前多为PCM(脉冲编码调制)语音数据,而常见的音频格式又分为MP3、Ogg、AMR、FLAC、AIFF等格式,而作为微软公司开发的最为常见的音频格式之一的WAV格式是一种标准数字音频文件,支持MSADPCM、CCITTALAW等多种压缩算法,能够记录各种单声道或立体声的声音信息,并且可以保证声音不失真,真实记录自然声波形,基本无数据压缩。
由于WAV支持多种音频数字、取样音频和声道,标准格式化的WAV文件与CD格式一样,声音文件质量与CD相差无几,因此在对音频检测的过程中,尝尝需要用到WAV格式的音频进行检测,以保证检测的准确性。
但是由于业务处理中,要求客户独自提供标准的wav音频文件,从而解析出PCM音频流,对客户的要求过高,对于只能提供非标准wav音频文件的客户,又无法满足质检等业务处理需求,因此本发明提出一种基于ffmpeg及sox的音频文件格式统一方法,方便客户进行格式转换操作以便进行后期的音频检测。
发明内容
针对现有方案的不足,本发明公开了一种基于ffmpeg及sox的音频文件格式统一方法及装置。
本发明技术方案是:一种基于ffmpeg及sox的音频文件格式统一方法,包括如下步骤:
(1)输入初始音频文件;
(2)获取并识别初始音频文件格式;
(3)通过sox工具或ffmpeg工具进行转换得到标准wav音频文件。
优选地,输入的初始音频格式为mp3格式,aac格式,flag格式,amr格式,adpcm编码或非pcm编码的wav格式,ogg格式,vox格式中的一种。
优选地,识别初始音频格式过程中,若音频为wav格式音频,通过音频读取工具进行读取;判断是否为标准wav格式音频。
优选地,识别初始音频格式过程中,若音频为vox格式音频,通过sox工具进行转换得到标准wav音频文件。
优选地,识别初始音频格式过程中,若音频为非vox格式音频,通过ffmpeg工具进行转换得到标准wav音频文件。
优选地,所述的音频读取工具为java的javax.sound.sampled.AudioSystem类。
优选地,判断为非标准wav格式音频,则通过ffmpeg工具进行转换得到标准wav音频文件。
一种基于ffmpeg及sox的音频文件格式统一装置,其包括
音频接收模块,用于接收初始音频文件;
音频格式判断模块,用于判断初始音频文件的格式;
音频读取模块,用于读取音频格式为wav的音频文件;
音频转换模块,包括ffmpeg工具和sox工具,用于将非标准wav音频文件转换成标准wav音频文件。
本发明的有益效果是:
本方法可将市面上主流的mp3,aac,flag,amr,adpcm编码的wav文件、ogg格式音频和vox格式音频转换为标准的wav文件,满足进行质检等后续业务处理的需求,并且操作简单,对于无法提供标准的wav音频文件而导致无法满足业务处理需求的客户来说节省了客户寻找第三方解决问题的成本并且操作简单高效,有利于推广使用。
附图说明
图1为本发明方法流程图。
具体实施方式
为进一步了解本发明的内容,结合实施例对本发明作详细描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本实施例涉及一种基于ffmpeg及sox的音频文件格式统一方法,包括如下步骤:
(1)输入初始音频文件;输入的初始音频格式为mp3格式,aac格式,flag格式,amr格式,adpcm编码或非pcm编码的wav格式,ogg格式,vox格式中的一种;
(2)获取并识别初始音频文件格式;若音频为wav格式音频,通过音频读取工具进行读取;如果能够正常读取,则为标准wav格式音频,如果不能读取,则为非标准wav格式音频,需要通过ffmpeg工具进行转换得到标准wav音频文件;若音频为vox格式音频,通过sox工具进行转换得到标准wav音频文件。若音频为非vox格式音频,通过ffmpeg工具进行转换得到标准wav音频文件。
所述的音频读取工具为java的javax.sound.sampled.AudioSystem类。
一种基于ffmpeg及sox的音频文件格式统一装置,用于上述方法,其包括
音频接收模块,用于接收初始音频文件;
音频格式判断模块,用于判断初始音频文件的格式;
音频读取模块,用于读取音频格式为wav的音频文件;
音频转换模块,包括ffmpeg工具和sox工具,用于将非标准wav音频文件转换成标准wav音频文件。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方案,实际的结构并不局限于此。所以本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (8)
1.一种基于ffmpeg及sox的音频文件格式统一方法,其特征在于:其包括以下步骤:
(1)输入初始音频文件;
(2)获取并识别初始音频文件格式;
(3)通过sox工具或ffmpeg工具进行转换得到标准wav音频文件。
2.根据权利要求1所述的基于ffmpeg及sox的音频文件格式统一方法,其特征在于:输入的初始音频格式为mp3格式,aac格式,flag格式,amr格式,adpcm编码或非pcm编码的wav格式,ogg格式,vox格式中的一种。
3.根据权利要求1所述的基于ffmpeg及sox的音频文件格式统一方法,其特征在于:识别初始音频格式过程中,若音频为wav格式音频,通过音频读取工具进行读取;判断是否为标准wav格式音频。
4.根据权利要求1所述的基于ffmpeg及sox的音频文件格式统一方法,其特征在于:识别初始音频格式过程中,若音频为vox格式音频,通过sox工具进行转换得到标准wav音频文件。
5.根据权利要求1所述的基于ffmpeg及sox的音频文件格式统一方法,其特征在于:识别初始音频格式过程中,若音频为非vox格式音频,通过ffmpeg工具进行转换得到标准wav音频文件。
6.根据权利要求3所述的基于ffmpeg及sox的音频文件格式统一方法,其特征在于:所述的音频读取工具为java的javax.sound.sampled.AudioSystem类。
7.根据权利要求3所述的基于ffmpeg及sox的音频文件格式统一方法,其特征在于:判断为非标准wav格式音频,则通过ffmpeg工具进行转换得到标准wav音频文件。
8.一种基于ffmpeg及sox的音频文件格式统一装置,其特征在于:使用上述1-7任意一项权利要求所述的方法,其包括
音频接收模块,用于接收初始音频文件;
音频格式判断模块,用于判断初始音频文件的格式;
音频读取模块,用于读取音频格式为wav的音频文件;
音频转换模块,包括ffmpeg工具和sox工具,用于将非标准wav音频文件转换成标准wav音频文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110252519.9A CN112948326A (zh) | 2021-03-09 | 2021-03-09 | 一种基于ffmpeg及sox的音频文件格式统一方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110252519.9A CN112948326A (zh) | 2021-03-09 | 2021-03-09 | 一种基于ffmpeg及sox的音频文件格式统一方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112948326A true CN112948326A (zh) | 2021-06-11 |
Family
ID=76228674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110252519.9A Pending CN112948326A (zh) | 2021-03-09 | 2021-03-09 | 一种基于ffmpeg及sox的音频文件格式统一方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112948326A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008040245A (ja) * | 2006-08-08 | 2008-02-21 | Mitsubishi Electric Corp | Mpeg4−aacフォーマット変換装置 |
CN110047472A (zh) * | 2019-03-15 | 2019-07-23 | 平安科技(深圳)有限公司 | 语音信息的批量转换方法、装置、计算机设备及存储介质 |
CN110176256A (zh) * | 2019-04-15 | 2019-08-27 | 平安科技(深圳)有限公司 | 录音文件格式转换方法、装置、计算机设备以及存储介质 |
CN111078930A (zh) * | 2019-12-13 | 2020-04-28 | 集奥聚合(北京)人工智能科技有限公司 | 音频文件数据处理方法及装置 |
-
2021
- 2021-03-09 CN CN202110252519.9A patent/CN112948326A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008040245A (ja) * | 2006-08-08 | 2008-02-21 | Mitsubishi Electric Corp | Mpeg4−aacフォーマット変換装置 |
CN110047472A (zh) * | 2019-03-15 | 2019-07-23 | 平安科技(深圳)有限公司 | 语音信息的批量转换方法、装置、计算机设备及存储介质 |
CN110176256A (zh) * | 2019-04-15 | 2019-08-27 | 平安科技(深圳)有限公司 | 录音文件格式转换方法、装置、计算机设备以及存储介质 |
CN111078930A (zh) * | 2019-12-13 | 2020-04-28 | 集奥聚合(北京)人工智能科技有限公司 | 音频文件数据处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
(美)J.MAGID等著;李谦等译, 机械工业出版社 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10977299B2 (en) | Systems and methods for consolidating recorded content | |
US8150687B2 (en) | Recognizing speech, and processing data | |
JP4619623B2 (ja) | ボイスメッセージ処理システムおよび方法 | |
US20050222843A1 (en) | System for permanent alignment of text utterances to their associated audio utterances | |
JP5088741B2 (ja) | 2者間の対話の音声データを処理するシステム、方法およびプログラム | |
WO2015008162A2 (en) | Systems and methods for textual content creation from sources of audio that contain speech | |
US8620670B2 (en) | Automatic realtime speech impairment correction | |
CN102522084A (zh) | 一种将语音数据转换为文本文件的方法和系统 | |
CN107591167B (zh) | 一种实现车载多媒体音频兼容性自动检测的方法及系统 | |
US20080281599A1 (en) | Processing audio data | |
CN111417054B (zh) | 多音频数据通道阵列生成方法、装置、电子设备和存储介质 | |
Grigoras et al. | Analytical framework for digital audio authentication | |
CN112948326A (zh) | 一种基于ffmpeg及sox的音频文件格式统一方法及装置 | |
JP2003131700A (ja) | 音声情報出力装置及びその方法 | |
CN111261194A (zh) | 一种基于pcm技术的音量分析方法 | |
Plichta et al. | Digitizing speech recordings for archival purposes | |
US5893900A (en) | Method and apparatus for indexing an analog audio recording and editing a digital version of the indexed audio recording | |
US6594601B1 (en) | System and method of aligning signals | |
CN213694055U (zh) | 一种语音采集设备 | |
Koenig et al. | Selected Characteristics of MP3 Files Re-encoded With Audio Editing Software | |
KR970066847A (ko) | 데이터 기록방법 및 그 장치 | |
CN1103105C (zh) | 用于记录和/或再现一脉冲码调制数字音频信号的系统 | |
Ahn et al. | A comparative analysis of metadata structures and attributes of Samsung smartphone voice recording files for forensic use | |
CN116994597B (zh) | 一种音频处理系统、方法及存储介质 | |
CN108399921A (zh) | 一种音频竖线波形图的生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210611 |
|
RJ01 | Rejection of invention patent application after publication |