CN109065025A - 一种计算机存储介质和一种音频的处理方法及装置 - Google Patents
一种计算机存储介质和一种音频的处理方法及装置 Download PDFInfo
- Publication number
- CN109065025A CN109065025A CN201810853254.6A CN201810853254A CN109065025A CN 109065025 A CN109065025 A CN 109065025A CN 201810853254 A CN201810853254 A CN 201810853254A CN 109065025 A CN109065025 A CN 109065025A
- Authority
- CN
- China
- Prior art keywords
- audio
- sound
- content
- processing method
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000001514 detection method Methods 0.000 claims description 14
- 239000012634 fragment Substances 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 abstract description 3
- 238000003825 pressing Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 1
- 230000030279 gene silencing Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种用于处理音频信号的音频处理方法,包括:获取音频文件;识别音频文件中有声音内容的音频段;读取有声音内容的音频段并进行分段。本发明还提供一种音频的处理装置,包括:音频获取模块,用于获取音频文件;音频识别模块,用于识别音频文件中有声音内容的音频段;音频分段模块,用于读取有声音内容的音频段并进行分段。本发明还提供一种计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令被执行时实现所述的音频的处理方法。本发明所述计算机存储介质、方法及装置操作简单,使得听取目标音频信息更为快捷方便。
Description
技术领域
本发明属于音频信号处理领域,尤其涉及一种计算机存储介质和一种音频的处理方法及装置。
背景技术
在一段音频中有时我们最重要的,最想听的只是其中的目标音频内容。以一场会议录音为例,这段录音中就有可能有思考沉默没有声音的片段、意见不同互相争吵的片段、总结内容的重点片段。所以每次都要从头开始听取内容耽误了我们很多时间和精力,大部分播放器可以拖动进度条进行播放进度调节,但是也无法一键拖到想要听取的部分。
专利2014102859912公开了一种音频的播放方法,包括:获取音频文件;读取所述音频文件中的音频数据;将所述音频数据划分成以句子为单位的多个音频片段;接收输入的逐句播放指令,逐句播放所述多个音频片段,此方法未考虑音频文件中非目标声音部分,只能处理标准的声音文件,实际使用价值不大。
发明内容
本发明针对上述现有技术所存的问题,提供一种能够对音频内容进行智能识别并处理的方法及装置。
本发明所述的音频的处理方法,包括:获取音频文件;识别音频文件中有声音内容的音频段;读取有声音内容的音频段并进行分段。通过对有声音内容的音频信息和无声音内容的音频信息先行进行识别,一方面可减轻后续对音频进行读取分段的压力,另一方面使得听取有声音内容的音频信息更为快捷方便。
所述识别音频文件中有声音内容的音频段,具体方法为检查音轨,检测声波,无声波波动表示音频是无声音内容的音频,有声波波动表示音频是有声音内容的音频。
优化设计为,所述有声音内容的音频,包括背景噪声和目标音频。进一步识别背景噪音,可对音频进行更为有效的分段。
所述读取有声音内容的音频段并进行分段,分段方式为划分成以句子为单位的音频片段。
所述读取有声音内容的音频段并进行分段,还包括识别、记录音频片段在音频文件中对应的时间点。
所述读取有声音内容的音频段并进行分段之后,还包括对音频信息进行标注。
标注信息包括音频内容和音频内容在音频中对应的时间点。
另外,还包括删除无声音内容的音频信息或背景噪声。
相对于目前音频处理方法,本发明通过对音频有声音内容信息和无声音内容信息先行进行识别,一方面可减轻后续对音频进行读取分段的压力,另一方面使得听取有声音内容的音频信息更为快捷方便,另外,用户可选是否删除内容,防止智能识别误差误删音频中目标信息。
本发明所述的音频的处理装置,包括:音频获取模块,用于获取音频文件;音频识别模块,用于识别音频文件中有声音内容的音频段;音频分段模块,用于读取有声音内容的音频段并进行分段。
所述音频识别模块,还包括背景噪声检测模块,用于检测有声音内容的音频中的背景噪声。
还包括标注模块,用于对音频信息进行标注。
还包括删除模块,用于删除无声音内容的音频或者背景噪声。
本发明所述的音频的处理装置,通过声波波动检测模块对音频有声音内容的信息先行进行识别,一方面可减轻后续对音频进行读取分段的压力,另一方面使得听取有声音内容的音频信息更为快捷方便,另外,用户可通过删除模块删除无声音内容的音频或背景噪声,防止智能识别误差误删音频中目标信息。
本发明还提供一种计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令被执行时实现所述的音频的处理方法。
本发明所述的计算机存储介质,通过执行计算机可执行指令,实现对音频的处理,可减轻后续对音频进行读取分段的压力,使得听取有声音内容的音频信息更为快捷方便。
附图说明
图1为音频的处理方法实现流程图;
图2为音频的处理方法检测有声音内容的音频信息流程图;
图3为音频的处理装置结构示意图。
具体实施方式
本发明所述音频的处理方法及装置主要用于处理音频信号。
图1示出了本发明提供的音频的处理方法的实现流程图,其过程详述如下:
在步骤S01,获取音频文件,音频文件可以是任何内容的文件。
在步骤S02,智能识别有声音内容的音频和无声音内容的音频。
在步骤S03,读取有声音内容的音频内容并进行分段,读取有声音内容的音频内容通过智能语音转文字的方式进行,转化为文字后,对有声音内容的音频内容划分成以句子为单位的音频片段。
对于步骤S02和步骤S03,可通过长按、重按、双指按压触发。
本发明所述音频的处理方法还包括另一个实施例,如图1和图2所示:
在步骤S01,获取音频文件,音频文件可以是任何内容的文件。
在步骤S02,智能识别有声音内容的音频和无声音内容的音频。
如图2所示,所述智能识别有声音内容的音频和无声音内容的音频,过程如下:
在步骤S021,检查音轨,检测声波,无声波波动表示音频是无声音内容的音频,有声波波动表示音频是有声音内容的音频。
在步骤S03,读取有声音内容的音频并进行分段,读取有声音内容的音频通过智能语音转文字的方式进行,转化为文字后,对有声音内容的音频划分成以句子为单位的音频片段。
所述读取有声音内容的音频段并进行分段,还包括识别、记录音频片段在音频文件中对应的时间点。
所述读取有声音内容的音频并对有声音内容的音频进行分段之后,还包括对音频内容进行标注。
对于步骤S02和步骤S03,可通过长按、重按、双指按压触发。
本发明所述音频的处理方法还包括另一个实施例,如图1和图2所示:
在步骤S01,获取音频文件,音频文件可以是任何内容的文件。
在步骤S02,智能识别有声音内容的音频和无声音内容的音频。
如图2所示,所述智能识别有声音内容的音频和无声音内容的音频,过程如下:
在步骤S021,检查音轨,检测声波,无声波波动表示音频是无声音内容的音频,有声波波动表示音频是有声音内容的音频。
所述识别音频文件中无声音内容的音频段之后,用户还可以删除无声音内容的音频信息。
在步骤S03,读取有声音内容的音频并进行分段,读取有声音内容的音频通过智能语音转文字的方式进行,转化为文字后,对有声音内容的音频划分成以句子为单位的音频片段。
所述读取有声音内容的音频段并进行分段,还包括识别、记录音频片段在音频文件中对应的时间点。
所述读取有声音内容的音频并对有声音内容的音频进行分段之后,还包括对音频内容进行标注。
对于步骤S02和步骤S03,可通过长按、重按、双指按压触发。
本发明所述音频的处理方法还包括另一个实施例,如图1和如图2所示,过程如下:在步骤S01,获取音频文件,音频文件可以是任何内容的文件。
在步骤S02,智能识别有声音内容的音频和无声音内容的音频。
如图2所示,所述智能识别有声音内容的音频和无声音内容的音频,过程如下:
在步骤S021,检查音轨,检测声波,无声波波动表示音频是无声音内容的音频,有声波波动表示音频是有声音内容的音频。
在步骤S022,区分有声波波动但是为背景杂音的无声音内容的音频,具体方法为检测规律重复的音频信息。
所述识别音频文件中无声音内容的音频段之后,用户还可以删除无声音内容的音频信息或背景噪声。
在步骤S03,读取无声音内容的音频内容并进行分段,读取无声音内容的音频内容通过智能语音转文字的方式进行,转化为文字后,对无声音内容的音频内容划分成以句子为单位的音频片段。
所述读取有声音内容的音频段并进行分段,还包括识别、记录音频片段在音频文件中对应的时间点。
所述读取无声音内容的音频内容并对无声音内容的音频内容进行分段之后,还包括对音频内容进行标注。
对于步骤S02和步骤S03,可通过长按、重按、双指按压触发。
本发明所述音频的处理方法,通过对音频有声音内容信息和无声音内容信息先行进行识别,一方面可减轻后续对音频进行读取分段的压力,另一方面使得听取有声音内容的音频信息更为快捷方便,另外,用户可选是否删除内容,防止智能识别误差误删音频中目标信息。
本发明提供的音频的处理装置的结构示意图如图3所示,音频的处理装置包括:
音频获取模块S11,用于获取音频文件;
音频识别模块S12,用于识别音频文件中有声音内容的音频信息;
音频分段模块S13,用于读取有声音内容的音频段并进行分段。
本发明提供的音频的处理装置还包括另一个实施例,如图3所示,音频的处理装置包括:
音频获取模块S11,用于获取音频文件;
音频识别模块S12,用于识别音频文件中有声音内容的音频信息;
音频分段模块S13,用于读取有声音内容的音频段并进行分段;
标注模块S14,用于对音频信息进行标注。
本发明提供的音频的处理装置还包括另一个实施例,如图3所示,音频的处理装置包括:
音频获取模块S11,用于获取音频文件;
音频识别模块S12,用于识别音频文件中有声音内容的音频信息,音频识别模块包括声波波动检测模块S121,用于检测音轨中声波的波动;
音频分段模块S13,用于读取有声音内容的音频段并进行分段;
标注模块S14,用于对音频信息进行标注。
本发明提供的音频的处理装置还包括另一个实施例,如图3所示,音频的处理装置包括:
音频获取模块S11,用于获取音频文件;
音频识别模块S12,用于识别音频文件中有声音内容的音频信息,音频识别模块包括:
声波波动检测模块S121,用于检测音轨中声波的波动;
背景噪声检测模块S122,用于检测有声音内容的音频中的背景噪声。
音频分段模块S13,用于读取有声音内容的音频段并进行分段;
标注模块S14,用于对音频信息进行标注。
本发明提供的音频的处理装置还包括另一个实施例,如图3所示,音频的处理装置包括:
音频获取模块S11,用于获取音频文件;
音频识别模块S12,用于识别音频文件中有声音内容的音频信息,音频识别模块包括三个小模块,分别是:
声波波动检测模块S121,用于检测音轨中声波的波动;
背景噪声检测模块S122,用于检测有声音内容的音频中的背景噪声;
删除模块S123,用于删除无声音内容的音频信息或背景噪声。
音频分段模块S13,用于读取有声音内容的音频段并进行分段;
标注模块S14,用于对音频信息进行标注。
本发明提供的音频的处理装置还包括另一个实施例,如图3所示,音频的处理装置包括:
音频获取模块S11,用于获取音频文件;
音频识别模块S12,用于识别音频文件中有声音内容的音频信息,音频识别模块包括三个小模块,分别是:
声波波动检测模块S121,用于检测音轨中声波的波动;
背景噪声检测模块S122,用于检测有声音内容的音频中的背景噪声,所述的背景噪声为规律重复的音频信息;
删除模块S123,用于删除无声音内容的音频或背景噪声。
音频分段模块S13,用于读取有声音内容的音频段并进行分段;
标注模块S14,用于对音频信息进行标注。
本发明所述的音频的处理装置,通过声波波动检测模块对音频有声音内容的信息先行进行识别,一方面可减轻后续对音频进行读取分段的压力,另一方面使得听取有声音内容的音频信息更为快捷方便,另外,用户可通过删除模块删除无声音内容的音频或背景噪声,防止智能识别误差误删音频中目标信息。
本发明提供的一种计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令被执行时实现所述的音频的处理方法。
本发明所述的计算机存储介质,通过执行计算机可执行指令,实现对音频的处理,可减轻后续对音频进行读取分段的压力,使得听取有声音内容的音频信息更为快捷方便。
Claims (14)
1.一种音频的处理方法,其特征在于:包括:
获取音频文件;
识别音频文件中有声音内容的音频段;
读取有声音内容的音频段并进行分段。
2.根据权利要求1所述的音频的处理方法,其特征在于:所述识别音频文件中有声音内容的音频段,具体方法为检查音轨,检测声波,无声波波动表示音频是无声音内容的,有声波波动表示音频是有声音内容的。
3.根据权利要求2所述的音频的处理方法,其特征在于:所述有声音内容的音频,包括背景噪声和目标音频。
4.根据权利要求1所述的音频的处理方法,其特征在于:所述读取有声音内容的音频段并进行分段,分段方式为划分成以句子为单位的音频片段。
5.根据权利要求4所述的音频的处理方法,其特征在于:所述读取有声音内容的音频段并进行分段,还包括识别、记录音频片段在音频文件中对应的时间点。
6.根据权利要求1-5任一项所述的音频的处理方法,其特征在于:所述读取有声音内容的音频段并进行分段之后,还包括对音频信息进行标注。
7.根据权利要求6所述的音频的处理方法,其特征在于:标注信息包括音频内容和音频内容在音频中对应的时间点。
8.根据权利要求1-5任一项或者7所述的音频的处理方法,其特征在于:还包括删除无声音内容的音频段或背景噪声。
9.一种音频的处理装置,其特征在于:包括:音频获取模块,用于获取音频文件;音频识别模块,用于识别音频文件中有声音内容的音频段;音频分段模块,用于读取有声音内容的音频段并进行分段。
10.根据权利要9所述的音频的处理装置,其特征在于:所述音频识别模块,包括声波波动检测模块,用于检测音轨中声波的波动。
11.根据权利要求10所述的音频的处理装置,其特征在于:所述音频识别模块,还包括背景噪声检测模块,用于检测有声音内容音频中的背景噪声。
12.根据权利要求9-11任一项所述的音频的处理装置,其特征在于:还包括标注模块,用于对音频信息进行标注。
13.根据权利要求9-11任一项所述的音频的处理装置,其特征在于:还包括删除模块,用于删除无声音内容的音频或者背景噪声。
14.一种计算机存储介质,存储有计算机可执行指令,其特征在于:所述计算机可执行指令被执行时实现如权利要求1-5任一项所述的音频的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810853254.6A CN109065025A (zh) | 2018-07-30 | 2018-07-30 | 一种计算机存储介质和一种音频的处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810853254.6A CN109065025A (zh) | 2018-07-30 | 2018-07-30 | 一种计算机存储介质和一种音频的处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109065025A true CN109065025A (zh) | 2018-12-21 |
Family
ID=64831885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810853254.6A Pending CN109065025A (zh) | 2018-07-30 | 2018-07-30 | 一种计算机存储介质和一种音频的处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109065025A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109379497A (zh) * | 2018-12-28 | 2019-02-22 | 努比亚技术有限公司 | 语音信息播放方法、移动终端及计算机可读存储介质 |
CN109994126A (zh) * | 2019-03-11 | 2019-07-09 | 北京三快在线科技有限公司 | 音频消息分段方法、装置、存储介质和电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102044242A (zh) * | 2009-10-15 | 2011-05-04 | 华为技术有限公司 | 语音激活检测方法、装置和电子设备 |
CN102054480A (zh) * | 2009-10-29 | 2011-05-11 | 北京理工大学 | 一种基于分数阶傅立叶变换的单声道混叠语音分离方法 |
US20140188467A1 (en) * | 2009-05-01 | 2014-07-03 | Aliphcom | Vibration sensor and acoustic voice activity detection systems (vads) for use with electronic systems |
CN104200810A (zh) * | 2014-08-29 | 2014-12-10 | 无锡中星微电子有限公司 | 自动增益控制装置及方法 |
CN104409079A (zh) * | 2014-11-03 | 2015-03-11 | 北京有恒斯康通信技术有限公司 | 一种音频叠加的方法和装置 |
US20160232923A1 (en) * | 2015-02-10 | 2016-08-11 | Nice-Systems Ltd. | Method and system for speech detection |
CN107452405A (zh) * | 2017-08-16 | 2017-12-08 | 北京易真学思教育科技有限公司 | 一种根据语音内容进行数据评价的方法及装置 |
CN107734412A (zh) * | 2016-08-11 | 2018-02-23 | Gn 奥迪欧有限公司 | 信号处理器、信号处理方法、耳机和计算机可读介质 |
CN107978323A (zh) * | 2017-12-01 | 2018-05-01 | 腾讯科技(深圳)有限公司 | 音频识别方法、装置及存储介质 |
CN108231089A (zh) * | 2016-12-09 | 2018-06-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
-
2018
- 2018-07-30 CN CN201810853254.6A patent/CN109065025A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140188467A1 (en) * | 2009-05-01 | 2014-07-03 | Aliphcom | Vibration sensor and acoustic voice activity detection systems (vads) for use with electronic systems |
CN102044242A (zh) * | 2009-10-15 | 2011-05-04 | 华为技术有限公司 | 语音激活检测方法、装置和电子设备 |
CN102054480A (zh) * | 2009-10-29 | 2011-05-11 | 北京理工大学 | 一种基于分数阶傅立叶变换的单声道混叠语音分离方法 |
CN104200810A (zh) * | 2014-08-29 | 2014-12-10 | 无锡中星微电子有限公司 | 自动增益控制装置及方法 |
CN104409079A (zh) * | 2014-11-03 | 2015-03-11 | 北京有恒斯康通信技术有限公司 | 一种音频叠加的方法和装置 |
US20160232923A1 (en) * | 2015-02-10 | 2016-08-11 | Nice-Systems Ltd. | Method and system for speech detection |
CN107734412A (zh) * | 2016-08-11 | 2018-02-23 | Gn 奥迪欧有限公司 | 信号处理器、信号处理方法、耳机和计算机可读介质 |
CN108231089A (zh) * | 2016-12-09 | 2018-06-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
CN107452405A (zh) * | 2017-08-16 | 2017-12-08 | 北京易真学思教育科技有限公司 | 一种根据语音内容进行数据评价的方法及装置 |
CN107978323A (zh) * | 2017-12-01 | 2018-05-01 | 腾讯科技(深圳)有限公司 | 音频识别方法、装置及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109379497A (zh) * | 2018-12-28 | 2019-02-22 | 努比亚技术有限公司 | 语音信息播放方法、移动终端及计算机可读存储介质 |
CN109994126A (zh) * | 2019-03-11 | 2019-07-09 | 北京三快在线科技有限公司 | 音频消息分段方法、装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8700194B2 (en) | Robust media fingerprints | |
US8117032B2 (en) | Noise playback enhancement of prerecorded audio for speech recognition operations | |
WO2015008162A2 (en) | Systems and methods for textual content creation from sources of audio that contain speech | |
JP5534280B2 (ja) | テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム | |
US10671666B2 (en) | Pattern based audio searching method and system | |
US20140163970A1 (en) | Method for classifying voice conference minutes, device, and system | |
US8620670B2 (en) | Automatic realtime speech impairment correction | |
US9251808B2 (en) | Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof | |
CN109065025A (zh) | 一种计算机存储介质和一种音频的处理方法及装置 | |
CN104867494A (zh) | 一种录音文件的命名分类方法及系统 | |
CN105138617A (zh) | 一种音乐自动定位和注解系统及方法 | |
US20140376885A1 (en) | Method for playing video file and electronic device using the same | |
US8725508B2 (en) | Method and apparatus for element identification in a signal | |
CN107369451A (zh) | 一种辅助鸟类繁殖期的物候研究的鸟类声音识别方法 | |
US20200111017A1 (en) | Intelligent searching of electronically stored information | |
WO2022143888A1 (zh) | 音频处理方法、装置及电子设备 | |
Hajihashemi et al. | Novel time-frequency based scheme for detecting sound events from sound background in audio segments | |
CN103180847A (zh) | 音乐查询方法和装置 | |
US10811007B2 (en) | Filtering audio-based interference from voice commands using natural language processing | |
US10832678B2 (en) | Filtering audio-based interference from voice commands using interference information | |
US10832692B1 (en) | Machine learning system for matching groups of related media files | |
CN105404654A (zh) | 一种音频文件播放方法及装置 | |
CN112395414A (zh) | 文本分类方法和分类模型的训练方法、装置、介质和设备 | |
KR20130090012A (ko) | 음성 기반 멀티미디어 컨텐츠 태깅 방법 및 장치 | |
KR102661876B1 (ko) | 합성곱 신경망 기반 오디오 핑거프린트 추출 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181221 |