CN109065025A - 一种计算机存储介质和一种音频的处理方法及装置 - Google Patents

一种计算机存储介质和一种音频的处理方法及装置 Download PDF

Info

Publication number
CN109065025A
CN109065025A CN201810853254.6A CN201810853254A CN109065025A CN 109065025 A CN109065025 A CN 109065025A CN 201810853254 A CN201810853254 A CN 201810853254A CN 109065025 A CN109065025 A CN 109065025A
Authority
CN
China
Prior art keywords
audio
sound
content
processing method
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810853254.6A
Other languages
English (en)
Inventor
李鼎逸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai filed Critical Gree Electric Appliances Inc of Zhuhai
Priority to CN201810853254.6A priority Critical patent/CN109065025A/zh
Publication of CN109065025A publication Critical patent/CN109065025A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种用于处理音频信号的音频处理方法,包括:获取音频文件;识别音频文件中有声音内容的音频段;读取有声音内容的音频段并进行分段。本发明还提供一种音频的处理装置,包括:音频获取模块,用于获取音频文件;音频识别模块,用于识别音频文件中有声音内容的音频段;音频分段模块,用于读取有声音内容的音频段并进行分段。本发明还提供一种计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令被执行时实现所述的音频的处理方法。本发明所述计算机存储介质、方法及装置操作简单,使得听取目标音频信息更为快捷方便。

Description

一种计算机存储介质和一种音频的处理方法及装置
技术领域
本发明属于音频信号处理领域,尤其涉及一种计算机存储介质和一种音频的处理方法及装置。
背景技术
在一段音频中有时我们最重要的,最想听的只是其中的目标音频内容。以一场会议录音为例,这段录音中就有可能有思考沉默没有声音的片段、意见不同互相争吵的片段、总结内容的重点片段。所以每次都要从头开始听取内容耽误了我们很多时间和精力,大部分播放器可以拖动进度条进行播放进度调节,但是也无法一键拖到想要听取的部分。
专利2014102859912公开了一种音频的播放方法,包括:获取音频文件;读取所述音频文件中的音频数据;将所述音频数据划分成以句子为单位的多个音频片段;接收输入的逐句播放指令,逐句播放所述多个音频片段,此方法未考虑音频文件中非目标声音部分,只能处理标准的声音文件,实际使用价值不大。
发明内容
本发明针对上述现有技术所存的问题,提供一种能够对音频内容进行智能识别并处理的方法及装置。
本发明所述的音频的处理方法,包括:获取音频文件;识别音频文件中有声音内容的音频段;读取有声音内容的音频段并进行分段。通过对有声音内容的音频信息和无声音内容的音频信息先行进行识别,一方面可减轻后续对音频进行读取分段的压力,另一方面使得听取有声音内容的音频信息更为快捷方便。
所述识别音频文件中有声音内容的音频段,具体方法为检查音轨,检测声波,无声波波动表示音频是无声音内容的音频,有声波波动表示音频是有声音内容的音频。
优化设计为,所述有声音内容的音频,包括背景噪声和目标音频。进一步识别背景噪音,可对音频进行更为有效的分段。
所述读取有声音内容的音频段并进行分段,分段方式为划分成以句子为单位的音频片段。
所述读取有声音内容的音频段并进行分段,还包括识别、记录音频片段在音频文件中对应的时间点。
所述读取有声音内容的音频段并进行分段之后,还包括对音频信息进行标注。
标注信息包括音频内容和音频内容在音频中对应的时间点。
另外,还包括删除无声音内容的音频信息或背景噪声。
相对于目前音频处理方法,本发明通过对音频有声音内容信息和无声音内容信息先行进行识别,一方面可减轻后续对音频进行读取分段的压力,另一方面使得听取有声音内容的音频信息更为快捷方便,另外,用户可选是否删除内容,防止智能识别误差误删音频中目标信息。
本发明所述的音频的处理装置,包括:音频获取模块,用于获取音频文件;音频识别模块,用于识别音频文件中有声音内容的音频段;音频分段模块,用于读取有声音内容的音频段并进行分段。
所述音频识别模块,还包括背景噪声检测模块,用于检测有声音内容的音频中的背景噪声。
还包括标注模块,用于对音频信息进行标注。
还包括删除模块,用于删除无声音内容的音频或者背景噪声。
本发明所述的音频的处理装置,通过声波波动检测模块对音频有声音内容的信息先行进行识别,一方面可减轻后续对音频进行读取分段的压力,另一方面使得听取有声音内容的音频信息更为快捷方便,另外,用户可通过删除模块删除无声音内容的音频或背景噪声,防止智能识别误差误删音频中目标信息。
本发明还提供一种计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令被执行时实现所述的音频的处理方法。
本发明所述的计算机存储介质,通过执行计算机可执行指令,实现对音频的处理,可减轻后续对音频进行读取分段的压力,使得听取有声音内容的音频信息更为快捷方便。
附图说明
图1为音频的处理方法实现流程图;
图2为音频的处理方法检测有声音内容的音频信息流程图;
图3为音频的处理装置结构示意图。
具体实施方式
本发明所述音频的处理方法及装置主要用于处理音频信号。
图1示出了本发明提供的音频的处理方法的实现流程图,其过程详述如下:
在步骤S01,获取音频文件,音频文件可以是任何内容的文件。
在步骤S02,智能识别有声音内容的音频和无声音内容的音频。
在步骤S03,读取有声音内容的音频内容并进行分段,读取有声音内容的音频内容通过智能语音转文字的方式进行,转化为文字后,对有声音内容的音频内容划分成以句子为单位的音频片段。
对于步骤S02和步骤S03,可通过长按、重按、双指按压触发。
本发明所述音频的处理方法还包括另一个实施例,如图1和图2所示:
在步骤S01,获取音频文件,音频文件可以是任何内容的文件。
在步骤S02,智能识别有声音内容的音频和无声音内容的音频。
如图2所示,所述智能识别有声音内容的音频和无声音内容的音频,过程如下:
在步骤S021,检查音轨,检测声波,无声波波动表示音频是无声音内容的音频,有声波波动表示音频是有声音内容的音频。
在步骤S03,读取有声音内容的音频并进行分段,读取有声音内容的音频通过智能语音转文字的方式进行,转化为文字后,对有声音内容的音频划分成以句子为单位的音频片段。
所述读取有声音内容的音频段并进行分段,还包括识别、记录音频片段在音频文件中对应的时间点。
所述读取有声音内容的音频并对有声音内容的音频进行分段之后,还包括对音频内容进行标注。
对于步骤S02和步骤S03,可通过长按、重按、双指按压触发。
本发明所述音频的处理方法还包括另一个实施例,如图1和图2所示:
在步骤S01,获取音频文件,音频文件可以是任何内容的文件。
在步骤S02,智能识别有声音内容的音频和无声音内容的音频。
如图2所示,所述智能识别有声音内容的音频和无声音内容的音频,过程如下:
在步骤S021,检查音轨,检测声波,无声波波动表示音频是无声音内容的音频,有声波波动表示音频是有声音内容的音频。
所述识别音频文件中无声音内容的音频段之后,用户还可以删除无声音内容的音频信息。
在步骤S03,读取有声音内容的音频并进行分段,读取有声音内容的音频通过智能语音转文字的方式进行,转化为文字后,对有声音内容的音频划分成以句子为单位的音频片段。
所述读取有声音内容的音频段并进行分段,还包括识别、记录音频片段在音频文件中对应的时间点。
所述读取有声音内容的音频并对有声音内容的音频进行分段之后,还包括对音频内容进行标注。
对于步骤S02和步骤S03,可通过长按、重按、双指按压触发。
本发明所述音频的处理方法还包括另一个实施例,如图1和如图2所示,过程如下:在步骤S01,获取音频文件,音频文件可以是任何内容的文件。
在步骤S02,智能识别有声音内容的音频和无声音内容的音频。
如图2所示,所述智能识别有声音内容的音频和无声音内容的音频,过程如下:
在步骤S021,检查音轨,检测声波,无声波波动表示音频是无声音内容的音频,有声波波动表示音频是有声音内容的音频。
在步骤S022,区分有声波波动但是为背景杂音的无声音内容的音频,具体方法为检测规律重复的音频信息。
所述识别音频文件中无声音内容的音频段之后,用户还可以删除无声音内容的音频信息或背景噪声。
在步骤S03,读取无声音内容的音频内容并进行分段,读取无声音内容的音频内容通过智能语音转文字的方式进行,转化为文字后,对无声音内容的音频内容划分成以句子为单位的音频片段。
所述读取有声音内容的音频段并进行分段,还包括识别、记录音频片段在音频文件中对应的时间点。
所述读取无声音内容的音频内容并对无声音内容的音频内容进行分段之后,还包括对音频内容进行标注。
对于步骤S02和步骤S03,可通过长按、重按、双指按压触发。
本发明所述音频的处理方法,通过对音频有声音内容信息和无声音内容信息先行进行识别,一方面可减轻后续对音频进行读取分段的压力,另一方面使得听取有声音内容的音频信息更为快捷方便,另外,用户可选是否删除内容,防止智能识别误差误删音频中目标信息。
本发明提供的音频的处理装置的结构示意图如图3所示,音频的处理装置包括:
音频获取模块S11,用于获取音频文件;
音频识别模块S12,用于识别音频文件中有声音内容的音频信息;
音频分段模块S13,用于读取有声音内容的音频段并进行分段。
本发明提供的音频的处理装置还包括另一个实施例,如图3所示,音频的处理装置包括:
音频获取模块S11,用于获取音频文件;
音频识别模块S12,用于识别音频文件中有声音内容的音频信息;
音频分段模块S13,用于读取有声音内容的音频段并进行分段;
标注模块S14,用于对音频信息进行标注。
本发明提供的音频的处理装置还包括另一个实施例,如图3所示,音频的处理装置包括:
音频获取模块S11,用于获取音频文件;
音频识别模块S12,用于识别音频文件中有声音内容的音频信息,音频识别模块包括声波波动检测模块S121,用于检测音轨中声波的波动;
音频分段模块S13,用于读取有声音内容的音频段并进行分段;
标注模块S14,用于对音频信息进行标注。
本发明提供的音频的处理装置还包括另一个实施例,如图3所示,音频的处理装置包括:
音频获取模块S11,用于获取音频文件;
音频识别模块S12,用于识别音频文件中有声音内容的音频信息,音频识别模块包括:
声波波动检测模块S121,用于检测音轨中声波的波动;
背景噪声检测模块S122,用于检测有声音内容的音频中的背景噪声。
音频分段模块S13,用于读取有声音内容的音频段并进行分段;
标注模块S14,用于对音频信息进行标注。
本发明提供的音频的处理装置还包括另一个实施例,如图3所示,音频的处理装置包括:
音频获取模块S11,用于获取音频文件;
音频识别模块S12,用于识别音频文件中有声音内容的音频信息,音频识别模块包括三个小模块,分别是:
声波波动检测模块S121,用于检测音轨中声波的波动;
背景噪声检测模块S122,用于检测有声音内容的音频中的背景噪声;
删除模块S123,用于删除无声音内容的音频信息或背景噪声。
音频分段模块S13,用于读取有声音内容的音频段并进行分段;
标注模块S14,用于对音频信息进行标注。
本发明提供的音频的处理装置还包括另一个实施例,如图3所示,音频的处理装置包括:
音频获取模块S11,用于获取音频文件;
音频识别模块S12,用于识别音频文件中有声音内容的音频信息,音频识别模块包括三个小模块,分别是:
声波波动检测模块S121,用于检测音轨中声波的波动;
背景噪声检测模块S122,用于检测有声音内容的音频中的背景噪声,所述的背景噪声为规律重复的音频信息;
删除模块S123,用于删除无声音内容的音频或背景噪声。
音频分段模块S13,用于读取有声音内容的音频段并进行分段;
标注模块S14,用于对音频信息进行标注。
本发明所述的音频的处理装置,通过声波波动检测模块对音频有声音内容的信息先行进行识别,一方面可减轻后续对音频进行读取分段的压力,另一方面使得听取有声音内容的音频信息更为快捷方便,另外,用户可通过删除模块删除无声音内容的音频或背景噪声,防止智能识别误差误删音频中目标信息。
本发明提供的一种计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令被执行时实现所述的音频的处理方法。
本发明所述的计算机存储介质,通过执行计算机可执行指令,实现对音频的处理,可减轻后续对音频进行读取分段的压力,使得听取有声音内容的音频信息更为快捷方便。

Claims (14)

1.一种音频的处理方法,其特征在于:包括:
获取音频文件;
识别音频文件中有声音内容的音频段;
读取有声音内容的音频段并进行分段。
2.根据权利要求1所述的音频的处理方法,其特征在于:所述识别音频文件中有声音内容的音频段,具体方法为检查音轨,检测声波,无声波波动表示音频是无声音内容的,有声波波动表示音频是有声音内容的。
3.根据权利要求2所述的音频的处理方法,其特征在于:所述有声音内容的音频,包括背景噪声和目标音频。
4.根据权利要求1所述的音频的处理方法,其特征在于:所述读取有声音内容的音频段并进行分段,分段方式为划分成以句子为单位的音频片段。
5.根据权利要求4所述的音频的处理方法,其特征在于:所述读取有声音内容的音频段并进行分段,还包括识别、记录音频片段在音频文件中对应的时间点。
6.根据权利要求1-5任一项所述的音频的处理方法,其特征在于:所述读取有声音内容的音频段并进行分段之后,还包括对音频信息进行标注。
7.根据权利要求6所述的音频的处理方法,其特征在于:标注信息包括音频内容和音频内容在音频中对应的时间点。
8.根据权利要求1-5任一项或者7所述的音频的处理方法,其特征在于:还包括删除无声音内容的音频段或背景噪声。
9.一种音频的处理装置,其特征在于:包括:音频获取模块,用于获取音频文件;音频识别模块,用于识别音频文件中有声音内容的音频段;音频分段模块,用于读取有声音内容的音频段并进行分段。
10.根据权利要9所述的音频的处理装置,其特征在于:所述音频识别模块,包括声波波动检测模块,用于检测音轨中声波的波动。
11.根据权利要求10所述的音频的处理装置,其特征在于:所述音频识别模块,还包括背景噪声检测模块,用于检测有声音内容音频中的背景噪声。
12.根据权利要求9-11任一项所述的音频的处理装置,其特征在于:还包括标注模块,用于对音频信息进行标注。
13.根据权利要求9-11任一项所述的音频的处理装置,其特征在于:还包括删除模块,用于删除无声音内容的音频或者背景噪声。
14.一种计算机存储介质,存储有计算机可执行指令,其特征在于:所述计算机可执行指令被执行时实现如权利要求1-5任一项所述的音频的处理方法。
CN201810853254.6A 2018-07-30 2018-07-30 一种计算机存储介质和一种音频的处理方法及装置 Pending CN109065025A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810853254.6A CN109065025A (zh) 2018-07-30 2018-07-30 一种计算机存储介质和一种音频的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810853254.6A CN109065025A (zh) 2018-07-30 2018-07-30 一种计算机存储介质和一种音频的处理方法及装置

Publications (1)

Publication Number Publication Date
CN109065025A true CN109065025A (zh) 2018-12-21

Family

ID=64831885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810853254.6A Pending CN109065025A (zh) 2018-07-30 2018-07-30 一种计算机存储介质和一种音频的处理方法及装置

Country Status (1)

Country Link
CN (1) CN109065025A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109379497A (zh) * 2018-12-28 2019-02-22 努比亚技术有限公司 语音信息播放方法、移动终端及计算机可读存储介质
CN109994126A (zh) * 2019-03-11 2019-07-09 北京三快在线科技有限公司 音频消息分段方法、装置、存储介质和电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102044242A (zh) * 2009-10-15 2011-05-04 华为技术有限公司 语音激活检测方法、装置和电子设备
CN102054480A (zh) * 2009-10-29 2011-05-11 北京理工大学 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
US20140188467A1 (en) * 2009-05-01 2014-07-03 Aliphcom Vibration sensor and acoustic voice activity detection systems (vads) for use with electronic systems
CN104200810A (zh) * 2014-08-29 2014-12-10 无锡中星微电子有限公司 自动增益控制装置及方法
CN104409079A (zh) * 2014-11-03 2015-03-11 北京有恒斯康通信技术有限公司 一种音频叠加的方法和装置
US20160232923A1 (en) * 2015-02-10 2016-08-11 Nice-Systems Ltd. Method and system for speech detection
CN107452405A (zh) * 2017-08-16 2017-12-08 北京易真学思教育科技有限公司 一种根据语音内容进行数据评价的方法及装置
CN107734412A (zh) * 2016-08-11 2018-02-23 Gn 奥迪欧有限公司 信号处理器、信号处理方法、耳机和计算机可读介质
CN107978323A (zh) * 2017-12-01 2018-05-01 腾讯科技(深圳)有限公司 音频识别方法、装置及存储介质
CN108231089A (zh) * 2016-12-09 2018-06-29 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140188467A1 (en) * 2009-05-01 2014-07-03 Aliphcom Vibration sensor and acoustic voice activity detection systems (vads) for use with electronic systems
CN102044242A (zh) * 2009-10-15 2011-05-04 华为技术有限公司 语音激活检测方法、装置和电子设备
CN102054480A (zh) * 2009-10-29 2011-05-11 北京理工大学 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
CN104200810A (zh) * 2014-08-29 2014-12-10 无锡中星微电子有限公司 自动增益控制装置及方法
CN104409079A (zh) * 2014-11-03 2015-03-11 北京有恒斯康通信技术有限公司 一种音频叠加的方法和装置
US20160232923A1 (en) * 2015-02-10 2016-08-11 Nice-Systems Ltd. Method and system for speech detection
CN107734412A (zh) * 2016-08-11 2018-02-23 Gn 奥迪欧有限公司 信号处理器、信号处理方法、耳机和计算机可读介质
CN108231089A (zh) * 2016-12-09 2018-06-29 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
CN107452405A (zh) * 2017-08-16 2017-12-08 北京易真学思教育科技有限公司 一种根据语音内容进行数据评价的方法及装置
CN107978323A (zh) * 2017-12-01 2018-05-01 腾讯科技(深圳)有限公司 音频识别方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109379497A (zh) * 2018-12-28 2019-02-22 努比亚技术有限公司 语音信息播放方法、移动终端及计算机可读存储介质
CN109994126A (zh) * 2019-03-11 2019-07-09 北京三快在线科技有限公司 音频消息分段方法、装置、存储介质和电子设备

Similar Documents

Publication Publication Date Title
US8700194B2 (en) Robust media fingerprints
US8117032B2 (en) Noise playback enhancement of prerecorded audio for speech recognition operations
WO2015008162A2 (en) Systems and methods for textual content creation from sources of audio that contain speech
JP5534280B2 (ja) テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム
US10671666B2 (en) Pattern based audio searching method and system
US20140163970A1 (en) Method for classifying voice conference minutes, device, and system
US8620670B2 (en) Automatic realtime speech impairment correction
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
CN109065025A (zh) 一种计算机存储介质和一种音频的处理方法及装置
CN104867494A (zh) 一种录音文件的命名分类方法及系统
CN105138617A (zh) 一种音乐自动定位和注解系统及方法
US20140376885A1 (en) Method for playing video file and electronic device using the same
US8725508B2 (en) Method and apparatus for element identification in a signal
CN107369451A (zh) 一种辅助鸟类繁殖期的物候研究的鸟类声音识别方法
US20200111017A1 (en) Intelligent searching of electronically stored information
WO2022143888A1 (zh) 音频处理方法、装置及电子设备
Hajihashemi et al. Novel time-frequency based scheme for detecting sound events from sound background in audio segments
CN103180847A (zh) 音乐查询方法和装置
US10811007B2 (en) Filtering audio-based interference from voice commands using natural language processing
US10832678B2 (en) Filtering audio-based interference from voice commands using interference information
US10832692B1 (en) Machine learning system for matching groups of related media files
CN105404654A (zh) 一种音频文件播放方法及装置
CN112395414A (zh) 文本分类方法和分类模型的训练方法、装置、介质和设备
KR20130090012A (ko) 음성 기반 멀티미디어 컨텐츠 태깅 방법 및 장치
KR102661876B1 (ko) 합성곱 신경망 기반 오디오 핑거프린트 추출 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181221