CN101188464A - 从公开音频源搜集音频的系统及其方法 - Google Patents

从公开音频源搜集音频的系统及其方法 Download PDF

Info

Publication number
CN101188464A
CN101188464A CNA2006101457397A CN200610145739A CN101188464A CN 101188464 A CN101188464 A CN 101188464A CN A2006101457397 A CNA2006101457397 A CN A2006101457397A CN 200610145739 A CN200610145739 A CN 200610145739A CN 101188464 A CN101188464 A CN 101188464A
Authority
CN
China
Prior art keywords
audio
fragment
source
open
audio frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006101457397A
Other languages
English (en)
Inventor
林宗庆
王建兴
丁彬
麦文伟
王舜正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
YUNYI TECHNOLOGY Co Ltd
Original Assignee
YUNYI TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by YUNYI TECHNOLOGY Co Ltd filed Critical YUNYI TECHNOLOGY Co Ltd
Priority to CNA2006101457397A priority Critical patent/CN101188464A/zh
Publication of CN101188464A publication Critical patent/CN101188464A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供一种从公开音频源搜集音频的系统及其方法,该公开音频源以数字方式广播至少一公开音频,该方法包含下列步骤:自该公开音频源接收该公开音频;将该公开音频译码为一无编码音频;将该无编码音频区分为多个音频片段,并将各该音频片段进行特征抽取;若其中一音频片段特征抽取的结果符合一所欲搜集的音频类别,则将该其中一音频片段分类为一特征音频片段;及将所述连续出现的特征音频片段组合为一目标音频,而可达到搜集音频的目的。本发明可自动从大量播送音频的公开音频源中搜集所喜爱类型的音频,如音乐,收听者不需费时费心地录音,便可以拥有一首首完整的音乐。

Description

从公开音频源搜集音频的系统及其方法
技术领域
本发明涉及一种搜集音频的系统及其方法,特别是涉及一种从公开音频源搜集音频的系统及其方法。
背景技术
现有的公开音频源,如调频及调幅广播,受限于现有技术,音质一直无法媲美以储存介质(如CD)储存并播放的数字音乐。因此,业者努力将现有的公开音频源数字化,以提升此类公开音频源的音质水准,目前较受瞩目的有网络广播(Web Casting)及数字音频广播(Digital Audio Broadcasting,DAB)。
网络广播主要以有线的因特网为媒介,利用媒体服务器将压缩的数字音乐以串流技术传送至收听者的接收装置中,该接收装置主要是连接因特网的个人计算机及个人化数字助理(PDA)。目前网络广播的媒体服务器已经相当普及,收听者现在有千百个世界各地的网络广播可以选择收听。另外,数字音频广播则比较类似现有的广播方式,不同的是以无线的数字广播技术,将CD品质的音频传送至收听者的数字广播接收器。数字广播技术除了提供高品质的音频外,更可以抗噪声、抗干扰及抗电波传播衰减。相对于现有广播的声音品质低落,数字广播频道可同时传送六个具有CD品质的立体声节目,让使用者可以听到更多好品质的音乐。
如上所述,虽然大量高品质且多频道的新一代公开音频源使得选择性更加多元,但是节目内容大致上和过去一样以语音和音乐穿插播放的方式进行,使得收听者难以一次网罗自己所喜爱的音乐。另外,对于公开音频源所播放的节目,收听者亦可能没时间收听,而失去收听好音乐的机会,因此,有必要寻求一种解决的技术,可以不需要收听者介入,即可自动收集公开音频源中收听者喜爱的高品质音乐。
发明内容
本发明的目的在于提供一种从公开音频源搜集音频的方法。
于是,本发明从公开音频源搜集音频的方法适用于该公开音频源以数字方式广播至少一公开音频。该方法包含下列步骤:(a)自该公开音频源接收该公开音频;(b)将该公开音频译码为一无编码音频;(c)将该无编码音频区分为多个音频片段,并将各该音频片段进行特征抽取;(d)若其中一音频片段特征抽取的结果符合一所欲搜集的音频类别,则将该其中一音频片段分类为一特征音频片段;及(e)将连续出现的所述特征音频片段组合为一目标音频。
本发明所述的从公开音频源搜集音频的方法,该(d)及(e)步骤间还包含一步骤(f),是以该其中一音频片段为中心,往前取一预定数目的音频片段并往后取该预定数目的音频片段为一窗格,若在该窗格中的音频片段超过半数为该特征音频片段,则将该窗格中心的音频片段分类为该特征音频片段。
本发明所述的从公开音频源搜集音频的方法,在该步骤(e)中,若该目标音频长于一预定时间,则将该目标音频储存于一储存介质上。
本发明所述的从公开音频源搜集音频的方法,所述音频片段的长度为1秒至2秒。
本发明所述的从公开音频源搜集音频的方法,在(d)步骤中,是以一支援向量机进行分类。
本发明所述的从公开音频源搜集音频的方法,该支援向量机预先以多份真实音频样本进行训练,以使该支援向量机可以分辨出该所欲搜集的音频类别。
本发明所述的从公开音频源搜集音频的方法,该音频类别为音乐。
本发明的另一目的在于提供一种从公开音频源搜集音频的系统。
于是,该从公开音频源搜集音频的系统适用于该公开音频源以数字方式广播至少一公开音频。该系统包含一音频源接收元件、一译码模块、一数字特征转换模块、一数字特征分类模块,及一完整音频确认模块。
该音频源接收元件用以接收该公开音频源的公开音频。该译码模块用以将一音频源接收元件所接收的该公开音频译码为一无编码音频。该数字特征转换模块用以将该译码模块产生的该无编码音频区分为多个音频片段,并将各该音频片段进行特征抽取。该数字特征分类模块若其中一音频片段特征抽取的结果符合一所欲搜集的音频类别,则该数字特征分类模块用以将该其中一音频片段分类为一特征音频片段。该完整音频确认模块用以将连续出现的所述特征音频片段组合成一目标音频。
本发明所述的从公开音频源搜集音频的系统,该完整音频确认模块为增加分类后的精准度,包括一平滑化子模块,是以分类后的其中一音频片段为中心,往前取一预定数目的音频片段并往后取该预定数目的音频片段为一窗格,若在该窗格中的音频片段超过半数为该特征音频片段,则该平滑化子模块将该窗格中心的音频片段分类为该特征音频片段。
本发明所述的从公开音频源搜集音频的系统,该完整音频确认模块若判断该目标音频长于一预定时间,则将该目标音频储存于一储存介质上。
本发明所述的从公开音频源搜集音频的系统,该音频源接收元件为一可安装于计算机、个人数字助理或笔记型计算机的网络卡,用以接收该公开音频源以有线方式播送的公开音频。
本发明所述的从公开音频源搜集音频的系统,该数字特征分类模块包括一用以分类所述音频片段的支援向量机,该支援向量机预先以多个真实音频样本进行训练,使该支援向量机可分辨该所欲搜集的音频类别。
本发明所述的从公开音频源搜集音频的系统,该音频类别为音乐。
本发明的功效在于,自动从大量播送音频的公开音频源中搜集所喜爱类型的音频,如音乐,收听者不需费时费心地录音,便可以拥有一首首完整的音乐。
附图说明
图1是一方块图,说明本发明的从公开音频源搜集音频的系统的较佳实施例;
图2是一流程图,说明本较佳实施例的实施过程。
具体实施方式
下面结合附图及实施例对本发明进行详细说明。
参阅图1,本发明从公开音频源搜集音频的系统的较佳实施例适用于该公开音频源10以数字方式广播至少一公开音频。该系统包含一音频源接收元件11、一译码模块12、一数字特征转换模块13、一数字特征分类模块14,及一完整音频确认模块15。
该音频源接收元件11用以接收该公开音频源10的公开音频。该公开音频源10可以是一网络广播101(Web Casting)或是一数字音频广播102(Digital Audio Broadcasting,DAB)。若收听者欲收集以该网络广播101所播放的公开音频,则该音频源接收元件11为一可安装于计算机、个人数字助理或笔记型计算机的网络卡,用以接收该公开音频源10以有线方式播送的公开音频。若收听者欲收集以该数字音频广播102所播放的公开音频,则该音频源接收元件11为一可无线接收公开音频的数字广播接收器,用以接收该公开音频源10以无线方式播送的公开音频。
该译码模块12用以将该音频源接收元件11所接收的公开音频译码为一无编码音频。网络广播101和数字音频广播102在播送音频时,皆会将该公开音频进行编码以利传播,网络广播101是将公开音频以asx、asf、mp3或wmv等网络串流音乐格式进行编码,而数字音频广播102也根据其自行定义的编码规则对公开音频进行编码。为了后续对该公开音频处理,必须先将不同的公开音频译码为统一的无编码音频,在本较佳实施例中,该无编码音频为一脉冲码调制(Pulse Code Modulation,PCM)音频。
该数字特征转换模块13首先将该译码模块12产生的无编码音频区分为多个音频片段(Chunk)。在本较佳实施例中,每一音频片段的长度设定为1.6秒且包括150个帧(Frame),每个帧具有512个采样(Sample),采样频率为48Khz。接着,该数字特征转换模块13对每一音频片段进行特征抽取,特征抽取的目的在于标示每一音频片段的属性,以利后续的数字特征分类模块14来分类。
所谓的特征抽取,也就是针对每一音频片段的过零率(ZeroCrossing Rate,ZCR)、对数能量(Log Energy)、基本周期(Pitch)、熵(Entropy)及梅尔倒频谱参数(Mel-FrequencyCepstral Coefficient,MFCC)等常见的声学特征进行分析,为计算机进行音频处理与辨识的特定领域,其方法及使用是该技术领域者所熟知,在此不多赘述。
该数字特征分类模块14用以接收来自数字特征转换模块13传来的所述音频片段。该数字特征分类模块14包括一用以分类所述音频片段的支援向量机141。该支援向量机141预先以多份真实音频样本进行训练,并以人工标定所述真实音频样本所代表的音频类别,使该支援向量机141可分辨该所欲搜集的音频类别。若其中一音频片段特征抽取的结果符合一所欲搜集的音频类别,则该支援向量机141将该其中一音频片段分类为一特征音频片段。在本较佳实施例中,收听者所欲搜集的音频为音乐,所以该特征音频片段就是属于具有音乐特征的特征音频片段。
该完整音频确认模块15包括一平滑化子模块151,用以确保辨认该特征音频片段的准确性。该平滑化子模块151是以分类后的其中一音频片段为中心,往前取五个音频片段并往后取五个音频片段为一窗格(Window)。若在该窗格中的十一个音频片段超过半数为特征音频片段,则该平滑化子模块151将该窗格中心的音频片段分类为该特征音频片段。接着,该完整音频确认模块15将所述连续出现的特征音频片段组合成一目标音频。接着,该完整音频确认模块15若判断该目标音频长于一预定时间,如90秒,则将该目标音频储存于一储存介质16上,其目的在于排除太短的音乐片段,如广播节目中常出现的片头音乐、片尾音乐及串场音乐。
参阅图1、图2,该较佳实施例的从公开音频源搜集音频的方法包括以下步骤。首先,如步骤21所示,自该公开音频源10接收该公开音频。接着,如步骤22所示,将该公开音频译码为无编码音频。接着,如步骤23所示,将该无编码音频区分为所述音频片段,并将各该音频片段进行特征抽取。接着,如步骤24所示,若其中一音频片段特征抽取的结果符合所欲搜集的音频类别,则将该其中一音频片段如步骤25所示分类为一特征音频片段。为确保辨认该特征音频片段的准确性,如步骤26所示,以该其中一音频片段为中心,往前取五个音频片段并往后取五个音频片段为该窗格,若在该窗格中的十一个音频片段超过半数为特征音频片段,则将该窗格中心的音频片段分类为该特征音频片段。最后,如步骤27所示将所述连续出现的特征音频片段组合为目标音频,并设定若该目标音频长于该预定时间,如90秒,则将该目标音频储存于储存介质16上。
因此,根据以上所述的较佳实施例,本发明具有以下的优点:首先,本发明可以在不需要收听者介入的状态下,自动地搜集公开音频源10所播放的高品质公开音频。第二、对于喜爱音乐的收听者,本发明可以将非属音乐的公开音频排除,只搜集收听者所要的音乐。第三,除了购买CD、合法下载数字音乐外,收听者多了一种合法取得音乐的渠道,并能节省购买CD的成本。
综上所述,利用本发明的从公开音频源搜集音频的系统及方法,能够有效地协助收听者不费力气地搜集音乐,确有其优点。
以上所述仅为本发明较佳实施例,然其并非用以限定本发明的范围,任何熟悉本项技术的人员,在不脱离本发明的精神和范围内,可在此基础上做进一步的改进和变化,因此本发明的保护范围当以本申请的权利要求书所界定的范围为准。

Claims (13)

1.一种从公开音频源搜集音频的方法,其特征在于,该公开音频源以数字方式广播至少一公开音频,该方法包含下列步骤:
步骤一:自该公开音频源接收该公开音频;
步骤二:将该公开音频译码为一无编码音频;
步骤三:将该无编码音频区分为多个音频片段,并将各该音频片段进行特征抽取;
步骤四:若其中一音频片段特征抽取的结果符合一所欲搜集的音频类别,则将该其中一音频片段分类为一特征音频片段;及
步骤五:将连续出现的所述特征音频片段组合为一目标音频。
2.根据权利要求1所述的从公开音频源搜集音频的方法,其特征在于,该步骤四及步骤五间还包含一步骤六,是以该其中一音频片段为中心,往前取一预定数目的音频片段并往后取该预定数目的音频片段为一窗格,若在该窗格中的音频片段超过半数为该特征音频片段,则将该窗格中心的音频片段分类为该特征音频片段。
3.根据权利要求1所述的从公开音频源搜集音频的方法,其特征在于,在该步骤五中,若该目标音频长于一预定时间,则将该目标音频储存于一储存介质上。
4.根据权利要求1所述的从公开音频源搜集音频的方法,其特征在于,所述音频片段的长度为1秒至2秒。
5.根据权利要求1所述的从公开音频源搜集音频的方法,其特征在于,在步骤四中,是以一支援向量机进行分类。
6.根据权利要求5所述的从公开音频源搜集音频的方法,其特征在于,该支援向量机预先以多份真实音频样本进行训练,以使该支援向量机可以分辨出该所欲搜集的音频类别。
7.根据权利要求1所述的从公开音频源搜集音频的方法,其特征在于,该音频类别为音乐。
8.一种从公开音频源搜集音频的系统,该公开音频源以数字方式广播至少一公开音频,其特征在于,该从公开音频源搜集音频的系统包含:
一译码模块,用以将一音频源接收元件所接收的该公开音频译码为一无编码音频;
一数字特征转换模块,用以将该译码模块产生的该无编码音频区分为多个音频片段,并将各该音频片段进行特征抽取;
一数字特征分类模块,若其中一音频片段特征抽取的结果符合一所欲搜集的音频类别,则该数字特征分类模块用以将该其中一音频片段分类为一特征音频片段;及
一完整音频确认模块,用以将连续出现的所述特征音频片段组合成一目标音频,
其中,该从公开音频源搜集音频的系统还包含:
一音频源接收元件,用以接收该公开音频源的公开音频。
9.根据权利要求8所述的从公开音频源搜集音频的系统,其特征在于,该完整音频确认模块为增加分类后的精准度,包括一平滑化子模块,是以分类后的其中一音频片段为中心,往前取一预定数目的音频片段并往后取该预定数目的音频片段为一窗格,若在该窗格中的音频片段超过半数为该特征音频片段,则该平滑化子模块将该窗格中心的音频片段分类为该特征音频片段。
10.根据权利要求8所述的从公开音频源搜集音频的系统,其特征在于,该完整音频确认模块若判断该目标音频长于一预定时间,则将该目标音频储存于一储存介质上。
11.根据权利要求8所述的从公开音频源搜集音频的系统,其特征在于,该音频源接收元件为一可安装于计算机、个人数字助理或笔记型计算机的网络卡,用以接收该公开音频源以有线方式播送的公开音频。
12.根据权利要求8所述的从公开音频源搜集音频的系统,其特征在于,该数字特征分类模块包括一用以分类所述音频片段的支援向量机,该支援向量机预先以多个真实音频样本进行训练,使该支援向量机可分辨该所欲搜集的音频类别。
13.根据权利要求8所述的从公开音频源搜集音频的系统,其特征在于,该音频类别为音乐。
CNA2006101457397A 2006-11-16 2006-11-16 从公开音频源搜集音频的系统及其方法 Pending CN101188464A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2006101457397A CN101188464A (zh) 2006-11-16 2006-11-16 从公开音频源搜集音频的系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2006101457397A CN101188464A (zh) 2006-11-16 2006-11-16 从公开音频源搜集音频的系统及其方法

Publications (1)

Publication Number Publication Date
CN101188464A true CN101188464A (zh) 2008-05-28

Family

ID=39480678

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006101457397A Pending CN101188464A (zh) 2006-11-16 2006-11-16 从公开音频源搜集音频的系统及其方法

Country Status (1)

Country Link
CN (1) CN101188464A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109906616A (zh) * 2016-09-29 2019-06-18 杜比实验室特许公司 用于确定一或多个音频源的一或多个音频表示的方法、系统和设备
CN111405355A (zh) * 2020-02-04 2020-07-10 北京贝思科技术有限公司 动态生成音视频片段的处理方法、装置及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109906616A (zh) * 2016-09-29 2019-06-18 杜比实验室特许公司 用于确定一或多个音频源的一或多个音频表示的方法、系统和设备
CN109906616B (zh) * 2016-09-29 2021-05-21 杜比实验室特许公司 用于确定一或多个音频源的一或多个音频表示的方法、系统和设备
CN111405355A (zh) * 2020-02-04 2020-07-10 北京贝思科技术有限公司 动态生成音视频片段的处理方法、装置及电子设备

Similar Documents

Publication Publication Date Title
JP5362178B2 (ja) オーディオ信号からの特徴的な指紋の抽出とマッチング
US20050249080A1 (en) Method and system for harvesting a media stream
EP1354276B1 (en) Method and apparatus for creating a unique audio signature
US9401154B2 (en) Systems and methods for recognizing sound and music signals in high noise and distortion
JP5440051B2 (ja) コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置
CN103597543A (zh) 语义音轨混合器
CN1977306A (zh) 音频流的音乐部分的自动提取
CN110191368A (zh) 视频数据采集及对齐方法、装置、电子设备及系统
Venkatesh et al. Artificially synthesising data for audio classification and segmentation to improve speech and music detection in radio broadcast
CN101196888A (zh) 应用数字音频特征集分类音频的系统及其方法
EP1531457B1 (en) Apparatus and method for segmentation of audio data into meta patterns
CN101188464A (zh) 从公开音频源搜集音频的系统及其方法
JP4330174B2 (ja) 情報選択方法及び情報選択装置等
Ramona et al. A public audio identification evaluation framework for broadcast monitoring
JP4278667B2 (ja) 楽曲結合装置、楽曲結合方法、及び楽曲結合プログラム
CN103258552B (zh) 调整播放速度的方法
KR102431737B1 (ko) 멀티미디어 데이터에서 하이라이트를 찾는 방법 및 그를 이용한 장치
GB2487795A (en) Indexing media files based on frequency content
TWI298871B (zh)
Surolia Recommendation system based on artist and music embeddings
Lidy et al. Visually profiling radio stations
TWI288916B (en) System and its method using digital audio characteristic sets to sort audio signals
JP3565261B2 (ja) データ検索方法、情報提供システム、および記録媒体
WO2022187218A1 (en) Selective automatic production and. distribution of secondary creative content
Larson et al. Structured Audio Player: Supporting Radio Archive Workflows with Automatically Generated Structure Metadata.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication