CN1633690A - 存储无线电广播内容中的音乐部分的数字记录器及其方法 - Google Patents

存储无线电广播内容中的音乐部分的数字记录器及其方法 Download PDF

Info

Publication number
CN1633690A
CN1633690A CNA03804093XA CN03804093A CN1633690A CN 1633690 A CN1633690 A CN 1633690A CN A03804093X A CNA03804093X A CN A03804093XA CN 03804093 A CN03804093 A CN 03804093A CN 1633690 A CN1633690 A CN 1633690A
Authority
CN
China
Prior art keywords
data
music
music data
signal
numeroscope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA03804093XA
Other languages
English (en)
Inventor
安濠声
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of CN1633690A publication Critical patent/CN1633690A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/02Analogue recording or reproducing
    • G11B20/04Direct recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10009Improvement or modification of read or write signals
    • G11B20/10268Improvement or modification of read or write signals bit detection or demodulation methods
    • G11B20/10287Improvement or modification of read or write signals bit detection or demodulation methods using probabilistic methods, e.g. maximum likelihood detectors
    • G11B20/10296Improvement or modification of read or write signals bit detection or demodulation methods using probabilistic methods, e.g. maximum likelihood detectors using the Viterbi algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B19/00Driving, starting, stopping record carriers not specifically of filamentary or web form, or of supports therefor; Control thereof; Control of operating function ; Driving both disc and head
    • G11B19/02Control of operating function, e.g. switching from recording to reproducing
    • G11B19/16Manual control
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00992Circuits for stereophonic or quadraphonic recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/061MP3, i.e. MPEG-1 or MPEG-2 Audio Layer III, lossy audio compression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/005Algorithms for electrophonic musical instruments or musical processing, e.g. for automatic composition or resource allocation
    • G10H2250/015Markov chains, e.g. hidden Markov models [HMM], for musical processing, e.g. musical analysis or musical composition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/005Algorithms for electrophonic musical instruments or musical processing, e.g. for automatic composition or resource allocation
    • G10H2250/015Markov chains, e.g. hidden Markov models [HMM], for musical processing, e.g. musical analysis or musical composition
    • G10H2250/021Dynamic programming, e.g. Viterbi, for finding the most likely or most desirable sequence in music analysis, processing or composition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/1062Data buffering arrangements, e.g. recording or playback buffers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Probability & Statistics with Applications (AREA)
  • Circuits Of Receivers In General (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

本发明涉及一种用于有选择且追溯地只记录无线电广播内容中的音乐部分的方法和设备。根据本发明,提出了一种用于有选择且追溯地只记录无线电广播内容中的音乐部分的方法,包括以下步骤:(a)检测音乐部分的开始点;(b)从开始点开始,将音乐部分暂时存储在缓冲存储器中;(c)检测由用户发布的记录音乐部分的命令;以及(d)向半永久存储器传送记录在缓冲存储器中的音乐部分。

Description

存储无线电广播内容中的音乐部分的数字记录器及其方法
技术领域
本发明涉及一种数字记录器及一种方法,用于自动选择和存储无线电广播内容中的音乐,更具体地,涉及一种数字记录器及一种方法,用于自动地从无线电广播内容中只提取音乐部分,并根据用户的记录选择,从头到尾地存储所选择的音乐。
背景技术
近来,喜欢收听音乐的人们更愿意使用数字记录器而不是传统的模拟记录器,数字记录器能够再现高质量的音乐声音。作为用于再现数字音乐文件的设备,数字记录器的尺寸相对较小,因为其包含能够读取和写入音乐数据的非易失性数字存储器(媒体卡)。由于这种优势,便携式数字记录器,所谓的“MP3(MPEG音频层3)播放器”得到了快速的普及。通常,MP3播放器不仅再现所存储的音乐数据,还具有接收现场FM无线电音乐广播的收音机功能。
图1是示出了具有收音机功能的传统MP3播放器的结构的方框图。
传统的MP3播放器100包括天线110、调谐器120、声音输出部分130、DSP(数字信号处理器)140、外部设备连接部分150、控制器160、音乐数据存储部分170、显示部分180和键操作部分190。
天线110接收天波信号。在由天线110接收到的天波信号中,调谐器120接收和输出与调谐信道相对应的无线电信号。声音输出部分130对从调谐器120接收到的模拟声信号进行滤波和放大,以便输出作为可听声的信号。DSP 140将从调谐器120接收到的模拟声信号转换为数字数据,或者将数字音乐数据转换为模拟声信号,并输出转换后的信号或数据。同时,DSP 140对已编码音乐数据进行解码,并将其转换为模拟声信号,并输出该信号。外部设备连接部分150与外部设备(如计算机)相连,以便下载MP3音乐数据。控制器160控制MP3音乐数据的存储和输出,以及无线电广播信号的接收和输出。音乐数据存储部分170是闪速存储器或硬盘形式的存储介质,用于存储以MP3格式压缩的多个音乐数据。如果音乐数据存储部分170具有64兆字节或128兆字节的容量,其可以存储16首或32首歌曲的MP3音乐文件。显示部分180显示MP3播放器的操作状态。键操作部分190执行输入操作,以便选择无线电广播信道或选择和输出MP3音乐文件。
如果用户想要通过MP3播放器100收听音乐,他或她可以选择收音机功能,以便收听所需音乐广播频道中的实时音乐。代替地,用户可以选择存储在音乐数据存储部分170中的音乐数据,以便收听所需的音乐。
特别地,在通过选择收音机功能收听FM无线电音乐广播的同时,用户可以通过按下设置在键操作部分190中的记录按钮(未示出),记录当时正在通过无线电广播的音乐。然后,控制器160控制DSP 140,将从调谐器120输出的音乐信号转换为数字数据,并将数字数据存储在音乐数据存储部分170中。如果用户在音乐结束时再次按下记录按钮,将停止记录操作。用户需要十分注意,以便识别音乐的开始和结束。
如果无线电频道在对音乐进行了介绍之后播放音乐,则用户有时间在记录音乐之前进行准备。但是,在大多数情况下,用于在通过无线电收听到音乐开始之后才决定记录音乐。换句话说,除了现场音乐的开头部分之外,可以将从无线电台接收到的现场音乐的其他部分存储在音乐数据存储部分170中。在完成记录操作之后再现音乐时,用户只能收听在过了一段时间之后才记录下来的部分。因此,在传统的MP3播放器100中,需要即使在用户在过了一段时间之后才开始记录音乐的情况下,仍然从其开头记录和再现通过无线电广播的音乐的附加功能。
发明内容
因此,提出本发明以解决在现有技术中遇到的上述问题,并且本发明的目的在于提供一种数字记录器和一种方法,用于自动地从无线电广播内容中选择音乐,使得任何时刻,用户都能够根据其选择,从开头记录和再现通过无线电广播的音乐。
为了实现此目的,提供了一种数字记录器,从广播信号中选择音乐信号,并将所选择的信号存储为音乐数据,所述数字记录器包括:调谐器,用于接收和选择广播信号;声音输出部分,用于输出所选择的广播信号,作为可听声;音乐数据存储部分,包括:暂时存储区,用于暂时存储音乐数据,以及永久存储区,用于永久或长期存储音乐数据;以及显示部分,用于显示数字记录器的操作状态,对所述数字记录器的改进包括:信号处理部分,用于将广播信号转换为数字数据,或者将数字数据转换为模拟信号,将数字数据压缩并编码成音乐数据,或者对压缩数字数据进行解码和输出;音乐提取部分,用于根据音乐提取算法,将从信号处理部分输出的数字数据分为音乐数据和非音乐数据,以便只提取音乐数据,并产生和输出用于识别所提取出的音乐数据的开头和结尾的开头/结尾数据;键输入部分,具有:广播键,用于将数字记录器的操作模式转换为无线电广播接收模式;以及记录键,用于实现记录和存储通过无线电广播的音乐信号的功能;以及微处理器,用于控制信号处理部分,只将由音乐提取部分提取出的音乐数据暂时存储在音乐数据存储部分的暂时存储区中,在按下记录键时,向确定的存储区传送暂时存储在暂时存储区中的音乐数据,并在确定的存储区中,明确地存储和维持音乐数据。
为了实现上述目的,还提供了一种使用数字记录器有选择地存储音乐的方法,所述数字记录器包括:调谐器,用于接收和选择广播信号;声音输出部分,用于输出所选择的广播信号,作为可听声;数字信号处理器(DSP),用于将广播信号转换为数字数据,或者将数字数据转换为模拟信号,将数字数据压缩并编码成音乐数据,或者对压缩数字数据进行解码和输出;音乐提取部分,用于从DSP接收到的数字数据中只提取音乐数据;音乐数据存储部分,用于存储音乐数据;显示部分,用于显示数字记录器的操作状态;以及键输入部分,用于将数字记录器的操作模式转换为无线电广播接收模式,并输入用于实现对通过无线电广播的音乐信号的记录的命令,所述方法包括以下步骤:(a)所述调谐器向声音输出部分输出广播信号,并向DSP发送该信号;(b)所述DSP将广播信号转换为数字数据,并向音乐提取部分输出该数据;(c)所述音乐提取部分根据音乐提取算法,从数字数据中提取音乐数据;(d)识别所提取出的音乐数据的开头和结尾,并将该数据暂时存储在音乐数据存储部分中;(e)确定是否从键输入部分输入了记录当时向声音输出部分输出的音乐的命令;以及(f)明确地存储和维持暂时存储在音乐数据存储部分中的音乐数据。
附图说明
通过结合附图的详细描述,本发明的上述和其他目的、特征和优点将变得显而易见,其中:
图1是示出了具有收音机功能的传统MP3播放器的结构的方框图;
图2是示出了根据本发明的用于有选择地存储音乐的数字记录器的结构的方框图;
图3是示出了根据本发明第一实施例的、包括人工神经网络的音乐提取部分的内部结构的方框图;
图4是示出了根据本发明第一实施例,利用人工神经网络,自动选择和存储音乐的处理的流程图;
图5是示出了根据本发明第二实施例的、利用频率分析的音乐提取部分的内部结构的方框图;
图6示出了音乐信号的成分,包括静音;
图7是示出了根据本发明第二实施例,利用频率分析,自动选择和存储音乐的处理的流程图;
图8是示出了根据本发明第三实施例的、利用HMM(隐马尔可夫模型)的音乐提取部分的内部结构的方框图;
图9是示出了用于找出具有最大概率的最似然状态序列的维特比算法的原理;以及
图10是示出了根据本发明第三实施例,利用HMM,自动选择和存储音乐的处理的流程图。
具体实施方式
以下,将参照附图,对本发明的优选实施例进行描述。在以下的描述和附图中,相同的参考数字用于表示相同或相似的部件。因此,将省略对相同或相似部件的重复描述。
图2是示出了根据本发明优选实施例的用于有选择地存储音乐的数字记录器的结构的方框图。
参照图2,数字记录器200包括DSP 210、音乐提取部分220、键输入部分230、微处理器240和程序存储器250。
DSP 210包括:ADC(模数转换器)211,用于将模拟信号转换为数字信号;DSP核心212,用于控制DSP 210的全部操作;DAC(数模转换器)213,用于将数字信号转换为模拟信号;编码器214,用于将模拟信号压缩和编码为如MP3文件数据等;DSP程序部分215,存储用于根据来自微处理器240的控制命令,将从调谐器120接收到的广播信号转换为数字数据,对数字数据进行压缩和编码,以及用于对压缩数字数据进行解码和输出的程序;以及解码器216,用于对压缩数字数据进行解码。当然,数字记录器可以包括基于硬件的信号处理部分,来代替DSP 210。
音乐提取部分210根据其自身的音乐提取算法,将从DSP 210接收到的数字信号分为音乐数据和非音乐数据,以便提取音乐数据,同时去除非音乐数据。为了执行此提取功能,音乐提取部分220利用人工神经网络、频率分析或HMM(隐马尔可夫模型)。
键输入部分230包括:广播键232,用于将数字记录器的操作模式转换为无线电广播接收模式;以及记录键234,用于实现记录和存储正在通过无线电进行广播的音乐信号的功能;以及频道键,用于选择频道;和音量键,用于调整声输出的音量。
在数字记录器处于广播接收模式时,DSP 210和音乐提取部分220将由调谐器210接收的广播信号分为音乐数据和非音乐数据,以便只提取音乐数据。将音乐数据暂时存储在音乐数据存储部分170中。当按下设置在键输入部分230中的记录键234时,将当时正在输出且暂时存储的音乐数据从开头开始明确地存储在音乐数据存储部分170中。微处理器240控制存储音乐数据的全部处理。
音乐数据存储部分170具有:暂时存储区,用于暂时存储音乐数据;以及确定存储区,用于根据明确地记录和存储音乐数据的命令,明确地存储音乐数据。暂时存储区可以存储接近一首歌曲数量的音乐数据。在针对特定音乐按下记录键234时,微处理器240向确定存储区传送存储在暂时存储区中的音乐数据,以便明确地存储该音乐数据。
图3是示出了根据本发明第一实施例的、包括人工神经网络的音乐提取部分220的内部结构的方框图。
根据第一实施例的音乐提取部分220根据利用人工神经网络的音乐提取算法,从在当前的调谐频道上接收到的广播信号中只提取音乐数据。当输入包括在广播信号中的大量声信号时,利用人工神经网络的音乐提取算法执行对输入信号的操作。音乐提取算法缩减输入数据的尺寸,将其分为音乐信号和非音乐信号,并去除非音乐信号,以便只输出音乐信号。
为了增强对本发明第一实施例的理解,将更为详细地解释“人工神经网络”。
“人工神经网络”是模仿人或动物大脑的结构而建模的计算系统。处于高度复杂连接下的大脑中的神经元彼此相互作用,按照并行且分布式的方式处理信息。模仿生物神经元,设计人工神经网络。每个人工神经网络利用具有临界值的阈值逻辑单元形成神经网络,并应用学习算法,以便使给定的神经网络适应环境,如数据等。
根据形成神经网络的体系结构,多种神经网络模型是可用的。最为广泛使用的模型是多层感知器体系结构,其中对神经元进行分层,包括输入神经元层、输出神经元层和隐藏神经元(或隐藏节点)中间层,如图3所示。在相同层的神经元直接没有连接,输出层之外的层上的每个神经元与下一层的每个神经元相连。第一层上的神经元沿第二层上神经元的方向发送其输出,其术语为“前馈”。将权重Wmh赋予神经元之间的每个连接,并在下一层累加加权输入。神经网络学习识别权重。作为权重学习算法,通常采用“错误后向传播”。在本发明中,采用多层感知器体系结构作为人工神经网络。同样,在本发明中使用了这种单隐藏层、前馈神经网络和错误后向传播学习算法。
根据本发明的第一实施例,音乐提取部分220利用以频率图样进行训练并具有多层感知器体系结构的人工神经网络。重要的是,在训练神经网络时,适当地调整如信号出现时间(经历训练集合中的所有图样)等训练参数和隐藏节点的数量。音乐提取部分220将广播信号分为音乐信号和非音乐信号,以便只提取音乐信号,而去除非音乐信号。
下面,将参照图4,对利用人工神经网络提取音乐数据的数字记录器的操作进行更为详细的解释。
图4是示出了根据本发明第一实施例,利用人工神经网络,自动选择和存储音乐的处理的流程图。
在数字记录器200通电,并且微处理器240根据键输入部分230出的键输入处于用于控制记录器的全部操作的等待模式时(S402),用户可以按下设置在键输入部分230中的广播键232,以收听收音机。在按下广播键232时(S404),微处理器240控制调谐器120,以接收当前调谐频道的广播信号。微处理器240还控制DSP 210,对接收到的广播信号进行编码,并将其转换为数字数据。当然,用于可以通过操作设置在键输入部分230中的频道键,选择另外的频道。微处理器240记忆通过键输入部分230调谐的频道。除非用于利用键输入部分230选择另外的频道,微处理器240控制调谐器120接收该调谐频道的广播信号。如果用户选择另外的频道,则微处理器240将控制调谐器120接收该其它频道的广播信号(S406)。
调谐器120接收广播信号。调谐器120同时向声音输出部分130和DSP 210输出调谐频道的广播信号。声音输出部分130输出从调谐器120接收到的模拟广播信号,作为可听声。DSP 210的DSP核心212利用ADC211,将从调谐器120接收到的广播信号转换为数字数据。而且,编码器214将数字数据编码为音乐文件数据,并将该数据暂时存储在音乐数据存储部分170中。在用户收听通过无线电广播的话音和音乐的同时,数字记录器210只从广播信号中提取音乐信号,并暂时存储所提取出的音乐信号。如果用户输入记录音乐的命令,数字记录器200明确地记录当时正在通过无线电广播的音乐。
由数字记录器200接收到的广播信号具有多个段,如用于广播音乐的音乐段、用于商业消息的商业间歇段以及用于传送电台DJ(唱片节目主持人)的话音或无线电广播的话音段。向调谐器120传送由天线110接收到的广播信号。调谐器120向DSP 210输出当前调谐频道的广播信号(S408)。DSP 210通过ADC 211、DSP核心212和DAC 213,向声音输出部分130输出广播信号。与此同时,DSP 210利用编码器214,将包括在广播信号中的音乐信号编码成数字音乐数据,例如,MP3音乐数据,并向音乐提取部分220输出编码数据(S410)。
如图3所示,音乐提取部分220接收从DSP 210输出的广播信号,作为输入,并根据使用人工神经网络的预定音乐提取算法,将该信号分为音乐数据和非音乐数据。音乐提取部分220去除非音乐数据,并只将音乐数据暂时存储在音乐数据存储部分中(S412)。微处理器240控制DSP 210,将当前正在向声音输出部分130输出的音乐存储在音乐数据存储部分170的暂时存储区中。当从键输入部分230输入记录命令时,微处理器240控制DSP 210,追溯到从音乐数据的开头开始存储和保持暂时存储在音乐数据存储部分170中的音乐数据。
如果用户想要记录当前正在向声音输出部分130输出的音乐,他或她应当按下键输入部分230的记录键234。在按下记录键234时(S414),微处理器240控制DSP 140,向确定存储区传送暂时存储在音乐数据存储部分170的暂时存储区中的音乐数据,以便明确地存储和保持音乐数据(S416)。
音乐数据存储部分170按照接收的顺序存储音乐数据。如果未按下记录键234,音乐提取部分220将会把音乐数据连续地存储在音乐数据存储部分170中。如果音乐数据超过音乐数据存储部分170的存储容量(即,如果接收到新的音乐数据要存储在已满音乐数据存储部分170中),DSP 210将按照其被存储的顺序,逐一删除音乐数据,以便存储新的音乐数据。
键输入部分230包括具有删除音乐数据功能的键。键输入部分230向显示部分180输出存储在音乐数据存储部分170中的音乐数据的列表。用户可以通过按下删除键,删除任意选择的音乐数据。
根据本发明的第一实施例,数字记录器200可以输出接收到的广播信号,作为可听声。而且,数字记录器200可以从接收到的广播信号中只选择音乐信号,并将该音乐信号存储为数字音乐数据。
图5是示出了根据本发明第二实施例的、利用频率分析的音乐提取部分500的内部结构的方框图。
通常,以单声道(mono)或立体声(stereo)进行无线广播。
单声道模式在于利用单一频道广播声信号。由于单声道模式输出由设置在与声源无关的位置出的声音接收装置接收到的声音,通过单声道音频系统输出的声信号与原始的声信号存在轻微的差别。相反,立体声模式在于利用多个频带广播声信号。立体声模式根据声源,将声信号分为左立体声信号和右立体声信号,并向多个频带传送左右立体声信号中的每一个。与单声道模式相比,立体声模式更为逼真,因为其输出了更为接近原始声音的声信号。
通常将通过无线电广播的声音分类为四段,即无线电广播话音段、音乐和广播话音共存段、商业间歇段和音乐段。话音段接近于单声道信号,而其他段接近于立体声信号。立体声广播信号在左频道信息和右频道信息之间存在轻微的差别。可以比较两个频道中声音波形的相位值随时间的变化,以便确定两个频道的相位值是否相同。如果不存在相位差异,则将广播信号确定为单声道的。如果去除了单声道的话音信号,将能够获得大部分为立体声信号的音乐信号。
参照图5,根据本发明第二实施例的音乐提取部分500分析广播信号,并将其分为单声道信号和立体声信号。音乐提取部分500去除单声道信号,以便只获得立体声信号。换句话说,在时间轴上示出了包括单声道信号的广播信号。在时间轴上,计算广播信号的左右频道之间的音量差。当音量差近似为零时,将广播信号确定为单声道的。当大于任意标准值的音量差持续特定时间段时,将信号确定为立体声的。因此,去除单声道信号,以便只获得立体声信号。
根据本发明第二实施例,利用频率分析的音乐提取部分500包括声数据操作部分510、非音乐去除部分520、音乐开头/结尾确定部分530和谱分析部分540。
声数据操作部分510实现对从DSP 210接收到的广播数据的左声道数据和右声道数据的操作,并输出与操作结果有关的数据。当结果近似为零时,将广播数据确定为单声道数据。当结果表示大于标准值的数值持续了特定时间段时,将广播数据确定为立体声数据。根据操作结果,去除单声道数据,以便只获得立体声数据。
音乐开头/结尾确定部分530向DSP 210输出从非音乐去除部分520接收到的音乐数据。而且音乐开头/结尾确定部分530产生用于区分和识别音乐数据的开始和结束点的开头/结尾数据,并向微处理器240传送开头/结尾数据。对于此传送,设置分离的输出端口。此外,在其因为两个音乐数据之间不存在静音或者两个音乐数据之间存在重叠部分,而未能区分新音乐数据的开始部分与前一音乐数据的结束部分时,音乐开头/结尾确定部分530向谱分析部分540传送接收到的音乐数据。谱分析部分540执行对从音乐开头/结尾确定部分530接收到的音乐数据的谱分析,以区分音乐的开始和结束信号,并向微处理器240发送用于识别开始和结束信号的开头/结尾数据。
为了区分音乐的开始和结束部分,本发明的数据记录器200检测音乐数据结尾部分的渐弱。通过无线电广播的大部分音乐在其结束部分渐弱。根据本发明的第二实施例,音乐提取部分500的音乐开头/结尾确定部分530检测每个音乐数据中的渐弱,从而区分下一音乐的开头与前一音乐的结尾。
如图6所示,在前一音乐信号A和后一音乐信号B之间可能存在静音。当在音乐信号A的输出之后出现静音时,音乐开头/结尾确定部分530确定音乐信号A结束。当音乐信号B跟随在静音之后时,音乐开头/结尾确定部分530确定音乐信号B开始。音乐开头/结尾确定部分530产生基于这种确定的开头/结尾数据,并向微处理器240输出该数据。
通常,频率信号在话音或音乐出现的点具有较强的能量值。基于此,音乐开头/结尾确定部分530计算能量变化。音乐开头/结尾确定部分530将较低能量点识别为静音或音乐的可能结束点。通过取从非音乐去除部分520接收到的帧中的音乐数据的相位值的平方,并取此平方值的对数,获得能量值。
在除了古典音乐之外的大多数音乐类别中,单一的音乐信号具有大约3到5分钟的长度。当只通过静音的出现来确定音乐的开始和结束点时,很可能将音乐中间的静音错误地识别为音乐的开始或结束点。为了降低区分音乐的开始点和结束点的错误率,音乐开头/结尾确定部分530在考虑单一音乐信号的平均长度为3到5分钟的同时,检测并确定音乐的开始和结束点。
此后,将参照图7,对包括利用频率分析的音乐提取部分500的数字记录器的操作进行更为详细的解释。
图7是示出了根据本发明第二实施例,利用频率分析,自动选择和存储音乐的处理的流程图。
数字记录器200具有再现已存储音乐数据和接收实时无线电广播的功能。当用户通过按下设置在键输入部分230中的广播键232,将数字记录器200设置为广播接收模式时,微处理器240控制调谐器120,以接收调谐频道的广播信号(S702)。
调谐器120向声音输出部分130输出由天线110接收的广播信号,同时向DSP 210发送该广播信号(S704),以便从广播信号中提取出音乐信号,为存储音乐数据做准备,同时使用户能够收听广播。在DSP 210中,ADC 211将广播信号转换为数字数据。DSP核心212将数字音乐数据分为左声道数据和右声道数据,并向音乐提取部分220发送分离后的数据。向音乐提取部分220的声数据操作部分510传送从DSP 210输出的左右声道音乐数据。声数据操作部分510执行对从DSP 210接收到的左声道数据和右声道数据的操作,并输出操作结果(S708)。当结果接近“0”时,将该数据识别为单声道数据。当结果表示比临界值大的数值持续了特定时间段时,将该数据识别为立体声数据。
根据从声数据操作部分510接收到的操作结果,非音乐去除部分520去除单声道话音数据,而只将立体声音乐数据输出到音乐开头/结尾确定部分530(S710)。音乐开头/结尾确定部分530根据(1)音乐数据中的渐弱,(2)音乐数据中静音的出现,或者(3)单一音乐数据的平均长度(3到5分钟),确定从非音乐去除部分520接收到的音乐数据的开始和结束点。(4)当前一音乐数据与后一音乐数据之间存在重叠部分时,音乐开头/结尾确定部分530向谱分析部分540输出音乐数据,以便执行对音乐数据的谱分析,并区分音乐的开始和结束点。最后,(5)可以根据通过对帧中的音乐数据的相位值平方并取该平方值的对数而获得的能量值,来确定音乐的开始和结束点。根据上述五个因素或处理的组合来确定音乐数据的开始和结束点。音乐开头/结尾确定部分530产生表示音乐数据的开始和结束点的开头/结尾数据,并向微处理器240传送该开头/结尾数据。微处理器240将开头/结尾数据存储在音乐数据存储部分170的非音乐存储区中(S712)。音乐开头/结尾确定部分530不仅产生开头/结尾数据,还向DSP 210输出音乐数据。DSP 210对正在输出的音乐数据进行编码,并将其存储在音乐数据存储部分170的暂时存储区中,为记录用户当前正通过收音机收听的音乐做准备。
当用户按下设置在键输入部分230中的记录键234,以便记录当前通过无线电广播的音乐时(S714),微处理器240从音乐数据存储部分170的非音乐存储区中读取当前正在输出的音乐的开头/结尾数据。根据此开头/结尾数据,微处理器240识别暂时存储在音乐数据存储部分的暂时存储区170b中的音乐数据,并向确定存储区传送音乐数据,以便明确地存储和维持音乐数据(S716)。
音乐数据存储部分170的暂时存储区能够存储大约一首歌曲的音乐数据。暂时存储区暂时存储发送到DSP 210的音乐数据。在未输入记录键234而接收到新音乐数据时,暂时存储区删除先前存储的音乐数据,以便暂时存储新音乐数据。如第一实施例所解释的那样,“明确地存储和维持”表示向确定的存储区传送暂时存储在音乐数据存储部分170的暂时存储区中的音乐数据,从而能够明确地维持音乐数据的存储。当然,用户可以使用键输入部分230,有选择地删除存储在确定存储区中的任何音乐数据。
音乐数据存储部分170的确定存储区能够存储大约六首歌曲的音乐数据。如果在音乐数据存储部分170已满时按下记录键234以存储新音乐数据,微处理器240向显示部分180输出表示已满存储状态的消息,如“不能再存储音乐。删除先前存储的音乐吗?”,并等待来自键输入部分230的键输入。如果存在删除的键输入,微处理器240向显示部分180输出存储在音乐数据存储部分170中的音乐数据的列表,以便用户能够通过将指示条设置在列表中的音乐数据上,而选择要删除的音乐。如果用户按下删除键,则将从确定存储区内删除通过指示条选中的音乐数据。此外,将向该确定存储区传送存储在暂时存储区中的新音乐数据,以便进行明确的存储和维持。
如果在步骤S714,用户并未按下记录键234,微处理器240将返回步骤S704,向声音输出部分130输出广播信号,并控制DSP 210将由音乐提取部分500识别和提取出其开始和结束点的音乐数据存储在音乐数据存储部分170的暂时存储区中。
根据本发明的第二实施例,数字记录器200包括利用频率分析的音乐提取部分500。数字记录器200从所接收到的广播信号中分离音乐数据,并通过频率分析,识别正在被输出的音乐的开头和结尾,以存储该音乐数据。因此,即使在用户在过了一段时间之后开始记录音乐的情况下,仍然能够从其开始点开始记录和再现音乐。
图8是示出了根据本发明第三实施例的、利用HMM(隐马尔可夫模型)的音乐提取部分800的内部结构的方框图。
在第三实施例中,音乐提取部分800接收包括在广播信号中的多个声源的混合信号,作为输入,并重新获得独立声源的信号。音乐提取部分800收集用于提取普通人话音特征的数据,并利用针对该数据进行了训练的隐马尔可夫模型(HMM)提取和去除话音信号。换句话说,利用隐马尔可夫模型从混合声音信息中获得隐藏的话音信息。隐藏的话音是马尔可夫过程。在马尔可夫假设下,“模型的任意状态只依赖于直接导致其的状态。”马尔可夫过程表示其中状态之间的转换只依赖于先前的“n”个状态的过程。该模型的术语为n维模型。“n”表示影响下一状态的状态数。
HMM由用于建模语音随时间的变化的转换概率以及用于建模谱变化的输出概率构成。HMM根据与给定模型的相似性的随机估计而不是对输入模式与基准模式的相似性的随机估计,来评估模型之间的相似性。利用维特比算法来找出对输入话音数据进行预处理的隐藏状态的最似然状态序列,并产生类似于相应输入的输出。
对概率的估计是复杂的工作,因为应当考虑隐藏的状态。为了找出对数据进行了最为合适的解释的最佳状态序列,需要设置用于确定“最佳”的标准。对概率的估计与训练相关联,并可以通过前向算法和后向算法来解决。通常,利用作为动态编程方法的维特比算法来确定最佳状态序列。此外,也应用鲍姆-韦尔奇算法来估计HMM的参数。
根据本发明第三实施例的音乐提取部分800利用用于估计HMM的参数的鲍姆-韦尔奇算法来提取声信号及其特征。而且,音乐提取部分800利用维特比算法只提取出音乐信号。
如图8所示,音乐提取部分800包括声音输入部分810、MLP(多层感知器)820、特征提取器830和HMM分类器840。
声音输入部分810输入从DSP 210接收到的广播信号中的包括多个声信号的音频信号,并提取出音频信号的声特征,例如,零交叉信息、能量、音调、谱频率和对数倒频谱系数(cepstral coefficient)。声音输入部分810将音频信号分为帧。每个帧具有大约10ms到30ms的长度和不同的特征值。按照时间序列排列这些帧。将从这些帧中提取出的特征表示为“Xn”。
MLP 820采用用在如第一实施例中所解释的神经网络话音识别中的算法。MLP 820获得示出了从声音输入部分810接收到音位“Xn”所属的可能性(概率P)的后验概率。如果输入音频信号落入话音段,存在信号是特定音位的较高概率。按照基于P(q1|Xn)每Xn的数目k,向MLP820的输出端输出音位,其中q1~qk表示音位数,Xn表示在声音输入部分810通过帧分析而获得的声特征。
特征提取器830执行基于从MLP 820接收到的后验概率的操作,以获得表示帧内概率分布的熵Hn和作为帧之间的变化的概率的物力论(dynamism)Dn。特征提取器830向HMM分类器840输出熵和物力论特征。如果音频信号为语音,熵将接近为零,而物力论将较高,这是因为帧之间的较大变化。相反,如果信号为音乐,其将具有较高的熵,这是因为较宽的概率分布,而具有较低的物力论,这是因为随时间的较小变化。
以下公式1和2分别用于获得熵Hn和物力论Dn。
[公式1]
Figure A0380409300231
[公式2]
HMM分类器840利用鲍姆-韦尔奇算法和维特比算法,根据从特征提取器830接收到的熵Hn和物力论Dn,将音频信号分类为话音类和音乐类。每个类中的状态全部相同,但出现多次。HMM分类器840学习HMM,以便利用鲍姆-韦尔奇算法,根据两个特征参数(Hn,Dn)优化状态之间的转换概率。将学习之前的初始值设置为预定值。实际上,在将音频信号分类为话音类和音乐类时,HMM分类器840形成了基于接收到的特征参数和所学习的HMM的表格。而且,HMM分类器840利用维特比算法,计算输入音频信号所属的类,并最终确定该信号是属于话音类,还是属于音乐类。
将对由HMM分类器840所使用的鲍姆-韦尔奇算法和维特比算法进行更为详细的解释。
在选择了最佳匹配观察序列的适当模型之后,需要确定产生观察序列的模型的最佳状态序列。通常,使用作为动态编程算法的维特比算法来确定模型的最佳状态。
1.维特比算法
假设观察序列o和模型λ,维特比算法是确定以最大概率产生观察序列o的状态序列Q的最有效方法。产生基于观察序列o和模型λ的观察序列的概率为P(q1,q2,...qT|o,λ)。
图9是示出了用于找出具有最大概率的最似然状态序列的维特比算法的原理。
换句话说,图9示出了用于确定在从时间t到时间t+1的状态转换中,以最高概率进行转换的状态的序列的步骤。维特比算法通过以下步骤计算具有最大概率的状态路径:
①初始化:δ1(i)=πibi(o1),1DiDN,ψ1(i)=0
②递归:
Figure A0380409300241
③终止:
④状态序列回溯:
在上述算法中,ψt(i)是用于保持状态i在时间t的变化的最佳路径的变量。ψt(i)利用到前一状态(t-1)的最似然路径δt-1以及状态j在时间t的转换矩阵,通过公式 计算具有最大概率的状态路径。
在图9中,δt(j)示出了以状态j为终点的路径中的最似然路径的概率,并可以通过公式3表示。
[公式3]
Figure A0380409300246
通过归纳,根据公式3,可以得出公式4
[公式4]
Figure A0380409300247
公式4使其能够获得时间t+1处,以及时间t处,具有最大概率的状态序列。
2.鲍姆-韦尔奇算法
首先,需要选择最匹配观察曲率的模型,并设置模型内的状态的最优序列。然后,需要确定相对于观察序列o,是P(o|λ)最大化的模型λ=(π,A,B)的参数。因为模型的复杂度,难以通过解析方法获得模型参数。因此,使用鲍姆-韦尔奇算法进行参数重新估计(训练)。
鲍姆-韦尔奇算法形成初始模型λ0和基于初始模型和观察序列o的新模型λ。鲍姆-韦尔奇算法通过修改模型参数,直到新模型的概率与前一模型的概率之间的差超过“预定值”,来产生新模型。
鲍姆-韦尔奇算法根据公式5和6,另外定义了两个新参数。
[公式5]
Figure A0380409300251
公式5示出了在时间t处于状态i在时间t+1处于状态j的概率。在此公式中,α是前向算法的前向参数,以及β是后向算法的后向参数。如果将 应用于公式5,可以获得在观察序列o处从状态i到状态j的转换数的期望值。
[公式6]
Figure A0380409300253
公式6示出了在时间t以给定的观察序列处于状态i的概率。如果将
Figure A0380409300254
应用于公式6,可以获得按照观察序列o,处于状态i的发射数的期望值。
通过上述方法,HMM分类器840选择输入音频信号中的音乐信号,并向DSP 210输出所选择的信号。
此后,将参照图10,对利用音乐提取部分800而只输出音乐信号的数字记录器的操作进行更为详细的解释。
图10是示出了根据本发明第三实施例,利用HMM,自动存储音乐的处理的流程图。
当向调谐器120发送由天线110接收到的广播信号时,调谐器120向声音输出部分130输出信号。与此同时,调谐器120通过DSP向音乐提取部分800输出该信号(S1020)。向声音输入部分810发送输入到音乐提取部分800的广播信号。声音输入部分810将音频信号分为帧,并提取音频信号的声特征,例如,零交叉信息、能量、音调、谱频率和对数倒频谱系数。声音输入部分810向MLP 820发送所提取出的声特征(S1040)。
MLP 820获得表示从声音输入部分810接收到的声特征所属的音位的可能性的后验概率(概率P),并向特征提取器830输出该后验概率(S1060)。特征提取器830根据从MLP 820接收到的后验概率,获得熵Hn和物力论Dn特征(S1080)。特征提取器830向HMM分类器840输出所得到的熵Hn和物力论Dn。HMM分类器840利用鲍姆-韦尔奇算法和维特比算法,根据从特征提取器830接收到的熵Hn和物力论Dn,只选择音乐数据。HMM分类器840向DSP 210输出所选择的音乐数据(S1100)。
DSP 210利用编码器214,将从HMM分类器840接收到的音乐数据编码为MP3音乐文件,并将编码数据暂时存储在音乐数据存储部分170的暂时存储区中(S1120)。与此同时,DSP 210向声音输出部分130输出包括正在进行暂时存储的音乐信号在内的广播信号。在将用户正在收听的音乐暂时存储在音乐数据存储部分170的暂时存储区中时,通过第二实施例中所解释的处理识别音乐的开头和结尾。在这点上,可以配置微处理器240来代替音乐提取部分220、500、800,使其具有识别音乐信号的开头的功能。
如果正在向声音输出部分130输出包括音乐信号的广播信号时按下设置在键输入部分230中的记录键234,微处理器240将控制DSP 210根据存储在音乐数据存储部分170的非音乐存储区中的开头/结尾数据,识别暂时存储在暂时存储区中的音乐数据的开始和结束点。然后,微处理器240将向确定存储区传送音乐数据,以便明确地存储音乐数据(S1160)。“明确地存储和维持”的意思与第二实施例中所解释的相同。
如果用户并未按下记录键234,微处理器240将返回步骤S1020,并将重复向声音输出部分130输出广播信号和只存储当前输出的广播信号中的音乐信号的处理。用户可以从存储在音乐数据存储部分170中的音乐数据中选择和再现所需的音乐。
根据本发明的第三实施例,数字记录器200包括利用HMM的音乐提取部分800,以便将广播信号分类为话音信号和音乐信号,并只存储音乐信号。
尽管已经为了示例性的目的,对本发明的优选实施例进行了描述,本领域的技术人员应当清楚的是,在不偏离如所附权利要求中所公开的本发明的范围和精神的前提下,多种修改、增加和替换都是可能的。
可以形成利用基于话音识别技术的ICA(独立分量分析)的音乐提取部分。通常,“话音识别”是用于通过机械(计算机)分析来识别或标识人类语音的技术。人类的话音具有依赖于根据发音而改变的口形和舌头位置的特定频率。通过将所发出的话音转换为电信号,并提取出话音信号的多个特征,可以识别人类的话音信号。因此,能够利用基于话音识别技术的音乐提取部分,从广播信号中提取并去除话音信号,从而只输出音乐信号。
在本发明的优选实施例中,音乐数据存储部分170暂时存储音乐数据。只有当按下记录键234时,音乐数据存储部分170才明确地存储和保持音乐数据。但是,也可以设置暂存器,用于暂时存储由音乐提取部分220提取出的一个或多个音乐数据。可以将向声音输出部分130输出的并由音乐提取部分220提取出的音乐数据保存在暂存器中。在按下记录键234时,可以向音乐数据存储部分170传送存储在暂存器中的音乐数据,以明确地进行存储。在未按下记录键234时,可以删除存储在暂存器中的音乐数据,从而可以将新音乐数据存储在暂存器中。
如上所述,本发明提供了一种数字记录器及一种方法,用于不仅作为可听声输出所接收到的广播信号,利用人工神经网络、频率分析或隐马尔可夫模型,作为数字音乐数据,有选择地存储包括在广播信号中的音乐信号。
该数字记录器从接收到的广播信号中分离音乐,并识别音乐的开头和结尾,以便从头到尾地完整存储该音乐。因此,即使在用户在一段时间之后才开始记录音乐的情况下,仍然能够从其开头开始记录和再现音乐。
本发明可以解决在开始时记录音乐和在音乐结束时完成记录操作而两次按下记录键的不便和麻烦。而且,本发明消除了必须高度集中注意力以便正确地识别音乐选择的开头和结尾的必要。

Claims (35)

1、一种数字记录器,包括:调谐器,用于接收和选择广播信号;声音输出部分,用于输出所选择的广播信号,作为可听声;音乐数据存储部分,包括:暂时存储区,用于暂时存储音乐数据,以及永久存储区,用于永久或长期存储音乐数据;以及显示部分,用于显示数字记录器的操作状态,
对所述数字记录器的改进包括:
信号处理部分,用于将广播信号转换为数字数据,或者将数字数据转换为模拟信号,将数字数据压缩并编码成音乐数据,或者对压缩数字数据进行解码和输出;
音乐提取部分,用于根据音乐提取算法,将从信号处理部分输出的数字数据分为音乐数据和非音乐数据,以便只提取音乐数据,并产生和输出用于识别所提取出的音乐数据的开头和结尾的开头/结尾数据;
键输入部分,具有:广播键,用于将数字记录器的操作模式转换为无线电广播接收模式;以及记录键,用于实现记录和存储通过无线电广播的音乐信号的功能;以及
微处理器,用于控制信号处理部分,只将由音乐提取部分提取出的音乐数据暂时存储在音乐数据存储部分的暂时存储区中,在按下记录键时,向确定的存储区传送暂时存储在暂时存储区中的音乐数据,并在确定的存储区中,明确地存储和维持音乐数据。
2、根据权利要求1所述的数字记录器,其特征在于所述音乐提取部分利用人工神经网络,执行对多个输入数据的操作,以便将输入数据分为音乐数据和非音乐数据,并去除非音乐数据,从而只提取出音乐数据。
3、根据权利要求1所述的数字记录器,其特征在于音乐数据存储部分的所述暂时存储区按照接收的顺序连续存储音乐数据,如果音乐数据超出了音乐数据存储部分的存储容量,则按照其被存储的顺序逐一删除已存储的音乐数据,以便存储新音乐数据。
4、根据权利要求3或4所述的数字记录器,其特征在于所述键输入部分包括用于删除音乐数据的删除键,并且所述微处理器向所述显示部分输出存储在所述音乐数据存储部分中的音乐数据的列表,从而使用户能够从列表中选择要删除的音乐数据,并通过按下所述删除键删除所选择的音乐数据。
5、根据权利要求1所述的数字记录器,其特征在于所述数字处理部分可以是基于信号处理器的一硬件,或是DSP(数字信号处理器)。
6、根据权利要求5所述的数字记录器,其特征在于所述数字处理部分包括:
用于将模拟信号转换为数字信号的模数转换器;
数字信号处理器(DSP)核心,用于控制数字信号处理器的全部操作;
用于将数字信号转换为模拟信号的数模转换器;
编码器,用于将模拟信号压缩并编码为如MP3文件数据等;
DSP程序部分,存储用于根据来自微处理器的控制命令,将从调谐器接收到的广播信号转换为数字数据,对数字数据进行压缩和编码,以及用于对压缩数字数据进行解码和输出的程序;以及
用于对压缩数字数据进行解码的解码器。
7、根据权利要求1所述的数字记录器,其特征在于所述音乐提取部分使用频率分析实现对从所述信号处理部分接收到的广播数据的左声道数据和右声道数据的操作,以便将广播数据分成单声道数据和立体声数据,并且除去单声道数据以致只输出立体声数据。
8、根据权利要求7所述的数字记录器,其特征在于所述音乐提取部分确定当所述操作结果接近零时所述广播数据将是单声道的,或当所述操作结果表示大于临界值的数值持续特定的时间段时,将其确定为立体声的,并通过去除单声道数据而只输出立体声数据。
9、根据权利要求7所述的数字记录器,其特征在于所述音乐提取部分包括:
声数据操作部分,用于实现对从所述信号处理部分接收到的广播数据的左声道数据和右声道数据的操作,并输出与操作结果有关的数据;
非音乐去除部分,用于在从所述声数据操作部分接收到的操作结果接近于零时,确定广播数据为单声道的,或者当操作结果表示大于临界值的数值持续特定的时间段时,将其确定为立体声的,并通过去除单声道数据而只输出立体声数据;
音乐开头/结尾确定部分,用于向所述信号处理部分输出从所述非音乐去除部分接收到的立体声音乐数据,产生用于区分所述音乐数据的开始和结束点的开头/结尾数据,并向所述微处理器传送开头/结尾数据;以及
谱分析部分,用于执行对从所述音乐开头/结尾确定部分接收到的音乐数据的谱分析,以区分音乐的开始和结束信号,并产生用于识别开始和结束信号的开头/结尾数据。
10、根据权利要求9所述的数字记录器,其特征在于所述音乐开头/结尾确定部分检测每个音乐数据的结束部分中的渐弱,从而识别音乐数据的开头和结尾。
11、根据权利要求9所述的数字记录器,其特征在于所述音乐开头/结尾确定部分识别静音点,作为音乐数据的开头,以及新音乐数据跟随静音时的点,作为前一音乐数据的结尾,并产生基于这种确定的开头/结尾数据。
12、根据权利要求9所述的数字记录器,其特征在于所述音乐开头/结尾确定部分计算音乐数据的能量变化,将较低能量点识别为静音或音乐数据的可能结束点,并通过对从非音乐去除部分得到的帧中的音乐数据的相位值平方,并取所述平方值的对数,获得能量值,并且所述音乐开头/结尾确定部分在考虑音乐的平均长度为3到5分钟的同时,检测和确定音乐数据的开始和结束点。
13、根据权利要求9所述的数字记录器,其特征在于所述音乐开头/结尾确定部分在其因为两个音乐数据之间不存在静音或在两个音乐数据之间存在重叠,从而未能区分新音乐数据的开始部分与前一音乐数据的结束部分时,向谱分析部分发送该音乐数据。
14、根据权利要求1所述的数字记录器,其特征在于所述音乐提取部分收集用于提取话音特征的数据,并利用针对这些数据进行了训练的隐马尔可夫模型(HMM)从混合声音信息中提取并去除隐藏的话音信息。
15、根据权利要求14所述的数字记录器,其特征在于所述音乐提取部分利用用于估计HMM的参数的鲍姆-韦尔奇算法,提取声信号及其特征,并利用维特比算法,只提取音乐信号。
16、根据权利要求14所述的数字记录器,其特征在于所述音乐提取部分包括:
声音输入部分,用于输入从所述调谐器接收到的广播信号中的、包括多个声信号的音频信号,并提取音频信号的声特征;
MLP(多层感知器),用于获得表示从声音输入部分接收到的声特征所属的音位的可能性的后验概率(概率P);
特征提取器,用于根据从MLP接收到的后验概率,执行操作,以获得表示帧内的概率分布的熵Hn和作为帧之间的变化的概率的物力论Dn;以及
HMM分类器,利用鲍姆-韦尔奇算法和维特比算法,根据从特征提取器接收到的熵Hn和物力论Dn,将音频信号分类为话音类和音乐类,并只输出音乐数据。
17、根据权利要求16所述的数字记录器,其特征在于所述声特征包括零交叉信息、能量、音调、谱频率和对数倒频谱系数。
18、根据权利要求1所述的数字记录器,其特征在于所述音乐提取部分利用基于话音识别技术的ICA(独立分量分析),从广播信号中提取并去除话音信号,从而只输出音乐信号。
19、一种使用数字记录器有选择地存储音乐的方法,所述数字记录器包括:调谐器,用于接收和选择广播信号;声音输出部分,用于输出所选择的广播信号,作为可听声;数字信号处理器(DSP),用于将广播信号转换为数字数据,或者将数字数据转换为模拟信号,将数字数据压缩并编码成音乐数据,或者对压缩数字数据进行解码和输出;音乐提取部分,用于从DSP接收到的数字数据中只提取音乐数据;音乐数据存储部分,用于存储音乐数据;显示部分,用于显示数字记录器的操作状态;以及键输入部分,用于将数字记录器的操作模式转换为无线电广播接收模式,并输入用于实现对通过无线电广播的音乐信号的记录的命令,
所述方法包括以下步骤:
(a)所述调谐器向声音输出部分输出广播信号,并向DSP发送该信号;
(b)所述DSP将广播信号转换为数字数据,并向音乐提取部分输出该数据;
(c)所述音乐提取部分根据音乐提取算法,从数字数据中提取音乐数据;
(d)识别所提取出的音乐数据的开头和结尾,并将该数据暂时存储在音乐数据存储部分中;
(e)确定是否从键输入部分输入了记录当时向声音输出部分输出的音乐的命令;以及
(f)明确地存储和维持暂时存储在音乐数据存储部分中的音乐数据。
20、根据权利要求19所述的方法,其特征在于步骤(c)中的音乐提取算法利用人工神经网络,执行对多个输入数据的操作,以便将输入数据分为音乐数据和非音乐数据,并去除非音乐数据,从而只提取出音乐数据。
21、根据权利要求19所述的方法,其特征在于步骤(c)中的音乐提取算法使用频率分析实现对从所述数字信号处理器接收到的广播数据的左声道数据和右声道数据的操作,以便将广播数据分成单声道数据和立体声数据,并且除去单声道数据以致只输出立体声数据。
22、根据权利要求19所述的方法,其特征在于步骤(c)中的音乐提取算法收集用于提取话音特征的数据,并利用针对这些数据进行了训练的隐马尔可夫模型(HMM),从混合声音信息中提取并去除隐藏的话音信息。
23、根据权利要求19所述的方法,其特征在于步骤(c)中的音乐提取算法利用基于话音识别技术的ICA(独立分量分析),从广播信号中提取并去除话音信号,从而只输出音乐信号。
24、根据权利要求19所述的方法,其特征在于步骤(d)将音乐数据按照接收的顺序连续地存储在所述音乐数据存储部分中,并且如果音乐数据超出了音乐数据存储部分的存储容量,则按照其被存储的顺序逐一删除已存储的音乐数据,以便存储新音乐数据。
25、根据权利要求19所述的方法,其特征在于所述步骤(d)识别静音点作为音乐数据的开头,以及新音乐数据跟随该静音时的点,作为前一音乐数据的结尾。
26、根据权利要求19所述的方法,其特征在于所述步骤(d)检测每个音乐数据的结束部分中的渐弱,从而识别音乐数据的开头和结尾。
27、根据权利要求19所述的方法,其特征在于所述步骤(d)计算音乐数据的能量变化,将较低能量点识别为静音或音乐数据的可能结束点,并通过对从非音乐去除部分得到的帧中的音乐数据的相位值平方,并取所述平方值的对数,获得能量值,并且所述步骤(d)在考虑音乐的平均长度为3到5分钟的同时,检测和确定音乐数据的开始和结束点。
28、根据权利要求21所述的数字记录器,其特征在于所述音乐提取部分确定当所述操作结果接近零时所述广播数据将是单声道的,或当所述操作结果表示大于临界值的数值持续特定的时间段时,将其确定为立体声的,并通过去除单声道数据而只输出立体声数据。
29、一种使用数字记录器有选择地存储音乐的方法,所述数字记录器包括:调谐器,用于接收和选择广播信号;信号处理部分,用于将广播信号转换为数字数据,以及将数字数据压缩并编码为音乐数据;音乐提取部分,用于从广播信号中只提取出音乐数据;以及存储器,用于存储所提取出的音乐数据,
所述方法包括以下步骤:
(a)向所述声音输出部分发送从所述调谐器输出的广播信号;
(b)所述音乐提取部分根据音乐提取算法,识别包括在广播信号中的音乐的开头;
(c)将识别出的音乐数据暂时存储在所述存储器的暂时存储区中;
(d)在音乐数据被存储在所述音乐数据存储部分中的同时,确定是否有记录音乐数据的命令输入;以及
(e)当输入记录音乐数据的命令时,向所述存储器的确定存储区传送暂时存储的音乐数据,以明确地存储和维持所述音乐数据。
30、根据权利要求29所述的方法,其特征在于所述步骤(a)通过所述信号处理部分将所述调谐器输出的广播信号转换成数字数据,并将所述的数字数据发送到所述的音乐提取部分。
31、根据权利要求29所述的方法,其特征在于步骤(b)中的音乐提取算法使用频率分析实现对从所述数字信号处理器接收到的广播数据的左声道数据和右声道数据的操作,以便将广播数据分成单声道数据和立体声数据,并且除去单声道数据以致只输出立体声数据。
32、根据权利要求29所述的方法,其特征在于步骤(b)中的所述音乐提取算法收集用于提取话音特征的数据,并利用针对这些数据进行了训练的隐马尔可夫模型(HMM),从混合声音信息中提取并去除隐藏的话音信息。
33、根据权利要求29所述的方法,其特征在于步骤(b)中的所述音乐提取算法利用人工神经网络,执行对多个输入数据的操作,以便将输入数据分为音乐数据和非音乐数据,并去除非音乐数据,从而只提取出音乐数据。
34、根据权利要求29所述的方法,其特征在于步骤(b)中的所述音乐提取算法利用基于话音识别技术的ICA(独立分量分析),从广播信号中提取并去除话音信号,从而只输出音乐信号。
35、根据权利要求29所述的方法,其特征在于如果未输入记录命令,所述步骤(e)返回到步骤(b),以识别随后的音乐。
CNA03804093XA 2002-02-20 2003-01-30 存储无线电广播内容中的音乐部分的数字记录器及其方法 Pending CN1633690A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020020009044 2002-02-20
KR10-2002-0009044A KR100472904B1 (ko) 2002-02-20 2002-02-20 음악 부분을 자동으로 선별해 저장하는 디지털 음악 재생장치 및 그 방법

Publications (1)

Publication Number Publication Date
CN1633690A true CN1633690A (zh) 2005-06-29

Family

ID=27751902

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA03804093XA Pending CN1633690A (zh) 2002-02-20 2003-01-30 存储无线电广播内容中的音乐部分的数字记录器及其方法

Country Status (7)

Country Link
US (1) US20050169114A1 (zh)
EP (1) EP1476866A4 (zh)
JP (1) JP2005518560A (zh)
KR (1) KR100472904B1 (zh)
CN (1) CN1633690A (zh)
AU (1) AU2003207069A1 (zh)
WO (1) WO2003071537A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1956573B (zh) * 2005-10-27 2010-06-16 三星电子株式会社 将广播声音源数据设置为移动电话功能声音的设备和方法
CN1756100B (zh) * 2004-08-27 2010-12-08 索尼株式会社 无线电通信系统、无线电通信设备和无线电通信方法
CN101166033B (zh) * 2006-09-21 2011-07-06 索尼株式会社 数据记录设备、数据记录方法、以及数据记录程序
CN109166593A (zh) * 2018-08-17 2019-01-08 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置及存储介质
CN110060708A (zh) * 2018-01-09 2019-07-26 丰田自动车株式会社 音频设备
CN115735360A (zh) * 2020-05-19 2023-03-03 科克有限公司 用于从视频内容中检测音乐数据的装置及其控制方法

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8458754B2 (en) 2001-01-22 2013-06-04 Sony Computer Entertainment Inc. Method and system for providing instant start multimedia content
US20030179861A1 (en) * 2001-04-25 2003-09-25 Ryuta Miyoshi Data transmitting method and device for transmitting stream data
US8644969B2 (en) * 2003-01-02 2014-02-04 Catch Media, Inc. Content provisioning and revenue disbursement
US8918195B2 (en) 2003-01-02 2014-12-23 Catch Media, Inc. Media management and tracking
US8666524B2 (en) * 2003-01-02 2014-03-04 Catch Media, Inc. Portable music player and transmitter
TW587810U (en) * 2003-05-02 2004-05-11 Compal Electronics Inc Digital recorder
JP2005141601A (ja) * 2003-11-10 2005-06-02 Nec Corp モデル選択計算装置,動的モデル選択装置,動的モデル選択方法およびプログラム
US20050172006A1 (en) * 2004-02-02 2005-08-04 Hsiang Yueh W. Device for data transfer between information appliance and MP3 playing unit
US20050266834A1 (en) * 2004-05-14 2005-12-01 Ryan Steelberg System and method for broadcast play verification
US20050265396A1 (en) * 2004-05-14 2005-12-01 Ryan Steelberg System for broadcast play verification and method for same
US7672337B2 (en) * 2004-05-14 2010-03-02 Google Inc. System and method for providing a digital watermark
KR100576842B1 (ko) * 2004-07-05 2006-05-10 주식회사 넷앤티비 디지털 오디오 신호의 구간 재생 장치
KR100721973B1 (ko) * 2005-03-24 2007-05-25 김재천 분류알고리즘을 이용한 음악장르 분류 방법
GB2430073A (en) * 2005-09-08 2007-03-14 Univ East Anglia Analysis and transcription of music
JP4321518B2 (ja) 2005-12-27 2009-08-26 三菱電機株式会社 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JP4841276B2 (ja) * 2006-03-22 2011-12-21 三洋電機株式会社 音楽信号蓄積装置および音楽信号蓄積プログラム
KR100705240B1 (ko) * 2006-05-04 2007-04-09 주식회사 대우일렉트로닉스 광 기록재생 장치에서의 음악앨범 생성장치 및 생성방법
JP4442585B2 (ja) 2006-05-11 2010-03-31 三菱電機株式会社 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JP2008026662A (ja) * 2006-07-21 2008-02-07 Sony Corp データ記録装置、データ記録方法及びデータ記録プログラム
US8468561B2 (en) 2006-08-09 2013-06-18 Google Inc. Preemptible station inventory
JP2008241850A (ja) * 2007-03-26 2008-10-09 Sanyo Electric Co Ltd 録音または再生装置
US9483405B2 (en) 2007-09-20 2016-11-01 Sony Interactive Entertainment Inc. Simplified run-time program translation for emulating complex processor pipelines
JP4539750B2 (ja) * 2008-04-08 2010-09-08 ソニー株式会社 記録媒体
JP5028321B2 (ja) * 2008-04-16 2012-09-19 三洋電機株式会社 音楽記録再生装置およびナビゲーション機能を有する音楽記録再生装置
US20100293072A1 (en) * 2009-05-13 2010-11-18 David Murrant Preserving the Integrity of Segments of Audio Streams
US8457771B2 (en) * 2009-12-10 2013-06-04 At&T Intellectual Property I, L.P. Automated detection and filtering of audio advertisements
KR101708305B1 (ko) * 2010-08-31 2017-02-20 엘지전자 주식회사 신호 처리 장치 및 그 방법
US8909217B2 (en) 2011-04-15 2014-12-09 Myine Electronics, Inc. Wireless internet radio system and method for a vehicle
US20130325853A1 (en) * 2012-05-29 2013-12-05 Jeffery David Frazier Digital media players comprising a music-speech discrimination function
CN108831437B (zh) * 2018-06-15 2020-09-01 百度在线网络技术(北京)有限公司 一种歌声生成方法、装置、终端和存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2837576A1 (de) * 1978-08-29 1980-03-13 Siegfried Markus Verfahren und vorrichtung zur nahtlosen tonbandaufnahme von musik
US4752834A (en) * 1981-08-31 1988-06-21 Shelton Video Editors Inc. Reciprocating recording method and apparatus for controlling a video recorder so as to edit commercial messages from a recorded television signal
US5126982A (en) * 1990-09-10 1992-06-30 Aaron Yifrach Radio receiver and buffer system therefore
US5416836A (en) * 1993-12-17 1995-05-16 At&T Corp. Disconnect signalling detection arrangement
JPH1051337A (ja) * 1996-07-29 1998-02-20 Yukio Hiromoto Fm文字多重放送録音制御プログラム装置
JP2000149434A (ja) * 1998-11-12 2000-05-30 Sony Corp データ内容情報の記録制御装置及びその方法
KR100605187B1 (ko) * 1999-04-21 2006-07-28 엘지전자 주식회사 디지털 데이터스트림의 선택적 기록방법
US6163508A (en) * 1999-05-13 2000-12-19 Ericsson Inc. Recording method having temporary buffering
KR100348901B1 (ko) * 1999-06-28 2002-08-14 한국전자통신연구원 오디오/영상물의 음향적 장면분할방법
WO2001063807A1 (en) * 2000-02-22 2001-08-30 Portalplayer, Inc. Real-time wireless recording and compression system and method
JP2001333370A (ja) * 2000-05-23 2001-11-30 Canon Inc 画像音処理装置
KR20020014875A (ko) * 2000-08-19 2002-02-27 윤종용 엠피쓰리 플레이어 기능을 내장한 디지털 방송수신기
JP2002162973A (ja) * 2000-11-24 2002-06-07 Univ Waseda 放送された音楽の検索方法
KR20020054622A (ko) * 2000-12-28 2002-07-08 엘지전자 주식회사 선택적 오디오 채널 선택 장치
US7254454B2 (en) * 2001-01-24 2007-08-07 Intel Corporation Future capture of block matching clip

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1756100B (zh) * 2004-08-27 2010-12-08 索尼株式会社 无线电通信系统、无线电通信设备和无线电通信方法
CN1956573B (zh) * 2005-10-27 2010-06-16 三星电子株式会社 将广播声音源数据设置为移动电话功能声音的设备和方法
US8229583B2 (en) 2005-10-27 2012-07-24 Samsung Electronics Co., Ltd. Apparatus and method of setting received broadcasting sound source data as functional sound of mobile phone
CN101166033B (zh) * 2006-09-21 2011-07-06 索尼株式会社 数据记录设备、数据记录方法、以及数据记录程序
CN110060708A (zh) * 2018-01-09 2019-07-26 丰田自动车株式会社 音频设备
CN110060708B (zh) * 2018-01-09 2021-02-02 丰田自动车株式会社 音频设备
CN109166593A (zh) * 2018-08-17 2019-01-08 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置及存储介质
CN109166593B (zh) * 2018-08-17 2021-03-16 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置及存储介质
CN115735360A (zh) * 2020-05-19 2023-03-03 科克有限公司 用于从视频内容中检测音乐数据的装置及其控制方法

Also Published As

Publication number Publication date
US20050169114A1 (en) 2005-08-04
EP1476866A1 (en) 2004-11-17
KR20030069419A (ko) 2003-08-27
AU2003207069A1 (en) 2003-09-09
JP2005518560A (ja) 2005-06-23
EP1476866A4 (en) 2005-06-22
WO2003071537A1 (en) 2003-08-28
KR100472904B1 (ko) 2005-03-08

Similar Documents

Publication Publication Date Title
CN1633690A (zh) 存储无线电广播内容中的音乐部分的数字记录器及其方法
CN101221759B (zh) 使用隐含语者自适应的语音识别系统
CN1264138C (zh) 复制语音信号、解码语音、合成语音的方法和装置
CN1143312C (zh) 信息记录的设备和方法
CN102404278A (zh) 一种基于声纹识别的点歌系统及其应用方法
CN1212097A (zh) 借助于感觉编码的辅助信号和声频信号同时传送
EP2133873B1 (en) Audio information processing apparatus, audio information processing method and associated computer program
CN104243689B (zh) 一种基于采集音频信号控制闹钟的方法及其移动终端
CN104092654A (zh) 媒体播放方法、客户端及系统
CN1174457A (zh) 语音信号传输方法及语音编码和解码系统
CN207706384U (zh) 一种具有去人声功能的无线k歌耳机
CN1941144A (zh) 数据记录和再现设备,记录和再现数据的方法及其程序
CN110580914A (zh) 一种音频处理方法、设备及具有存储功能的装置
CN1889655A (zh) 数字电视的音频音量自动调节方法
CN112420063B (zh) 一种语音增强方法和装置
CN1811735A (zh) 便携式音频播放设备及其驱动方法
CN105632523A (zh) 调节音频数据的音量输出值的方法和装置及终端
CN114520005A (zh) 音频处理方法、装置、设备和计算机可读存储介质
CN113409809B (zh) 语音降噪方法、装置及设备
CN108303900A (zh) 播放音频的方法、装置和系统
CN1463495A (zh) 传送信号的压缩数据的数据流
US20010056343A1 (en) Sound signal encoding apparatus and method
CN110493616B (zh) 一种音频信号处理方法、装置、介质和设备
CN1811910A (zh) 乐曲再生装置和方法
CN1115684C (zh) 音频放音装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication