CN1451153A

CN1451153A - 对具有同步数据的音频序列进行编码并输出的方法和系统

Info

Publication number: CN1451153A
Application number: CN00819334A
Authority: CN
Inventors: 迈克尔·A·米勒; 钱自强
Original assignee: First International Digital Inc
Current assignee: First International Digital Inc
Priority date: 2000-02-18
Filing date: 2000-11-15
Publication date: 2003-10-22
Also published as: WO2001061684A1; US6442517B1; AU2001217654A1

Abstract

一种涉及对具有同步信号的音频序列进行编码的方法，该方法提供了一音频取样和一数据取样。音频取样被转换成音频信号，数据取样被转换成数据信号。数据信号包括多个数据段，利用数据信号对音频信号进行编码以形成音频序列，该音频信号包括具有字段的帧以接收数据段或接收数据段的指示信号。为了输出，与序列中的压缩的音频信号相同步的压缩的数据信号被解码并被输出。

Description

对具有同步数据的音频序列进行编码并输出的方法和系统

技术领域

本发明涉及音频序列，尤其涉及对具有同步数据的音频序列进行编码并输出已编码的文件。

背景技术

卡拉OK是一种音乐演奏方法，在该方法中人们(例如歌手)可以随着预先录制的歌曲通过读取特定的歌词来演唱某一序号的歌曲，歌词最好是显示在处于歌手视野之内的诸如电视屏这样的显示设备上。歌手的声音超过了预先录制的歌曲的原唱歌手的声音。常被称为音乐电视的电视影片也通常伴随着音乐和歌手被显示。提供该机会的设备被称为卡拉OK音乐再现设备，并被称作卡拉OK设备。

目前的卡拉OK设备使用磁带，高密度磁盘(CDs)，数字化视频光盘(DVDs)，计算机磁盘，视频高密光盘(VCDs)或其他类型的电子介质以记录并播放音乐和歌词。随着作为娱乐设备的卡拉OK机的普及性的提高，越来越多的歌曲被处理成卡拉OK演唱的格式。其结果是，传送并存储这些不断增长的音乐库的需求越来越重要。在一些情况下，利用标准的数字压缩技术来压缩表示乐曲和歌词的数字数据。例如，当前流行的一种数字压缩技术采用了被称为乐器数字化接口(MIDI)的标准压缩算法。美国专利No.5648628公开了一种设备，该设备结合了卡拉OK的乐曲和歌词。｀628专利中的设备利用了可存储MIDI文件的可变盒式磁带的标准MIDI格式。

国际标准化组织(ISO/IEC)提出了多个公知的用于对运动图像和有关的音频数据进行编码的压缩标准。该压缩标准称为MPEG标准(运动图像专家组)。在文档ISO/IEC11172(该文档定义了MPSG1标准)和ISO/IEC13818(该文档定义了MPSG2标准)中定义了MPEG标准，在这里通过参考引入了这两个文档。另一个流行的非标准压缩算法被称为MPEG2.5，该压缩算法基于MPEG1和MPEG2标准。这三个MPEG版本(MPEG1，MPEG2，MPEG2.5)被统称为“MPEG1/2”。美国专利5856973公开了这一方法，该方法利用MPEG2格式将专用的应用数据和音频和视频数据一起从源点传送到终点。

MPEG1/2进一步被划分成数个“层”。通常，MPEG1/2层被标记的越高，则其所涉及的复杂性越高。MPEG1/2 III(MP3)是一个近来出现的流行的压缩格式，MPEG1/2III被用于对音频数据进行编码以努力制造出接近CD音质的效果。

MP3播放器是一种便携式设备，通常包括一个“闪速”存储器，一个液晶显示屏(LCD)，一个控制面板，声响耳机的输出插孔以及其他类似的设备。音乐乐曲通过与MP3播放器相连的个人计算机(PC)或其他类似设备而被装载到MP3播放器的“闪速”存储器中，并被播放以供个人享受。

MP3标准定义了一个“音频序列”，该序列被划分成可变大小的“帧”，这些可变大小的“帧”进一步被划分成“字段”。虽然在MP3标准中描述了每个帧的排列，但是没有定义每个帧内的字段内容，每个帧内的字段内容是本发明的主题。

一般的卡拉OK设备是酒吧和夜总会中所使用的大型的、合成的、昂贵的系统。卡拉OK设备包括大的显示屏，高保真度音响系统以及多个诸如CDs这样的存储媒体。一般的MP3播放器是较小的且是买的起的，但是只能用来播放音乐。MP3播放器具有仅仅用于显示歌曲的曲名和播放时间的小的播放器，输出到耳机的有限音频输出，以及最小的扩音器(如果有的话)。

当前一般的MP3播放器不具备将数字字段与音频信号同步成单个音频序列文件的能力，数字字段包含有歌曲的歌词信息，音频信号包含有歌曲的音乐形式，单个的音频序列文件可通过卡拉OK播放设备而被存储，操作，传送并被播放。

因此，希望具有一个可克服上述缺点的程序和方法。

附图说明

图1说明了在MP3规格标准中所描述的MP3音频序列的排序的框图；

图2说明了在MP3规格标准中所描述的MP3编码器的示意图；

图3说明了根据本发明的改进型MP3编码器的示意图，该编码器将卡拉OK数据嵌入音频信号以形成MP3音频序列；

图4说明了根据本发明的编码过程的流程图；

图5是在MP3规格标准中所描述的MP3译码器的示意图；

图6说明了根据本发明的改进型MP3译码器的示意图，该译码器将卡拉OK数据和音频信号从MP3音频序列中取出；

图7说明了根据本发明的解码过程的流程图；

图8给出了MP3卡拉OK播放器的设备。

相应的附图标记表示全部几个附图的相应部分。这里所提出的例子从一个方面说明了本发明的一个优先实施例，并且在任何方面不能把这些例子看作是对本发明范围的限制。

具体实施方式

在本发明中，如上所述，一优选实施例根据MP3标准对具有同步数据的音频序列进行编码。或者，根据其他类似标准的范围来执行下述的编码标准。这些其他的标准例如包括MPEG1/2层III，AC-3，微软窗口媒体声音存储器(WWA)，高级的音频编码(AAC)，美国朗讯科技公司制造的感性声频信号编码器(EPAC)，流音，real.com’s G2，以及基于音频帧标准的其他帧。对本发明来说，MPEG1/2层III是指MPEG1，MPEG2以及MPEG2.5层1和层2格式。因此本发明可适用于任何基于帧的音频格式。

如上所提到的，MP3标准定义了一个“音频序列”。图1说明了MP3标准的一个通常的音频序列。音频序列10(图1-A给出了更加详细的描述)被划分成可变大小的“帧”12。图1-B给出了音频序列一个帧的例子。

每个帧进一步被划分成多个字段14和子字段16。图1-C，1-D和1-E给出了图1-B中帧12的字段14和子字段16的例子。在优选实施例中，音频序列10的每个帧12包括由部首字段，误差检验字段，主数据字段，以及辅助数据字段所组成的固定格式。另外，每个字段进一步被划分成子字段16，在图1-C，D和E中给出了所划分的子字段的例子。虽然在MP3标准中描述了每个帧12的排序，但是没有定义每个帧12内的字段14和子字段16的内容。此外，在部首和音频数据帧以及辅助数据帧内所定义的专用位可用于对音频序列10中的歌词数据和控制信号进行编码，或插入歌词数据和控制信号，以便与音频信号同步以形成音频序列10。

最重要的是注意每个帧12的部首字段出现在一固定周期内并且具有特定的大小。然而，与每个帧12相关的数据字段是可变大小的并且不能出现在固定周期内。

更具体的说，本发明涉及使用在部首字段中的专用位(图1-E，字段8)，在主数据字段中的专用位(图1-C，字段2)和嵌入有歌词文本，视频的辅助数据字段(图1-D)，插入歌词文本或视频，和/或控制信息。该控制信息被总称为卡拉OK数据。值得注意的是每个帧可包括也可不包括任何卡拉OK数据。

如果帧包括卡拉OK数据，那么这些数据被存储在上述可用数据字段的任一部分或全部中。最好是上述信息按照下列顺序而存储在数据字段中：第一，部首字段的专用位；第二，主数据字段的专用位；以及第三，辅助数据字段。

图2给出了在MP3规格标准中所描述的MP3编码器的高级别方框图。如上所述，对部首字段的专用位中的卡拉OK数据，主数据字段的专用位中的卡拉OK数据，或辅助数据内的卡拉OK数据进行编码。图3说明了用于对卡拉OK数据进行编码的改进型MP3编码器的高级示意图。编码器的帧打包阶段必须提高以使输入的音频数据与卡拉Ok数据同步以从而压缩帧。这可通过发送标记符和卡拉OK数据的控制信息而完成。“合成帧打包”单元利用该信息以适当的排序具有音频取样的卡拉OK数据。图4说明了根据本发明编码过程的流程图，该过程把焦点集中在装配有卡拉Ok数据的帧。此外，图5说明了在MP3规格中所描述的MP3译码器的高级示意图。图6说明了改进型MP3译码器的高级示意图。图7描述了译码过程的流程图，该过程把焦点集中在取出卡拉OK数据。在译码处理的过程中，在帧拆包阶段的过程中产生了卡拉OK数据，同时产生了音频数据以作为逆映射阶段的最终产物。于是在解码器之外利用音频数据对卡拉OK数据进行排序。

参考附图1-4，提出了如下的用于对音频序列进行编码的方法。根据本发明，编码器接收一音频取样和一数据取样(步骤100)。最好是，编码器是一个被开发成可同步的利用数据信号对音频信号进行编码并创建一音频序列的系统。在优选实施例中，音频取样是一音乐乐曲。或者，音频取样可是诸如文本的音频译本这样的口头信号，该文本例如可以是书，报纸和外语书。在优选实施例中，数据取样可以是音乐乐曲的词。或者，数据取样可以是诸如英语文本的音频译本或视频数据这样的文本的口头译本，该视频数据例如与体现在音频取样中的歌曲的音乐电视相对应。

在接收到音频取样和数据取样之后，编码器于是将音频取样转换成音频信号(未给出)。最好是，转换处理确保根据音频序列的优选格式来读出该音频信号并了解该音频信号。例如，如果音频格式是MP3，那么最好是根据MP3格式可读出音频信号。

同样，数据取样被转换成数据信号(步骤102)。此外，数据信号包括多个数据段。每个数据段最好是与数据取样的一部分相对应，以便它可嵌入到合成的音频序列中。不是数据信号的所有部分都必须在数据段内被编码。相反，每个数据段可包括与数据信号相对应的数据信号的一小部分。

例如，如果数据取样包括歌曲的歌词，那么数据信号可包括各种数据段，每个数据段例如与一个词或一个节拍相对应。为此，允许数据段按一顺序和一位置而嵌入到音频序列中，以至数据信号与音频信号相对应(例如，用这样一种方式即将数据信号与音频信号相同步)，下面将对此进行详细的描述。

数据信号也可包括一控制信号。最好是，控制信号包含与嵌入到音频序列中的数据信号的顺序相关的信息。例如，在编码的过程当中，控制信号可规定包含在数据信号内的歌词的一个特定词可包括三个音节，每个音节需要位于歌曲的不同节拍上。这样的信息最好是包含在控制信号内。

在对音频信号和数据信号进行转换之后，于是对音频序列进行解码。音频序列由如上所转换的嵌入有数据信号的音频信号组成，并且如上的转换是按照这样的一种方法，即，使数据信号与音频信号相同步，这种同步最好是通过将一个数据段嵌入到音频序列的一个帧中而发生。

更具体的说，编码过程最好是以下述方式而发生。首先，音频信号被映射成多个音频段(步骤105)，实质上与上述数据段相似的这些音频段最好是与歌曲的一个音节相对应。在控制信号被编码并且被包含在数据信号之后，每个音频段被打包到音频序列的一个帧中(步骤110)。因此，一个数据段被打包到音频序列的一个帧中，以便数据段与装配到音频序列中的音频段相对应。

最好是，对序列进行编码以至数据段首先嵌入到部首字段的专用位中的音频序列中(步骤115)。一旦装入专用位，此外的任何数据段最好是都装入到主数据字段的专用位中(步骤120)。如果两个专用位都被装入了，那么所有的剩余数据段都嵌入到辅助的数据字段中(步骤125)。

值得注意的是数据信号嵌入到音频序列的较低层(例如字段和子字段)，与诸如帧本身这样的较高层相比而言。按照这种方式，标准的MPEG译码器都支持所有嵌入的数据，并且不需要捕获数据的附加电路。

在操作中，例如，假设音乐乐曲是音乐乐曲“Layla”，那么音频取样可包含乐曲的乐谱。数据取样可以是乐曲的歌词。两种取样于是都被转换成诸如MP3格式。在编码处理的过程中，根据音乐的节拍或节奏来划分歌曲的歌词。这样，歌曲的第一行(“What would you do if you getlonely”)将被划分成音乐的前九个节拍，每个音节的一个。数据信号和音频信号于是被编码以按照一方式形成了音频序列，以便包含第一节拍的帧还包含第一个词等等。

另外的，在可替代的实施例中，利用一系列指示信号对音频序列进行编码以替代利用数据对音频序列进行编码。在该实施例中指示信号对存储在一分离文件中的数据信号进行定位。此外，指示信号根据包含在控制信号中的指令来定位数据信号，并且按照与优选实施例中对数据信号进行同步一样的方式来对指示信号进行同步(例如，指示信号按照这样一种方式来定位数据信号，即将音频序列与数据信号同步)。在这种情况下，音频序列按照这样一种方式来编码，即包含第一节拍的帧也可包含一个定位分离数据文件的指示信号。

在编码处理之后，音频序列被输出到卡拉OK播放器或目前所知的存储媒体中以在将来播放(步骤130)。参考附图1-7，提出了输出具有同步数据信号的音频信号的方法。提供一音频序列(步骤200)，该序列按照上述所提出的方法被编码。音频序列包含一压缩的音频信号。该压缩的音频信号与上述的音频信号相对应，该音频信号包含有音乐乐曲的歌曲部分。此外，提供了与音乐乐曲的歌词部分相对应的压缩数据信号。压缩的数据信号位于音频信号内或位于如上所述的分离数据文件内(在这种情况下，音频序列包括指示信号)。就此，压缩数据信号一般与压缩音频信号同步。拆取出压缩的数据信号并存储在缓冲器内(步骤205，210，215)。同样的拆取出压缩的音频信号。输出到输出设备的两种信号于是被同步(步骤220，225)，输出设备例如可以是卡拉OK播放机系统。或者，输出设备也可以是一个扬声器，一个立体声系统，一个视频系统或其他的类似设备。

现转向设备的讨论，图8给出了MP3播放器设备的示意图。参考图8，结合图1-7，接口端口50最好通过配接站或电缆最好与外部存储源相联接。接口端口50用于将来自外部源的“mp3”文件传输到卡拉OK设备中以存储在卡拉OK播放器设备的闪速存储器52中。外部存储源可以是一个人计算机或其他类似的设备。

闪速存储器52用于存储一个或多个“mp3”文件以由MP3播放器播放。存储器的这种类型可以是用新的信息来覆盖，但是它将“记忆”存储在其上的任何文件直到有目的被覆盖。

存储控制器54用于协调接口端口50与闪速存储器52之间的接口，闪速存储器52与MP3译码器56之间的接口，以及闪速存储器52与LCD控制器58之间的接口。此外，存储控制器54最好通过按钮控制60来与使用卡拉OK播放器设备的人相互作用。

MP3译码器56提供了如下的功能。也就是说，对MP3卡拉OK文件(例如，“mp3”文件)进行译码，并将音频数据输出到音频混频器62以及将卡拉OK数据输出到LCD/卡拉OK控制器58。

LCD/卡拉OK控制器58具有几个功能。首先，它控制LCD显示器以显示文字和歌词，使词高亮度，以及文字的滚动。LCD/卡拉OK控制器58还将来自MP3译码器56的电视的插入信号发送到电视外部信号插孔64以在外部处理。最后，它控制音频混频器62以允许利用设备声音的人们盖过原始歌曲的歌手声音。

按钮控制60允许用户利用设备来控制卡拉OK播放器设备的操作。最好是，按钮控制60包括用于播放，进带，倒带，暂停，停止以及其他基本功能的按钮。按钮控制60允许用户根据用户的要求来选择一首特定的歌曲以播放和/或演唱歌曲以及跳过歌曲，暂停或对歌曲的其他操作。

电视外部信号插孔64与控制音乐电视显示的外部设备接口。它也可将MP3译码器56所译码的信号发送到该外部设备以随着MP3卡拉OK播放器所播放的文件来排列音乐电视。

LCD显示器66为使用卡拉OK设备的人们提供了可视化接口。LCD显示器66足够的大并具有足够的灵活性以至可播放几行文字，高亮显示的文字，文字的滚动等等。LCD显示器66还可提供卡拉OK的功能。显示器66最好是具有足够的灵活性以至可显示多种语言的文字，因为除显示器显示之外还要用不同的语言播放歌曲。

音频混频器62把MP3译码器56所提供的源音频与来自麦克风68的使用该设备的人的声音混合起来。用户的声音盖过了原始歌曲的歌手声音。音频混频器62的输出最好被发送到耳机插孔70和音频输出插孔72中，最好是通过一数模转换器74。

最好，当播放歌曲时扩音器68允许使用设备的人们随着音乐乐曲根据在LCD显示器66所显示的歌词来演唱。

完全可以理解上述实施例在各个方面都被仅仅认为是示意性的且不是限制性的。本发明的保护范围是由随后的权利要求来指定的而不是由前述说明来指定的。在其含义和等价的范围内的各种修改都包含在它们的保护范围内。

Claims

1.对具有同步数据的音频序列进行编码的方法，包括步骤：

提供一音频取样和一数据取样；

将音频取样转换成音频信号；

将数据取样转换成一数据信号，该数据信号包括多个数据段；以及

利用数据信号对音频信号进行编码以形成音频序列，音频序列包括多个帧，每个帧包括至少一个字段以接收数据信号的至少一个数据段。

2、根据权利要求1的方法，其中数据信号进一步包括一控制信号；并且进一步包括步骤：

按照包含在控制信号内的指令对音频序列进行编码。

3、根据权利要求2的方法，进一步包括输出音频序列的步骤。

4、根据权利要求1的方法，其中从由MPEG1/2层1/2，AC-3，WMA，AAC，EPAC，流音以及G-2格式所组成的格式组中选择音频序列的格式。

5、根据权利要求1的方法，其中数据取样进一步包括文本数据。

6、根据权利要求1的方法，其中数据取样进一步包括视频数据。

7、根据权利要求1的方法，其中音频取样包括歌曲。

8、根据权利要求1的方法，其中音频取样包括演唱声音。

9、根据权利要求1的方法，其中编码步骤进一步包括下列步骤：

将音频信号映射成多个数据段；

对控制信号进行编码，该控制信号包含在数据信号内；

将音频段打包成为音频序列的一个帧。

根据包含在控制信号内的指令将每一个数据段打包成为包含有相应音频段的音频序列的一个帧。

10、对具有同步数据的音频序列进行编码的程序，其中同步数据来自于数据信号，该程序包括：

提供一音频取样和一数据取样的计算机可读程序代码；

将音频取样转换成音频信号的计算机可读程序代码；

将数据取样转换成一数据信号的计算机可读程序代码，该数据信号包括多个数据段；以及

利用数据信号对音频信号进行编码以形成音频序列的计算机可读程序代码，音频序列包括多个帧，每个帧包括至少一个字段以接收数据信号的至少一个数据段。

11、对具有同步数据的音频序列进行编码的方法，包括步骤：

提供一音频取样和一数据取样；

将音频取样转换成音频信号；

利用多个指示信号对音频信号进行编码以形成音频序列，每一个指示信号定位数据信号的至少一个数据段。

12、根据权利要求11的方法，其中数据信号进一步包括一控制信号；并且进一步包括步骤：

根据包含在控制信号内的指令对音频序列进行编码。

13、根据权利要求12的方法，进一步包括输出音频序列的步骤。

14、根据权利要求11的方法，其中从由MPEG1/2层1/2，AC-3，WMA，AAC，EPAC，流音以及G-2格式所组成的这组格式中选择音频序列的格式。

15、根据权利要求11的方法，其中数据取样进一步包括文本数据。

16、根据权利要求11的方法，其中数据取样进一步包括视频数据。信号的一个数据段。

17、根据权利要求11的方法，其中音频取样包括一歌曲。

18、根据权利要求11的方法，其中音频取样包括演唱声音。

19、根据权利要求11的方法，其中编码步骤进一步包括下列步骤：

将音频信号映射成多个音频段；

对控制信号进行编码，控制信号包含在数据信号内；

将每个音频段打包成为到音频序列的一个帧。

将每个音频段装配到一个指示信号内，每个指示信号定位数据

20、对具有同步数据的音频序列进行编码的程序，包括：

提供一音频取样和一数据取样的计算机可读程序代码；

将音频取样转换成音频信号的计算机可读程序代码；

利用多个指示信号对音频信号进行编码以形成音频序列的计算机可读程序代码，每一个指示信号定位数据信号的至少一个数据段。

21、输出具有同步数据信号的音频信号的方法，包括步骤：

提供具有同步数据的音频序列，音频序列包括压缩的音频信号；

提供压缩的数据信号，压缩的数据信号与压缩的音频信号同步；

对压缩的数据信号解包；

将数据信号存储到缓冲器中；

从音频序列中对压缩的音频信号解包；以及

将音频信号和数据信号输出到输出设备。

22、根据权利要求21的方法，进一步包括从音频序列中对压缩数据信号解包的步骤。

23、根据权利要求21的方法，音频序列进一步包括多个指示信号，每个指示信号定位压缩的数据信号。

24、根据权利要求21的方法，其中音频序列是MP3格式。

25、根据权利要求21的方法，其中音频信号是从由歌曲和演唱声音的组中选取出来的，并且其中数据信号是从由文本和演唱声音的组中选取出来的。

26、根据权利要求21的方法，其中输出设备是由扩音器，立体声系统，卡拉OK系统以及视频系统所组成的组中选取出来的。

27、输出具有同步数据信号的音频信号的程序，包括：

提供具有同步数据的音频序列的计算机可读程序代码，音频序列包括压缩的音频信号；

提供压缩数据信号的计算机可读程序代码，压缩的数据信号与压缩的音频信号同步；

对压缩数据信号解包的计算机可读程序代码；

将数据信号存储到缓冲器中的计算机可读程序代码；

从音频序列中对压缩数据信号解包的计算机可读程序代码；以及

将音频信号和数据信号输出到输出设备的计算机可读程序代码。

28、根据权利要求27的程序，进一步包括从音频序列中对压缩数据信号解包的计算机可读程序代码。

29、根据权利要求27的方法，音频序列进一步包括多个指示信号，每个指示信号定位压缩的数据信号。