CN1463419A

CN1463419A - 同步文本/可视信息与音频重放

Info

Publication number: CN1463419A
Application number: CN02801677A
Authority: CN
Inventors: D·李; K·特罗瓦托; M·拉马斯瓦米
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-03-23
Filing date: 2002-03-22
Publication date: 2003-12-24
Also published as: JP2004521385A; WO2002077966A2; EP1374219A2; WO2002077966A3; US20020163533A1; KR20030017522A; TW550539B; US7058889B2

Abstract

一种将可视信息与音频重放同步的方法包括以下步骤：从与显示装置有关的存储器中存储的列表选择所要求音频文件；从显示装置发送信号到远程装置，使远程装置开始播放所要求音频文件；以及根据时标数据在显示装置上显示与所要求音频文件相关的可视信息，从而使可视信息的显示与所要求音频文件的播放同步；其中播放所要求音频文件的开始与显示步骤的开始随来自显示装置的信号而变。

Description

同步文本/可视信息与音频重放

相关申请交叉参考

本申请要求2001年3月23日提出的序号为60/278319(US010110)的美国临时专利申请的优先权，该专利的公开内容通过引用结合到本文中。

发明领域

本发明一般涉及提供歌曲文本的适时显示，用于卡拉OK系统等中；更具体地说，本发明涉及将文本和可视信息与音频重放同步的设备和方法。

发明背景

许多系统在音乐重放时具有在显示装置上显示歌曲文本的能力。例如，与卡拉OK系统相关的常规显示设备一般提供显示装置，显示装置根据录制的歌词数据表示歌词。歌词数据以预定短语单元的形式录制，其分段位置用于将所示歌词行改为另一行。

卡拉OK系统的问题是它们需要昂贵的手动编辑。因此，如果歌曲的流行程度不能在商业上保证创建歌词的文本文件的费用，则用户可能得不到所需歌曲的文本文件。此外，卡拉OK系统一般不便于携带并需要大屏幕。而且，歌词的显示一般适于特定的显示装置。因此，如果将为用于特定显示装置而制作的歌词数据用于另一显示装置(例如，具有更小屏幕的另一显示装置)，则一个短语的字可能不会显示在一行上。

美国专利No.6062867公开了一种歌词显示设备，其中显示装置上歌词的显示状况逐渐随着一段音乐的进展而改变。歌词显示状况根据每首歌词存储的制作时间安排数据，以预定的时间间隔按预定量更改。

美国专利No.6053740提供了一种歌词显示设备，该设备存储包括第一行更改代码和第二行更改代码的歌词数据，其中，所述第一行更改代码用于定义在一行上要显示的预定字数，而所述第二行更改代码用于定义在该行上显示的字的分段位置。

尽管技术上取得了进步，但仍存在着对将文本或其它可视信息与其关联音频同步的精确有效设备和方法的需求。另一个存在的需求是可将歌词与词的音频形式同步的显示装置，从而使用户可跟随歌词。

发明概述

本发明利用音频处理技术将相关文本或其它可视信息与音频(特别是指音乐)重放同步。本发明可利用用户开始的字或歌词、对歌曲进行分段以定义字应用的位置，提取各段的开始和结束时间，为各段分配时标值，以及同步地显示歌词以使用户能够跟随。

本发明发现对卡拉OK类型的应用具有特别的适用性，在该类应用中，音频文件是歌曲，而可视信息是歌曲文本。分配时标数据，从而将可视信息与对应的话音或非话音段相关。显示装置被配置为在能够播放音频文件的远程装置中启动开始序列，并与音频文件的播放同步地显示可视信息。此外，通过在手持装置上提供可视信息输出，每个人可具有不同的视图，从而也使转换可方便地进行。

在本发明的一个方面中，同步可视信息与音频重放的方法包括以下步骤：从与显示装置相关的存储器中存储的列表选择所要求音频文件；从显示装置发送信号到远程装置，从而使远程装置开始播放所要求音频文件；以及根据时标数据在显示装置上显示与所要求音频文件相关的可视信息，从而使可视信息的显示与所要求音频文件的播放同步，其中播放所要求音频文件的开始与显示步骤的开始随来自显示装置的信号而变。

附图概述

参考下述例示实施例说明和附图来更好地理解本发明，其中：

图1是显示一般音频数据分类的方框图；

图2显示多个不同类型音频信号的波形段；

图3是显示用于音频特征提取的工具组织的框图；

图4A是显示二维分区空间图；

图4B是显示与图4A对应的决策树的框图；

图5显示暂停检测过程不同阶段上的音频信号；

图6显示根据本发明的分段过程；

图7是歌曲的语音和非语音部分的图示；

图8显示了样本歌曲的文本；

图9A和9B显示样本歌曲文本以及相应时标文件的对应形式；

图10是显示根据本发明的时标生成过程概述的流程图；

图11是显示不同输入要素的流程图，这些输入要素可被用作根据本发明执行时标生成过程的基础；

图12是显示时标值调整的图示；

图13显示根据本发明使用的手持式显示装置；以及

图14是显示根据本发明将文本和/或可视信息与音频重放同步的方法的流程图。

发明详述

本发明提供了一种利用音频处理技术将相关文本或其它可视信息与音频重放同步的有效方法。根据本发明的一个方面，将音频文件分段成话音和非话音段，以改善相关可视信息与音频文件之间的同步。

以下说明按如下方式进行组织。首先，提供在音频信号分类中使用的各种时间域和谱域特征的背景论述。之后，对图1的音频类系统40执行的各种处理步骤中的每个步骤提供单独说明。

更具体地说，例示音频类系统40由下面结合图2和图3论述的特征提取步骤42、下面结合图4A、图4B和图5论述的暂停检测步骤44、下面结合图6论述的音频分段步骤46及下面也结合图6论述的音频段分类步骤48构成。

最后，用将文本和可视信息与音频重放同步的论述来结束说明。

时间域和谱域特征术语

首先参照图2和图3，计算短时平均能量的工具称为AvgEnergy。用于AvgEnergy的等式表示为：

\overset{&OverBar;}{E_{W}} = \frac{1}{W} \underset{i}{Σ} s (i) s (i) w (n - i),

其中

W是处理窗口的大小，而s(i)是离散时间音频话音。

就像下面的几种频谱特征，频谱形心是根据短时傅立叶变换计算得出，傅立叶变换是沿时间轴逐帧执行的。令

F_{i} = {f_{i} (u)}_{u = 0}^{M}

表示第i帧的短时傅立叶变换，其中M是最高频带的指数。帧i的频谱形心计算方式如下：

C_{i} = \frac{Σ_{u = 0}^{M} u \cdot {| f_{i} (u) |}^{2}}{Σ_{u = 0}^{M} {| f_{i} (u) |}^{2}} .

帧i的FFT带宽计算方式如下：

b_{i}^{2} = \frac{Σ_{u = 0}^{M} {(u - c_{i})}^{2} \cdot {| f_{i} (u) |}^{2}}{Σ_{u = 0}^{M} {| f_{i} (u) |}^{2}} .

频谱衰减频率(SRF)对于低能量的无话音语音段通常很高，而对于具有相对更高能量的语音段则低得多。然而，音乐和噪音并非具有类似属性，这使得此特征对区分语音和其它类型的音频话音可能有用。SRF的定义如下：

{SRF}_{i} = \max (h | Σ_{U = 0}^{h} f_{i} (u) < TH \cdot Σ_{u = 0}^{M} f_{i} (u)),

其中，TH是介于0与1之间的阈值。

虽然频带能量比(BER)可以不同方式定义，但在各种定义之间基本上没有太大的差别。BER的计算如下：

{BER}_{i} = \frac{Σ_{u = 0}^{h} f_{i} (u)}{Σ_{u = 0}^{M} f_{i} (u)},

其中，h＝M/4。

Δ频谱幅度是很适合于语音/音乐鉴别器的特征。它的公式如下：

{ΔF}_{i} = Σ_{u = 0}^{M} | | | f_{i} (u) | - | f_{i + 1} (u) | | |

过零率(ZCR)是频谱形心的相关。它被定义为处理窗口内时域过零的数量。

在诸如扬声器识别、语音分析和音频信息检索等许多应用中使用了音调轮廓线的知识。在许多适用的音调检测算法中，传统的基于自相关的音调跟踪器由于其坚固性而将得以利用。为避免大多数不必要的耗时的自相关计算并优化检测精确度，在音调检测方法中采用了一系列的修改策略。

已经对利用几种分类策略的十三种时间与频谱特征的不同组合进行了评估。这些评估显示对双向语音/音乐鉴别器具有超过90％的分类精确度，但对使用相同特征组区分语音、音乐和同时的语音与音乐的三向分类器只具有大约65％的精确度。还对广泛使用于语音识别领域的基于倒谱(cepstral)的特征进行了研究。提议将Mel(梅尔)倒谱(AC-Mel)参数用作语音中应力状况分类的适合特征。使用十四种Mel频率倒谱系统(MFCC)，音频数据可分成七类，这齐类分别为：播音室语音、现场语音、带背景音乐的语音、噪音语音、音乐、无声及包括其它音频模式的无用信息。

音频分类系统40对音频信号进行处理，以将音频信号分成不同类别的段。结合本发明系统使用的连续GAD的七种音频类别由无声、单扬声器语音、音乐、环境噪音、多扬声器语音、同时的语音和音乐、以及语音与噪音组成。环境噪音类别指不具有前景声音的噪音。同时的语音与音乐类别包括具有背景音乐的歌唱与语音。图2显示了本发明考虑的GAD的七种类别的例示波形(除无声外)。

为便利可再用的和可扩展的设计，并使特征评估任务更易于执行，开发了图3所示的听觉工具箱20。听觉工具箱20可具有超过二十四个的工具。每个工具负责一个在音频数据分析期间经常需要的单项基本操作。通过利用工具箱20，与处理流式音频数据相关的许多烦琐任务对用户变得清楚起来，如缓冲器管理和优化、不同处理程序之间的同步、以及异常情况处理等。当前在工具箱20中实现的运算包括频率域运算、时间域运算和基本数学运算，如短时平均、对数运算、开窗和削波。由于在所有工具中定义了公共通信协议，因此一个工具的结果可与其它类型的工具进行共享而无任何限制。工具箱内的工具因此可以用很灵活的方式组织，以适合各种应用和要求。

特征提取42

图3显示了在特征提取步骤42(图1)期间用于提取六组声学特征的工具的例示配置。此工具配置包括MFCC 22、线性预测系数(LPC)24、ΔMFCC 26、ΔLPC 28、自相关MFCC 30及几种时间和频谱特征。注意，在随后的三个步骤44、46、48中使用的声学特征是沿时间轴从输入音频原始数据逐帧提取的。

利用滤波器组快速傅立叶变换(FFT)频谱的离散余弦变换(DCT)提取MFCC 22。计算是沿时间轴对窗口中的输入数据逐帧执行的。几种类型的窗口均适用，其中包括正方形窗口和汉明窗口。

利用自相关方法实现LPC 24的提取。每个处理步骤提取十二个系数。

ΔMFCC 26、ΔLPC 28和自相关MFCC 30特征为MFCC 22或LPC 24的移动提供定量测量。它们在语音领域的一些应用中已被采用。这些特征的定义如下：

ΔMFCC_i(v)＝MFCC_i+1(v)-MFCC_i(v)，

ΔLPC_i(v)＝LPC_i+1(v)-LPC_i(v)，

{ACMFCC}_{i}^{(1)} (v) = \frac{1}{L} Σ_{j = i}^{i + L} ({MFCC}_{j} (v) \cdot {MFCC}_{j + 1} (v)),

其中，MFCC_i(v)和LPC_i(v)分别表示帧i的第v个MFCC和LPC。L是相关窗口长度。上标l是相关滞后值。根据上述声学特征，通过分析相邻帧的声学特征，可进一步提取在音频段分类中使用的更多其它特征。

根据实验结果，这些对应于如600ms的更长时间上的音频数据特性的特征更适用于音频段的分类。用于音频段分类的特征包括：(i)以所关心帧为中心的一定数量的连续帧的声学特征的平均值和方差；(ii)暂停率(能量低于阈值的帧数与所考虑的总帧数之间的比率)；(iii)调和性(具有有效音调值的帧数与所考虑的总帧数之间比率)；以及(iv)MFCC、ΔMFCC、自相关MFCC、LPC及ΔLPC的总能量。

暂停检测44

暂停检测44负责将输入音频剪辑分成非话音段和话音段。此处，暂停指的是听众判定一段没有声音的时段，而不是辅音停止或稍微停顿所引起的。因此，对于暂停检测器而言，产生与人的感觉一致的结果是很重要的。

可在从GAD检测暂停期的步骤44期间实现三步骤过程。具体地说，例示暂停检测过程44包括(i)将音频数据的每个帧区分为话音或暂停；其次是(ii)填充过程；以及(iii)丢弃过程。根据在步骤42期间工具箱提取的特征，首先将输入音频数据逐帧标记为话音或暂停帧以获得原始边界。可以使用图4B所示的决策树算法进行逐帧分类。决策树是根据分层特征空间分区方法获得的。在图4A和图4B中，显示了二维特征空间的区分结果及其相应的暂停检测决策树。由于在第一步骤中获得的结果通常对于无声和轻微停顿敏感，因此，在随后的两个步骤中应用填充过程和丢弃过程，从而生成与人们对暂停的感觉更一致的结果。

在填充过程中，长度小于填充阈值的暂停段、即暂停帧的继续序列被重新标记为话音段，并与相邻的话音段相合并。在丢弃过程中，强度值小于强度阈值且标记为话音的段被重新标记为非话音段。话音段的强度定义如下：

其中，L是话音段强度，而T₁对应于图4A中显示的最低话音水平。定义段强度的基本思想是考虑话音能量，而不是直接使用段长度，这样，瞬间声音突发段将不会在丢弃过程中被标记为非话音。

图5显示了暂停检测算法的三个步骤。图5中显示了四个不同的线图。曲线62显示了从源接收时的原始音频输入信号。曲线64显示了原始数据的归一化形式，其中强音频信号的各部分用方波表示。在曲线66中，通过组合最小的间距，将方波评估为整体且相邻方块。接着，从曲线66继续到68，评估每个特定音频信号的强度，并且去掉曲线66中心的一个峰，因为音频信号很弱。

如上所述，暂停检测阶段44产生两种段：话音和非话音。非话音段由于已分类而无需任何其它处理。但话音段需要在分类前进行其它处理以标记过渡点，即下层信号类别变化的位置。

分段46

为找出过渡点，分段方案46使用了具有两个连续步骤的过程：中断检测和中断合并。在中断检测步骤期间，移动话音段上的大检测窗口，并比较各个滑动位置上不同半个窗口的平均能量。这允许检测两种类型的中断：

其中， E₁和 E₂分别是第一半和第二半检测窗口的平均能量。开动中断表示由信号能量增加导致音频类别可能改变。类似地，下降(offset)中断暗指由能量降低导致下层信号类别的改变。由于中断检测窗口沿信号滑动，因此下层信号的音频类别中的单一过渡可生成几个连续中断。这种中断系列的合并在分段过程的第二步骤期间完成。在此步骤期间，将同一类型的相邻中断合并成单个中断。如果下降中断与开动中断彼此靠近，则将下降中断与紧随其后的开动中断合并。这是为了连接一个信号的末端与另一信号的开始之间的任何小间隙。

图6通过信号中断的检测与合并提供分段过程46的说明。分类器将音频数据的连续比特流分析为不同的非重叠段，从而使各段在其类方面是同质的。分段合并方案是一种有效方法，可减少边界效应，并生成与人的感觉相一致的分类结果。由于从一个类别到另一类别的音频过渡可造成分类错误，因此，分段合并方案提供了减少此类错误的有效方式。分段合并方案的分段部分被用于定位话音段中发生从一种音频类型到另一种类型过渡的边界。此部分使用开动和下降测量，这些测量表示话音改变得有多快，以定位输入话音段中的边界。分段处理46的结果是产生更小的同质话音段。在分类48时使用分段合并方案的合并部件。它涉及到合并逐帧分类结果，以便对分段话音段进行分类。

音频段分类48

为了对音频段进行分类，首先要对段中的每个帧进行分类。帧由滑动窗口70定义，而滑动窗口70逐渐地沿着由信号生成的能量波形72移动，如图6所示。随后，集成帧分类结果以形成整个段的分类标记。集成由合并过程执行，该过程对分配给每个音频类别的帧数进行统计。统计中表现最突出的类别被作为段的音频分类标记。如上所述，用于对帧进行分类的特征不仅来自于该帧，而且也来自于其它帧。分类是在假设每个类别具有多维高斯分布的情况下，使用贝叶斯分类器执行的。帧分类的分类规则可表示如下：

c^*＝arg min_{c＝1，2，...，C}{D²(x，m_c，S_c)+ln(det S_c)-2ln(p_c)}

其中，C是候选类别的总数(在此示例中，C为6)。然而，在优选实施例中，候选类别的总数为2。第一类别表示“话音”(词或歌唱)。第二类别表示“非话音”(话音外的其它信号，如器乐、噪音、无声等)。c^*是分类结果，x是分析的帧的特征矢量。参量m_c、S_c和p_c分别表示平均矢量、协方差矩阵和类c的概率，而D²(x，m_c，S_c)表示x与m_c之间的马哈朗诺比斯(Mahalanobis)距离。由于m_c、S_c和p_c未知，因此，这些参量使用最大后验(MAP)估计量确定。

分类算法利用最低时间增量(如秒)定义最可能的分类。这减少了较短增量下可能出现的瞬间分类数量。分类算法实质上是一种平滑功能。

语音映射是在识别的语音段上映射输入文本的过程。理想的是，得到的文本在出现大多数暂停处、例如每节结束时带有额外的空行。在图7的示例中，具有两个语音段S1和S2。如图8所示，用户输入了文本100，该文本带有显示每节结束的空行102。随后，将如图9A或图9B所示给歌词加上时标，这将在下面进一步详细描述。

在最简单的情况下，如图7所示，“段落”数量将与歌曲“具有语音”的部分相匹配。这样，查看节内每行的“时标”将以线性方式提供。表示分类变化的时标将定义一个类别的结束和另一类别的开始。在歌曲结束时，最好提供具有空白文本或诸如“～结束～”之类的文本指示符的时标来清显示屏。如果输入的文本没有空行，则文本会以线性方式分布在可得到的语音段上。

例示时标文件如图9A和9B所示。图9A和图9B的时标110(通常以秒为单位测量)显示于歌曲文本112的左侧。

图9A中的时标110显示为经过时间。即由于第一个时标值为十五(15)，因此，在Mysong开始十五秒后将显示第一行文本。第一行将显示五秒钟，即从十五秒经过时间到二十秒的经过时间。当经过时间等于二十(20)秒时，将显示第二行文本。歌曲的其它行将根据其它时标值按顺序显示。

在备选实施例中，图9B中的时标110显示为延迟(停留)时间。虽然结果相同，但在这种情况下，有一个空行显示十秒钟，然后显示第一行文本五秒钟。对于以“显示然后延迟”循环操作的系统，较好的是将时间计算为延迟，这样，它们可立即使用。

文本显示时间安排将是不同的，这取决于显示单元的性能。即，如果一节太长，或屏幕长度太小，则无法显示全屏，并且如果以整页方式一次显示字词，则“累积延迟”(即延迟总和)现在等于继续下页前的延迟时间量。

根据本发明，可以采用几种技术确定时标信息。先参照图10，所示流程图显示了根据本发明的时标生成过程概述。

存在两个与生成时标文件相关的基本活动。第一个活动是检索音乐200并将其分段成相关类别。第二个活动是检索与音乐200相关的文本210并可选地设计文本模式。随后，音乐200通过时标生成器220与文本210相匹配，以形成时标文件230。时标文件230可生成一次，然后可选地与其它用户共享(如通过因特网)。时标文件230被载入具有显示器的装置，显示器在本文中被称为显示系统240。

选择歌曲后，显示系统240将文本210与音乐200同步显示。例如，显示系统240可以是Philips Electronic(菲利普电子)制造的Pronto^TM显示器。Pronto^TM发射红外线辐射(IR)命令，以同步地开始显示序列和音乐及文本。同步开始功能允许控制单独的预先存在的远程装置，例如，如光盘(CD)播放器，但会在Pronto^TM上显示字词。它的有利之处在于可实现文本的同步显示而无需购买新的显示系统。

有许多方式可用于为时标生成过程提供音乐文本。最好是提供了字词的文本文件。传递文本的方式包括读取数据的传递机制、手动输入、网络传送、无线传输、可移动存储技术以及本领域技术人员熟知的其它方法。例如，歌词的传递可通过从CD-Rom上的数据纹迹读取并存储歌词、经数字电视传输中嵌入的RDS FM副载波、寻呼机传递的数据、从因特网检索的数据、听音乐的人手动键入的数据中，通过诸如SmartMedia、CompactFlash存储卡或记忆棒之类的可移动媒体进行的数据传送。

时标生成可以简单地根据句子或段落总的持续时间为每个字分配时标值。在得到更具特征的信息时，此过程也可提供更精确的时标信息。

根据本发明，诸如音乐歌词的分析等时标过程的复杂应用最好是在计算机上执行。简单的时标生成并不需要计算机。结果随后可经因特网服务提供商张贴并在服务器上共享。

分析和文本分段是两项技术，可用于根据诸如字词之间的不同符号或间隔等各种指示符将歌词分段成句子或段落。或者，诸如编辑器技术中使用的语法机制可用于将段映射到分类时标。这将允许使用标点符号进一步指导时间的安排。

在采用不昂贵的集成电路芯片支持时，同样可以预计到时标生成过程也可以直接由音乐播放器执行。

现在参照图11，描述各种方法的流程图可作为根据本发明执行时标生成过程154的基础。

仅使用文本段146和话音/非话音段时间安排信息140时，确定时标值的算法可表示如下：

T_{i} = S + \frac{(S - E) \cdot i}{N}

其中，T_i是要生成时标的段中第i个字的时标；S和E是通过音乐分析获得的段的开始和结束时间；而N是段中的总字数。

通过统计音节数量而不是字数，发音字典段150允许生成更精确的时标值。这种情况下，N是总音节数，而i是当前字之前的音节数。

通过统计从段开始已经过的全部音符数(由于音符通常不代表音乐段的引入和过渡，即那些没有话音的音乐段，因此只统计全部音符本身将不精确)，利用音乐段148的音符标音可生成更精确的时标值，整音符数可因不同的版本而有很大的变化。因此，在这种情况下，N表示段中的全部音符数，i表示当前字之前的全部音符数量。

借助于自动语音识别软件(ASR)，有可能检测到音乐中出现的关键字。

节拍技术142和关键字技术144可分别用于验证和修改上述利用其它方法获得的结果。例如，节拍和全部音符方法可检测话音段可持续的长度，并且其它段被假定为非话音段。

特定方法的使用是可选的并且取决于应用要求和资源适用性。例如，在小芯片上实现时标生成过程154时，最好利用简单算法并且不需要虚线框所示的方法142、144、148和150。然而，如果资源适用性并不是问题，并且目标是生成尽可能精确的信息(例如，用于因特网服务提供商或用于自动生成商业卡拉OK光盘的信息)，则可能需要方法142、144、148和150。

图12显示了用于精炼时标数据以确保它与实际歌词相一致的方法。如图所示，根据图11所示方法144，检查从歌曲中提取的关键字位置，以确定它们是否与抄本中的实际关键字位置一致。如果时标数据中的关键字位置与抄本中的关键字实际位置并不完全匹配，则可相应地移动时标数据。

更具体地说，图12显示了三个表示歌曲的音乐/话音(本文中也被称为非语音/语音)段的框。框160只是表示分析的歌曲原始数据。框162显示了实际关键字与时标生成过程提取的关键字位置之间的不匹配。关键字K1和K2的实际位置分别由虚竖线166和168表示。竖线170和172显示根据时标数据的关键字K1和K2的位置。因此，要改进时标数据的精确度，必须参照框162按图12所示箭头方向调整关键字K1和K2的位置。框164显示调整过程的最终结果。因此，关键字K1和K2的时标数据分别对应于标识为174和176的实际K1和K2位置。

一旦形成与各部分文本相关的精确时标后，诸如Pronto^TM的手持显示系统就可在适当的时间显示文本。

可以用多种方式将文本显示在屏幕上，以改善可读性、美感或娱乐性。例如，可以将句子自动换行以便其更易于显示，在新行出现时可以冲掉文本，或者根据屏幕大小，可每隔N行进行一次清屏。也有从屏幕底部到顶部将文本换行的方式。例如，屏幕可分成交替刷新的顶部和底部两半。这使观众在查看当前半页的同时可看到上半页的结尾。虽然可以滚动文本，但这常难以在显示屏上读取。

还设想，在具有男声和女声合唱歌词的歌曲中，可在男声唱的特定歌词与女声唱的特定歌词之间进行区别。这样，在显示歌词时，可以在显示装置上形成诸如字体或颜色变化的表示，以提示男性或女性何时由他或她演唱(例如，在卡拉OK情况中)。

或者，逻辑暂停(如在句号或逗号后)可自动追加“新行”(或回车)符。对于句号，可以输入两个新行以表示句子结束，这对于作曲通常也是表示节的结束。在分析器技术中，可检测到此类格式化，从而有利于正确的插入和格式化。

也可提供非字项(如图片)进行显示。非字项将根据剩下的文本的时间安排而适当显示。或者，如果可利用特殊检测(如鼓声检测)，则可显示特殊非字标识符(例如鼓的图片或动画)或诸如“drumsolo(鼓乐独奏)”的专门短语。

另外，字可以具有点缀它们的特殊声音、图片、动画或视频。这些特殊“非字”项可作为格式化的一部分生成，这样，每次检测到“关键字”时，可插入特殊项。例如，只要使用“女孩”这两个字，则一个女孩的图片便会适时地与字一起显示。非字项可替代关键字，或者可以既显示关键字又显示非字项。

本领域的技术人员可预见许多其它显示方法。

如图13所示，Philips Pronto^TM显示器180能够显示六行文本182。因此，对于Pronto^TM，一次可显示整节。用空行填充屏幕结尾。

利用诸如Pronto^TM显示器的手持显示装置，可以用同步方式在多个装置上显示歌曲文本，以允许两个或更多人跟随音频文本。在此实施例中，每个同步装置可从作为服务器操作的装置收到“go(进行)”消息。或者，服务器可动态地发送文本和时间安排到所有其它同步装置，这样，其它同步装置不必存储文本，从而节省了宝贵的存储空间。

现在参照图14，所示的流程图显示了根据本发明将文本和/或可视信息与音频重放同步的方法。在步骤1405中，用户从手持装置中的存储器内存储的歌曲列表中选择歌名。可以通过例如按按钮或触控式屏幕将选择从用户传送到手持装置。或者，还可以设想，用户可选择“随机”作为选择项，由此系统将在已知歌曲组中选择随机歌曲。随机选择可使用随机数生成器选择不同的歌曲，一次一首。这可以替代此步骤的用户输入，直至用户停止或复位系统。

手持装置内的处理器处理用户的请求并发送信号(例如，红外信号)到远程装置。信号指示远程装置调整到与用户选择的所要求歌曲对应的所要求音频曲目。或者，如果远程装置不具有自动调整到特定所要求音频曲目(例如，到第5首曲目)的能力，则手持装置将发送信号到远程装置以复位远程装置。即，远程装置将接到关机、重启、然后数到所要求曲目的指令。此步骤确保远程装置与手持装置同步。

还设想到，可将一个或多个文件载入并存储在单个手持装置中。手持装置将具有按名称、分类、主题、日期或其它标准将文件分类的功能。将文件载入手持装置可通过对接装置或者通过本领域技术人员所熟知的有线或无线技术完成。

一旦远程装置找到所要求曲目，手持装置就发出播放信号以便使远程装置真正开始播放选定歌曲。如步骤1415所示，在短暂延迟，以允许远程装置真正开始播放选定歌曲后，手持装置将开始同步显示文本与远程装置上正播放的音频型式。

步骤1420是初始化步骤，其中检查手持装置以确定是否有任何文本行要显示，显示行计数器被设为零，并且显示行数被设为N。随后，在步骤1425中，显示所要求歌曲的名称。

在步骤1430中，检查是否存在其它文本段。如果不存在要显示的其它文本段，则如步骤1435所示结束方法。如果存在要显示的其它文本段，则方法将继续到步骤1440，在该步骤中，读取文本段和相关延时(时标)。在步骤1445和1450中，如果延时大于零，则方法将在延时期间等待。在此延时期间，文本将显示在显示装置的屏幕上。

一旦延迟时间结束，分别如步骤1455和1460所示，所有显示行将从屏幕上清除，并且显示行计数器将复位到零。

如果在步骤1445中延时等于零，则方法将直接继续到步骤1465和步骤1470，在这两个步骤中，显示行计数器并加一。

最后，在步骤1475中，确定是否达到最后文本段。如果达到了最后文本段，则方法继续到步骤1480，该步骤表示没有其它适用文本。从步骤1480，方法会执行另一次检查，以确定在步骤1430中是否有适用文本。由于无其它文本适用，因此，在步骤1430中问题的答案为否，并且方法将在步骤1435结束。

但是，如果未达到最后文本段，并且因此步骤1475中所提出问题的答案是否，则方法将再次从步骤1430开始。

虽然本文参照附图描述了本发明的说明性实施例，但可以理解，本发明并不限于那些精确的实施例，并且在不背景本发明范围或精神的情况下，本领域的技术人员可实现其它各种改变和修改。例如，诸如标记的特征(例如，跳动的球或音乐音符)可添加到显示器上，以表示文本中的当前位置，或者可以用不同语言显示文本。另外，时标文本可提供给诸如因特网上的其它用户。所有此类改变和修改都应包括在所附权利要求书定义的本发明范围内。

Claims

1.一种将可视信息与音频重放同步的方法，所述方法包括以下步骤：

接收用户选择的所要求音频文件(1410)；

开始播放所述所要求音频文件(1415)；以及

根据时标数据(230)在显示装置(240)上显示与所述所要求音频文件相关的可视信息(1465)，从而使所述可视信息的显示与所述所要求音频文件的所述播放同步，其特征在于播放所述所要求音频文件的开始与所述显示步骤的开始随来自所述显示装置的信号而变。

2.如权利要求1所述的方法，其特征在于所述显示装置包括手持装置(180)。

3.如权利要求1所述的方法，其特征在于所述信号在远程装置播放所述所要求音频文件之前关断并接通所述远程装置。

4.如权利要求1所述的方法，其特征在于还包括以下步骤：分析所述音频文件并生成对应于与所述音频文件相关的所述可视信息的时标数据(220)。

5.如权利要求4所述的方法，其特征在于利用基于文本的过程(146)生成所述时标数据。

6.如权利要求4所述的方法，其特征在于利用发音字典过程(150)生成所述时标数据。

7.如权利要求4所述的方法，其特征在于利用音乐的音符标音过程(148)生成所述时标数据。

8.如权利要求4所述的方法，其特征在于利用从音乐中提取的节拍信息(142)生成所述时标数据。

9.如权利要求4所述的方法，其特征在于还包括以下步骤：将从所述所要求音频文件提取的关键字位置与所述时标数据内的关键字的实际位置相比较，并将所述提取的关键字的所述位置调整为与所述时标数据内的所述关键字的所述位置相匹配(160-176)。

10.如权利要求1所述的方法，其特征在于还包括以下步骤：从所述显示装置发送信号到远程装置，以使所述远程装置启动。

11.一种从音频源生成时标数据的方法，所述方法包括以下步骤：

从所述音频源提取话音和非话音数据(140)；

分析所述话音和非话音数据，以标识在所述话音和非话音数据中的选定信息，所述选定信息提供生成时标的基础；以及

生成与各个所述选定信息相关的时标值(154)。

12.一种将相关可视信息与音频重放同步的设备，所述设备包括：

特征提取装置，用于从音频数据提取声学特征(42)；

暂停检测器装置，用于检测所述音频数据中的暂停(44)；

分类器装置，用于将音频数据的连续比特流分析为不同的非重叠段，从而使各段在其类方面是同质的(46)；以及

时标装置，用于为每段分配时标值(220)。