CN103003875B

CN103003875B - 用于执行音频和相应文本转录的同步并确定该同步的置信值的方法和系统

Info

Publication number: CN103003875B
Application number: CN201180035459.XA
Authority: CN
Inventors: O.托迪克
Original assignee: Shazam Entertainment Ltd
Current assignee: Shazam Entertainment Ltd
Priority date: 2010-05-18
Filing date: 2011-05-16
Publication date: 2015-06-03
Anticipated expiration: 2031-05-16
Also published as: CN103003875A; KR20130042493A; US20110288862A1; KR101413327B1; US8543395B2; EP2572354A1; CA2798134A1; WO2011146366A1

Abstract

提供了用于执行音频与相应文本转录的同步并确定定时同步的置信值的方法和系统。可以用语音识别在正向和反向上同步音频和相应文本（例如副本），以输出时间注释的音频-歌词同步的数据。可以计算量度以量化和/或限制同步的置信。基于该量度，示例实施例描述了一种方法，用于增强自动同步过程，以可能使隐马尔科夫模型（HMM）适应同步音频，用于在语音识别时使用。其他例子描述了用于选择合适的HMM来使用的方法。

Description

用于执行音频和相应文本转录的同步并确定该同步的置信值的方法和系统

技术领域

语音识别（有时候被称为自动语音识别（ASR）或计算机语音识别）将口语字转换为文本。术语“声音识别”有时被用来指语音识别，其中，对于特定的说话者来训练识别系统，以尝试基于其唯一的声音来特定地识别说话的人。

背景技术

语音识别系统一般基于隐马尔科夫模型（HMM），这是输出符号和数量的序列的统计模型。语音信号可以被看做分段的静止（stationary）信号或短时静态信号，从而在短时内，语音可以被近似为静态过程。语音由此可被认为是用于许多随机过程的马尔科夫模型。

HMM输出用于每一个静态信号的n维实数值向量的序列。该向量包括倒谱（cepstral）系数，这是通过对语音的短时窗口进行傅里叶变换、对该变换去相关、并采用第一（最重要）系数而得到的。HMM可以具有给出每一个观察到的向量的可能性的统计分布。每一个单词或每一个音素（phoneme）可具有不同的输出分布。用于单词或音素的序列的HMM是通过将对于各个单词和音素的单独训练的HMM进行连接（concatenating）来生成的。

语音的解码（例如当用新的发音来展示ASR并计算最可能的源句子时）可使用维特比（Viterbi）解码器来执行，给定音频信号，该解码器确定最优文本序列、期望语法以及在大数据集上训练的一组HMM。

发明内容

在一个示例性方面，提供了一种处理音频信号的方法。该方法包括接收包含声音元素的音频信号，并执行声音元素和该声音元素的相应文本转录的对准（alignment）。所述方法还包括基于该对准，确定与对于声音元素部分的持续时间而言的时间流逝量关联的定时边界信息，并输出置信量度，其表示对于声音元素部分的持续时间而言的定时边界信息的确定程度。

在一个实施例中，执行在正向上处理的声音元素和该声音元素的相应文本转录的正向对准，并执行在反向上处理的声音元素和该声音元素的相应反向文本转录的反向对准。此外，所述方法包括确定与对于正向处理过的声音元素部分的持续时间而言的时间流逝量关联的正向定时边界信息，并来确定与对于反向处理过的声音元素部分的持续时间而言的时间流逝量相关的反向定时边界信息。在该实施例中，例如，基于正向定时信息和反向定时信息之间的比较来输出置信量度。

在另一实施例中，所述音频信号是包含歌词的歌曲，且，所述方法还包括将声音元素的相应文本转录与该音频信号进行同步，并输出时间注释同步（time-annotate）的歌词，表示与音频信号相关的歌词行的定时信息。

在另一示例性方面，提供了一种计算机可读存储介质，具有在其中存储的可由计算设备执行以使得该计算设备执行功能的指令。该功能包括接收包含声音元素的音频信号，并执行声音元素和该声音元素的相应文本转录的对准。所述功能还包括基于该对准来确定与对于声音元素部分的持续时间而言的时间流逝量关联的定时边界信息，并输出置信量度，其表示对于声音元素部分的持续时间而言的定时边界信息的确定程度。

在又一示例性方面，提供了一种系统，其包含隐马尔科夫模型（HMM）数据库，该数据库可以包括在多维特征空间中（例如使用梅尔倒频谱系数）的音素的统计建模、定义了语法解码器可识别的单词的可选期望语法、将单词映射到音素的发音字典数据库以及语音解码器。语音解码器接收音频信号并访问HMM、期望的语法以及字典，以将音频信号中的声音元素映射到单词。该语音解码器还执行音频信号与声音元素的相应文本转录的对准，并确定与对于声音元素部分的持续时间而言的时间流逝量关联的定时边界信息。该语音解码器还确定置信量度，其表示对于声音元素部分的持续时间而言的定时边界信息的确定程度。

在一个实施例中，语音解码器将声音元素的文本转录与音频信号进行同步，并输出时间注释同步的歌词，其表示与该音频信号相关的歌词行的定时边界信息。

上述发明内容仅是示例性的，并且不意图以任何方式来限制。除了上述示例性方面、实施例和特征，参考附图及下列详细描述，进一步的，实施例和特征将变得明显。

附图说明

图1示出了用于执行语音识别并将文本与所识别的语音进行同步的系统的说明性实施例。

图2示出了用于执行语音识别并将文本与识别的语音进行同步的系统的另一说明性实施例。

图3说明了示出反转输入歌词的概念图。

图4是确定正向和反向对准之间的不匹配的例子的概念说明。

图5是使用正向或反向对准来确定同步的或映射的行的异常值的例子的概念说明。

图6示出了用于处理音频信号的方法的说明性实施例的流程图。

图7示出了用于处理音频信号的方法的另一说明性实施例的流程图。

图8示出了以迭代方式来处理音频信号的方法的说明性实施例的流程图。

图9是说明层次化HMM训练和模型选择的框图。

图10示出了使用来自特定演奏者的现有同步歌词数据来适应HMM的方法的说明性实施例的流程图。

图11是示出示例性并行同步系统的框图。

图12是用于选择合适HMM的示例性系统的框图。

图13是用于音频和歌词的混合同步的示例性系统的框图。

具体实施方式

在下列详细描述中，引用了附图，其构成了这里的一部分。在图中，相同的符号典型地表示相同的组件，除非上下文另有说明。在详细描述、附图和权利要求中描述的说明性实施例不是限制性的。可以使用其他实施例，且可以进行其他修改，而不偏离这里展示的主题的精神和范围。容易理解，如这里一般地描述并在图中说明，本公开的方面可以以多种不同的配置来布置、替换、组合、分离和设计，所有这些都在这里被显式地考虑。

在示例实施例中，音频和相应文本（例如转录）可被同步（在一些例子中使用语音识别技术），且生成的定时元数据可被用于多种不同应用，诸如，例如，启用音频的上下文搜索、音频的浏览、以及随着音频播放的文本显示（例如字幕、歌词的类卡拉ok显示等）。

示例实施例描述了用于获取定时元数据、对时间同步的元数据计算置信标志、并使用置信信息来增强自动同步过程的方法。例如，由于输入音频和声学模型之间可能的不匹配以及转录的不准确，以自动方式获取的信息不会总是准确的，且由此，生成描述定时信息质量的置信度量，以使用自动或手动的方式来增强不准确定时元数据的质量。

图1示出了使用语音识别技术来执行自动同步的系统100的说明性实施例。系统100在音频引擎102接收音频信号。音频信号可包括语音、歌曲或音乐数据、电视信号等，且由此，可包括说或唱的单词以及伴奏器乐或背景噪声。音频引擎102抑制任意器乐或背景噪声，并向自动语音识别（ASR）解码器104输出说或唱的单词（例如声音）。例如，当输入音频信号是音乐歌曲时，说或唱的单词可以对应于歌曲的歌词。

使用借助于声音通常位于立体声的中心而器乐不是的这一事实的技术，音频引擎102可抑制音频信号中的任何器乐。使用频率分析方法来标识和声丰富（harmonically rich）的区域，音乐（或其他非声音数据）也可被抑制。作为例子，音频引擎102可使用来自iZotope公司的Vocal Remover产品来处理音频信号。例如，音频引擎102可抑制非声音数据，以提取声音数据或表示单词的口头发音的数据。

系统100还在过滤器106接收与音频信号的歌词相应的歌词文本文件。过滤器106清理并规范化歌词文本。例如，过滤器106可使用查询表来校正误拼错误，可以将修改发声（如类似“heeeey”、“yeah”等单词）减少到更小的集合（例如“heeeey”和“heeey”将被改变为“heey”），执行语法改变（例如大写每行的第一个字母），并移除无关非歌词文本（例如，艺术家和歌曲的名字，可能标识音乐片段例如合声或韵律的标签）。

语法处理器108从过滤器106接收歌词文本，并创建“语法”，表示文本被期望位于音频信号的声音中。歌词文本可被转换为单词的序列，伴随着在开始和结束插入的信号的“单词”建模器乐（仅音乐）部分。可选的器乐和/或填充模型可以被插入到歌词中的单词之间，以解释（account for）余音（voice rest）和可能的背景伴奏。

ASR解码器104从音频引擎102接收声音且从语法处理器108接收语法，并执行歌词同步。在提前知道准确歌词的例子中，ASR解码器104将执行音频和歌词的强制对准，即，语法中的期望响应将被映射到被唱出的相应单词。准确的歌词可基于歌词文本的源而确定。如果歌词文本是从可信源接收的，则可以假定准确的歌词，且可以使用强制对准以将歌词映射到音频信号。由此，使用强制对准，定义语法，从而不存在分支，即，只有特定的可能单词序列可以被识别。关于歌曲的时间流失量，例如，通过包含系统100的时间戳或计数器（未示出）或作为ASR解码器104的功能，可以对歌词的每一行的开始和结束时间存储定时信息。

ASR解码器104具有对于发音字典数据库110的访问，该数据库定义了单词的语音表示（例如音素）。尽管字典数据库110与系统100分开示出，但是在其他例子中，字典数据库110可以是系统100的组件或可被包含在系统100的组件中。

过滤器106可清理歌词文本，并为语法处理器108准备歌词。语法处理器108将从所清理的歌词中创建期望的响应语法。如果歌词源不是可信的，或者如果歌词文本不太可能完全匹配音频信号中的单词，则语法处理器108可创建随机语法。为了创建随机语法，语法处理器108可以并行放置将所有歌词行，并允许歌词行的任意序列被识别。语法处理器108可在单词之间并在语法的开始和结束插入可选的且多个的单词建模器乐。此外，填充单词模型可被用于建模非单词（发音等）的发生。于是，在不可信歌词源的例子中，可以以允许分支的方式来定义语法（例如，歌词的任意行可以跟随任意其他行）。

音频引擎102可通过大约每10ms提取特征向量来分析所抑制的音频信号（例如，使用梅尔（Mel）倒频谱系数或（MFCC））。然后，ASR解码器104可以将特征向量的序列映射到语法中定义的期望响应。ASR解码器104将通过使用字典数据库110以将单词扩展为音素，来将由语法处理器108创建的单词语法扩展为语音语法。ASR解码器104可使用隐马尔科夫模型（HMM）数据库112来从与音频信号语法和相应特征向量匹配的音素中获取最优单词序列，该数据库（例如使用MFCC）统计地描述了特征空间中的每一个音素。尽管HMM数据库112与系统100分离地示出，但是在其他例子中，HMM数据库112可以是系统100的组件或者可被包含在系统100的组件中。

典型地在大量的相关数据上训练HMM；在歌词同步的上下文中，这可以是大量的歌曲。例如，模型参数的估算可以使用Baum-Welch算法来进行。例如，给定与特定模型相应的一组训练例子，可以通过重新估算来确定参数的模型。

例如，给定音频信号、期望语法以及在大量的数据上训练的一组HMM，ASR解码器104可使用来自数据库112的HMM以使用确定文本的最优序列的维特比解码算法来对音频信号进行解码。由此，例如，ASR解码器104使用音素的HMM数据库112来将口语映射到音素描述，并使用字典数据库110来将单词映射到音素描述。

ASR解码器104将对音频信号执行语音识别或强制对准，以创建与音频信号中的语音相应的单词和音素转录的序列。

在执行歌词同步时，ASR解码器104还可执行音素描述的定时分析。在一个例子中，在下列表1中示出一组输入歌词文本和相应音素转录。

表1

音素转录可以是标准字典转录，从而例如，单词“asleep”可被音素转录为“AHSHLIYP”，且为了清楚地表示单词转录的开始/结束而使用句点（period）和空格，以表示语音中的停顿，或表示在单词之间可被听到的背景器乐。注意到为了简单的目的，（总共N行）中的仅前三行歌词文本在表1中显示。

在执行语音识别之后，音频信号可与输入歌词匹配，以生成如下表2所示的输出歌词。

表2

此外，定时信息可以和输出歌词一起输出，如表2所示。定时信息可表示从歌曲开始的时间流逝量（音频信号从该歌曲获取），或者从接收到的音频信号开始到一行文本（例如歌词）开始的时间流逝量，以及从音频信号开始到歌词行结束的时间流逝量。定时信息可选择地（或额外地）包含歌词的行、单词或音素期间的时间流逝量。

如表2所示，所输出的歌词的第一行可具有22秒的开始时间和24.4秒的结束时间。例如，开始和结束时间是从音频信号开始的时间流逝量。所输出的歌词的第二行在表2中示出，具有24.7和27秒的开始和结束时间，且所输出歌词的第三行在表2中示出，具有27.4和30.2秒的开始和结束时间。

为了确定定时信息，ASR解码器104标识了在音频信号正向播放时，从音频信号的开始到音频信号的声音开始的时刻的时间流逝量。注意到在上面的例子中，在行级别（line level）指定了定时信息，从而第一行在22秒开始并在24.4秒结束。但是，还可以在单词级别上提供定时信息。

ASR解码器104可确定定时信息作为执行语音识别的副产品。例如，维特比解码器通过矩阵来确定最优路径，在该矩阵中，垂直维度表示HMM状态，且水平维度表示语音的帧（例如10ms）。当HMM状态的最优序列被确定时，相应音素和单词的最优序列可用。由于经过HMM状态的每条通路消耗了一帧语音，状态/音素/单词级别的定时信息可用作自动语音识别的输出。

替代地，例如，ASR解码器104可包括定时器、具有对定时器的访问、或根据定时器来操作，以确定定时信息。

图1中的系统100可以以批量模式（即，不是实时地，而是通过使用文件中存储的音频信号记录）来执行歌词和音频的定时同步，以对于多个音频信号或歌曲来创建如上表2所示的定时信息。

图1中的系统100的组件包括引擎、过滤器、处理器和解码器，其中的任一个都可以包括计算设备和处理器来执行组件的功能。例如，替代地，图1中的系统100的任意组件可具有计算机软件具体实现的功能，在被计算设备或处理器执行时，该计算机软件使得计算设备或处理器执行组件的功能。由此，尽管未示出，系统100也可以包括存储器以存储计算机软件。

图2示出了用于执行语音识别并将文本与所识别的语音进行同步的另一系统200的说明性实施例。系统200的很多组件与系统100的组件类似，并可被具体实现为计算机硬件或软件。例如，系统200包括音频引擎202，其接收音频信号、抑制音频信号的器乐、并输出音频信号的声音。音频引擎202可以以正向（直接）形式或反向形式来输出声音。正向形式是正向自然说出的声音，反向形式是后向或逆向的声音。例如，为了输出反向形式的声音，音频引擎202可以逆向回放音频信号。声音的反向形式可能不会被听者理解或了解；但是，例如，声音的反向形式可被用于进一步分析音频信号。在一个例子中，音频引擎202可使用Sound e Xchange的Sox软件来反转输入音频信号。

系统还包括ASR解码器204，以从音频引擎202接收正向和反向音频信号，以执行语音识别以及音频信号的歌词同步。

过滤器206接收与音频信号的歌词相应的歌词文本，且该过滤器206清理并规范化歌词文本，以直接（或正向）和反向（或后向）输出文本。从过滤器206输出的正向单词是以标准的正方向从左向右书写的歌词单词（如本公开中书写的单词）。例如，从过滤器206输出的反向单词是以后向从右向左书写/读取的单词，且由此，只有单词的顺序被反转了。

语法处理器208接收正向或反向的歌词单词，并正向或反向输出对应于单词的“语法”。

例如，ASR解码器204从语法处理器208接收正向和反向语法，并从字典数据库210接收用于正向和反向语法的单词到音素的正向和反向映射，以将单词映射到音素转录。ASR解码器204还从HMM数据库212接收正向和反向音素（例如将一种发音与另一发音相区别的小单位语音或声音）的统计模型。例如，用于反向路径的声学（HMM）模型将在被反转的歌曲的训练集上训练。字典数据库210和HMM数据库212中的任一个或两者都可以是系统200的组件，或者在其他例子中，可以包含在系统200的组件中。

例如，ASR解码器204可正向或反向执行音频信号到歌词文本的映射或同步。在执行同步时，ASR解码器204还可输出如上所述的定时信息。如上参考表1和2描述了正向同步的示例性方法。

为了执行反向同步，ASR解码器204使用反向音频、反向语法、反向音素字典（例如在反向音素字典中，单词“asleep”被语音地转录为“P IY L SHAH”），以及反向HMM（例如，每一个音素将在反向音频数据上训练，且由此，正向和反向HMM集中的音素“ah”的模型将不同）。表3在下面说明了表1中的歌词的反向输入歌词和反向音素转录。

表3

表3中示出的反向输入歌词是表1中的反向输入歌词。如表3所示，第一行音频信号是表1中的最后一行音频信号。由此，歌词行是相反顺序的，且同时，行中的单词是相反顺序的（例如，从表1中的顺序反转）。此外，经反向字典数据库210映射的歌词的相应音素转录方向也是相反的（例如，以反向从右向左读取）。注意到为了简单起见，例子中仅显示了（总共N行中的）最后3行歌词。

图3说明了示出输入歌词的反转的概念图。如图所示，例如，对于反向歌词，正向的行N变成了反向的第一行（行1^R），正向的行N-1变成了反向的第二行（行2^R），以此类推，直到正向的行1变成反向的最后一行（行N^R）。

表4a在下面表示具有相应输出定时信息的输出歌词。通过如上用于正方向的相同方式，定时信息可以和输出单词一起反向输出，该反方向表示从接收到的反向音频信号的开始起的时间流逝量。定时信息可被输出为从音频信号的开始到单词行的开始（行开始时间）的时间流逝量，以及从音频信号的开始到歌词行的结束（行结束时间）的时间流逝量。

如表4a所示，反向输出歌词的第一行可具有197.8秒的开始时间和200.6秒的结束时间。例如，开始和结束时间是从反向音频信号的开始起的时间流逝量。反向输出歌词的第二行在表4a中示出，具有202.5和203.3秒的开始和结束时间，且反向输出歌词的第三行在表4a中输出，具有203.6和206秒的开始和结束时间。

为了确定定时信息，当反向播放音频信号时，ASR解码器204标识从反向音频信号的开始到当反向音频信号的声音开始时的时刻的时间流逝量。注意到在上面的例子中，在行级别指定了定时信息，从而行N-2在197.8秒开始并在200.6秒结束。但是，还可以在单词级别提供定时信息。

表4a

ASR解码器204将反向输出歌词输出到单词和时间反转器214。反向歌词的输出为W_N-i ^R，表示反转的行/单词，以及T_N-i ^R，表示该行/单词的相应映射定时。单词和时间反转器214将根据下列等式（1）将来自反向输出的行/单词反转或置于正方向。

W_i ^RR=W_N-i ^R,i=1:N 等式(1)

单词和时间反转器214的输出为W_i ^RR，表示反向对准的反向输出文本。

行（或单词）的开始的定时信息i可被计算为：

T_i ^RR=T_total–T_N-i ^R 等式(2)

其中，T_total是歌曲或音频信号的持续时间，且T_i ^R是反向同步歌词中的行i的结束时间。

在上述例子中，歌曲的总持续时间T_total是228秒。表4b在下面示出了作为单词和时间反转器214的输出的示例性数据。

表4b

ASR解码器204可以向置信评分引擎216输出正向同步歌词和相应的定时信息，以及“反转”的反向同步歌词和定时信息。置信评分引擎216使用正向和反向对准之间的不匹配来计算定时信息的置信标记或评分。

为了确定正向和反向对准之间的不匹配，置信评分引擎216将正向和反向定时信息之间的差值与预定的阈值进行比较，并根据该比较将行标记为低或高置信性。行定时信息可被定义为T_n ^BP，其中，n是行索引，B定义了边界类型（S为开始时间，E为结束时间），且P定义了通路（pass）类型（F为正向，R为反向），则行n的开始不匹配被定义为：

MM_n ^S=abs(T_n ^SF–T_n ^SR) 等式(3)

且行n的结束不匹配被定义为：

MM_n ^E=abs(T_n ^EF–T_n ^ER) 等式(4)

不匹配量度然后可与预定阈值进行比较，以确定该行是否应被标记为低或高置信行。

图4是确定正向和反向对准之间的不匹配的例子的概念说明。使用以上例子，对于第一和最后一行的行边界，开始和结束不匹配量度将具有为0的值。第二行的开始不匹配量度将具有为0的值，但是，结束不匹配量度将具有1.5秒的值（MM_n ^E=abs(T_n ^EF–T_n ^ER),T₂ ^EF=27,T₂ ^ER=25.5,and MM₂ ^E=abs(27-25.5)=1.5）。MM₂ ^E的值将和阈值进行比较，且如果1.5秒超过该阈值，则歌词的第二行将被标记为低置信行。正向和/或反向对准的歌词的第二行将被标记。

阈值可以是任意值，例如大约1秒，并可在某种程度上依赖于音频信号的类型。例如，阈值可以是动态的，从而对于歌词行的长度较短的较快的歌曲，阈值可以减小。可以用基于示例训练集来最小化分类误差的技术来确定置信标记的阈值。例如，多个错误肯定和错误否定（即行具有正确的边界但被标记为低置信，或者不正确的边界且被标记为高置信）可以被用作训练集。

此外，在确定阈值时可使用成本函数，以最小化对于特定应用更为相关的误差，例如，最小化被标记为好的多个坏边界（在需要准确性的情况下），或最小化被标记为坏的多个好边界（在需要最小化额外处理成本的情况下）。

上面的例子使用歌词行，但是，不匹配量度还可以在内容的任意粒度级别上（诸如单词或音素）使用。

置信评分引擎216还可以分析正向（或反向）识别结果，且给定歌曲或音频信号中的所有行的持续时间的分布，确定行持续时间的概率量度。例如，此量度基于现代西方歌曲的对称概念（notion），并计算特定行的持续时间符合歌曲或音频信号的行持续时间模型的概率。给定在自动对准过程中确定（例如从正向和/或反向对准获取）的每行的持续时间，可以通过计算行持续时间的均值和标准差来估算行持续时间的参数模型。然后，对于每一行，如果与平均持续时间的距离大于阈值，例如，两倍标准差，则该行被标记为低置信行。例如，基于应用或定时边界信息的所需准确程度，阈值的值可以不同，且可以是动态的。

表5在下面描述了使用上面表1-2中用于正向对准的例子来计算行持续时间、均值和标准差。在表5的例子中，如果与均值的距离（或行持续时间和均值之间的差值）大于一倍标准差，则该行被标记为低置信行。

表5

例如，除了或与其在行级别上，还可以在单词级别上计算并从置信评分引擎输出置信评分。

在其他实施例中，置信评分引擎216可创建行持续时间的模型，并基于行持续时间的比较来估算该行是模型的异常值的概率。例如，异常值可表示该行在语音识别时被不正确地处理了。HMM模型不是在准确的输入音频信号上训练的，而是在训练数据上训练的。于是，输入音频信号可以不同于用来训练HMM模型的信号，这将导致语音识别或强制对准时的错误。

例如，于是，提供了计算置信评分或量度的方法，包括执行正向和反向的对准的比较，以及执行行持续时间置信度量。

图5是使用正向和反向对准中的任一个来确定同步或映射行的异常值的例子的概念说明。如图所示，行1、2、N-1和N每一个具有基本相等的定时信息。但是，行3具有与行1的长度T1或行2的长度T2差别大于阈值数量的定时信息T3（或长度）。于是，使用行持续时间比较，行3可被标记为异常值。

在一个例子中，持续时间分布的估算可限于属于同一类型的音乐片段（例如仅合声）的歌词行，作为要被估算置信的歌词行。例如，歌曲可基于歌曲片段（韵律、合唱、桥段）和用于行持续时间的值来划分，并且因此，可以从各个片段获取用于确定置信评分的均值和标准差的值。例如，在确定合唱的行的置信评分时，可以使用与合唱相应的歌词的行持续时间值。

系统200由此可输出正向或反向的同步音频/歌词，与音频信号相关的单词或行的定时边界信息以及置信评分/标记（表示定时边界信息和歌词内容被认为有多可信或可靠）。置信评分可通过多种方式来确定，例如，基于正向和反向定时边界信息的比较、使用行持续时间比较、使用以多个HMM来执行的多个对准的比较等。系统200可以包含数据或输出数据到数据库，且由此，系统200可以以批量模式来处理歌曲或音频信号，以从一组音乐和歌词文件创建一组时间注释的歌词。

系统200可以进一步使用语音识别技术来将音频信号的期望文本转录映射到音频信号。例如，替代地，正确的歌词被接收，并被用作音频信号中的声音元素的文本转录（从而语音识别不需要确定该文本转录），并且可以对音频信号执行歌词的强制对准以生成定时边界信息。

图6示出了用于处理音频信号的方法600的说明性实施例的流程图。应该理解，对于这里公开的这个和其他过程和方法，流程图示出了本发明的一种可能实现的功能和操作。在这方面，每一个块可表示程序代码的模块、片段或部分，其包含一条或多条可被处理器执行的指令，用于实现过程中的逻辑功能或步骤。程序代码可被存储在任意类型的计算机可读介质上，例如，诸如，包含磁盘或硬盘驱动的存储设备。计算机可读介质可包括永久计算机可读介质，例如，诸如短时间存储数据的计算机可读介质如寄存器存储器、处理器高速缓存和随机访问存储器（RAM）。例如，计算机可读介质还可包括永久介质，诸如二级或持久长期存储如只读存储器（ROM）、光或磁盘、致密只读存储器（CD-ROM）。计算机可读介质可以是包括其他易失性或非易失性存储系统，或其他计算机可读存储介质。

此外，图6中的每一个块可表示电路，将其连接电线以执行过程中的特定逻辑功能。替代实现被包含在本公开的示例实施例的范围内，其中，正如本领域技术人员将理解的，取决于涉及的功能性，功能可以不以示出的或讨论的顺序来执行，包括基本同时或以相反的顺序。

最初，在方法600中，如块602所示，接收输入音频信号和相应的歌词文本。输入音频信号可同时包括声音元素和非声音元素，且可以例如是音乐曲目或歌曲，或仅音乐曲目或歌曲的一部分。接下来，作为可选步骤，如块604所示，器乐（非声音）可被抑制。

于是，如块606所示，可以执行声音元素和该声音元素的相应文本转录的对准。如块608所示，可以确定与对于声音元素部分的持续时间而言的时间流逝量关联的定时边界信息。

在块610，可以随后输出置信量度，其表示对于声音元素部分的持续时间而言的定时边界信息的确定程度。可以通过多种方式来确定置信量度，例如，通过比较声音元素的行持续时间来搜索异常值、通过比较正向和反向对准输出、通过比较并行或串行并使用不同HMM来执行的对准。其他例子也是可能的。

图7示出了用于处理音频信号的方法700的另一说明性实施例的流程图。最初，在方法700中，如块702所示，接收输入音频信号和相应歌词文本。输入音频信号可以包括声音元素和非声音元素两者，且可以例如是音乐曲目或歌曲，例如，或仅音乐声带或歌曲的一部分。接下来，作为可选步骤，如块704所示，器乐（或非声音）可被抑制。如块706所示，从歌词文本确定正向和反向语法。

接下来，如块708所示，执行在正向上处理过的歌词文本的语法与声音元素的相应音素转录的正向对准。作为正向对准的一部分，在同一时刻，或随后，确定与歌词文本相应的行、单词或语法音素的持续时间。例如，持续时间可表示从输入音频信号开始到语法行结束的时间流逝量，或从语法行开始到语法行结束的时间流逝量。

此外，如块710所示，执行在反向上处理过的歌词文本的语法与声音元素的相应音素转录的反向对准。作为反向对准的一部分，在同一时刻，或随后，确定与反向歌词文本相应的行、单词或语法音素的持续时间。例如，正向和反向对准可以以并行（同时或基本同时）或串行的方式来执行。

随后，正向和反向行边界被比较，以计算歌词的每一行/单词的不匹配。作为一个例子，等式（2）-（3）中描述的开始和结束不匹配量度被计算并与阈值进行比较。

基于所执行的比较，在块714，做出量度是否在给定的阈值内的确定。如果量度在阈值内，则在块716，该行歌词被标记为高置信行。高置信行具有该行的开始和结束时间高度或可靠地对应于输入音频信号中的声音元素的高可靠性、确定性或概率。如果量度不在阈值内，则在块718，该行歌词被标记为低置信行。低置信行具有语法行可靠地对应于输入音频信号中的声音元素的低可靠性、确定性或概率。

作为另一例子，在块720，行持续时间的概率量度可被计算，并在块722与阈值（例如，行持续时间的两倍标准差）进行比较。如果量度在阈值内，则在块716，该行歌词被标记为高置信行。如果量度不在阈值内，则在块724，该行被标记为低置信行。

接下来，在块726，将与文本的每一行的相应文本、定时信息和/或置信评分同步的音频输出。例如，与相应文本同步的音频还可以包括表示文本行的持续时间的时间注释。例如，置信评分可表示这里描述的任一量度的值，或可以包括高或低置信值。

从方法700输出的信息可被用于很多不同应用。下面描述了该应用的例子。

在一个例子中，在图1的系统100或图2的系统200中，隐马尔科夫模型可被用于自动语音识别，且HMM可以在大型数据资料库上训练，旨在提供声学空间的良好覆盖，以及通用化，从而模型对未见过的语音工作良好。

隐马尔科夫模型可在大量的训练数据上训练，其目标是多个说话者的所有变化都被捕获。这样类型的HMM指独立说话者。当模型在与特定说话者相应的数据上训练时，可以获取替代HMM，且该HMM被称为依赖于说话者的系统。依赖于说话者的系统可能需要搜集特定说话者的大量训练数据用于训练的目的。但是，代替依赖于说话者的模型的训练，可使用适应技术。例如，使用来自说话者的少量数据，HMM可被变换为更合适说话者声音的特征。当使用具有已知转录（例如，监督的适应）并具有对于与递增适应相对的适应可用的一批数据（例如，静态的适应）时，可以取得高质量结果，在该递增适应中，当更多数据可用时适应模型。线性变换可被用于适应模型，其中，使用最大可能性线性回归（减少适应数据和初始模型集合的不匹配）来计算一组变换。替代地，最大后验概率技术也可被用于适应HMM，其中，关于模型参数分布的先验知识被使用。

在示例实施例中，图6或图7的方法可以迭代的方式来执行。可在第一次迭代中执行方法600或700，且可以选择或存储具有高置信评分的语音或歌词的行（或单词）。然后，可以使用歌词的行（或单词）的高置信数据来适应HMM，该歌词具有使用监督的适应技术的高置信评分。例如，可以使用重新训练的HMM，在第二次迭代中执行方法600或700，以尝试获取关于歌词的大量高置信评分。例如，可以用生成的高置信数据来再次重新训练HMM，且迭代同步过程经由使用从方法600或700输出的高置信行，通过增强HMM来继续。

图8示出了以迭代方式来处理音频信号的方法800的说明性实施例的流程图。开始，在块802，使用这里描述的任意方法来对准音频和歌词。输出时间注释的音频信息以及表示置信行的数量的置信评分或量度值。接下来，在块804，如果音频对准过程带来大于阈值的多个高置信行（例如，N可以基于执行监督适应所需的数据量，例如大于1分钟音频数据），则在块806，使用来自高置信行的数据来适应并重新训练HMM。例如，然后可以使用重新训练的HMM来重新对准音频和歌词。

在第二次迭代中的重新对准过程的输出可以与第一次迭代的对准过程的输出进行比较，且如果第二次迭代中的高置信行的数量较大，则第二次迭代的输出可被存储为时间注释的音频信号。

在另一示例实施例中，这里描述的方法可被用于训练特定于数据的HMM，其被用于识别相应音频信号。例如，与其对给定歌曲使用通用HMM，倒不如可以对给定歌曲选择最合适的模型。可以使用歌曲元数据信息（例如流派、歌手、性别、节奏等）作为选择标准在训练数据的子集上训练多个隐马尔科夫模型。图9是说明层次化HMM训练和模型训练的框图。可以使用流派信息来进一步适应初始HMM训练集902，以生成对于嘻哈流派、流行流派906、摇滚流派908、舞蹈流派910来训练的单独模型。流派HMM可以进一步适应于特定的节奏，诸如慢速嘻哈歌曲912、快速嘻哈歌曲914、慢速舞曲916和快速舞曲918。再进一步，可基于演奏者的性别来适应这些HMM，诸如女性演奏者920的慢舞曲和男性演奏者922的慢速舞曲。例如，还可以使用具有反转音频的训练集来训练相应的反向模型。

例如，一次性训练过程的结果是不同隐马尔科夫模型的数据库，其中每一个模型可以包括元数据，该元数据指定了训练数据的特定流派、节奏、性别。

再进一步，在另一例子中，图10示出了用于使用来自特定演奏者的现有同步歌词数据来适应HMM的方法1000的说明性实施例的流程图。输入音频信号可包括表示歌曲名称、歌曲的艺术家的姓名等的信息（例如元数据）。在块1002，系统（诸如，系统100或200）可以搜索同步歌词的数据库，以确定输入音频信号的艺术家的歌曲是否存在同步的音频和歌词。如果对于输入信号的艺术家的歌曲和音频样本存在同步歌词，则在块1004，HMM模型被重新训练并适应于艺术家的音频样本。如果对于输入信号的艺术家的歌曲或音频样本不存在同步歌词，则在块1006，标准的HMM被使用，并且借助于合适的HMM在块1008执行音频和歌词对准。使用方法1000，可以通过使用同步的歌词元数据来增强HMM，该元数据来自于对于特定演奏者（例如歌手）处理过的歌曲。如果这样的数据已经在系统中存在，则该数据可在执行同步过程之前被用于执行HMM的适应。以此方式，独立于说话者的HMM可适应于特定说话者的更好模型特征。

在图8-10中的方法的应用的特定例子中，Beatles的特定歌曲的输入音频样本可以和相应歌词文本一起被接收。如果系统已经执行了Beatles的10首不同歌曲的音频-歌词同步，则系统可以首先使用之前的音频-歌词同步数据来适应通用流行类型的HMM。例如，系统然后可将适应的HMM用于音频-歌词同步过程。

在一个实施例中，在这里描述的任一方法中，任意特定于数据的HMM（例如图9中所示出或图10中所述增强的）可被使用。在一个例子中，可使用不同HMM的每一个来执行并行的音频和歌词同步过程。使用产生的置信信息，可以选择所有不同输出中的最佳结果（例如具有最少低置信行的结果）作为最后结果。

图11是说明并行音频和歌词同步系统1100的框图。系统1100包括多个对准器（1、2、……、N），其每一个都接收输入音频信号的副本和相应的歌词文本。对准器操作以输出时间注释同步的音频和歌词，且可以是或包括如上图1中的系统100或图2中的系统200所述的任意组件。每一个对准器可以使用不同的HMM模型（诸如图9中所述的不同HMM）来操作，且存在多个对准器等于多个不同的可能HMM。

对准器的输出将包括同步歌词(SL₁，SL₂，…，SL_N)、定时边界信息、以及相应的置信评分(N¹ _LowConf，N² _LowConf，…，N^N _LowConf)。置信评分可以是或包含如上讨论的任意量度，且还可以表示同步歌词中的多个低置信行。选择器1102可以接收对准器的输出，并选择具有最佳结果的输出，诸如具有最少数量的低置信行的输出。

在另一例子中，可以基于为训练集分配数据的标准来选择最佳HMM模型，且选中的HMM模型可被用于对准音频和歌词。例如，输入音频信号可以包括元数据，其表示歌曲类型、流派、节奏、演奏者的性别等，且这样的信息可被用于选择在语音识别时使用的特定HMM。图12是用于选择合适HMM的示例性系统1200的框图。对准器1202可以接收输入音频信号和歌词文本。对准器1202可以是或包含图1中的系统100或图2中的系统200的任意组件。对准器1202还可以从HMM选择器1204接收选中的HMM。HMM选择器1204还可（从对准器1202或独立地）接收输入音频信号或可以仅接收输入音频信号的元数据，以从HMM数据库1206中选择合适的HMM。例如，如果被处理的音频信号是慢速摇滚歌曲，则元数据可表示这样的信息，且在慢速摇滚歌曲上训练的HMM将被选中和提供给对准器，以在语音识别时使用。为了选择合适的HMM，可以使用后退（back-off）技术，其中，首先寻找最特定（specific）的模型，且如果不存在这样的模型，则寻找更少特定的模型，等等。如果不知道关于歌曲的元数据，或者如果没有模型匹配该元数据，则通用的HMM将被用于该同步。

于是，使用图8-12中示出的例子，标准可被定义为划分歌曲类型（例如流派），且HMM可以对于特定类型的歌曲来生成，并可以随后被合适地选择，以在语音识别时使用。

图13是用于音频和歌词的混合同步的系统1300。系统1300包括对准器1302，其可以是或包含图1中的系统100或图2中的系统200的任意组件，以执行音频-歌词同步。例如，对准器1302输出到用户接口1304，其可以使用户能执行歌词的手动校正，该歌词在歌词文本或定时信息中具有错误。由此，系统1300启用音频和歌词的自动同步，并提供将要做出的手动校正。例如，在一个实施例中，对准器1302可以向用于用户的检查或校正的用户接口1304输出已经用低置信标记的歌词行（或突出（highlight）低置信行）。

尽管这里公开了各个方面和实施例，其他方面和实施例对于本领域技术人员来说是显而易见的。这里公开的各个方面和实施例用于说明的目的，而不是为了限制，真实的范围和精神由下列权利要求来表示。对于本领域技术人员来说很显而易见，可以进行很多修改和改变，而不偏离其精神和范围。除了这里列举的，根据上面的描述，在本公开的范围内的功能相等的方法和设备对于本领域技术人员来说很明显。这样的修改和改变旨在落于所附权利要求的范围内。

Claims

1.一种处理音频信号的方法，包括：

接收包含声音元素的音频信号；

处理器执行在正向上的所述声音元素和所述声音元素的相应文本转录的正向对准；

基于所述正向对准，确定与对于在正向上处理过的所述声音元素部分的持续时间而言的时间流逝量关联的正向定时边界信息；

处理器执行在反向上处理过的所述声音元素和所述声音元素的相应反向文本转录的反向对准；

确定与对于在反向上处理过的声音元素部分的持续时间而言的时间流逝量关联的反向定时边界信息；以及

基于所述正向定时边界信息和所述反向定时边界信息之间的比较，输出表示对于所述声音元素部分的持续时间而言的正向定时边界信息的确定程度的置信量度。

2.如权利要求1所述的方法，进一步包括：

确定所述正向定时边界信息和所述反向定时边界信息之间的差异；

做出所述差异与预定阈值的比较；以及

基于所述比较，用置信水平来标记所述声音元素部分。

3.如权利要求1所述的方法，其中，所述音频信号是音乐歌曲，且其中，所述声音元素部分是音乐歌曲的行，且其中所述正向定时边界信息和所述反向定时边界信息的每一个都表示所述音乐歌曲的行的开始和结束时间，且其中，所述方法进一步包括通过下列方式来比较所述正向定时边界信息和所述反向定时边界信息：

将所述正向定时边界信息的开始时间和所述反向定时边界信息的开始时间进行比较，以提供开始不匹配量度；以及

将所述正向定时边界信息的结束时间和所述反向定时边界信息的结束时间进行比较，以提供结束不匹配量度。

4.如权利要求1所述的方法，进一步包括：

对于所述声音元素的多个部分中的每一个，确定定时边界信息；

基于所述声音元素的多个部分来计算所述声音元素部分的给定持续时间的统计模型；

对于所述声音元素的多个部分中的每一个，确定持续时间符合所述统计模型的概率，并将所述概率与阈值进行比较；以及

对于具有低于所述阈值的概率的声音元素的部分，用低置信标志来标记所述声音元素部分。

5.如权利要求1所述的方法，进一步包括：

将所述声音元素的多个部分的每一个的定时边界信息互相进行比较；以及

基于所述比较，识别所述声音元素的多个部分的异常值。

6.如权利要求1所述的方法，其中，所述音频信号包括声音元素和非声音元素，且所述方法进一步包括抑制所述非声音元素。

7.如权利要求1所述的方法，其中，所述音频信号是包含歌词的歌曲，且其中，所述方法进一步包括：

将所述声音元素的相应文本转录与所述音频信号进行同步；以及

输出时间注释同步的歌词，其表示与音频信号相关的歌词的行的定时信息。

8.如权利要求1所述的方法，其中，执行所述正向对准包括使用维特比解码器和隐马尔科夫模型HMM来对所述声音元素执行语音识别，且其中，所述音频信号是艺术家的音乐曲目，且所述方法进一步包括：

访问用于所述艺术家的同步歌词的数据库；

使用所述艺术家的同步歌词作为适应数据来适应HMM，以生成更新的HMM；以及

使用所述更新的HMM来重复所述正向对准。

9.如权利要求1所述的方法，其中，所述音频信号是音乐曲目，且其中，是从由音乐吟唱的歌词的行和音乐曲目的歌词的单词所构成的组中选择所述声音元素部分。

10.如权利要求9所述的方法，其中，输出表示所述声音元素部分的持续时间的正向定时边界信息的确定程度的所述置信量度包括将所述音乐吟唱的歌词的行标记为高或低置信行。

11.如权利要求1所述的方法，进一步包括：

对所述声音元素执行语音识别，以创建音素转录的序列；以及

执行所述声音元素与所述音素转录的对准。

12.如权利要求11所述的方法，其中，执行所述对准包括：

接收与所述音频信号相应的歌词文本；

确定所述歌词文本的语法；以及

将所述声音元素的音素描述映射到所述歌词文本的语法。

13.如权利要求1所述的方法，其中执行所述正向对准包括使用隐马尔科夫模型HMM对所述声音元素的多个部分来执行语音识别，且其中，所述方法进一步包括：

做出所述置信量度是否超过预定阈值的确定；以及

使用包含所述声音元素部分的数据来适应HMM，以生成更新的HMM，所述声音元素部分具有不超过预定阈值的置信量度；以及

使用所述更新的HMM来重复所述正向对准。

14.如权利要求13所述的方法，进一步包括在低置信行的数量不再减少之前以迭代的方式重复如下步骤：执行所述正向对准、输出所述置信量度、适应所述HMM和重复所述正向对准。

15.如权利要求1所述的方法，其中，执行所述正向对准包括使用隐马尔科夫模型HMM来对所述声音元素执行语音识别，且所述方法进一步包括：

基于所述音频信号的元数据信息在训练数据上训练HMM的数据库；以及

基于所述音频信号的元数据信息选择HMM来执行所述对准。

16.如权利要求15所述的方法，其中，所述元数据信息表示从由流派、艺术家、性别和节奏所构成的组中选择的信息。

17.如权利要求1所述的方法，进一步包括：

对每一个对准使用不同的隐马尔科夫模型HMM来多次执行所述正向对准；

为每一个各自的对准确定所述正向定时边界信息；

为每一个各自的对准确定所述置信量度；

选择具有表示所述定时边界信息的最高确定程度的置信量度的对准；以及

输出时间注释同步的歌词，其表示与选中的对准相应的正向定时边界信息，其中，所述正向定时边界信息属于与所述音频信号相关的歌词的行。

18.一种处理音频信号的系统，包括：

隐马尔科夫模型HMM数据库，其包含单词的音素建模；

发音字典数据库，其包含表示单词的语法；以及

语音解码器，其接收音频信号，并且访问所述HMM以将所述音频信号中的声音元素映射到音素描述并访问所述发音字典数据库以将所述音素描述映射到语法，所述语音解码器进一步执行所述语法与在正向上的所述声音元素的相应文本转录的正向对准，并执行在反向上处理过的所述声音元素和所述声音元素的相应反向文本转录的反向对准，

其中，所述语音解码器确定与对于在正向上处理的所述声音元素部分的持续时间而言的时间流逝量关联的正向定时边界信息以及与在反向上处理过的声音元素的部分的持续时间的时间流逝量关联的反向定时边界信息，并且所述语音解码器基于所述正向定时边界信息和所述反向定时边界信息之间的比较，确定表示对于所述声音元素部分的持续时间而言的正向定时边界信息的确定程度的置信量度。

19.如权利要求18所述的系统，进一步包括语法处理器，用于接收与所述音频信号的歌词相应的文本，并用于确定与所述歌词相应的语法，其中，所述语音解码器通过将所述音频信号的语法和所述歌词的语法进行对准，在正向和反向两者上，执行所述语法和所述声音元素的相应文本转录的对准。

20.如权利要求18所述的系统，其中，所述语音解码器确定所述正向定时边界信息和所述反向定时边界信息之间的差异，并基于所述差异与预定阈值之间的比较，所述语音解码器用置信水平来标记所述声音元素部分。

21.如权利要求18所述的系统，其中，所述语音解码器将所述声音元素的文本转录与所述音频信号进行同步，并输出时间注释同步的歌词，其表示与所述音频信号相关的歌词的行的定时边界信息。