CN113782008B

CN113782008B - 文本音频对齐方法和装置

Info

Publication number: CN113782008B
Application number: CN202111106180.8A
Authority: CN
Inventors: 邹朋朋; 卢恒; 印晶晶
Original assignee: Shanghai Himalaya Technology Co ltd
Current assignee: Shanghai Himalaya Technology Co ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2024-03-26
Anticipated expiration: 2041-09-22
Also published as: CN113782008A

Abstract

本申请提供一种文本音频对齐方法和装置，通过将待处理文本切分为多个子句，并获得各个子句对应的词图，针对每个子句，利用按预设移动窗口从待处理音频截取的对应的音频段对子句的词图进行解析获得解析结果，再基于解析结果判断音频段是否对应子句的所有信息，若未对应，则继续按预设移动窗口移动以在待处理音频中截取音频段以与子句对应，并基于对应的所有音频段得到子句的解析结果，直至截取的多个音频段对应子句的所有信息，最后根据各子句基于对应的多个音频段得到的解析结果输出待处理文本和待处理音频的对齐结果。本方案中，单独基于各个子句的词图，并采用按预设移动窗口截取音频段的方式，可以避免集中对齐存在的对齐误差大的问题。

Description

文本音频对齐方法和装置

技术领域

本申请涉及语音识别技术领域，具体而言，涉及一种文本音频对齐方法和装置。

背景技术

在一些业务场景中，需要将给定的音频和文本进行对齐操作，得到文本中的字或词句级别的对齐时间戳，例如通常是短音频单句的对齐。在现有的处理方式中，往往是对文本进行切分，并将切分的子句进行统一处理后，集中与音频进行对齐操作。这种方式存在较大的对齐误差，特别是在应用于长文本以及长音频的对齐处理时，由于文本包含的词句数量众多，且音频时长较长，这种统一处理的方式将增大最终的对齐结果的误差。

发明内容

本申请的目的包括，例如，提供了一种文本音频对齐方法和装置，其能够避免集中对齐存在的对齐误差大的问题。

本申请的实施例可以这样实现：

第一方面，本申请提供一种文本音频对齐方法，所述方法包括：

将待处理文本切分为多个子句，并获得各个子句对应的词图；

针对每个所述子句，利用对应的音频段对所述子句的词图进行解析获得所述子句的解析结果，所述音频段为按预设移动窗口从待处理音频截取获得的；

基于所述解析结果判断所述音频段是否对应所述子句的所有信息，若未对应，则继续按预设移动窗口在待处理音频中截取音频段以与所述子句对应，并基于对应的所有音频段得到所述子句的解析结果，直至截取的多个音频段对应所述子句的所有信息；

根据各所述子句基于对应的多个音频段得到的解析结果，输出所述待处理文本和待处理音频的对齐结果。

在可选的实施方式中，所述利用对应的音频段对所述子句的词图进行解析获得所述子句的解析结果的步骤，包括：

提取获得所述音频段的多个音频特征；

根据所述多个音频特征和预先训练得到的声学模型，得到各个音频特征属于设定的各个音素的后验概率；

根据所述后验概率和所述子句的词图，获得最优解析路径，所述最优解析路径包含所述子句对应的音素序列。

在可选的实施方式中，所述基于所述解析结果判断所述音频段是否对应所述子句的所有信息的步骤，包括：

根据所述解析结果获得所述子句对应的音素序列；

根据所述音素序列转换得到参考文本，并对所述参考文本进行处理得到对应的单词序列；

将所述单词序列与所述子句进行比对，以判断所述音频段是否对应所述子句的所有信息。

在可选的实施方式中，所述对所述参考文本进行处理得到对应的单词序列的步骤，包括：

在所述参考文本为短句时，剔除所述参考文本中对应的音素持续时间小于或等于第一时长的单词；

在所述参考文本不为短句时，剔除所述参考文本中对应的音素持续时间小于或等于第二时长的单词，所述第一时长大于所述第二时长；

获得剔除处理后得到的所述参考文本对应的单词序列。

在可选的实施方式中，所述获得各个子句对应的词图的步骤，包括：

对子句中包含的日期信息和/或数字按预设转换规则进行转换以与所述待处理音频的语法类型相匹配，并获得转换后的子句对应的词图；

所述对所述参考文本进行处理得到对应的单词序列的步骤，还包括：

将所述单词序列中包含的日期信息和/或数字按预设转换规则进行还原处理。

在可选的实施方式中，所述将所述单词序列与所述子句进行比对，以判断所述音频段是否对应所述子句的所有信息的步骤，包括：

若所述单词序列与所述子句包含的词序列一致，则判定所述音频段对应所述子句的所有信息；或

若所述单词序列的长度大于所述子句包含的词序列的长度的预设倍数，且所述单词序列的最后一个单词与所述子句的词序列的最后一个词一致，则判定所述音频段对应所述子句的所有信息。

在可选的实施方式中，所述若所述单词序列与所述子句包含的词序列一致，则判定所述音频段对应所述子句的所有信息的步骤，包括：

去除所述单词序列和所述子句包含的词序列中的设定特殊字符；

若去除处理后的单词序列与所述子句包含的词序列一致，则判定所述音频段对应所述子句的所有信息。

在可选的实施方式中，所述根据各所述子句基于对应的多个音频段得到的解析结果输出所述待处理文本和待处理音频的对齐结果的步骤，包括：

针对各所述子句，检测所述子句中是否存在未包含在预设字典中的集外词；

若存在，则根据所述解析结果中包含的所述集外词相邻的词的时间戳，补齐所述集外词的时间戳；

根据各所述子句基于对应的多个音频段得到的解析结果和补齐的时间戳，输出所述待处理文本和待处理音频的对齐结果。

在可选的实施方式中，所述根据各所述子句基于对应的多个音频段得到的解析结果和补齐的时间戳，输出所述待处理文本和待处理音频的对齐结果的步骤，包括：

针对所述待处理文本中的相邻两个子句，根据所述相邻两个子句中的前一个子句的结束时间戳和后一个子句的开始时间戳，计算得到所述前一个子句的更新的结束时间戳；

根据各所述子句基于对应的多个音频段得到的解析结果、补齐的时间戳以及更新的结束时间戳，输出所述待处理文本和待处理音频的对齐结果。

第二方面，本申请提供一种文本音频对齐装置，所述装置包括：

切分模块，用于将待处理文本切分为多个子句，并获得各个子句对应的词图；

解析模块，用于针对每个所述子句，利用对应的音频段对所述子句的词图进行解析获得所述子句的解析结果，所述音频段为按预设移动窗口从待处理音频截取获得的；

判断模块，用于基于所述解析结果判断所述音频段是否对应所述子句的所有信息，若未对应，则继续按预设移动窗口在待处理音频中截取音频段以与所述子句对应，并基于对应的所有音频段得到所述子句的解析结果，直至截取的多个音频段对应所述子句的所有信息；

输出模块，用于根据各所述子句基于对应的多个音频段得到的解析结果，输出所述待处理文本和待处理音频的对齐结果。

本申请实施例的有益效果包括，例如：

本申请提供一种文本音频对齐方法和装置，通过将待处理文本切分为多个子句，并获得各个子句对应的词图，针对每个子句，利用按预设移动窗口从待处理音频截取的对应的音频段对子句的词图进行解析获得解析结果，再基于解析结果判断音频段是否对应子句的所有信息，若未对应，则继续按预设移动窗口移动以在待处理音频中截取音频段以与子句对应，并基于对应的所有音频段得到子句的解析结果，直至截取的多个音频段对应子句的所有信息，最后根据各子句基于对应的多个音频段得到的解析结果输出待处理文本和待处理音频的对齐结果。本方案中，单独基于各个子句的词图，并采用按预设移动窗口截取音频段的方式，边判断边截取直至截取的音频段与子句完全对应为止，如此可以避免集中对齐存在的对齐误差大的问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的文本音频对齐方法的流程图；

图2为图1中步骤S120包含的子步骤的流程图；

图3为图1中步骤S130包含的子步骤的流程图；

图4为图3中步骤S132包含的子步骤的流程图；

图5为图1中步骤S140包含的子步骤的流程图；

图6为图5中步骤S143包含的子步骤的流程图；

图7为本申请实施例提供的电子设备的结构框图；

图8为本申请实施例提供的文本音频对齐装置的功能模块框图。

图标：110-存储器；120-处理器；130-电源组件；140-通信组件；150-输入/输出接口；160-文本音频对齐装置；161-切分模块；162-解析模块；163-判断模块；164-输出模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

请参阅图1，为本申请实施例提供的文本音频对齐方法的流程图，该文本音频对齐方法有关的流程所定义的方法步骤可以由数据处理相关的电子设备实现。下面将对图1所示的具体流程进行详细阐述。

步骤S110，将待处理文本切分为多个子句，并获得各个子句对应的词图。

步骤S120，针对每个所述子句，利用对应的音频段对所述子句的词图进行解析获得所述子句的解析结果，所述音频段为按预设移动窗口从待处理音频截取获得的。

步骤S130，基于所述解析结果判断所述音频段是否对应所述子句的所有信息，若未对应，则继续按预设移动窗口在待处理音频中截取音频段以与所述子句对应，并基于对应的所有音频段得到所述子句的解析结果，直至截取的多个音频段对应所述子句的所有信息。

步骤S140，根据各所述子句基于对应的多个音频段得到的解析结果，输出所述待处理文本和待处理音频的对齐结果。

本实施例中，待处理音频可以是通过麦克风进行采集获得的，例如，可以是在电子设备基础上以外设的形式进行设置的麦克风，也可以是电子设备中内置的麦克风。或者待处理音频也可以是用户进行上传得到的。待处理文本可以是电子设备的存储设备中存储的，也可以是用户进行上传的得到的。

待处理文本和待处理音频为已确定的相对应的文本和音频，对待处理文本和待处理音频处理的目的为获得待处理文本的各个部分在待处理音频上所对应的音频段的时间戳，即实现文本和音频的对齐。

本实施例中，针对的待处理文本可以是文本长度较长的文本，例如超过300字(词)的文本。而待处理音频可以是时长较长的音频，例如时长超过5分钟的音频。待处理文本可以是中文文本、英文文本或其他语法类型的文本等，相应地，待处理音频可以是中文音频、英文音频或其他语法类型的音频。

首先，可将待处理文本切分为多个子句，可以按照常见的标点符号进行子句的切分，例如句号、逗号、分号等不限。此外，也可以按照自定义的特殊字符进行子句的切分，具体地本实施例不作限制。

针对切分得到的各个子句，可分别获得各个子句对应的词图。

对于待处理音频，可以按预设移动窗口从待处理音频中依次进行音频段的截取。其中，所述的预设移动窗口可以是对应如50ms的音频数据的窗口长度，当然也可以将预设移动窗口设置为其他长度。也即，每次按预设移动窗口从待处理音频中截取的音频段可为50ms长度的音频数据。

针对每个待处理的子句，可利用截取的对应的音频段对子句的词图进行解析获得子句的解析结果。其中，所述的与子句对应的音频段指的是针对当前的子句，同步地从待处理音频截取的音频段。例如，若当前子句为待处理文本中的第一个子句，则与当前子句对应的音频段可以是待处理音频中的第一个50ms的音频段，或者是前N个(N大于1)50ms的音频段。

本实施例中，在确定与子句对应的音频段时，是按照每截取一次即判断当前已截取的与子句对应的音频段是否对应子句的所有信息，在未对应的情况下，再继续按预设移动窗口在待处理音频中截取后续的音频段，再进行判读。

也即，若第一个50ms的音频段未对应子句的所有信息，再截取第二个50ms的音频段，此时前两个50ms的音频段为子句对应的音频段，再基于该前两个50ms的音频段所得到的解析结果判断对应的音频段是否对应子句的所有信息，若未对应，再截取第三个50ms的音频段，然后再解析、再判断，依次类推，直至截取的多个音频段对应子句的所有信息为止。

若第一个子句在截取第三个50ms的音频段后，判断得到前三个50ms的音频段对应第一个子句的所有信息，则针对第二个子句，从第四个50ms的音频段开始作为与第二个子句对应的音频段，并按上述方式得到能够与第二个子句的所有信息对应的多个音频段。

按以上方式依次获得每个子句各自对应音频段后，在基于各自对应的音频段对子句进行解析的解析结果中包含具体的对应时间戳等信息，因此，可根据各子句基于对应的多个音频段得到的解析结果输出待处理文本和待处理音频的对齐结果。

本实施例所提供的文本音频对齐方法，通过单独对各个子句获得其对应的词图，并采用按预设移动窗口截取音频段的方式，边判断边截取直至截取的音频段与子句完全对应为止，则可以确定出各个子句对应的音频段，从而将待处理文本和待处理音频进行对齐。该方案可以避免集中对齐所存在的对齐误差大的问题。

请参阅图2，在本实施例中，在基于对应的音频段和子句的词图进行解析得到子句的解析结果的步骤中，可以通过以下方式实现：

步骤S121，提取获得所述音频段的多个音频特征。

步骤S122，根据所述多个音频特征和预先训练得到的声学模型，得到各个音频特征属于设定的各个音素的后验概率。

步骤S123，根据所述后验概率和所述子句的词图，获得最优解析路径，所述最优解析路径包含所述子句对应的音素序列。

本实施例中，提取的音频特征可为MFCC(Mel-Frequency CepstralCoefficients，梅尔倒谱系数)特征，声学模型可以用于计算声学特征属于各个音素的后验概率，可以通过预先采集的500h以上的、发音良好的音频训练得到。在提取获得所述音频段的多个音频特征的步骤中，所述音频段为当前截取的与子句对应的音频段，例如，当前截取至第一个50ms的音频段，则此处的音频段为该第一个50m，若当前截取至第二个50ms的音频段，则此处的音频段为第一个和第二个50ms的音频段。

首先可以获得音频段的多个音频特征，再基于预先训练得到的声学模型并结合预设词典，得到各个音频特征属于设定的各个音素的后验概率。采用HCLG操作方法，在基于由音频段得到的音素的后验概率和子句的词图进行解码，可以在词图空间中进行搜索得到搜索路径。本实施例中，可以采用Viterbi算法进行解码。

得到的各条搜索路径具有对应的路径分数，路径分数的大小可体现该条路径的可信程度，路径分数越高则该条路径的可信程度越高，因此，最优解析路径则为多条搜索路径中路径分数最高的搜索路径。

而最优解析路径由多个音素节点连接成该路径，因此，最优解析路径包含子句对应的音素序列。

本实施例中，在每按预设移动时长截取音频段后，则基于截取的音频段得到的解析结果判断截取的音频段是否对应子句的所有信息，也即，截取的音频段中是否包含子句的所有文本对应的音频信息。请参阅图3，本实施例中，可以通过以下方式进行判断：

步骤S131，根据所述解析结果获得所述子句对应的音素序列。

步骤S132，根据所述音素序列转换得到参考文本，并对所述参考文本进行处理得到对应的单词序列；

步骤S133，将所述单词序列与所述子句进行比对，以判断所述音频段是否对应所述子句的所有信息。

本实施例中，子句对应的音素序列是基于用于解析的音频段获得的，因此，基于音素序列可以得到与音频段对应的参考文本，参考文本与子句可大致相同。再对参考文本进行处理得到单词序列。

假设用于解析的音频段包含子句的全部内容，则处理后得到的单词序列应当与原本的子句一致或者是相差不大，而若用于解析的音频段未包含子句的全部内容，也即，子句的一部分内容并没有对应的音频数据，相应地对应的音素序列转换后的参考文本中不包含子句中的该部分内容。此种情形下，处理后得到的单词序列应当与原本的子句相差较大。

因此，本实施例中，通过将处理后的单词序列与子句进行比对，来判断音频段是否对应子句的所有信息。

请参阅图4，本实施例中，在根据音素序列对子句进行预处理时，可以通过以下方式实现：

步骤S1321，在所述参考文本为短句时，剔除所述参考文本中对应的音素持续时间小于或等于第一时长的单词。

步骤S1322，在所述参考文本不为短句时，剔除所述参考文本中对应的音素持续时间小于或等于第二时长的单词，所述第一时长大于所述第二时长。

步骤S1323，获得剔除处理后得到的所述参考文本对应的单词序列。

本实施例中，在参考文本为短句时，例如三个字(词)以内，由于参考文本本身词数量较少，为了减少误输出，可以仅保留对应的音素持续时间大于第一时长的单词，第一时长可设置为较长值，例如90ms。而若参考文本不为短句，则可仅保留参考文本中对应的音素持续时间大于第二时长的单词，该第二时长可设置为较短值，例如30ms。

此外，本实施例中，考虑到一些语言类型下，文本中的日期信息和数字等文本，与其对应的音频两者之间在形式上存在较大的差异。例如，若文本和音频为英文类型，若子句中包含年份“2021”，而音频中的音频数据对应的是“two thousand and twenty one”，这将导致在对齐处理时存在障碍。因此，在获得各个子句对应的词图时，会对其中包含日期信息和/或数字的子句，将子句中包含的日志信息和/或数字按预设转换规则进行转换以与待处理音频的语法类型相匹配，并获得转换后的子句对应的词图。例如，将上述文本中的“2021”转换为“two thousand and twenty one”。

基于上述处理之后，后续得到的参考文本中包含转换后的信息，而为了便于参考文本的单词序列与原本子句的词序列进行比对，需要将“two thousand and twenty one”还原为“2021”。因此，在本实施例中，还包含将单词序列中包含的日期信息和/或数字按预设转换规则进行还原处理的步骤。如此，保障参考文本与子句比对时，文本形式的一致性。

本实施例中，在通过比对单词序列和子句的词序列，以判断截取的音频段是否对应子句的所有信息时，可以通过以下方式实现：

在一种可能的实施方式中，若单词序列与子句包含的词序列一致，则判定音频段对应子句的所有信息。

在此种方式下，可首先直接将单词序列与子句包含的词序列进行比对，如果一致的情况下，可直接判定音频段对应子句的所有信息。

此外，上述步骤也可以通过以下方式实现：

去除单词序列和子句包含的词序列中的设定特殊字符，若去除处理后的单词序列与子句包含的词序列一致，则判定音频段对应子句的所有信息。

也即，若直接比对的方式下单词序列与子句包含的词序列并非完全一致，则可以通过上述的去除设定特殊字符后进行比对的方式比对。其中，设定特殊字符可以为一种对表达含义无影响的字符，例如a、the、额、嗯等，这类发音较短的词。

在另一种实施方式中，若单词序列的长度大于子句包含的词序列的长度的预设倍数，且单词序列的最后一个单词与子句的词序列的最后一个词一致，则判定音频段对应子句的所有信息。

本实施例中，所述的预设倍数为小于1的数，例如0.8。也就是说，单词序列的长度大于子句包含的词序列长度的0.8倍，且单词序列的最后一个单词与子句的词序列的最后一个词一致，可以确定音频段对应子句的所有信息。

本实施例中，在实施时，可以采取上述三种判断方式中的任意一种来进行判断，也可以结合三种方式进行判断，例如，可以先判断单词序列与子句的词序列是否一致，若一致，可确定音频段对应子句的所有信息。若不一致，再去除单词序列和子句包含的词序列中的设定特殊字符，再判断去除处理后的单词序列和子句的词序列是否一致，若一致，可确定音频段对应子句的所有信息。若不一致，再判断单词序列的长度是否大于子句的词序列长度的预设倍数且单词序列的最后一个单词与子句的词序列的最后一个词，若满足该条件，可确定音频段对应子句的所有信息，否则，可判定音频段未对应子句的所有信息。

但具体实施时，上述三种判断方式实际的执行前后顺序并不作具体限制。

本实施例中，由于对于文本的解码，是基于预设字典实现的，若文本存在未包含在预设字典中的词，则在解码后该词不具有对应的时间戳，影响到最终的对齐效果。基于此考虑，本实施例中，在上述步骤S140中根据解析结果输出待处理文本和待处理音频的对齐结果时，可以通过以下方式实现，请结合参阅图5：

步骤S141，针对各所述子句，检测所述子句中是否存在未包含在预设字典中的集外词，若存在，执行以下步骤S142。

步骤S142，根据所述解析结果中包含的所述集外词相邻的词的时间戳，补齐所述集外词的时间戳。

步骤S143，根据各所述子句基于对应的多个音频段得到的解析结果和补齐的时间戳，输出所述待处理文本和待处理音频的对齐结果。

根据上述可知，在对子句进行解析后，解析结果中包含子句中各个词相对于音频的时间戳。由于解析过程基于预设字典实现，若子句中存在未包含于预设字典中的词，则该词不具有对应的时间戳，这类词可定义为集外词。

针对集外词，可获得集外词的相邻的词，其中，若集外词处于某个子句的中间位置，则相邻的词可以是该子句中处于集外词前后的词。若集外词处于某个子句的末尾位置，则相邻的词可以是该子句中处于该集外词的前一个词，以及该子句的下一个子句的第一个词。若集外词为待处理文本的第一个子句中的第一个词，则相邻的词可以是该子句的处于集外词的后一个词。此外，若集外词为待处理文本的最后一个子句的最后一个词，则相邻的词可以是该子句的处于集外词的前一个词。

可以基于获得的相邻的词的时间戳补齐集外词的时间戳，例如，若相邻的词为前后两个词时，则可以将前后两个词的时间戳的均值作为集外词的时间戳。若相邻的词为集外词的后一个词时，则可以在该后一个词的时间戳上减少一较小的设定值，作为集外词的时间戳。同样地，若相邻的词为集外词的前一个词时，则可以在该前一个词的时间戳上增加一减小的设定值，作为集外词的时间戳。

此外，若子句中不存在未包含于预设字典中的集外词，则该子句可不作处理。

本实施例中，通过检测集外词并补齐集外词的时间戳的方式，可以完善文本的时间戳信息，以保障对齐精准性。

此外，考虑到若待处理音频中存在一些部分是空白部分，虽然通过上述的边截取边判断的方式，可以确定各个子句对应的音频段，但是，由于空白部分的存在将一定程度影响到子句的结束时间戳的精准性。基于此考虑，请参阅图6，本实施例中，在输出对齐结果时，还可通过以下方式进行子句时间戳的处理：

步骤S1431，针对所述待处理文本中的相邻两个子句，根据所述相邻两个子句中的前一个子句的结束时间戳和后一个子句的开始时间戳，计算得到所述前一个子句的更新的结束时间戳。

步骤S1432，根据各所述子句基于对应的多个音频段得到的解析结果、补齐的时间戳以及更新的结束时间戳，输出所述待处理文本和待处理音频的对齐结果。

本实施例中，针对相邻的两个子句，如子句i和子句i+1，可基于子句i+1的开始时间戳对子句i的结束时间戳进行更新。其中，子句i+1的开始时间戳指的是子句i+1的第一个词对应的时间戳。

在一种可能的实现方式中，子句i的更新的时间戳＝(子句i的结束时间戳+子句i+1的开始时间戳)/2。

通过根据相邻的子句的时间戳，对子句的结束时间戳进行更新的方式，可以解决一部分子句对齐不准的问题。

本实施例所提供的文本音频对齐方法，可以大大提升对齐准确性，特别是针对长文本和长音频的对齐处理上，并且，在耗时上，可显著地缩短处理耗时。

请参阅图7，本申请实施例还提供一种电子设备。图7是根据一示例性实施例示出的一种电子设备的框图。例如，电子设备可以被提供为服务器或终端设备，可支持数据分析、处理等功能。参照图7，电子设备包括处理器120，其数量可以为一个或多个，以及存储器110，用于存储可由处理器120执行的计算机程序。存储器110中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器120可以被配置为执行该计算机程序，以执行上述的文本音频对齐方法。

另外，电子设备还可以包括电源组件130和通信组件140，该电源组件130可以被配置为执行电子设备的电源管理，该通信组件140可以被配置为实现电子设备的通信，例如，有线或无线通信。此外，该电子设备还可以包括输入/输出接口150。电子设备可以操作基于存储在存储器110的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM等等。

请参阅图8，本申请实施例还提供一种文本音频对齐装置160，该文本音频对齐装置160可以理解为上述电子设备，或电子设备的处理器120，也可以理解为独立于上述电子设备或处理器120之外的在电子设备控制下实现上述文本音频对齐方法的软件功能模块。

如图8所示，上述文本音频对齐装置160可以包括切分模块161、解析模块162、判断模块163和输出模块164。下面分别对该文本音频对齐装置160的各个功能模块的功能进行详细阐述。

切分模块161，用于将待处理文本切分为多个子句，并获得各个子句对应的词图。

可以理解，该切分模块161可以用于执行上述步骤S110，关于该切分模块161的详细实现方式可以参照上述对步骤S110有关的内容。

解析模块162，用于针对每个所述子句，利用对应的音频段对所述子句的词图进行解析获得所述子句的解析结果，所述音频段为按预设移动窗口从待处理音频截取获得的。

可以理解，该解析模块162可以用于执行上述步骤S120，关于该解析模块162的详细实现方式可以参照上述对步骤S120有关的内容。

判断模块163，用于基于所述解析结果判断所述音频段是否对应所述子句的所有信息，若未对应，则继续按预设移动窗口在待处理音频中截取音频段以与所述子句对应，并基于对应的所有音频段得到所述子句的解析结果，直至截取的多个音频段对应所述子句的所有信息。

可以理解，该判断模块163可以用于执行上述步骤S130，关于该判断模块163的详细实现方式可以参照上述对步骤S130有关的内容。

输出模块164，用于根据各所述子句基于对应的多个音频段得到的解析结果，输出所述待处理文本和待处理音频的对齐结果。

可以理解，该输出模块164可以用于执行上述步骤S140，关于该输出模块164的详细实现方式可以参照上述对步骤S140有关的内容。

在一种可能的实现方式中，所述解析模块162具体可以用于：

提取获得所述音频段的多个音频特征；

在一种可能的实现方式中，所述判断模块163具体可以用于：

根据所述解析结果获得所述子句对应的音素序列；

在一种可能的实现方式中，所述判断模块163可以用于通过以下方式得到单词序列：

获得剔除处理后得到的所述参考文本对应的单词序列。

在一种可能的实现方式中，所述切分模块161可以用于通过以下方式获得词图：

所述判断模块163还可以用于：

在一种可能的实现方式中，所述判断模块163具体可以用于：

在一种可能的实现方式中，所述输出模块164具体可以用于：

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，例如包括程序指令的存储器110，上述程序指令可由电子设备的处理器120执行以完成上述的交叉透视表生成方法。

具体地，该计算机可读存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该计算机可读存储介质上的计算机程序被运行时，能够执行上述交叉透视表生成方法。关于计算机可读存储介质中的及其可执行指令被运行时，所涉及的过程，可以参照上述方法实施例中的相关说明，这里不再详述。

综上所述，本申请提供的文本音频对齐方法和装置，通过将待处理文本切分为多个子句，并获得各个子句对应的词图，针对每个子句，利用按预设移动窗口从待处理音频截取的对应的音频段对子句的词图进行解析获得解析结果，再基于解析结果判断音频段是否对应子句的所有信息，若未对应，则继续按预设移动窗口移动以在待处理音频中截取音频段以与子句对应，并基于对应的所有音频段得到子句的解析结果，直至截取的多个音频段对应子句的所有信息，最后根据各子句基于对应的多个音频段得到的解析结果输出待处理文本和待处理音频的对齐结果。本方案中，单独基于各个子句的词图，并采用按预设移动窗口截取音频段的方式，边判断边截取直至截取的音频段与子句完全对应为止，如此可以避免集中对齐存在的对齐误差大的问题。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种文本音频对齐方法，其特征在于，所述方法包括：

根据各所述子句基于对应的多个音频段得到的解析结果，输出所述待处理文本和待处理音频的对齐结果；

所述利用对应的音频段对所述子句的词图进行解析获得所述子句的解析结果的步骤，包括：

提取获得所述音频段的多个音频特征；根据所述多个音频特征和预先训练得到的声学模型，得到各个音频特征属于设定的各个音素的后验概率；根据所述后验概率和所述子句的词图，获得最优解析路径，所述最优解析路径包含所述子句对应的音素序列；

所述基于所述解析结果判断所述音频段是否对应所述子句的所有信息的步骤，包括：

根据所述解析结果获得所述子句对应的音素序列；根据所述音素序列转换得到参考文本，并对所述参考文本进行处理得到对应的单词序列；将所述单词序列与所述子句进行比对，以判断所述音频段是否对应所述子句的所有信息。

2.根据权利要求1所述的文本音频对齐方法，其特征在于，所述对所述参考文本进行处理得到对应的单词序列的步骤，包括：

获得剔除处理后得到的所述参考文本对应的单词序列。

3.根据权利要求2所述的文本音频对齐方法，其特征在于，所述获得各个子句对应的词图的步骤，包括：

4.根据权利要求1所述的文本音频对齐方法，其特征在于，所述将所述单词序列与所述子句进行比对，以判断所述音频段是否对应所述子句的所有信息的步骤，包括：

5.根据权利要求4所述的文本音频对齐方法，其特征在于，所述若所述单词序列与所述子句包含的词序列一致，则判定所述音频段对应所述子句的所有信息的步骤，包括：

6.根据权利要求1所述的文本音频对齐方法，其特征在于，所述根据各所述子句基于对应的多个音频段得到的解析结果输出所述待处理文本和待处理音频的对齐结果的步骤，包括：

7.根据权利要求6所述的文本音频对齐方法，其特征在于，所述根据各所述子句基于对应的多个音频段得到的解析结果和补齐的时间戳，输出所述待处理文本和待处理音频的对齐结果的步骤，包括：

8.一种文本音频对齐装置，其特征在于，所述装置包括：

输出模块，用于根据各所述子句基于对应的多个音频段得到的解析结果，输出所述待处理文本和待处理音频的对齐结果；

所述解析模块用于通过以下方式获得所述解析结果：

所述判断模块用于通过以下方式判断所述音频段是否对应所述子句的所有信息：