CN117690437A

CN117690437A - 音频和文本的对齐匹配方法、装置、设备及存储介质

Info

Publication number: CN117690437A
Application number: CN202311691661.9A
Authority: CN
Inventors: 轩晓光; 黄杰雄; 陈传艺; 张超钢; 高阳升
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-03-12

Abstract

本申请实施例提供了一种音频和文本的对齐匹配方法、装置、设备及存储介质，涉及音频合成和处理技术领域。所述方法包括：获取目标文本和待对齐匹配的人声录音，人声录音是采用人声对目标文本的部分文本内容进行录音得到的音频；将人声录音按照录制的时间顺序进行分帧，得到人声录音的多个音频帧，多个音频帧中的每一个音频帧具有对应的发音时间戳；对多个音频帧和目标文本进行对齐匹配处理，得到人声录音与目标文本的对齐匹配结果，对齐匹配结果用于指示人声录音对齐匹配到的文本内容中各个字词分别对应的发音时间戳，人声录音对齐匹配到的文本内容属于目标文本。采用本申请实施例提供的技术方案，能够提升音频和文本的对齐效率。

Description

音频和文本的对齐匹配方法、装置、设备及存储介质

技术领域

本申请实施例涉及音频合成和处理技术领域，特别涉及一种音频和文本的对齐匹配方法、装置、设备及存储介质。

背景技术

有声书是一种将文本内容进行音频录制的作品。

在相关技术中，采用人机结合的方式录制有声书，例如，采用机器的声音生成旁白内容，采用人声录制角色的对白，之后通过人工将人声录音与机器生成的内容按照有声书的文本顺序进行拼接，实现手动对齐人声录音和文本内容，从而得到最终的有声书作品。

在上述相关技术中，通过人工手动对齐人声录音和文本内容，导致音频和文本的对齐效率较低。

发明内容

本申请实施例提供了一种音频和文本的对齐匹配方法、装置、设备及存储介质，能够提升音频和文本的对齐效率。所述技术方案如下：

根据本申请实施例的一个方面，提供了一种音频和文本的对齐匹配方法，所述方法包括：

获取目标文本和待对齐匹配的人声录音，所述人声录音是采用人声对所述目标文本的部分文本内容进行录音得到的音频；

将所述人声录音按照录制的时间顺序进行分帧，得到所述人声录音的多个音频帧，所述多个音频帧中的每一个音频帧具有对应的发音时间戳；

对所述多个音频帧和所述目标文本进行对齐匹配处理，得到所述人声录音与所述目标文本的对齐匹配结果，所述对齐匹配结果用于指示所述人声录音对齐匹配到的文本内容中各个字词分别对应的发音时间戳，所述人声录音对齐匹配到的文本内容属于所述目标文本。

根据本申请实施例的一个方面，提供了一种音频和文本的对齐匹配装置，所述装置包括：

获取模块，用于获取目标文本和待对齐匹配的人声录音，所述人声录音是采用人声对所述目标文本的部分文本内容进行录音得到的音频；

分帧模块，用于将所述人声录音按照录制的时间顺序进行分帧，得到所述人声录音的多个音频帧，所述多个音频帧中的每一个音频帧具有对应的发音时间戳；

对齐模块，用于对所述多个音频帧和所述目标文本进行对齐匹配处理，得到所述人声录音与所述目标文本的对齐匹配结果，所述对齐匹配结果用于指示所述人声录音对齐匹配到的文本内容中各个字词分别对应的发音时间戳，所述人声录音对齐匹配到的文本内容属于所述目标文本。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述音频和文本的对齐匹配方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述音频和文本的对齐匹配方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品由处理器加载并执行以实现上述音频和文本的对齐匹配方法。

本申请实施例提供的技术方案可以包括如下有益效果：

通过对采用人声对目标文本的部分文本进行录音得到的人声录音进行分帧，得到多个音频帧，再基于多个音频帧将人生录音和目标文本进行自动的对齐匹配，从而确定人声录音的各部分所对应的文本内容，提升了音频和文本的对齐效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的计算机设备的示意图；

图2是本申请一个实施例提供的音频和文本的对齐匹配方法的流程图；

图3是本申请一个实施例提供的音频和文本的对齐匹配装置的框图；

图4是本申请一个实施例提供的计算机设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法的例子。

本申请实施例提供的方法，各步骤的执行主体可以是计算机设备，该计算机设备是指具备数据计算、处理和存储能力的电子设备。该计算机设备可以是诸如智能手机、PC(Personal Computer，个人计算机)、平板电脑、可穿戴设备、智能机器人、车载电脑等终端；也可以是服务器。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。如图1所示，该计算机设备100中运行有音频文本对齐模型10。

在一些实施例中，先对目标文本和人声录音进行数据处理，如对目标文本进行文本清洗、文本正则化和文本分词，又如针对人声录音中的背景噪音进行降噪处理；之后，将处理后的目标文本和人声录音输入音频文本对齐模型10，从而得到人声录音和文本的对齐匹配结果。

在一些实施例中，音频文本对齐模型10包括语言模型11和声学模型12。其中，语言模型11是基于目标文本得到，语言模型11包含有目标文本中各个字词的发音单元和对应的发音顺序；声学模型12用于将人声录音进行分帧，得到多个音频帧，并计算得到。之后，基于每一个音频帧分别对应于各个发音单元的概率和语言模型11，解码得到各个音频帧最可能是哪个字词的一部分，即得到各个音频帧分别对应的字词，从而得到目标文本中被人声录音匹配到的字词的发音时间戳，即得到对齐匹配结果。在一些实施例中，语言模型11可以是采用WFST(Weighted Finite-State Transducer，加权有限状态转换器)的语言模型。在一些实施例中，声学模型12可以是采用TDNN(Time Delay Neural Network，时间延迟神经网络)的声学模型。在一些实施例中，音频文本对齐模型10可以是其他基于conformer、transduser(传感器)等端到端对齐模型或识别模型，只要能获得较高精度逐字的发音时间戳均可。

在一些实施例中，计算机设备100中还可以运行有对齐结果质检算法13，对齐结果质检算法13用于对音频文本对齐模型10得到的对齐结果进行检测，筛选出对齐结果中不可靠或异常的内容，将其中可靠的、没有异常的内容输出，实现对对齐结果的审核，得到对齐结果的审核结果。

本申请实施例可以应用于有声书制作过程中的音频合成和处理过程。下面，通过几个实施例对本申请技术方案进行介绍说明。

请参考图2，其示出了本申请一个实施例提供的音频和文本的对齐匹配方法的流程图。在本实施例中，主要以该方法应用于上文介绍的计算机设备中来举例说明。该方法可以包括如下几个步骤(210～230)：

步骤210，获取目标文本和待对齐匹配的人声录音，人声录音是采用人声对目标文本的部分文本内容进行录音得到的音频。

在一些实施例中，目标文本可以是有声书的文本或文稿。有声书是一种由单人或多人依据文稿并基于不同的声音和录音格式所录制的作品，有声书也可以是由机器合成的音频。有声书的内容可以通过朗读、广播剧、音频报道等形式来呈现。

本申请实施例中的目标文本，可以由机器合成和人声录制两种方式结合进行录制，因而人声录音可能仅对应于目标文本中的部分内容(即部分文本内容)，而非目标文本的全部内容。例如，目标文本中的旁白内容可以由机器合成；而目标文本中角色的对话、自言自语、心声、通过声音表达的情绪(如哭泣、叹气、发出声音的笑等)等内容可以由人声录制。因而，目标文本对应的有声书，机器合成的部分和人声录制的部分可能是穿插存在的，如一段机器合成的音频后接着的是一段人声录制的音频，再接着的又是一段机器合成的音频，再接着又是一段人声录制的音频。可见，人声录音中连续的音频内容，对应于的文本内容可能并不是连续的。因此，需要对人声录制的人声录音进行切分，将人声录音与对应的文本内容对齐，以便与机器合成的音频进行拼接。

在一些实施例中，目标文本的文件格式可以是txt格式，可以是dox格式，可以是PDF格式，也可以是其他格式，目标文本的文件格式具体可以由相关技术人员根据实际情况进行设定，本申请实施例对此不作具体限定。在一些实施例中，人声录音的文件格式可以是MP3格式，可以厉害CD格式，可以是WAV格式，可以是RM格式，也可以是其他格式，人声录音的文件格式具体可以由相关技术人员根据实际情况进行设定，本申请实施例对此也不作具体限定。

步骤220，将人声录音按照录制的时间顺序进行分帧，得到人声录音的多个音频帧，多个音频帧中的每一个音频帧具有对应的发音时间戳。

在一些实施例中，将人声录音按照录制时间的先后顺序分成多个音频帧。可选地，每一个音频帧的时长相等。这样，每一个音频帧的发音时间戳就都可以确定了。在一些实施例中，音频帧的发音时间戳用于指示相对于人声录音的起始的时间。

在一些实施例中，音频帧的发音时间戳可以按照录制时间顺序的编号，音频帧对应的录制时间越靠后，对应的发音时间戳的编号就越大。例如，人声录音中的第一个音频帧的发音时间戳可以编号为0，第二个音频帧的发音时间戳可以编号为1，第三个音频帧的发音时间戳可以编号为2……以此类推，第n个音频帧的发音时间戳可以编号为n-1，n为正整数。由于，每一个音频帧的时长都是相同的，因而根据发音时间戳就可以直接计算得到每一个音频帧对应的时段。例如，若每一个音频帧的时长均为x毫秒，则第n个音频帧在人声录音中的时段为(n-1)x至nx毫秒。

在一些实施例中，音频帧的发音时间戳采用该音频帧的起始时间点进行表示。这样，从音频帧的起始时间点开始的一个音频帧的时长内，就是该音频帧在人声录音中的时段。

在一些实施例中，音频帧的发音时间戳采用该音频帧的结束时间点进行表示。这样，从音频帧的结束时间点减去一个音频帧的时长开始，至该结束时间点，就是该音频帧在人声录音中的时段。

在一些实施例中，根据目标文本的语言确定每一个音频帧的时长。平均语速较快的语言对应的每一个音频帧的时长，可以短于平均语速较慢的语言对应的每一个音频帧的时长。在一些实施例中，每一个音频帧的时长可以是5毫秒，可以使10毫秒，也可以是20毫秒，每一个音频帧的时长具体可以由相关技术人员根据实际情况(如目标文本中的主要语言)进行设定，本申请实施例对此不作具体限定。

步骤230，对多个音频帧和目标文本进行对齐匹配处理，得到人声录音与目标文本的对齐匹配结果。

其中，对齐匹配结果用于指示人声录音对齐匹配到的文本内容中各个字词分别对应的发音时间戳，人声录音对齐匹配到的文本内容属于目标文本。

在一些实施例中，将按照时间顺序排列的多个音频帧，与目标文本进行对齐和匹配处理，从而确定人声录音对应于目标文本中的哪些文本内容，即得到人声录音对齐匹配到的文本内容。这样，就得到了人声录音对齐匹配到的文本内容中各个字词对应的发音时间戳，即得到了人声录音对齐匹配到的文本内容中各个字词对应的音频帧，也即得到了对齐匹配结果。

在一些实施例中，对于目标文本中，除人声录音对齐匹配到的文本内容之外的其他文本内容，可以采用机器合成音频，并与人声录音进行拼接，从而得到目标文本对应的完整的音频化内容(如有声书)。

综上所述，本申请实施例提供的技术方案，通过对采用人声对目标文本的部分文本进行录音得到的人声录音进行分帧，得到多个音频帧，再基于多个音频帧将人生录音和目标文本进行自动的对齐匹配，从而确定人声录音的各部分所对应的文本内容，提升了音频和文本的对齐效率。

在一些可能的实现方式中，在上述步骤210之后，还包括以下至少之一：

1、去除目标文本中不需要发音的字符；

2、将目标文本中需要发音的字符替换为对应的文字；

3、对人声录音进行降噪处理。

在一些实施例中，对于获取到的初始的目标文本，若存在于发音无关的字符(即不需要读出来的字符)，则需要删去，该过程可以称为是文本清洗，该方法可以称为是传统的正则匹配方法。例如，用于断句的逗号、句号、感叹号(在文本中表示为：“，”、“。”、“！”)等标点符号本身是不需要发音的，在文本中的作用主要是用于划分语句、提升文本的易读性，因而这些标点符号需要删去。另外，不需要发音的字符还可以包括空格、回车符等。在一些实施例中，对于一些需要发音的符号，如在标点符号“-”表示“至”或“到”的含义时，是需要发音的，不能直接删除。

在一些实施例中，对于需要发音的字符(即需要读出来的字符)，如阿拉伯数字、需要发音的标点符号、运算符号等字符，则需要通过文本正则化替换为对应的文字，即将这些需要发音的字符替换为与这些字符的读法相一致的文字，如替换为与目标文本的主体语言对应的文字。例如，目标文本中的主体语言为中文，则对于“2023/5/8我有50％的概率会在6:30起床”这一段文本，其中的“2023/5/8”需要替换为“二零二三年五月八日”，“50％”需要替换为“百分之五十”，“6:30”需要替换为“六点三十”，则这一段文本进行文本正则化后，应当表示为“二零二三年五月八日我有百分之五十的概率会在六点半起床”。又例如，上述标点符号“-”在表示“至”或“到”的含义时，需要替换为“至”或“到”。如文本中出现“我看了这本书1-10页的内容”时，这段内容在经过文本正则化后变为“我看了这本书一到十页的内容”。

在一些实施例中，获取到的初始的人声录音中可能存在录制时的背景音、录音设备中的杂音等噪音，因而可以对人声录音进行降噪处理，尽可能减少或剔除人声录音中的噪音，从而尽可能减少噪音对人声录音的音频识别结果的影响、以及减少对最终得到的对齐匹配结果的影响，进而提升对齐匹配结果的准确率、以及提升人生录音和文本的对齐效率。在一些实施例中，可以采用传统的webrtc降噪算法或其他降噪算法对人声录音进行降噪。

在上述实现方式中，在获取到初始的目标文本和初始的人声录音之后，先不急于进行对齐匹配，而是先对初始的目标文本和初始的人声录音进行适应性处理或优化处理，从而提升对齐匹配结果的准确率、以及提升人生录音和文本的对齐效率。

在一些可能的实现方式中，在上述步骤210之后，还包括：按照目标文本对应的文字类型，针对目标文本中包含的字词进行分词处理，得到分词处理后的目标文本。对多个音频帧和目标文本进行对齐匹配处理，得到人声录音与目标文本的对齐匹配结果，包括：对多个音频帧和分词处理后的目标文本进行对齐匹配处理，得到人声录音与目标文本的对齐匹配结果。

在一些实施例中，对于经过文本清洗和文本正则化的目标文本，还不能直接用来进行对齐匹配处理，还需要对目标文本按照目标文本对应的文字类型进行分词。在得到分词处理后的目标文本之后，对多个音频帧和分词处理后的目标文本进行对齐匹配处理，将音频帧与目标文本中分好的字词进行匹配和对齐，从而得到人声录音与目标文本的对齐匹配结果。

在一些实施例中，目标文本对应的文字类型，是指目标文本中出现最多的文字类型。在一些实施例中，若目标文本中出现最多的文字类型为表意文字(如汉字)，则可以将目标文本以单个汉字为最小划分单元进行划分，即把目标文本划分成一个个汉字。例如，对“我看了这本书一到十页的内容”进行分词，得到的是“我/看/了/这/本/书/一/到/十/页/的/内/容”。

在一些实施例中，若目标文本中出现最多的文字类型为表音文字(如英文)，则可以将目标文本以单个单词(如单个英文单词)为最小划分单元进行划分，即把目标文本划分成一个个单词。例如，对“I read two books this month”进行分词，得到的是“I/read/two/books/this/month”。

在一些实施例中，基于分词处理后的目标文本，确定目标文本中包含的字词分别对应的发音单元和发音顺序；基于目标文本中包含的字词分别对应的发音单元和发音顺序，对多个音频帧和分词处理后的目标文本进行对齐匹配处理，得到对齐匹配结果。

在一些实施例中，对于分词处理后的目标文本，可以获取或生成每个字词(如每个汉字、每个英文单词)的发音。在一些实施例中，每个字词的发音可以包含一个或多个发音单元。在一些实施例中，发音单元是指最小的语音单位，发音单元也可以称为音素。在一些实施例中，对于不同的语言，采用相同的发音单元库来确定各个字词分别对应的发音单元和发音顺序。在一些实施例中，对于不同的语言，包含的发音单元可能存在不同，因而可以采用与目标文本的语言对应的发音单元库来确定各个字词分别对应的发音单元和发音顺序。例如，对于中文形式的目标文本，采用中文对应的发音单元库来确定各个文字分别对应的发音单元和发音顺序；对于英文形式的目标文本，采用英文对应的发音单元库来确定各个单词分别对应的发音单元和发音顺序。例如，英文对应的发音单元库可以包括辅音和元音，其中，元音可以包括单元音(即/i/、/I/、/e/、/3：/、/>/ɑ：/、/Λ/、/>/u：/、/>)和双元音(即/aI/、/eI/、/>)；辅音可以包括清辅音(即/p/、/t/、/k/、/f/、/s/、/θ/、/∫/、/t∫/、/ts/、/tr/)、浊辅音(即/b/、/d/、/g/、/v/、/z/、/dz/、/dr/)以及其余的辅音(即/m/、/n/、/l/、/η/、/h/、/r/、/j/、/w/)。

在上述实现方式中，通过对目标文本进行分词，从而可以更加细致准确地与人声录音中的音频帧进行匹配和对齐，从而有助于提升得到的对齐匹配结果的准确率。

另外，上述实现方式中按照划分得到的每个字词的发音单元进行对齐匹配，有助于提升目标文本中单个的字词和单个字词左右长度的多个连续音频帧之间的匹配准确率，按照划分得到的每个字词的发音顺序进行对齐匹配，有助于提升句段层级的匹配准确率，从而提升了得到的对齐匹配结果的准确率。

在一些可能的实现方式中，对于每一个音频帧，计算音频帧属于各个发音单元的概率；基于音频帧属于各个发音单元的概率，以及目标文本中包含的字词分别对应的发音单元和发音顺序，确定人声录音匹配到的文本内容以及音频帧对应的字词；基于各个音频帧对应的字词得到对齐匹配结果。

在一些实施例中，通过声学模型计算音频帧属于各个发音单元的概率；对于每一个音频帧，对应于各个发音单元的概率中的最大值，可以认为该最大值对应的发音单元就是该音频帧所属的发音单元。按此方式可以得到各个音频帧分别所属的发音单元，连续的音频帧的发音单元就可以组合得到一个或多个字词的发音，再加上对应的文本之间存在语序顺序、文本逻辑顺序等等，在声学模型中就比较容易可以得到每一音频帧最可能是哪个字或哪个单词的一部分，即匹配确定人声录音对应于目标文本中的哪些字词和哪些文本内容，从而得到对齐匹配结果。

在上述实现方式中，通过计算音频帧属于各个发音单元的概率，并结合目标文本中包含的字词分别对应的发音单元和发音顺序得到对齐匹配结果，不仅提升了单个字词的匹配准确率，还尽可能降低了匹配到错误句段的概率，从而提升了对齐匹配的准确率。

在一些可能的实现方式中，对多个音频帧和目标文本进行对齐匹配处理，得到人声录音与目标文本的对齐匹配结果之后，还包括：基于对齐匹配结果查询人声录音对齐匹配到的文本内容中的异常字词，异常字词是指人声录音对齐匹配到的文本内容中，对应发音时长小于第一阈值的字词；对于人声录音对齐匹配到的文本内容中的第一句段，在第一句段中的异常字词满足第一条件的情况下，确定第一句段为不可靠句段。

在一些实施例中，在通过音频文本对齐模型10得到初步的对齐匹配结果之后，采用对齐结果质检算法对初步的对齐匹配结果进行检测。对于其中发音时长小于第一阈值的字词，可以认为是对齐匹配异常或对应的人声录音存在异常。在一些实施例中，因为绝大部分或所有字词的正常发音时长应当远大于音频帧的时长。在一些实施例中，字词的发音时长可以通过字词的发音时间戳计算得到。在一些实施例中，每个字词的发音时长，可以通过对应的音频帧的数量进行计量(发音时长＝对应音频帧的数量×每一个音频帧的时长)。若一个句子或语段中的异常字词过多，则认为给句子或语段不可靠，需要通过发出提示信息提示用户重新录制。

在一些实施例中，可以按照目标文本对应的语言确定第一阈值的具体取值，本申请实施例对此不作具体限定。

在一些实施例中，第一条件包括以下至少之一：

异常字词在对应句段中的数量大于或等于第二阈值；

异常字词在对应句段中的占比大于或等于第三阈值。

在上述实施例中，通过将异常字词在句段中的绝对数量和相对数量结合考虑，可以提升对不可靠句段的识别准确率。

在上述实现方式中，通过对异常字词进行检测，可以识别出异常字词较多的句段，从而可以提升用户该句段需要重新录制，从而提升最终得到的对齐匹配结果的准确率，也提升了最终采用的人声录音的整体录音质量。

在一些可能的实现方式中，识别人声录音中采用非语言方式表达情绪或语气的音频段；其中，采用非语言方式表达情绪或语气的音频段保留，采用非语言方式表达情绪或语气的音频段对应的文本内容为空。

在一些实施例中，对于一些需要发出声音、但是只能通过非语言方式表达的部分，如哭泣、大笑、语气词等，并没有对应的文本内容、不能与文本内容进行匹配，但又是需要体现出来的音频内容，则可以在识别并保留这些采样非语言方式表达情绪或语气的音频段，并允许其没有对应的文本内容。如在句段中对应的位置插入采用非语言方式表达情绪或语气的音频段。

在一些实施例中，在识别到人声录音中与对应的文本内容不匹配的音频内容后，对该不匹配的音频内容进行二次识别，若识别为语气词或识别结果为空，则认为该不匹配的音频内容为非语言方式表达的部分，属于有效内容。

在上述实现方式中，通过保留采用非语言方式表达情绪或语气的音频段，尽可能不遗漏表现情绪或情感的内容，丰富人声录音的表现力，进而提升最终保留的人声音频的质量。

在一些可能的实现方式中，对多个音频帧和目标文本进行对齐匹配处理，得到人声录音与目标文本的对齐匹配结果之后，还包括：识别人声录音中各个句段中的静音时段；对于人声录音中的第二句段，在第二句段中的静音时段的占比大于第四阈值的情况下，确定第二句段为无效句段；生成用于指示第二句段需要重新录制的提示信息。

在一些实施例中，人声录音中可能会存在静音的内容，显然这属于无效内容，若一个句段中静音时段的占比大于第四阈值，则认为该句段中的静音时段过长，这样会浪费音频存储成本，对文本内容的表现力也存在负面影响，因而可以认为该句段无效，需要通过提示信息提示用户重新录制。

在上述实现方式中，通过检测出静音时段过长的句段，来减少对音频存储成本的浪费，以及保证人声音频的表现力。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图3，其示出了本申请一个实施例提供的音频和文本的对齐匹配装置的框图。该装置具有实现上述音频和文本的对齐匹配方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备，也可以设置在计算机设备上。该装置300可以包括：获取模块310、分帧模块320和对齐模块330。

所述获取模块310，用于获取目标文本和待对齐匹配的人声录音，所述人声录音是采用人声对所述目标文本的部分文本内容进行录音得到的音频。

所述分帧模块320，用于将所述人声录音按照录制的时间顺序进行分帧，得到所述人声录音的多个音频帧，所述多个音频帧中的每一个音频帧具有对应的发音时间戳。

所述对齐模块330，用于对所述多个音频帧和所述目标文本进行对齐匹配处理，得到所述人声录音与所述目标文本的对齐匹配结果，所述对齐匹配结果用于指示所述人声录音对齐匹配到的文本内容中各个字词分别对应的发音时间戳，所述人声录音对齐匹配到的文本内容属于所述目标文本。

在一些实施例中，所述装置还包括：分词模块。

所述分词模块，用于按照所述目标文本对应的文字类型，针对所述目标文本中包含的字词进行分词处理，得到分词处理后的目标文本。

所述对齐模块330，包括：对齐子模块。

所述对齐子模块，用于对所述多个音频帧和所述分词处理后的目标文本进行对齐匹配处理，得到所述人声录音与所述目标文本的对齐匹配结果。

在一些实施例中，所述对齐子模块，包括：发音确定单元和对齐单元。

所述发音确定单元，用于基于所述分词处理后的目标文本，确定所述目标文本中包含的字词分别对应的发音单元和发音顺序。

所述对齐单元，用于基于所述目标文本中包含的字词分别对应的发音单元和发音顺序，对所述多个音频帧和所述分词处理后的目标文本进行对齐匹配处理，得到所述对齐匹配结果。

在一些实施例中，所述对齐单元，用于：

对于每一个音频帧，计算所述音频帧属于各个发音单元的概率；

基于所述音频帧属于各个发音单元的概率，以及所述目标文本中包含的字词分别对应的发音单元和发音顺序，确定所述人声录音匹配到的文本内容以及所述音频帧对应的字词；

基于各个所述音频帧对应的字词得到所述对齐匹配结果。

在一些实施例中，所述装置还包括：异常查询模块和句段确定模块。

所述异常查询模块，用于基于所述对齐匹配结果查询所述人声录音对齐匹配到的文本内容中的异常字词，所述异常字词是指所述人声录音对齐匹配到的文本内容中，对应发音时长小于第一阈值的字词。

所述句段确定模块，用于对于所述人声录音对齐匹配到的文本内容中的第一句段，在所述第一句段中的所述异常字词满足第一条件的情况下，确定所述第一句段为不可靠句段。

在一些实施例中，所述第一条件包括以下至少之一：

所述异常字词在对应句段中的数量大于或等于第二阈值；

所述异常字词在对应句段中的占比大于或等于第三阈值。

在一些实施例中，所述装置还包括：字符去除模块、字符替换模块和录音降噪模块。

所述字符去除模块，用于去除所述目标文本中不需要发音的字符。

所述字符替换模块，用于将所述目标文本中需要发音的字符替换为对应的文字。

所述录音降噪模块，用于对所述人声录音进行降噪处理。

在一些实施例中，所述装置还包括：音频段识别模块。

所述音频段识别模块，用于识别所述人声录音中采用非语言方式表达情绪或语气的音频段；其中，所述采用非语言方式表达情绪或语气的音频段保留，所述采用非语言方式表达情绪或语气的音频段对应的文本内容为空。

在一些实施例中，所述装置还包括：静音识别模块和提示生成模块。

所述静音识别模块，用于识别所述人声录音中各个句段中的静音时段。

所述句段确定模块，还用于对于所述人声录音中的第二句段，在所述第二句段中的所述静音时段的占比大于第四阈值的情况下，确定所述第二句段为无效句段。

所述提示生成模块，用于生成用于指示所述第二句段需要重新录制的提示信息。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图4，其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备用于实施上述实施例中提供的音频和文本的对齐匹配方法。具体来讲：

所述计算机设备400包括CPU(Central Processing Unit，中央处理单元)401、包括RAM(Random Access Memory，随机存取存储器)402和ROM(Read-Only Memory，只读存储器)403的系统存储器404，以及连接系统存储器404和中央处理单元401的系统总线405。所述计算机设备400还包括帮助计算机内的各个器件之间传输信息的基本I/O(Input/Output，输入/输出)系统406，和用于存储操作系统413、应用程序414和其他程序模块415的大容量存储设备407。

所述基本输入/输出系统406包括有用于显示信息的显示器408和用于用户输入信息的诸如鼠标、键盘之类的输入设备409。其中所述显示器408和输入设备409都通过连接到系统总线405的输入输出控制器410连接到中央处理单元401。所述基本输入/输出系统406还可以包括输入输出控制器410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器410还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备407通过连接到系统总线405的大容量存储控制器(未示出)连接到中央处理单元401。所述大容量存储设备407及其相关联的计算机可读介质为计算机设备400提供非易失性存储。也就是说，所述大容量存储设备407可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、闪存或其他固态存储器，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器404和大容量存储设备407可以统称为存储器。

根据本申请的各种实施例，所述计算机设备400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备400可以通过连接在所述系统总线405上的网络接口单元411连接到网络412，或者说，也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序在被处理器执行时以实现上述音频和文本的对齐匹配方法。

在示例性实施例中，还提供了一种计算机程序产品，所述计算机程序产品由处理器加载并执行以实现上述音频和文本的对齐匹配方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频和文本的对齐匹配方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取目标文本和待对齐匹配的人声录音之后，还包括：

按照所述目标文本对应的文字类型，针对所述目标文本中包含的字词进行分词处理，得到分词处理后的目标文本；

所述对所述多个音频帧和所述目标文本进行对齐匹配处理，得到所述人声录音与所述目标文本的对齐匹配结果，包括：

对所述多个音频帧和所述分词处理后的目标文本进行对齐匹配处理，得到所述人声录音与所述目标文本的对齐匹配结果。

3.根据权利要求2所述的方法，其特征在于，所述对所述多个音频帧和所述分词处理后的目标文本进行对齐匹配处理，得到所述人声录音与所述目标文本的对齐匹配结果，包括：

基于所述分词处理后的目标文本，确定所述目标文本中包含的字词分别对应的发音单元和发音顺序；

基于所述目标文本中包含的字词分别对应的发音单元和发音顺序，对所述多个音频帧和所述分词处理后的目标文本进行对齐匹配处理，得到所述对齐匹配结果。

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标文本中包含的字词分别对应的发音单元和发音顺序，对所述多个音频帧和所述分词处理后的目标文本进行对齐匹配处理，得到所述对齐匹配结果，包括：

基于各个所述音频帧对应的字词得到所述对齐匹配结果。

5.根据权利要求1所述的方法，其特征在于，所述对所述多个音频帧和所述目标文本进行对齐匹配处理，得到所述人声录音与所述目标文本的对齐匹配结果之后，还包括：

基于所述对齐匹配结果查询所述人声录音对齐匹配到的文本内容中的异常字词，所述异常字词是指所述人声录音对齐匹配到的文本内容中，对应发音时长小于第一阈值的字词；

对于所述人声录音对齐匹配到的文本内容中的第一句段，在所述第一句段中的所述异常字词满足第一条件的情况下，确定所述第一句段为不可靠句段。

6.根据权利要求5所述的方法，其特征在于，所述第一条件包括以下至少之一：

所述异常字词在对应句段中的数量大于或等于第二阈值；

所述异常字词在对应句段中的占比大于或等于第三阈值。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述获取目标文本和待对齐匹配的人声录音之后，还包括以下至少之一：

去除所述目标文本中不需要发音的字符；

将所述目标文本中需要发音的字符替换为对应的文字；

对所述人声录音进行降噪处理。

8.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

识别所述人声录音中采用非语言方式表达情绪或语气的音频段；

其中，所述采用非语言方式表达情绪或语气的音频段保留，所述采用非语言方式表达情绪或语气的音频段对应的文本内容为空。

9.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

识别所述人声录音中各个句段中的静音时段；

对于所述人声录音中的第二句段，在所述第二句段中的所述静音时段的占比大于第四阈值的情况下，确定所述第二句段为无效句段；

生成用于指示所述第二句段需要重新录制的提示信息。

10.一种音频和文本的对齐匹配装置，其特征在于，所述装置包括：

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述权利要求1至9任一项所述的音频和文本的对齐匹配方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述权利要求1至9任一项所述的音频和文本的对齐匹配方法。