CN112257407A - 音频中的文本对齐方法、装置、电子设备及可读存储介质 - Google Patents

音频中的文本对齐方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN112257407A
CN112257407A CN202011128978.8A CN202011128978A CN112257407A CN 112257407 A CN112257407 A CN 112257407A CN 202011128978 A CN202011128978 A CN 202011128978A CN 112257407 A CN112257407 A CN 112257407A
Authority
CN
China
Prior art keywords
text
alignment
audio
sample
aligned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011128978.8A
Other languages
English (en)
Other versions
CN112257407B (zh
Inventor
詹皓粤
林悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202011128978.8A priority Critical patent/CN112257407B/zh
Priority claimed from CN202011128978.8A external-priority patent/CN112257407B/zh
Publication of CN112257407A publication Critical patent/CN112257407A/zh
Application granted granted Critical
Publication of CN112257407B publication Critical patent/CN112257407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本申请提供了一种音频中的文本对齐方法、装置、电子设备及可读存储介质,所述文本对齐方法包括:获取待处理音频,以及所述待处理音频对应的待对齐文本;根据预设的所述待对齐文本所属语言种类与预设文本字符之间的映射关系,将所述待对齐文本转换为利用统一字符表示的文本表示集合;提取所述待处理音频的语音学特征;将所述文本表示集合以及所述语音学特征输入至训练好的文本对齐模型中,得到所述待处理音频的文本对齐结果。这样,即使在待处理音频对应的待对齐文本中存在不同语言种类的文本,也可以准确地确定出待处理音频的文本对齐结果。

Description

音频中的文本对齐方法、装置、电子设备及可读存储介质
技术领域
本申请涉及音频处理技术领域,尤其是涉及一种音频中的文本对齐方法、装置、电子设备及可读存储介质。
背景技术
音乐作为一种音频文件频繁地出现在社会的娱乐、教育、生活等各个方面,在人们的生活中发挥着不可替代的作用。音乐由乐曲和歌词两个部分组成。歌词能够传达出音乐的内容与思想,搭配上相应的乐曲可以更加生动地向用户展示出音乐所呈现出的意境。同时,为了便于用户了解音乐的播放进度,通常会将乐曲和歌词两个部分对应着呈现给用户。但是,在播放过程中经常会出现歌词与乐曲错位的情况,因此,如何使得歌词与乐曲的同步性更好成为了亟待解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种音频中的文本对齐方法、装置、电子设备及可读存储介质,即使在待处理音频对应的待对齐文本中存在不同语言种类的文本,也可以准确地确定出待处理音频的文本对齐结果。
本申请实施例提供了一种音频中的文本对齐方法,所述文本对齐方法包括:
获取待处理音频,以及所述待处理音频对应的待对齐文本;
根据预设的所述待对齐文本所属语言种类与预设文本字符之间的映射关系,将所述待对齐文本转换为利用统一字符表示的文本表示集合;
提取所述待处理音频的语音学特征;
将所述文本表示集合以及所述语音学特征输入至训练好的文本对齐模型中,得到所述待处理音频的文本对齐结果。
进一步的,所述根据预设的所述待对齐文本所属语言种类与预设文本字符之间的映射关系,将所述待对齐文本转换为利用统一字符表示的文本表示集合,包括:
确定所述待对齐文本所属的至少一个语言种类,以及所述待对齐文本中的多个字和/或词;
按照每个语言种类与预设文本字符之间的映射关系,确定每个字和/或词对应的国际音标和音素;
基于每个字和/或词对应的国际音标和音素,以及每个字和/或词在所述待对齐文本中的位置,确定所述待对齐文本的文本表示集合。
进一步的,所述将所述文本表示集合以及所述语音学特征输入至训练好的文本对齐模型中,得到所述待处理音频的文本对齐结果,包括:
根据所述文本表示集合,确定所述待对齐文本中每个字和/或词的发音特征,并根据所述语音学特征所指示的语音频谱,确定所述待处理音频的发音特征;
基于所述待对齐文本中每个字和/或词的发音特征,和所述待处理音频的发音特征,确定所述待对齐文本与所述待处理音频的多种对齐方式,以及每种对齐方式对应的对齐概率;
确定所述多种对齐方式中对齐概率最大的对齐方式为所述待处理音频的文本对齐结果。
进一步的,通过以下步骤训练所述文本对齐模型:
获取多个样本处理音频和每个样本处理音频对应的样本对齐文本,以及每个样本处理音频对应的真实对齐结果;
针对于每个样本对齐文本,根据预设的所述样本对齐文本所属语言种类与预设文本字符之间的映射关系,将所述样本对齐文本转换为利用统一字符表示的样本表示集合;
提取每个样本处理音频的样本语音特征;
基于每个样本对齐文本对应的样本表示集合、每个待处理音频的样本语音特征以及每个样本处理音频对应的真实对齐结果,对构建好的高斯混合模型进行迭代训练,得到训练好的文本对齐模型。
进一步的,所述基于每个样本对齐文本对应的样本表示集合、每个待处理音频的样本语音特征以及每个样本处理音频对应的真实对齐结果,对构建好的高斯混合模型进行迭代训练,得到训练好的文本对齐模型,包括:
将每个样本对齐文本对应的样本表示集合,以及每个样本处理音频的样本语音特征输入至构建好的高斯混合模型,得到每个样本处理音频对应的第一预测对齐结果;
基于每个样本处理音频的第一预测对齐结果以及真实对齐结果,调整所述高斯混合模型的参数;
将调整后的所述高斯混合模型作为构建好的高斯混合模型,通过每个样本对齐文本对应的样本表示集合、每个待处理音频的样本语音特征以及每个样本处理音频对应的真实对齐结果对调整后的所述高斯混合模型进行迭代训练,直至训练次数达到预设训练次数或者训练后的所述高斯混合模型收敛,确定所述高斯混合模型训练完毕;
将训练完毕的所述高斯混合模型作为所述文本对齐模型。
进一步的,在所述将调整后的所述高斯混合模型作为构建好的高斯混合模型,通过每个样本对齐文本对应的样本表示集合、每个待处理音频的样本语音特征以及每个样本处理音频对应的真实对齐结果对调整后的所述高斯混合模型进行迭代训练,直至训练次数达到预设训练次数或者训练后的所述高斯混合模型收敛,确定所述高斯混合模型训练完毕之后,所述文本对齐方法包括:
基于训练完毕的所述高斯混合模型,以及每个样本对齐文本对应的样本表示集合和每个样本处理音频的样本语音特征,确定每个样本处理音频的第二预测对齐结果;
基于每个样本处理音频的第二预测对齐结果以及真实对齐结果,从多个样本处理音频中确定出多个目标处理音频,并确定每个目标处理音频对应的目标对齐文本的目标表示集合、每个目标处理音频的目标音频特征;
通过每个目标对齐文本的目标表示集合以及每个目标处理音频的目标音频特征对训练完毕的所述高斯混合模型进行二次迭代训练,直至所述高斯混合模型的结果参数大于预设参数阈值,确定所述高斯混合模型二次训练完毕;
将二次训练完毕的所述高斯混合模型作为所述文本对齐模型。
进一步的,所述根据预设的所述样本对齐文本所属语言种类与预设文本字符之间的映射关系,将所述样本对齐文本转换为利用统一字符表示的样本表示集合,包括:
确定所述样本对齐文本所属的至少一个语言种类,以及所述样本对齐文本中的多个字和/或词;
按照每个语言种类与预设文本字符之间的映射关系,确定所述样本对齐文本中的每个字和/或词对应的国际音标和音素;
基于所述样本对齐文本中的每个字和/或词对应的国际音标和音素,以及所述样本对齐文本中的每个字和/或词在所述样本对齐文本中的位置,确定所述样本对齐文本的样本表示集合。
本申请实施例还提供了一种音频中的文本对齐装置,所述文本对齐装置包括:
获取模块,用于获取待处理音频,以及所述待处理音频对应的待对齐文本;
转换模块,用于根据预设的所述待对齐文本所属语言种类与预设文本字符之间的映射关系,将所述待对齐文本转换为利用统一字符表示的文本表示集合;
特征提取模块,用于提取所述待处理音频的语音学特征;
结果确定模块,用于将所述文本表示集合以及所述语音学特征输入至训练好的文本对齐模型中,得到所述待处理音频的文本对齐结果。
进一步的,所述转换模块在用于根据预设的所述待对齐文本所属语言种类与预设文本字符之间的映射关系,将所述待对齐文本转换为利用统一字符表示的文本表示集合时,所述转换模块用于:
确定所述待对齐文本所属的至少一个语言种类,以及所述待对齐文本中的多个字和/或词;
按照每个语言种类与预设文本字符之间的映射关系,确定每个字和/或词对应的国际音标和音素;
基于每个字和/或词对应的国际音标和音素,以及每个字和/或词在所述待对齐文本中的位置,确定所述待对齐文本的文本表示集合。
进一步的,所述结果确定模块在用于将所述文本表示集合以及所述语音学特征输入至训练好的文本对齐模型中,得到所述待处理音频的文本对齐结果时,所述结果确定模块用于:
根据所述文本表示集合,确定所述待对齐文本中每个字和/或词的发音特征,并根据所述语音学特征所指示的语音频谱,确定所述待处理音频的发音特征;
基于所述待对齐文本中每个字和/或词的发音特征,和所述待处理音频的发音特征,确定所述待对齐文本与所述待处理音频的多种对齐方式,以及每种对齐方式对应的对齐概率;
确定所述多种对齐方式中对齐概率最大的对齐方式为所述待处理音频的文本对齐结果。
进一步的,所述文本对齐装置还包括模型训练模块,所述模型训练模块用于:
获取多个样本处理音频和每个样本处理音频对应的样本对齐文本,以及每个样本处理音频对应的真实对齐结果;
针对于每个样本对齐文本,根据预设的所述样本对齐文本所属语言种类与预设文本字符之间的映射关系,将所述样本对齐文本转换为利用统一字符表示的样本表示集合;
提取每个样本处理音频的样本语音特征;
基于每个样本对齐文本对应的样本表示集合、每个待处理音频的样本语音特征以及每个样本处理音频对应的真实对齐结果,对构建好的高斯混合模型进行迭代训练,得到训练好的文本对齐模型。
进一步的,所述模型训练模块在用于基于每个样本对齐文本对应的样本表示集合、每个待处理音频的样本语音特征以及每个样本处理音频对应的真实对齐结果,对构建好的高斯混合模型进行迭代训练,得到训练好的文本对齐模型时,所述模型训练模块用于:
将每个样本对齐文本对应的样本表示集合,以及每个样本处理音频的样本语音特征输入至构建好的高斯混合模型,得到每个样本处理音频对应的第一预测对齐结果;
基于每个样本处理音频的第一预测对齐结果以及真实对齐结果,调整所述高斯混合模型的参数;
将调整后的所述高斯混合模型作为构建好的高斯混合模型,通过每个样本对齐文本对应的样本表示集合、每个待处理音频的样本语音特征以及每个样本处理音频对应的真实对齐结果对调整后的所述高斯混合模型进行迭代训练,直至训练次数达到预设训练次数或者训练后的所述高斯混合模型收敛,确定所述高斯混合模型训练完毕;
将训练完毕的所述高斯混合模型作为所述文本对齐模型。
进一步的,所述文本对齐装置还包括二次训练模块,所述二次训练模块用于:
基于训练完毕的所述高斯混合模型,以及每个样本对齐文本对应的样本表示集合和每个样本处理音频的样本语音特征,确定每个样本处理音频的第二预测对齐结果;
基于每个样本处理音频的第二预测对齐结果以及真实对齐结果,从多个样本处理音频中确定出多个目标处理音频,并确定每个目标处理音频对应的目标对齐文本的目标表示集合、每个目标处理音频的目标音频特征;
通过每个目标对齐文本的目标表示集合以及每个目标处理音频的目标音频特征对训练完毕的所述高斯混合模型进行二次迭代训练,直至所述高斯混合模型的结果参数大于预设参数阈值,确定所述高斯混合模型二次训练完毕;
将二次训练完毕的所述高斯混合模型作为所述文本对齐模型。
进一步的,所述模型训练模块在用于根据预设的所述样本对齐文本所属语言种类与预设文本字符之间的映射关系,将所述样本对齐文本转换为利用统一字符表示的样本表示集合时,所述模型训练模块用于:
确定所述样本对齐文本所属的至少一个语言种类,以及所述样本对齐文本中的多个字和/或词;
按照每个语言种类与预设文本字符之间的映射关系,确定所述样本对齐文本中的每个字和/或词对应的国际音标和音素;
基于所述样本对齐文本中的每个字和/或词对应的国际音标和音素,以及所述样本对齐文本中的每个字和/或词在所述样本对齐文本中的位置,确定所述样本对齐文本的样本表示集合。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的音频中的文本对齐方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的音频中的文本对齐方法的步骤。
本申请实施例提供的一种音频中的文本对齐方法,获取待处理音频,以及所述待处理音频对应的待对齐文本;根据预设的所述待对齐文本所属语言种类与预设文本字符之间的映射关系,将所述待对齐文本转换为利用统一字符表示的文本表示集合;提取所述待处理音频的语音学特征;将所述文本表示集合以及所述语音学特征输入至训练好的文本对齐模型中,得到所述待处理音频的文本对齐结果。
这样,本申请通过获取待处理音频,以及待处理音频对应的待对齐文本,确定待对齐文本所属语言种类,根据待对齐文本所属语言种类与预设文本字符之间的映射关系,将待对齐文本转换为利用统一字符表示的文本表示集合;从待处理音频中提取出语音学特征,将转换得到的待对齐文本的文本表示集合以及语音学特征输入至训练好的文本对齐模型中,得到待处理音频的文本对齐结果,进而,即使在待处理音频对应的待对齐文本中存在不同语言种类的文本,也可以准确地确定出待处理音频的文本对齐结果。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种音频中的文本对齐方法的流程图;
图2为本申请另一实施例所提供的一种音频中的文本对齐方法的流程图;
图3为本申请实施例所提供的一种音频中的文本对齐装置的结构示意图之一;
图4为本申请实施例所提供的一种音频中的文本对齐装置的结构示意图之二;
图5为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于音频处理技术领域。获取待处理音频,以及待处理音频对应的待对齐文本;根据预设的待对齐文本所属语言种类与预设文本字符之间的映射关系,将待处理音频对应的待对齐文本转换为利用统一字符表示的文本表示集合;并从待处理音频中提取出语音学特征;将待处理音频的文本表示集合以及待处理音频的语音学特征输入至训练好的文本对齐模型中,得到待处理音频的文本对齐结果,这样,即使在待处理音频对应的待对齐文本中存在不同语言种类的文本,也可以准确地确定出待处理音频的文本对齐结果。
经研究发现,目前,为了便于用户了解音乐的播放进度,通常会将乐曲和歌词两个部分对应着呈现给用户。但是,在播放过程中经常会出现歌词与乐曲错位的情况,因此,如何使得歌词与乐曲更加一致成为了亟待解决的问题。
基于此,本申请实施例提供了一种音频中的文本对齐方法,即使在待处理音频对应的待对齐文本中存在不同语言种类的文本,也可以准确地确定出待处理音频的文本对齐结果。
请参阅图1,图1为本申请实施例所提供的一种音频中的文本对齐方法的流程图。如图1中所示,本申请实施例提供的音频中的文本对齐方法,包括:
S101、获取待处理音频,以及所述待处理音频对应的待对齐文本。
该步骤中,获取需要进行文本对齐的待处理音频,以及该待处理音频对应的待对齐文本,其中,待对齐文本是技术人员对待处理音频进行标记得到的。
S102、根据预设的所述待对齐文本所属语言种类与预设文本字符之间的映射关系,将所述待对齐文本转换为利用统一字符表示的文本表示集合。
该步骤中,首先,确定出待对齐文本所属语言种类,其中,待对齐文本可以属于一个语言种类,也可以属于多个语言种类;然后,根据预设的待对齐文本所属语言种类与预设文本字符之间对应的映射关系,将待对齐文本转换为利用统一字符表示的文本表示集合。
这里,每一个语言种类与预设文本字符之间都有相应的转换方式,例如,中文与预设文本字符之间的转换方式,英文与预设文本字符之间的转换方式是可以存在差异的,进而,可以将不同语言种类的待对齐文本用统一的字符进行表示。
示例性的,当待对齐文本中存在“中文”与“英文”时,首先,分别确定出“中文”与预设文本字符之间的映射关系,以及“英文”与预设文本字符之间的映射关系,然后,根据各自的映射关系,将“中文”与“英文”转换为预设文本字符。
S103、提取所述待处理音频的语音学特征。
该步骤中,从待处理音频中提取出相应的语音学特征,其中,语音学特征可以包括梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents,MFCC)、Fbank特征,声谱图(Spectrogram)等具有代表性的语音学特征。
S104、将所述文本表示集合以及所述语音学特征输入至训练好的文本对齐模型中,得到所述待处理音频的文本对齐结果。
该步骤中,将转换得到的待对齐文本的文本表示集合,以及从待处理音频中提取出的语音学特征输入至训练好的文本对齐模型中,得到待处理音频的文本对齐结果。
本申请实施例提供的音频中的文本对齐方法,获取待处理音频,以及所述待处理音频对应的待对齐文本;根据预设的所述待对齐文本所属语言种类与预设文本字符之间的映射关系,将所述待对齐文本转换为利用统一字符表示的文本表示集合;提取所述待处理音频的语音学特征;将所述文本表示集合以及所述语音学特征输入至训练好的文本对齐模型中,得到所述待处理音频的文本对齐结果。
这样,本申请通过获取待处理音频,以及待处理音频对应的待对齐文本,确定待对齐文本所属语言种类,根据待对齐文本所属语言种类与预设文本字符之间的映射关系,将待对齐文本转换为利用统一字符表示的文本表示集合;从待处理音频中提取出语音学特征,将转换得到的待对齐文本的文本表示集合以及语音学特征输入至训练好的文本对齐模型中,得到待处理音频的文本对齐结果,进而,即使在待处理音频对应的待对齐文本中存在不同语言种类的文本,也可以准确地确定出待处理音频的文本对齐结果。
请参阅图2,图2为本申请另一实施例所提供的一种音频中的文本对齐方法的流程图。如图2中所示,本申请实施例提供的音频中的文本对齐方法,包括:
S201、获取待处理音频,以及所述待处理音频对应的待对齐文本。
S202、根据预设的所述待对齐文本所属语言种类与预设文本字符之间的映射关系,将所述待对齐文本转换为利用统一字符表示的文本表示集合。
S203、提取所述待处理音频的语音学特征。
S204、根据所述文本表示集合,确定所述待对齐文本中每个字和/或词的发音特征,并根据所述语音学特征所指示的语音频谱,确定所述待处理音频的发音特征。
该步骤中,从确定出的待对齐文本的文本表示集合中,确定出待对齐文本中每个字和/或词的发音特征,并根据提取出的待处理音频的语音学特征所指示的语音频谱,确定出待处理音频的发音特征。
S205、基于所述待对齐文本中每个字和/或词的发音特征,和所述待处理音频的发音特征,确定所述待对齐文本与所述待处理音频的多种对齐方式,以及每种对齐方式对应的对齐概率。
该步骤中,通过训练好的文本对齐模型,基于待对齐文本中每个字和/或词的发音特征,以及待处理音频的发音特征,确定出待对齐文本与待处理音频之间的多种对齐方式,同时,确定出在每种对齐方式下的对齐结果对应的对齐概率。
其中,对齐概率可以表示待对齐文本与待处理音频之间的对齐结果的准确率等。
S206、确定所述多种对齐方式中对齐概率最大的对齐方式为所述待处理音频的文本对齐结果。
该步骤中,将确定出的多种对齐方式中对齐概率最大的对齐方式,确定为待处理音频的文本对齐结果。
示例性的,通过训练好的文本对齐模型得到待对齐文本与待处理音频之间的3种对齐方式“方式1”、“方式2”以及“方式3”,“方式1”的对齐概率为80%,“方式2”的对齐概率为85%,“方式3”的对齐概率为95%,那么,则将“方式3”确定为待处理音频的文本对齐结果。
其中,S201至S203的描述可以参照S101至S103的描述,并且能达到相同的技术效果,对此不做赘述。
进一步的,步骤S202包括:确定所述待对齐文本所属的至少一个语言种类,以及所述待对齐文本中的多个字和/或词;按照每个语言种类与预设文本字符之间的映射关系,确定每个字和/或词对应的国际音标和音素;基于每个字和/或词对应的国际音标和音素,以及每个字和/或词在所述待对齐文本中的位置,确定所述待对齐文本的文本表示集合。
该步骤中,确定待对齐文本所属的至少一个语言种类,并从待对齐文本中确定出多个字和/或词;根据每个语言种类与预设文本字符之间的映射关系,确定出待对齐文本中每个字和/或词对应的国际音标和音素;基于每个字和/或词对应的国际音标和音素,以及每个字和/或词在待对齐文本中的位置,将待对齐文本转换为利用统一字符表示的文本表示集合。
具体的,从待对齐文本中识别出待对齐文本包括的至少一种语言种类,并将待对齐文本拆分为多个字和/或词;按照每个字和/或词所属语言种类与预设文本字符之间的映射关系,确定出每个字和/或词对应的国际音标和音素,将每个字和/或词用国际音标和音素表示,结合每个字和/或词在待对齐文本中位置,将待对齐文本转换为利用统一字符表示的文本表示集合。
进一步的,所述文本对齐方法通过以下步骤训练所述文本对齐模型:
步骤1、获取多个样本处理音频和每个样本处理音频对应的样本对齐文本,以及每个样本处理音频对应的真实对齐结果。
该步骤中,获取训练文本对齐模型所需的多个样本处理音频和每个样本处理音频对应的样本对齐文本,以及每个样本处理音频对应的真实对齐结果。
其中,多个样本处理音频中包括正训练样本以及负训练样本,正训练样本为有对应正确的真实对齐结果的训练样本,负训练样本为有对应错误的真实对齐结果的训练样本。
步骤2、针对于每个样本对齐文本,根据预设的所述样本对齐文本所属语言种类与预设文本字符之间的映射关系,将所述样本对齐文本转换为利用统一字符表示的样本表示集合。
该步骤中,针对于每个获取到的样本对齐文本,确定该样本对齐文本所属语言种类,按照所属语言种类与预设文本字符之间的映射关系,将样本对齐文本转换为利用统一字符表示的样本表示集合。
具体的:
步骤2a、确定样本对齐文本所属的至少一个语言种类,以及该样本对齐文本中的多个字和/或词。
步骤2b、按照每个语言种类与预设文本字符之间的映射关系,确定样本对齐文本中的每个字和/或词对应的国际音标和音素。
步骤2c、基于样本对齐文本中的每个字和/或词对应的国际音标和音素,以及样本对齐文本中的每个字和/或词在样本对齐文本中的位置,确定该样本对齐文本的样本表示集合。
这样,可以将属于不同语言种类的文本统一表示出来,因此,在使用待对齐文本的文本表示集合训练文本对齐模型时,可以使文本对齐模型学习到不同语言种类中相似的发音单位信息,从而使得文本对齐模型具有多语言处理能力。
步骤3、提取每个样本处理音频的样本语音特征。
该步骤中,从样本处理音频中提取出相应的样本语音特征,其中,样本语音特征可以包括梅尔频谱、梅尔倒谱、MFCC,FBank,Spectrogram等具有代表性的样本语音特征。
这样,在使用样本语音特征训练文本对齐模型时,可以使得文本对齐模型具有更好的信息表征能力和抗噪能力。
步骤4、基于每个样本对齐文本对应的样本表示集合、每个待处理音频的样本语音特征以及每个样本处理音频对应的真实对齐结果,对构建好的高斯混合模型进行迭代训练,得到训练好的文本对齐模型。
该步骤中,将转换得到的每个样本对齐文本对应的样本表示集合,从每个待处理音频中提取出的样本语音特征,以及每个样本处理音频对应的真实对齐结果,对构建好的高斯混合模型进行迭代训练,直至高斯混合模型迭代训练完毕,得到训练好的文本对齐模型。
进一步的,所述基于每个样本对齐文本对应的样本表示集合、每个待处理音频的样本语音特征以及每个样本处理音频对应的真实对齐结果,对构建好的高斯混合模型进行迭代训练,得到训练好的文本对齐模型,包括:
步骤4a、将每个样本对齐文本对应的样本表示集合,以及每个样本处理音频的样本语音特征输入至构建好的高斯混合模型,得到每个样本处理音频对应的第一预测对齐结果。
该步骤中,将转换得到的每个样本对齐文本对应的样本表示集合,以及从每个待处理音频中提取出的样本语音特征输入至构建好的高斯混合模型中,通过高斯混合模型得到每个样本处理音频对应的第一预测对齐结果。
步骤4b、基于每个样本处理音频的第一预测对齐结果以及真实对齐结果,调整所述高斯混合模型的参数。
该步骤中,基于通过高斯混合模型得到的每个样本处理音频的第一预测对齐结果,以及获取到的每个样本处理音频的真实对齐结果,调整高斯混合模型中的模型参数。
步骤4c、将调整后的所述高斯混合模型作为构建好的高斯混合模型,通过每个样本对齐文本对应的样本表示集合、每个待处理音频的样本语音特征以及每个样本处理音频对应的真实对齐结果对调整后的所述高斯混合模型进行迭代训练,直至训练次数达到预设训练次数或者训练后的所述高斯混合模型收敛,确定所述高斯混合模型训练完毕。
该步骤中,在对高斯混合模型的参数进行调整之后,将调整后的高斯混合模型作为构建好的高斯混合模型,再次通过每个样本对齐文本对应的样本表示集合、每个待处理音频的样本语音特征以及每个样本处理音频对应的真实对齐结果对调整后的高斯混合模型进行迭代训练,直至对高斯混合模型的迭代训练的训练次数达到预设训练次数,或者训练后的高斯混合模型具有收敛性,确定所述高斯混合模型训练完毕。
步骤4d、将训练完毕的所述高斯混合模型作为所述文本对齐模型。
进一步的,在所述将调整后的所述高斯混合模型作为构建好的高斯混合模型,通过每个样本对齐文本对应的样本表示集合、每个待处理音频的样本语音特征以及每个样本处理音频对应的真实对齐结果对调整后的所述高斯混合模型进行迭代训练,直至训练次数达到预设训练次数或者训练后的所述高斯混合模型收敛,确定所述高斯混合模型训练完毕之后,所述文本对齐方法包括:
步骤4e、基于训练完毕的所述高斯混合模型,以及每个样本对齐文本对应的样本表示集合和每个样本处理音频的样本语音特征,确定每个样本处理音频的第二预测对齐结果。
该步骤中,在高斯混合模型训练完毕后,为了进一步的提高文本对齐效果,会基于训练完毕的高斯混合模型,对已有样本处理音频进行筛选。首先,通过训练完毕的高斯混合模型以及每个样本对齐文本对应的样本表示集合和每个样本处理音频的样本语音特征,确定每个样本对齐文本的第二预测对齐结果。
步骤4f、基于每个样本处理音频的第二预测对齐结果以及真实对齐结果,从多个样本处理音频中确定出多个目标处理音频,并确定每个目标处理音频对应的目标对齐文本的目标表示集合、每个目标处理音频的目标音频特征。
该步骤中,在通过高斯混合模型确定出每个样本对齐文本的第二预测对齐结果之后,基于每个样本处理音频的第二预测对齐结果以及每个样本处理音频的真实对齐结果,从多个样本对齐音频中确定出多个目标处理音频,同时,确定出每个目标处理音频对应的目标对齐文本、目标对齐文本的目标表示集合、以及每个目标处理音频的目标音频特征。
步骤4g、通过每个目标对齐文本的目标表示集合以及每个目标处理音频的目标音频特征对训练完毕的所述高斯混合模型进行二次迭代训练,直至所述高斯混合模型的结果参数大于预设参数阈值,确定所述高斯混合模型二次训练完毕。
该步骤中,通过确定出的每个目标对齐文本的目标表示集合,以及每个目标处理音频的目标音频特征,对训练完毕的高斯混合模型进行二次迭代训练,确定二次迭代训练的高斯混合模型的结果参数,直至高斯混合模型的结果参数大于预设参数阈值时,确定高斯混合模型二次迭代训练完毕。
步骤4h、将二次训练完毕的所述高斯混合模型作为所述文本对齐模型。
本申请实施例提供的音频中的文本对齐方法,获取待处理音频,以及所述待处理音频对应的待对齐文本;根据预设的所述待对齐文本所属语言种类与预设文本字符之间的映射关系,将所述待对齐文本转换为利用统一字符表示的文本表示集合;提取所述待处理音频的语音学特征;根据所述文本表示集合,确定所述待对齐文本中每个字和/或词的发音特征,并根据所述语音学特征所指示的语音频谱,确定所述待处理音频的发音特征;基于所述待对齐文本中每个字和/或词的发音特征,和所述待处理音频的发音特征,确定所述待对齐文本与所述待处理音频的多种对齐方式,以及每种对齐方式对应的对齐概率;确定所述多种对齐方式中对齐概率最大的对齐方式为所述待处理音频的文本对齐结果。
这样,本申请通过获取待处理音频,以及待处理音频对应的待对齐文本,确定待对齐文本所属语言种类,根据待对齐文本所属语言种类与预设文本字符之间的映射关系,将待对齐文本转换为利用统一字符表示的文本表示集合;从待处理音频中提取出语音学特征,将转换得到的待对齐文本的文本表示集合以及语音学特征输入至训练好的文本对齐模型中,得到待处理音频的文本对齐结果,进而,即使在待处理音频对应的待对齐文本中存在不同语言种类的文本,也可以准确地确定出待处理音频的文本对齐结果。
请参阅图3、图4,图3为本申请实施例所提供的一种音频中的文本对齐装置的结构示意图之一,图4为本申请实施例所提供的一种音频中的文本对齐装置的结构示意图之二。如图3中所示,所述文本对齐装置300包括:
获取模块310,用于获取待处理音频,以及所述待处理音频对应的待对齐文本;
转换模块320,用于根据预设的所述待对齐文本所属语言种类与预设文本字符之间的映射关系,将所述待对齐文本转换为利用统一字符表示的文本表示集合;
特征提取模块330,用于提取所述待处理音频的语音学特征;
结果确定模块340,用于将所述文本表示集合以及所述语音学特征输入至训练好的文本对齐模型中,得到所述待处理音频的文本对齐结果。
进一步的,如图4所示,所述文本对齐装置300还包括模型训练模块350,所述模型训练模块350用于:
获取多个样本处理音频和每个样本处理音频对应的样本对齐文本,以及每个样本处理音频对应的真实对齐结果;
针对于每个样本对齐文本,根据预设的所述样本对齐文本所属语言种类与预设文本字符之间的映射关系,将所述样本对齐文本转换为利用统一字符表示的样本表示集合;
提取每个样本处理音频的样本语音特征;
基于每个样本对齐文本对应的样本表示集合、每个待处理音频的样本语音特征以及每个样本处理音频对应的真实对齐结果,对构建好的高斯混合模型进行迭代训练,得到训练好的文本对齐模型。
进一步的,如图4所示,所述文本对齐装置300还包括二次训练模块360,所述二次训练模块360用于:
基于训练完毕的所述高斯混合模型,以及每个样本对齐文本对应的样本表示集合和每个样本处理音频的样本语音特征,确定每个样本处理音频的第二预测对齐结果;
基于每个样本处理音频的第二预测对齐结果以及真实对齐结果,从多个样本处理音频中确定出多个目标处理音频,并确定每个目标处理音频对应的目标对齐文本的目标表示集合、每个目标处理音频的目标音频特征;
通过每个目标对齐文本的目标表示集合以及每个目标处理音频的目标音频特征对训练完毕的所述高斯混合模型进行二次迭代训练,直至所述高斯混合模型的结果参数大于预设参数阈值,确定所述高斯混合模型二次训练完毕;
将二次训练完毕的所述高斯混合模型作为所述文本对齐模型。
进一步的,所述转换模块320在用于根据预设的所述待对齐文本所属语言种类与预设文本字符之间的映射关系,将所述待对齐文本转换为利用统一字符表示的文本表示集合时,所述转换模块320用于:
确定所述待对齐文本所属的至少一个语言种类,以及所述待对齐文本中的多个字和/或词;
按照每个语言种类与预设文本字符之间的映射关系,确定每个字和/或词对应的国际音标和音素;
基于每个字和/或词对应的国际音标和音素,以及每个字和/或词在所述待对齐文本中的位置,确定所述待对齐文本的文本表示集合。
进一步的,所述结果确定模块340在用于将所述文本表示集合以及所述语音学特征输入至训练好的文本对齐模型中,得到所述待处理音频的文本对齐结果时,所述结果确定模块340用于:
根据所述文本表示集合,确定所述待对齐文本中每个字和/或词的发音特征,并根据所述语音学特征所指示的语音频谱,确定所述待处理音频的发音特征;
基于所述待对齐文本中每个字和/或词的发音特征,和所述待处理音频的发音特征,确定所述待对齐文本与所述待处理音频的多种对齐方式,以及每种对齐方式对应的对齐概率;
确定所述多种对齐方式中对齐概率最大的对齐方式为所述待处理音频的文本对齐结果。
进一步的,所述模型训练模块350在用于基于每个样本对齐文本对应的样本表示集合、每个待处理音频的样本语音特征以及每个样本处理音频对应的真实对齐结果,对构建好的高斯混合模型进行迭代训练,得到训练好的文本对齐模型时,所述模型训练模块350用于:
将每个样本对齐文本对应的样本表示集合,以及每个样本处理音频的样本语音特征输入至构建好的高斯混合模型,得到每个样本处理音频对应的第一预测对齐结果;
基于每个样本处理音频的第一预测对齐结果以及真实对齐结果,调整所述高斯混合模型的参数;
将调整后的所述高斯混合模型作为构建好的高斯混合模型,通过每个样本对齐文本对应的样本表示集合、每个待处理音频的样本语音特征以及每个样本处理音频对应的真实对齐结果对调整后的所述高斯混合模型进行迭代训练,直至训练次数达到预设训练次数或者训练后的所述高斯混合模型收敛,确定所述高斯混合模型训练完毕;
将训练完毕的所述高斯混合模型作为所述文本对齐模型。
进一步的,所述模型训练模块350在用于根据预设的所述样本对齐文本所属语言种类与预设文本字符之间的映射关系,将所述样本对齐文本转换为利用统一字符表示的样本表示集合时,所述模型训练模块350用于:
确定所述样本对齐文本所属的至少一个语言种类,以及所述样本对齐文本中的多个字和/或词;
按照每个语言种类与预设文本字符之间的映射关系,确定所述样本对齐文本中的每个字和/或词对应的国际音标和音素;
基于所述样本对齐文本中的每个字和/或词对应的国际音标和音素,以及所述样本对齐文本中的每个字和/或词在所述样本对齐文本中的位置,确定所述样本对齐文本的样本表示集合。
本申请实施例提供的音频中的文本对齐装置,获取待处理音频,以及所述待处理音频对应的待对齐文本;根据预设的所述待对齐文本所属语言种类与预设文本字符之间的映射关系,将所述待对齐文本转换为利用统一字符表示的文本表示集合;提取所述待处理音频的语音学特征;将所述文本表示集合以及所述语音学特征输入至训练好的文本对齐模型中,得到所述待处理音频的文本对齐结果。
这样,本申请通过获取待处理音频,以及待处理音频对应的待对齐文本,确定待对齐文本所属语言种类,根据待对齐文本所属语言种类与预设文本字符之间的映射关系,将待对齐文本转换为利用统一字符表示的文本表示集合;从待处理音频中提取出语音学特征,将转换得到的待对齐文本的文本表示集合以及语音学特征输入至训练好的文本对齐模型中,得到待处理音频的文本对齐结果,进而,即使在待处理音频对应的待对齐文本中存在不同语言种类的文本,也可以准确地确定出待处理音频的文本对齐结果。
请参阅图5,图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示,所述电子设备500包括处理器510、存储器520和总线530。
所述存储器520存储有所述处理器510可执行的机器可读指令,当电子设备500运行时,所述处理器510与所述存储器520之间通过总线530通信,所述机器可读指令被所述处理器510执行时,可以执行如上述图1以及图2所示方法实施例中的音频中的文本对齐方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的音频中的文本对齐方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种音频中的文本对齐方法,其特征在于,所述文本对齐方法包括:
获取待处理音频,以及所述待处理音频对应的待对齐文本;
根据预设的所述待对齐文本所属语言种类与预设文本字符之间的映射关系,将所述待对齐文本转换为利用统一字符表示的文本表示集合;
提取所述待处理音频的语音学特征;
将所述文本表示集合以及所述语音学特征输入至训练好的文本对齐模型中,得到所述待处理音频的文本对齐结果。
2.根据权利要求1所述的文本对齐方法,其特征在于,所述根据预设的所述待对齐文本所属语言种类与预设文本字符之间的映射关系,将所述待对齐文本转换为利用统一字符表示的文本表示集合,包括:
确定所述待对齐文本所属的至少一个语言种类,以及所述待对齐文本中的多个字和/或词;
按照每个语言种类与预设文本字符之间的映射关系,确定每个字和/或词对应的国际音标和音素;
基于每个字和/或词对应的国际音标和音素,以及每个字和/或词在所述待对齐文本中的位置,确定所述待对齐文本的文本表示集合。
3.根据权利要求1所述的文本对齐方法,其特征在于,所述将所述文本表示集合以及所述语音学特征输入至训练好的文本对齐模型中,得到所述待处理音频的文本对齐结果,包括:
根据所述文本表示集合,确定所述待对齐文本中每个字和/或词的发音特征,并根据所述语音学特征所指示的语音频谱,确定所述待处理音频的发音特征;
基于所述待对齐文本中每个字和/或词的发音特征,和所述待处理音频的发音特征,确定所述待对齐文本与所述待处理音频的多种对齐方式,以及每种对齐方式对应的对齐概率;
确定所述多种对齐方式中对齐概率最大的对齐方式为所述待处理音频的文本对齐结果。
4.根据权利要求1所述的文本对齐方法,其特征在于,通过以下步骤训练所述文本对齐模型:
获取多个样本处理音频和每个样本处理音频对应的样本对齐文本,以及每个样本处理音频对应的真实对齐结果;
针对于每个样本对齐文本,根据预设的所述样本对齐文本所属语言种类与预设文本字符之间的映射关系,将所述样本对齐文本转换为利用统一字符表示的样本表示集合;
提取每个样本处理音频的样本语音特征;
基于每个样本对齐文本对应的样本表示集合、每个待处理音频的样本语音特征以及每个样本处理音频对应的真实对齐结果,对构建好的高斯混合模型进行迭代训练,得到训练好的文本对齐模型。
5.根据权利要求4所述的文本对齐方法,其特征在于,所述基于每个样本对齐文本对应的样本表示集合、每个待处理音频的样本语音特征以及每个样本处理音频对应的真实对齐结果,对构建好的高斯混合模型进行迭代训练,得到训练好的文本对齐模型,包括:
将每个样本对齐文本对应的样本表示集合,以及每个样本处理音频的样本语音特征输入至构建好的高斯混合模型,得到每个样本处理音频对应的第一预测对齐结果;
基于每个样本处理音频的第一预测对齐结果以及真实对齐结果,调整所述高斯混合模型的参数;
将调整后的所述高斯混合模型作为构建好的高斯混合模型,通过每个样本对齐文本对应的样本表示集合、每个待处理音频的样本语音特征以及每个样本处理音频对应的真实对齐结果对调整后的所述高斯混合模型进行迭代训练,直至训练次数达到预设训练次数或者训练后的所述高斯混合模型收敛,确定所述高斯混合模型训练完毕;
将训练完毕的所述高斯混合模型作为所述文本对齐模型。
6.根据权利要求5所述的文本对齐方法,其特征在于,在所述将调整后的所述高斯混合模型作为构建好的高斯混合模型,通过每个样本对齐文本对应的样本表示集合、每个待处理音频的样本语音特征以及每个样本处理音频对应的真实对齐结果对调整后的所述高斯混合模型进行迭代训练,直至训练次数达到预设训练次数或者训练后的所述高斯混合模型收敛,确定所述高斯混合模型训练完毕之后,所述文本对齐方法包括:
基于训练完毕的所述高斯混合模型,以及每个样本对齐文本对应的样本表示集合和每个样本处理音频的样本语音特征,确定每个样本处理音频的第二预测对齐结果;
基于每个样本处理音频的第二预测对齐结果以及真实对齐结果,从多个样本处理音频中确定出多个目标处理音频,并确定每个目标处理音频对应的目标对齐文本的目标表示集合、每个目标处理音频的目标音频特征;
通过每个目标对齐文本的目标表示集合以及每个目标处理音频的目标音频特征对训练完毕的所述高斯混合模型进行二次迭代训练,直至所述高斯混合模型的结果参数大于预设参数阈值,确定所述高斯混合模型二次训练完毕;
将二次训练完毕的所述高斯混合模型作为所述文本对齐模型。
7.根据权利要求4所述的文本对齐方法,其特征在于,所述根据预设的所述样本对齐文本所属语言种类与预设文本字符之间的映射关系,将所述样本对齐文本转换为利用统一字符表示的样本表示集合,包括:
确定所述样本对齐文本所属的至少一个语言种类,以及所述样本对齐文本中的多个字和/或词;
按照每个语言种类与预设文本字符之间的映射关系,确定所述样本对齐文本中的每个字和/或词对应的国际音标和音素;
基于所述样本对齐文本中的每个字和/或词对应的国际音标和音素,以及所述样本对齐文本中的每个字和/或词在所述样本对齐文本中的位置,确定所述样本对齐文本的样本表示集合。
8.一种音频中的文本对齐装置,其特征在于,所述文本对齐装置包括:
获取模块,用于获取待处理音频,以及所述待处理音频对应的待对齐文本;
转换模块,用于根据预设的所述待对齐文本所属语言种类与预设文本字符之间的映射关系,将所述待对齐文本转换为利用统一字符表示的文本表示集合;
特征提取模块,用于提取所述待处理音频的语音学特征;
结果确定模块,用于将所述文本表示集合以及所述语音学特征输入至训练好的文本对齐模型中,得到所述待处理音频的文本对齐结果。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7中任一项所述的音频中的文本对齐方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7中任一项所述的音频中的文本对齐方法的步骤。
CN202011128978.8A 2020-10-20 音频中的文本对齐方法、装置、电子设备及可读存储介质 Active CN112257407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011128978.8A CN112257407B (zh) 2020-10-20 音频中的文本对齐方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011128978.8A CN112257407B (zh) 2020-10-20 音频中的文本对齐方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112257407A true CN112257407A (zh) 2021-01-22
CN112257407B CN112257407B (zh) 2024-05-14

Family

ID=

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908308A (zh) * 2021-02-02 2021-06-04 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、装置、设备及介质
CN113112996A (zh) * 2021-06-15 2021-07-13 视见科技(杭州)有限公司 用于基于语音的音频和文本对齐的系统和方法
CN113536029A (zh) * 2021-08-05 2021-10-22 广州酷狗计算机科技有限公司 一种对齐音频和文本的方法、装置、电子设备及存储介质
CN112908308B (zh) * 2021-02-02 2024-05-14 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、装置、设备及介质

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1870728A (zh) * 2005-05-23 2006-11-29 北京大学 自动加配字幕的方法和系统
CN101651788A (zh) * 2008-12-26 2010-02-17 中国科学院声学研究所 一种在线语音文本对齐系统及方法
US20120191457A1 (en) * 2011-01-24 2012-07-26 Nuance Communications, Inc. Methods and apparatus for predicting prosody in speech synthesis
CN103165130A (zh) * 2013-02-06 2013-06-19 湘潭安道致胜信息科技有限公司 语音文本匹配云系统
US20170177551A1 (en) * 2015-12-21 2017-06-22 Verisign, Inc. Construction of a phonetic representation of a generated string of characters
CN107564511A (zh) * 2017-09-25 2018-01-09 平安科技(深圳)有限公司 电子装置、语音合成方法和计算机可读存储介质
US20180068662A1 (en) * 2016-09-02 2018-03-08 Tim Schlippe Generation of text from an audio speech signal
CN109036384A (zh) * 2018-09-06 2018-12-18 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN109102800A (zh) * 2018-07-26 2018-12-28 广州酷狗计算机科技有限公司 一种确定歌词显示数据的方法和装置
CN109215632A (zh) * 2018-09-30 2019-01-15 科大讯飞股份有限公司 一种语音评测方法、装置、设备及可读存储介质
CN109256152A (zh) * 2018-11-08 2019-01-22 上海起作业信息科技有限公司 语音评分方法及装置、电子设备、存储介质
TWI659411B (zh) * 2018-03-01 2019-05-11 大陸商芋頭科技(杭州)有限公司 一種多語言混合語音識別方法
CN110148427A (zh) * 2018-08-22 2019-08-20 腾讯数码(天津)有限公司 音频处理方法、装置、系统、存储介质、终端及服务器
US20190295527A1 (en) * 2018-03-20 2019-09-26 International Business Machines Corporation Analyzing messages with typographic errors due to phonemic spellings using text-to-speech and speech-to-text algorithms
CN110782875A (zh) * 2019-10-16 2020-02-11 腾讯科技(深圳)有限公司 一种基于人工智能的语音韵律处理方法及装置
CN110797016A (zh) * 2019-02-26 2020-02-14 北京嘀嘀无限科技发展有限公司 一种语音识别方法、装置、电子设备及存储介质
CN111091834A (zh) * 2019-12-23 2020-05-01 科大讯飞股份有限公司 文本与音频对齐方法及相关产品
CN111105785A (zh) * 2019-12-17 2020-05-05 广州多益网络股份有限公司 一种文本韵律边界识别的方法及装置
CN111292720A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备
WO2020173134A1 (zh) * 2019-02-27 2020-09-03 平安科技(深圳)有限公司 一种基于注意力机制的语音合成方法及装置

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1870728A (zh) * 2005-05-23 2006-11-29 北京大学 自动加配字幕的方法和系统
CN101651788A (zh) * 2008-12-26 2010-02-17 中国科学院声学研究所 一种在线语音文本对齐系统及方法
US20120191457A1 (en) * 2011-01-24 2012-07-26 Nuance Communications, Inc. Methods and apparatus for predicting prosody in speech synthesis
CN103165130A (zh) * 2013-02-06 2013-06-19 湘潭安道致胜信息科技有限公司 语音文本匹配云系统
US20170177551A1 (en) * 2015-12-21 2017-06-22 Verisign, Inc. Construction of a phonetic representation of a generated string of characters
US20180068662A1 (en) * 2016-09-02 2018-03-08 Tim Schlippe Generation of text from an audio speech signal
CN107564511A (zh) * 2017-09-25 2018-01-09 平安科技(深圳)有限公司 电子装置、语音合成方法和计算机可读存储介质
TWI659411B (zh) * 2018-03-01 2019-05-11 大陸商芋頭科技(杭州)有限公司 一種多語言混合語音識別方法
US20190295527A1 (en) * 2018-03-20 2019-09-26 International Business Machines Corporation Analyzing messages with typographic errors due to phonemic spellings using text-to-speech and speech-to-text algorithms
CN109102800A (zh) * 2018-07-26 2018-12-28 广州酷狗计算机科技有限公司 一种确定歌词显示数据的方法和装置
CN110148427A (zh) * 2018-08-22 2019-08-20 腾讯数码(天津)有限公司 音频处理方法、装置、系统、存储介质、终端及服务器
CN109036384A (zh) * 2018-09-06 2018-12-18 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN109215632A (zh) * 2018-09-30 2019-01-15 科大讯飞股份有限公司 一种语音评测方法、装置、设备及可读存储介质
CN109256152A (zh) * 2018-11-08 2019-01-22 上海起作业信息科技有限公司 语音评分方法及装置、电子设备、存储介质
CN110797016A (zh) * 2019-02-26 2020-02-14 北京嘀嘀无限科技发展有限公司 一种语音识别方法、装置、电子设备及存储介质
WO2020173134A1 (zh) * 2019-02-27 2020-09-03 平安科技(深圳)有限公司 一种基于注意力机制的语音合成方法及装置
CN110782875A (zh) * 2019-10-16 2020-02-11 腾讯科技(深圳)有限公司 一种基于人工智能的语音韵律处理方法及装置
CN111105785A (zh) * 2019-12-17 2020-05-05 广州多益网络股份有限公司 一种文本韵律边界识别的方法及装置
CN111091834A (zh) * 2019-12-23 2020-05-01 科大讯飞股份有限公司 文本与音频对齐方法及相关产品
CN111292720A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
牛米佳;飞龙;高光来;: "蒙古语长音频语音文本自动对齐的研究", 中文信息学报, vol. 34, no. 01, pages 51 - 57 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908308A (zh) * 2021-02-02 2021-06-04 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、装置、设备及介质
CN112908308B (zh) * 2021-02-02 2024-05-14 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、装置、设备及介质
CN113112996A (zh) * 2021-06-15 2021-07-13 视见科技(杭州)有限公司 用于基于语音的音频和文本对齐的系统和方法
CN113536029A (zh) * 2021-08-05 2021-10-22 广州酷狗计算机科技有限公司 一种对齐音频和文本的方法、装置、电子设备及存储介质
CN113536029B (zh) * 2021-08-05 2023-09-05 广州酷狗计算机科技有限公司 一种对齐音频和文本的方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Kjartansson et al. Crowd-Sourced Speech Corpora for Javanese, Sundanese, Sinhala, Nepali, and Bangladeshi Bengali.
CN107086040B (zh) 语音识别能力测试方法和装置
CN103714048B (zh) 用于校正文本的方法和系统
JPWO2016092807A1 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
CN112397056B (zh) 语音评测方法及计算机存储介质
KR20170035529A (ko) 전자 기기 및 그의 음성 인식 방법
CN104008752A (zh) 语音识别装置及方法、以及半导体集成电路装置
Glasser Automatic speech recognition services: Deaf and hard-of-hearing usability
Lovenia et al. Ascend: A spontaneous chinese-english dataset for code-switching in multi-turn conversation
US20160005421A1 (en) Language analysis based on word-selection, and language analysis apparatus
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN108831503B (zh) 一种口语评测方法及装置
CN112270917A (zh) 一种语音合成方法、装置、电子设备及可读存储介质
JP6577900B2 (ja) 音素誤り獲得装置、音素誤り獲得方法、およびプログラム
Basson et al. Category-based phoneme-to-grapheme transliteration.
CN112257407B (zh) 音频中的文本对齐方法、装置、电子设备及可读存储介质
CN112309429A (zh) 一种失爆检测方法、装置、设备及计算机可读存储介质
Coto‐Solano Computational sociophonetics using automatic speech recognition
CN113393830B (zh) 混合声学模型训练及歌词时间戳生成方法、设备、介质
CN112257407A (zh) 音频中的文本对齐方法、装置、电子设备及可读存储介质
CN110428668B (zh) 一种数据提取方法、装置、计算机系统及可读存储介质
CN113053409A (zh) 音频测评方法及装置
CN113658609B (zh) 关键字匹配信息的确定方法、装置、电子设备和介质
CN112908308B (zh) 一种音频处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant