发明内容
有鉴于此,本发明实施例提供一种信息处理方法及装置,旨在提高文本信息插入韵律标记的效率和准确率。
第一方面,本发明实施例提供了一种信息处理方法,所述方法包括:
确定音频信息和对应的文本信息;
确定所述音频信息对应的多个音频特征向量;
确定所述文本信息对应的多个文本特征向量;
将各所述音频特征向量和各所述文本特征向量输入注意力机制层,输出多个权重向量序列,各所述权重向量序列中包括对应于各所述音频特征向量的多个权重向量;
根据各所述权重向量序列、各所述音频特征向量和各所述文本特征向量确定多个对应于文本信息的参考韵律等级标记;
输出具有多个参考韵律等级标记的文本信息。
进一步地,所述确定所述音频信息对应的多个音频特征向量包括:
确定所述音频信息对应的多个频域信号;
将各所述频域信号依次输入梅尔滤波器和音频编码层进行编码得到对应的音频特征向量。
进一步地,所述确定所述文本信息对应的多个文本特征向量包括:
确定所述文本信息对应的音素序列,所述音素序列中包括顺序对应于所述文本信息时间维度的多个音素;
分别将用于表征各所述音素的独热特征依次输入文本嵌入层和文本编码层,输出对应的文本特征向量。
进一步地,所述将各所述音频特征向量和各所述文本特征向量输入注意力机制层,输出多个权重向量序列包括:
以迭代方式执行以下步骤:
在时间维度上依次确定各所述文本特征向量为目标文本特征向量;
将所述目标文本特征向量和各所述音频特征向量输入注意力机制层,输出基于所述目标文本特征向量确定的各音频特征向量对应的权重向量,以确定所述目标文本特征向量对应的权重向量序列。
进一步地,所述根据各所述权重向量序列、各所述音频特征向量和各所述文本特征向量确定多个对应于文本信息的参考韵律等级标记包括:
以迭代方式在多个权重向量序列中确定目标权重向量序列;
计算各所述音频特征向量和所述目标权重向量序列中对应权重向量的乘积,以确定对应的加权音频向量;
根据各所述加权音频向量和各所述文本特征向量确定对应于所述目标权重向量序列的参考韵律等级标记。
进一步地,所述根据各所述加权音频向量和各所述文本特征向量确定对应于所述目标权重向量序列的参考韵律等级标记包括:
将各所述加权音频向量和各所述文本特征向量依次输入解码层和全连接层,得到对应于所述目标权重向量序列的参考韵律等级标记。
进一步地,所述方法还包括:
确定所述文本信息对应的多个标准韵律等级标记;
计算所述文本信息对应的多个参考韵律等级标记和标准韵律等级标记的交叉熵损失,以对所述注意力机制层进行优化。
第二方面,本发明实施例提供了一种信息处理装置,所述装置包括:
信息确定模块,用于确定音频信息和对应的文本信息;
第一向量确定模块,用于确定所述音频信息对应的多个音频特征向量;
第二向量确定模块,用于确定所述文本信息对应的多个文本特征向量;
第三向量确定模块,用于将各所述音频特征向量和各所述文本特征向量输入注意力机制层,输出多个权重向量序列,各所述权重向量序列中包括对应于各所述音频特征向量的多个权重向量;
韵律标记确定模块,用于根据各所述权重向量序列、各所述音频特征向量和各所述文本特征向量确定多个对应于文本信息的参考韵律等级标记;
信息输出模块,用于输出具有多个参考韵律等级标记的文本信息。
第三方面,本发明实施例提供了一种计算机可读存储介质,用于存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。
第四方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。
本发明实施例通过确定音频信息和对应的文本信息,得到音频信息对应的多个音频特征向量和文本信息对应的多个文本特征向量。将各音频特征向量和文本特征向量输入注意力机制层得到多个权重向量序列,以根据各权重向量序列、音频特征向量和文本特征向量确定多个对应于文本信息的参考韵律等级标记,输出具有多个参考韵律等级标记的文本信息。本发明实施例通过引入注意力机制层自动根据音频信息和对应的文本信息确定权重向量,以进一步自动生成文本信息对应的韵律等级标记,提高了文本信息韵律等级标记的效率和标记结果的准确程度。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本发明实施例可以应用于任何语音合成场景中,用于为文本信息自动添加对应的韵律等级标记,以得到具有多个参考韵律等级标记的文本信息,基于参考韵律等级标记的文本信息进行语音合成。
在本发明实施例中,信息处理方法可以通过单独服务器或服务器集群执行,或者还可以通过对应的终端设备执行。
图1为本发明实施例的信息处理方法的流程图。如图5所示,本发明实施例的信息处理方法包括以下步骤:
步骤S100、确定音频信息和对应的文本信息。
具体地,音频信息与对应的文本信息为表征相同内容、格式不同的信息。其中,音频信息是用于记载对应内容的波形信息,可以为任意音频格式。文本信息为用于记载对应内容的文字格式信息,可以为中文、英文等语言。例如,“你好”或者“hello”。可选地,音频信息和对应的文本信息可以互相转化。也就是说,音频信息和对应的文本信息可以根据需要进行语音合成的内容同时生成。或者,可以先通过波形记录需要进行语音合成的内容以得到音频信息,再通过将波形信息转化为对应的文字格式信息的方式确定文本信息。或者,还可以先通过文本格式记录需要进行语音合成的内容以得到文本信息,再通过将文本信息转化成对应的波形信息确定音频信息。
步骤S200、确定所述音频信息对应的多个音频特征向量。
具体地,在确定音频信息后,对音频信息进行特征提取以得到多个音频特征向量。进一步地,本发明实施例进行音频特征向量提取的过程还可以包括以下步骤:
步骤S210、确定所述音频信息对应的多个频域信号。
具体地,在进行特征提取前,先对音频信息当前的完整波形进行分帧处理,得到多个包括其中部分波形的音频片段。可选地,各音频片段的长度分别为一帧。再通过对各音频片段进行预处理的方式获取对应的频域信号。其中,预处理过程可以为先对各音频片段进行预加重和加窗、再进行短时傅里叶变换得到音频片段对应的频域信号。
步骤S220、将各所述频域信号依次输入梅尔滤波器和音频编码层进行编码得到对应的音频特征向量。
具体地,音频信息对应的各频域信号为线性频谱,在确定各频域信号后,通过将各频域信号输出梅尔滤波器转换为梅尔频谱、再通过音频编码层进行编码的方式得到对应的音频特征向量。也就是说,音频特征向量通过对各频域信号对应的梅尔频谱进行编码得到。
图2为本发明实施例确定音频特征向量的示意图。如图2所示,本发明实施例确定音频特征向量的过程为先确定以波形形式记载的音频信息20,再对音频信息20的波形进行分帧处理后得到多个长度为1帧的波形作为对应的音频片段21。再经过预加重、加窗和短时傅里叶变换等预处理操作后得到各音频片段21对应的频域信号22,再通过将各频域信号22分别通过音频特征提取得到对应的音频特征向量23。其中,音频特征提取过程为将各频域信号22输入梅尔滤波器滤波后,由音频编码层进行编码得到高维特征作为音频特征向量23。
步骤S300、确定所述文本信息对应的多个文本特征向量。
具体地,在确定文本信息后,对文本信息进行特征提取以得到多个文本特征向量。在本发明实施例中,对文本信息进行特征提取的过程可以和对音频信息进行特征提取的过程同时进行,或分别进行。进一步地,本发明实施例进行文本特征向量提取的过程还可以包括以下步骤:
步骤S310、确定所述文本信息对应的音素序列。
具体地,确定文本信息对应的音素序列,包括顺序对应于文本信息时间维度的多个音素。其中,音素是构成音节的最小单位或最小的语音片段。可选地,确定音素序列的过程可以为先确定文本信息中包括的各文字对应音节,再获取各音节中最小单位的音素以确定音素序列。音素序列中各音素所在位置可以根据各音节对应文字在文本信息时间维度上的位置、以及各音素在对应音节时间维度上的位置确定。
例如,当文本信息为“普通话”,时,文字“普”对应的音节为“pu”,文字“通”对应的音节为“tong”,文字“话”对应的音节为“hua”。同时,音节“pu”对应的音素依次为“p”和“u”,音节“tong”对应的音素依次为“t”和“ong”,音节“hua”对应的音素依次为“h”和“ua”。因此,根据文本信息中各文字在文本信息时间维度上的位置、以及各音素在对应音节时间维度上的位置确定音素序列为{“p”,“u”,“t”,“ong”,“h”,“ua”}。
步骤S320、分别将用于表征各所述音素的独热特征依次输入文本嵌入层和文本编码层,输出对应的文本特征向量。
具体地,在确定文本信息对应的音素序列后,对各音素序列中的音素进行独热(one-hot)编码以确定对应的独热特征。独热编码又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有他独立的寄存器位,并且在任意时候,其中只有一位有效。可选地,有效位标记为1,无效位标记为0。例如,当对状态1、状态2、状态3和状态4四个状态进行编码时,各状态对应的编码结果分别为状态1:(1,0,0,0)、状态2:(0,1,0,0)、状态3:(0,0,1,0)、状态4:(0,0,0,1)。
也就是说,对音素进行独热编码的过程为使用与音素数量N相同的N位状态寄存器来对N个音素进行编码,使得每一个音素对应一个只有一位有效的独热特征。并在确定音素序列中各音素对应的独热特征后,将各音素的独热特征输入文本嵌入层转换成预定格式,再输入文本编码层进行编码得到高维特征,以输出对应的文本特征向量。
图3为本发明实施例确定文本特征向量的示意图。如图3所示,本发明实施例确定文本特征向量的过程可以为在确定文本信息30后,先根据文本信息30中各文字对应的音节和各音节中的音素生成文本信息30对应的音素序列31。进一步确定音素序列31中的各音素32,并将对各音素32进行独热编码得到的独热特征依次输入文本嵌入层33和文本编码层34,以输出各音素32对应的文本特征向量35。
步骤S400、将各所述音频特征向量和各所述文本特征向量输入注意力机制层,输出多个对应于各所述音频特征向量的权重向量。
具体地,由于本发明实施例中音频信息对应的多个音频特征向量的划分方式为分帧,而文本信息对应的多个音频特征向量的划分方式为根据音素确定,导致多个音频特征向量与多个文本特征向量存在不对齐的问题。为防止因音频特征和文本特征不对齐导致最终韵律标记结果不准确,在通过步骤S200确定音频信息对应的多个音频特征向量,以及通过步骤S300确定文本信息对应的多个文本特征向量后,需要进一步对各音频特征向量和各文本特征向量进行对齐。在本发明实施例中,通过注意力机制对各音频特征向量和各文本特征向量进行自动对齐,以提高对齐过程的效率以及准确程度。
其中,基于注意力机制自动对齐的过程为通过将各音频特征向量和各文本特征向量输入注意力机制层的方式输出对应于各音频特征向量的权重向量。以通过各权重向量对对应的音频特征向量进行处理进行自动对齐。可选地,本发明实施例确定权重向量的过程包括以迭代方式执行的以下步骤:
步骤S410、在时间维度上依次确定各所述文本特征向量为目标文本特征向量。
具体地,根据各文本特征向量表征的音素在文本信息中时间维度上的顺序,依次确定文本特征向量为目标文本特征向量,以根据所述目标文本特征向量确定各音频特征向量的权重。在根据一个目标文本特征向量确定各音频特征向量的权重后,再进一步确定时间维度上的下一个音素对应的文本特征向量为目标文本特征向量,直到将时间维度上的最后一个音素确定为目标文本特征向量之后停止。
步骤S420、将所述目标文本特征向量和各所述音频特征向量输入注意力机制层,输出基于所述目标文本特征向量确定的各音频特征向量对应的权重向量,以确定所述目标文本特征向量对应的权重向量序列。
具体地,将目标文本特征向量和全部音频特征向量输入注意力机制层,输出基于目标文本特征向量确定的各音频特征向量对应的权重向量,并根据对应音频特征向量在时间维度上的位置确定对应的权重向量序列。
由此,可以得到各文本特征向量对应的权重向量序列,各权重向量序列中包括多个按顺序排列的权重向量,各权重向量依次对应于时间维度上的各音频特征向量。
步骤S500、根据各所述权重向量序列、各所述音频特征向量和各所述文本特征向量确定多个对应于文本信息的参考韵律等级标记。
具体地,在确定各音频特征向量的权重向量后,根据各权重向量序列、各音频特征向量和各文本特征向量确定多个对应于文本信息的参考韵律等级标记。其中,可以先根据各权重向量序列将音频特征向量和文本特征向量进行自动对齐,再基于对齐后的多个音频特征向量和文本特征向量确定多个对应于文本信息的参考韵律等级标记。参考韵律等级标记为通过本发明实施例预测得到韵律等级标记。韵律等级标记用于表征文本信息中每两个相邻文字在合成语音时对应音节或对应音素中间的停顿时长,各韵律等级标记以及各韵律等级标记和停顿时长的对应关系可以预先设定。例如,可以设定多个韵律等级标记分别为1,2,3,4,各韵律等级标记对应的停顿时长随韵律等级标记对应的数字增大而延长。
在本发明实施例中,根据各权重向量序列、各音频特征向量和各文本特征向量确定多个参考韵律等级标记的过程可以包括以下步骤:
步骤S510、以迭代方式在多个权重向量序列中确定目标权重向量序列。
具体地,根据各权重向量序列对应的文本特征向量在时间维度上的文职,依次获取权重向量序列作为目标权重向量序列,以确定对应文本特征向量的参考韵律等级标记。直到确定全部权重向量序列对应的参考韵律等级标记。
步骤S520、计算各所述音频特征向量和所述目标权重向量序列中对应权重向量的乘积,以确定对应的加权音频向量。
具体地,在确定各音频特征向量在目标权重向量序列中对应的各权重向量后,通过计算各音频特征向量和对应权重向量的乘积确定对应的加权音频向量,以使得各加权音频向量和各文本特征向量在时间维度上对齐,实现了音频信息对应特征和文本信息对应特征的自动对齐。
步骤S530、根据各所述加权音频向量和各所述文本特征向量确定对应于所述目标权重向量序列的参考韵律等级标记。
具体地,在通过加权的方式得到时间维度上对齐的多个加权音频向量和文本特征向量后,再根据多个加权音频向量和文本特征向量确定对应于该目标权重向量序列对应文本信息的参考韵律等级标记。在本发明实施例中,确定参考韵律等级标记的过程为将各加权音频向量和各文本特征向量依次输入解码层和全连接层,得到对应于该目标权重向量序列对应文本特征向量的参考韵律等级标记。其中,解码层融合各加权音频向量和各文本特征向量,全连接层用于以预定格式输出基于加权音频向量和文本特征向量得到的参考韵律等级标记。因此,根据各权重向量序列可以分别确定对应文本特征向量对应的参考韵律等级标记,即多个对应于所述文本信息的多个参考韵律等级标记。
进一步地,为提高本发明实施例中注意力机制层的准确程度,还可以在根据文本信息和音频信息确定多个参考韵律等级标记后,再确定文本信息对应的多个标准韵律等级标记,并通过计算文本信息对应的多个参考韵律等级标记和标准韵律等级标记的交叉熵损失,对注意力机制层进行优化。
图4为本发明实施例确定参考韵律等级标记的示意图。如图4所示,本发明实施例确定参考韵律等级标记的过程为先分别通过不同的编码方式对音频信息和文本信息进行编码,得到对应得多个按时间维度排列的音频特征向量组成的音频特征向量序列40,以及按时间维度排列的文本特征向量组成的文本特征向量序列41。在文本特征向量序列41中依次获取文本特征向量作为目标文本特征向量,以将目标文本特征向量和音频特征向量序列40输入注意力机制层42,输出由对应于音频特征向量序列40中各音频特征向量的权重向量组成的权重向量序列43。进一步地,在文本特征向量序列41中各文本特征向量对应的权重向量序列43中依次确定目标权重向量序列,以通过计算目标权重向量序列中各权重向量和音频特征向量序列40中各音频特征向量的乘积进行自动对齐,得到由多个加权音频向量组成的加权音频向量序列44。加权音频向量序列44与文本特征向量序列41在时间维度上对齐。将对齐的加权音频向量序列44与文本特征向量序列41一起依次输入到解码层45和全连接层46,输出对应于该目标权重向量序列对应文本特征向量对应的参考韵律等级标记。以根据文本特征向量序列中各文本特征向量对应的参考韵律等级标记确定对应于文本信息的参考韵律等级标记序列47。
在本发明实施例的一个可选地实现方式中,注意力机制层、解码层、全连接层以及用于进行特征提取的音频特征提取层和文本特征提取层还可以为同一韵律标记模型中的一部分,用于根据输入的文本信息和对应的音频信息对文本信息进行韵律等级标记。其中,音频特征提取层包括梅尔滤波器和音频编码层,文本特征提取层中还包括文本嵌入层和文本编码层。可选地,上述韵律标记模型中各部分的参数可以同时训练。
进一步地,当上述注意力机制层、解码层、全连接层以及用于进行特征提取的音频特征提取层和文本特征提取层组成韵律标记模型时,该韵律标记模型的训练过程可以为通过预先确定的训练集进行训练。训练集中包括多个音频信息、与各音频信息对应的文本信息以及与各文本信息对应的多个标准韵律等级标记。在训练过程中,将音频信息和对应的文本信息输入韵律标记模型,以通过音频特征提取层和文本特征提取层进行特征提取后输入注意力机制层进行自动对齐,再通过解码层和全连接层后输出文本信息对应的多个参考韵律等级标记。同时,再确定音频信息对应文本信息在训练集中对应的多个标准韵律等级标记,计算输入的文本信息对应的多个参考韵律等级标记和多个标准韵律等级标记的交叉熵损失,以根据交叉熵损失对整个模型进行优化。
步骤S600、输出具有多个参考韵律等级标记的文本信息。
具体地,确定文本信息对应的多个参考韵律等级标记后,根据各参考韵律等级标记在时间维度上的顺序将其插入文本信息对应的音素序列中,以输出具有多个参考韵律等级标记的文本信息。例如,当文本信息为“普通话”、各参考韵律等级标记在时间维度上依次为1、2、4、1和3时,插入参考韵律等级标记的文本信息为{“p”1“u”3“t”1“ong”2“h”1“ua”}。
本发明实施例通过引入注意力机制层自动根据音频信息和对应的文本信息确定权重向量,以实现对文本特征和音频特征自动对齐。进一步地,基于对齐的文本特征和音频特征自动生成文本信息对应的韵律等级标记,提高了文本信息韵律等级标记的效率和标记结果的准确程度。
图5为本发明实施例的信息处理装置的示意图。如图5所示,本发明实施例的信息处理装置包括信息确定模块50、第一向量确定模块51、第二向量确定模块52、第三向量确定模块53、韵律标记确定模块54和信息输出模块55。
具体地,信息确定模块50用于确定音频信息和对应的文本信息。第一向量确定模块51用于确定所述音频信息对应的多个音频特征向量。第二向量确定模块52用于确定所述文本信息对应的多个文本特征向量。第三向量确定模块53用于将各所述音频特征向量和各所述文本特征向量输入注意力机制层,输出多个权重向量序列,各所述权重向量序列中包括对应于各所述音频特征向量的多个权重向量。韵律标记确定模块54用于根据各所述权重向量序列、各所述音频特征向量和各所述文本特征向量确定多个对应于文本信息的参考韵律等级标记。信息输出模块55用于输出具有多个参考韵律等级标记的文本信息。
本发明实施例通过引入注意力机制层自动根据音频信息和对应的文本信息确定权重向量,以实现对文本特征和音频特征自动对齐。进一步地,基于对齐的文本特征和音频特征自动生成文本信息对应的韵律等级标记,提高了文本信息韵律等级标记的效率和标记结果的准确程度。
图6是本发明实施例的电子设备的示意图。如图6所示,图6所示的电子设备为通用地址查询装置,其包括通用的计算机硬件结构,其至少包括处理器60和存储器61。处理器60和存储器61通过总线62连接。存储器61适于存储处理器60可执行的指令或程序。处理器60可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器60通过执行存储器61所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线62将上述多个组件连接在一起,同时将上述组件连接到显示控制器63和显示装置以及输入/输出(I/O)装置64。输入/输出(I/O)装置64可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置64通过输入/输出(I/O)控制器65与系统相连。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
本发明的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。