CN117746866B

CN117746866B - 多语种语音转换文本方法、系统、存储介质及电子设备

Info

Publication number: CN117746866B
Application number: CN202410182538.2A
Authority: CN
Inventors: 孔欧
Original assignee: Shanghai Mido Technology Co ltd
Current assignee: Shanghai Mido Technology Co ltd
Priority date: 2024-02-19
Filing date: 2024-02-19
Publication date: 2024-05-07
Anticipated expiration: 2044-02-19
Also published as: CN117746866A

Abstract

本发明提供一种多语种语音转换文本方法、系统、存储介质及电子设备，所述方法包括以下步骤：获取多个语种的语音音频信息和对应的语音转换文本请求和语音转换文本；基于所述语音音频信息、所述语音转换文本请求和所述语音转换文本训练多语种语音文本转换模型；基于训练好的多语种语音文本转换模型将待识别语音音频信息转换为对应的文本信息。本发明的多语种语音转换文本方法、系统、存储介质及电子设备能够将不同语种的语音转换为同一语种的文本信息，快速高效。

Description

多语种语音转换文本方法、系统、存储介质及电子设备

技术领域

本发明属于深度学习的技术领域，特别是涉及一种多语种语音转换文本方法、系统、存储介质及电子设备。

背景技术

语音识别技术应用在多种场景中，例如在智能对话场景中，通过对对话者的语音数据进行语音识别，进而转换为对应的文本信息，从而便于处理应用。

在实际使用中，不同对话者的语音可能涉及不同的语种，如中文、英文、德文。现有技术中，针对每个语种，需要采用专门的模型进行语音到文本之间的转换。在多语种的场景下，上述转换方法具有以下不足。

（1）不同的模型需要单独设计，会占用不同的硬件资源。

（2）各个任务需要分别处理，无法同时处理，导致效率低下。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种多语种语音转换文本方法、系统、存储介质及电子设备，能够将不同语种的语音转换为同一语种的文本信息，快速高效。

第一方面，本发明提供一种多语种语音转换文本方法，所述方法包括以下步骤：获取多个语种的语音音频信息和对应的语音转换文本请求和语音转换文本；基于所述语音音频信息、所述语音转换文本请求和所述语音转换文本训练多语种语音文本转换模型；训练所述多语种语音文本转换模型包括获取所述语音转换文本请求和所述语音转换文本对应的文本嵌入信息；抽取所述语音音频信息的声学特征；对所述声学特征进行压缩处理，获取有效声学特征；对所述有效声学特征进行编码，获取编码声学特征；基于所述文本嵌入信息和所述编码声学特征生成所述语音音频信息对应的文本信息；基于训练好的多语种语音文本转换模型将待识别语音音频信息转换为对应的文本信息。

在第一方面的一种实现方式中，获取所述语音转换文本请求和所述语音转换文本对应的文本嵌入信息包括以下步骤：

对所述语音转换文本请求和所述语音转换文本进行分词，获取分词信息；

将所述分词信息映射为文本嵌入信息。

在第一方面的一种实现方式中，抽取所述语音音频信息的声学特征包括以下步骤：

抽取所述语音音频信息的短时傅里叶频谱特征；

基于对数梅尔滤波器组对所述短时傅里叶频谱特征进行滤波，获取所述声学特征。

在第一方面的一种实现方式中，对所述声学特征进行压缩处理，获取有效声学特征包括以下步骤：

移除所述声学特征中的空字符；

将连续相同的字符保留为单个字符。

在第一方面的一种实现方式中，对所述有效声学特征进行编码，获取编码声学特征包括以下步骤：

将所述声学特征依次输入四个transformer模型的编码层；

获取所述四个transformer模型的编码层输出的编码声学特征。

在第一方面的一种实现方式中，基于所述文本嵌入信息和所述编码声学特征生成所述语音音频信息对应的文本信息包括以下步骤：

将所述文本嵌入信息和所述编码声学特征进行正则处理，获取输入信息；

对所述输入信息进行注意力机制操作，得到注意力机制的矩阵Q、K、V；

基于所述矩阵Q、K、V生成注意力权重矩阵；

对所述注意力权重矩阵的非相关向量进行掩膜处理；

将掩膜处理后的注意力权重与矩阵V进行矩阵相乘，再经过线性层后得到矩阵V’，根据T=V’*sigmoid(P*V’) +W*V’获取输出向量，其中T表示输出向量，P和W表示预定义矩阵；

将所述输出向量经过线性层和softmax函数后，再转换为补充文本嵌入信息；根据所述补充文本嵌入信息、所述文本嵌入信息和所述编码声学特征再次获取输入信息，并得到对应的输出向量，直至所获取的所有输出向量与所述语音转换文本相一致，所述所有输出向量即为所述文本信息。

在第一方面的一种实现方式中，基于所述Q、K、V生成注意力权重包括以下步骤：

生成与矩阵Q形状相同的矩阵A和矩阵B，所述矩阵A的元素为cos(m)，所述矩阵B的元素为sin(m)，其中m = 2000^{(-2i / d)}，d为维度数，i为Q中向量对应的序号；

生成与矩阵K相同形状的矩阵C和矩阵D，其中矩阵C的元素与矩阵A的元素相同，矩阵D的元素与矩阵B的元素相同；

根据Q’=Q*A+Q*B，K’=K*C+K*D对矩阵Q和矩阵K进行位置编码；

将Q’和V’进行矩阵相乘后经过softmax函数得到注意力权重。

第二方面，本发明提供一种多语种语音转换文本系统，所述系统包括获取模块、训练模块和转换模块；

所述获取模块用于获取多个语种的语音音频信息和对应的语音转换文本请求和语音转换文本；

所述训练模块用于基于所述语音音频信息、所述语音转换文本请求和所述语音转换文本训练多语种语音文本转换模型；训练所述多语种语音文本转换模型包括获取所述语音转换文本请求和所述语音转换文本对应的文本嵌入信息；抽取所述语音音频信息的声学特征；对所述声学特征进行压缩处理，获取有效声学特征；对所述有效声学特征进行编码，获取编码声学特征；基于所述文本嵌入信息和所述编码声学特征生成所述语音音频信息对应的文本信息；

所述转换模块用于基于训练好的多语种语音文本转换模型将待识别语音音频信息转换为对应的文本信息。

第三方面，本发明提供一种电子设备，所述电子设备包括：处理器和存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行上述的多语种语音转换文本方法。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被电子设备执行时实现上述的多语种语音转换文本方法。

如上所述，本发明所述的多语种语音转换文本方法、系统、存储介质及电子设备，具有以下有益效果。

（1）能够将不同语种的语音转换为同一语种的文本信息，快速高效。

（2）无需针对不同的语种设置不同的模型，有效地减少了硬件资源和处理耗时。

（3）智能化程度高，极具实用性。

附图说明

图1显示为本发明的电子设备于一实施例中的场景示意图。

图2显示为本发明的多语种语音转换文本方法于一实施例中的流程图。

图3显示为本发明的注意力权重方法于一实施例中的框架示意图。

图4显示为本发明的多语种语音转换文本系统于一实施例中的结构示意图。

图5显示为本发明的电子设备于一实施例中的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明以下实施例提供了多语种语音转换文本方法，其可应用于如图1所示的电子设备。本发明中所述电子设备可以包括具备无线充电功能的手机11、平板电脑12、笔记本电脑13、可穿戴设备、车载设备、增强现实(Augmented Reality，AR)/虚拟现实(VirtualReality，VR)设备、超级移动个人计算机(Ultra-Mobile Personal Computer，UMPC)、上网本、个人数字助理(Personal Digital Assistant，PDA)等，本发明实施例对电子设备的具体类型不作任何限制。

例如，所述电子设备可以是具备无线充电功能的 WLAN 中的站点(STAION，ST)，可以是具备无线充电功能的蜂窝电话、无绳电话、会话启动协议(SessionInitiationProtocol，SIP)电话、无线本地环路(WirelessLocal Loop，WLL)站、个人数字处理(Personal Digital Assistant，PDA)设备、具备无线充电功能的手持设备、计算设备或其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、和/或用于在无线系统上进行通信的其它设备以及下一代通信系统，例如，5G 网络中的移动终端、未来演进的公共陆地移动网络(PublicLand Mobile Network，PLMN)中的移动终端或者未来演进的非地面网络（Non-terrestrial Network，NTN）中的移动终端等。

例如，所述电子设备可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobilecommunication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access,WCDMA)、长期演进(Long Term Evolution,LTE))、电子邮件、短消息服务(Short Messaging Service，SMS)、BT，GNSS，WLAN，NFC，FM，和/或 IR 技术等。所述 GNSS可以包括全球卫星定位系统 (Global Positioning System，GPS)，全球导航卫星系统(Global Navigation Satellite System，GLONASS)，北斗卫星导航系统(BeiDounavigation Satellite System，BDS)，准天顶卫星系统(Quasi-Zenith SatelliteSystem，QZSS)和/或星基增强系统(Satellite Based Augmentation Systems，SBAS)。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行详细描述。

如图2所示，于一实施例中，本发明的多语种语音转换文本方法包括步骤S1-步骤S3。

步骤S1、获取多个语种的语音音频信息和对应的语音转换文本请求和语音转换文本。

具体地，本发明中涉及多语种的语音到文本的转换。因此，在训练阶段，首先获取多个语种的语音音频信息和对应的语音转换文本请求和语音转换文本。其中，所述语音转换文本请求用于描述任务。例如，针对所述语音转换文本请求“将音频转录为中文”，设定一个集合，包含了需要转录的不同国家的语种；固定格式为“将[语种]音频翻译成中文”。在训练时，当训练数据是德国的语音时，就将固定格式中的[语种]替换为‘德国’，其他语言同理。在推理时，所述语音转换文本请求为“将音频翻译成中文”。

步骤S2、基于所述语音音频信息、所述语音转换文本请求和所述语音转换文本训练多语种语音文本转换模型。

具体地，训练所述多语种语音文本转换模型包括以下步骤。

21）获取所述语音转换文本请求和所述语音转换文本对应的文本嵌入信息。

其中，首先对所述语音转换文本请求和所述语音转换文本进行分词，获取分词信息。在进行分词时，对输入文本进行分词处理作为token并转化为数字ID。具体地，将所述语音转换文本进行字符级别的切分，只保留不同的字符，获得一个词表；接着将2个字符作为一个新的token，统计新token的在数据中出现的次数，如果1个字符的token，在2个字符中的token中出现，那么就将1个字符的token在词表中删去，将2个字符的token添加进词表；接着将3个字符作为新token，做法与2个字符的token类似；最终得到一个32000个词的词表，每个词对应一个ID。将所述语音转换文本请求分词为ID的序列。

然后，采用一个线性层将所述分词信息映射为文本嵌入信息。于一实施例中，所述文本嵌入信息为4096维。其中，文本嵌入（text embedding）就是将文本转成一组固定维度的向量表示，其是以文本为基本单位的。理想的text embedding应该尽可能保留文本的语义信息，相同语义但不同表述方式的文本可以被映射到同一个位置，而不同语义的文本在向量空间应该保持对应的距离。

22）抽取所述语音音频信息的声学特征。

其中，首先，抽取所述语音音频信息的短时傅里叶频谱特征。然后，设置25毫秒窗口和10毫秒移动步长，基于对数梅尔滤波器组对所述短时傅里叶频谱特征进行滤波，获取到维度为60的所述声学特征。

23）对所述声学特征进行压缩处理，获取有效声学特征。

其中，为了减少声学特征的帧的数量，对所述声学特征进行压缩处理，即移除所述声学特征中的空字符；将连续相同的字符保留为单个字符。

在本发明中，采用一个压缩模型来获取有效声学特征。所述压缩模型包括2个2D卷积层、4个transfomer encoder层、第一线性层、第一softmax函数、均值移除层。所述2D卷积层的步幅（stirde）大小为2，卷积核大小为3，进行4倍的下采样。每个transfomer encoder层都有一个带8头的512维自注意力模块和一个2048维FFN网络。4个transfomer encoder层的输出经过所述线性层和所述softmax函数，与4个transfomer encoder层的输出共同实现空字符移除和相同字符的精简。

在训练所述压缩模型时，将所述均值移除层的输出依次经过transfomer decder层、第二线性层和第二softmax函数，计算交叉熵损失；将所述transfomer encder层的输出依次经过所述第一线性层和所述第一softmax函数，计算CTC损失。根据所述交叉熵损失和所述CTC损失来优化所述压缩模型。

24）对所述有效声学特征进行编码，获取编码声学特征。

其中，将所述声学特征依次输入四个transformer模型的编码层；获取所述四个transformer模型的编码层输出的编码声学特征。前三个编码层的设置所述压缩模型相同。为了匹配文本嵌入的语义空间，最后一层的输出维度改变维4096。

25）基于所述文本嵌入信息和所述编码声学特征生成所述语音音频信息对应的文本信息。

其中，基于所述文本嵌入信息和所述编码声学特征生成所述语音音频信息对应的文本信息包括以下步骤。

A）将所述文本嵌入信息和所述编码声学特征进行正则处理，获取输入信息。

其中，将所述文本嵌入信息和所述编码声学特征组合为A，首先计算A的平方均值M=average(A²)，再根据B = (A / M) * P得到输入信息。其中，P为模型训练得到的权重矩阵。

B）对所述输入信息进行注意力机制操作，得到注意力机制的矩阵Q、K、V。

其中，如图3所示，将所述输入信息分别乘以权重系数W_q、W_k和W_v，得到矩阵Q、K、V。

C）基于所述矩阵Q、K、V生成注意力权重矩阵。

其中，生成与矩阵Q形状相同的矩阵A和矩阵B，所述矩阵A的元素为cos(m)，所述矩阵B的元素为sin(m)，其中m = 2000^{(-2i / d)}，d为维度数，如4096，i为矩阵Q中向量对应的序号。生成与K相同形状的矩阵C和矩阵D，其中矩阵C的元素与矩阵A的元素相同，矩阵D的元素与矩阵B的元素相同。根据Q’=Q*A+Q*B，K’=K*C+K*D对Q和K进行位置编码。将Q’和V’进行矩阵相乘后经过softmax函数得到注意力权重。

D）对所述注意力权重矩阵的非相关向量进行掩膜处理。

E）将掩膜处理后的注意力权重与矩阵V进行矩阵相乘，再经过线性层后得到矩阵V’，根据T=V’*sigmoid(P*V’) +W*V’获取输出向量，其中T表示输出向量，P和W表示预定义矩阵。

F）将所述输出向量经过线性层和softmax函数后，再转换为补充文本嵌入信息；将所述补充文本嵌入信息加入所述输入信息，并得到对应的输出向量。

重复上述步骤F）直至所获取的所有输出向量与所述语音转换文本相一致，所述所有输出向量即为所述文本信息。

其中，该步骤由堆叠的64个generator layer完成。

另外，注意力权重的值介于0～1，形状为generator layer的输入序列的长度。如果generator layer的输入序列的长度为100，那么注意力权重的形状为（100，100）。第一次完成token generator的前向推理后，会生成一个向量token1，那么这个向量token1只能与concat[文本嵌入信息，编码声学特征]和它自己相关。当完成第二次前向推理后，会产生一个向量token2，那么这个向量token2只能与concat[文本嵌入信息，编码声学特征]、向量token1和它自己相关。也就是说当前的这个token只能够与之前的输入有相关性。对所述注意力权重矩阵的非相关向量进行掩膜处理时，假设这里的concat[文本嵌入信息，编码声学特征]的总长度是3，产生向量token1后，注意力掩膜的形状应该为（4，4）。同理产生向量token2后，注意力掩膜的形状为（5，5）。不论产生多少个向量token，该向量token始终与concat[文本嵌入信息，编码声学特征]相关。非相关向量用替代，从而限制了注意力系数。因此，对所述注意力权重矩阵的非相关向量进行掩膜处理，就是仅保留文本嵌入信息、编码声学特征、已有输出向量和当前输出向量对应的注意力权重。

步骤S3、基于训练好的多语种语音文本转换模型将待识别语音音频信息转换为对应的文本信息。

具体地，当需要对待识别语音音频信息进行文本转换时，将语音转换文本请求和待识别语音音频信息输入所述多语种语音文本转换模型，即可得到转换后的文本信息。

本发明实施例所述的多语种语音转换文本方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

本发明实施例还提供一种多语种语音转换文本系统，所述多语种语音转换文本系统可以实现本发明所述的多语种语音转换文本方法，但本发明所述的多语种语音转换文本系统的实现装置包括但不限于本实施例列举的多语种语音转换文本系统的结构，凡是根据本发明的原理所做的现有技术的结构变形和替换，都包括在本发明的保护范围内。

如图4所示，于一实施例中，本发明的多语种语音转换文本系统包括获取模块41、训练模块42和转换模块43。

所述获取模块41用于获取多个语种的语音音频信息和对应的语音转换文本请求和语音转换文本。

所述训练模块42与所述获取模块41相连，用于基于所述语音音频信息、所述语音转换文本请求和所述语音转换文本训练多语种语音文本转换模型；训练所述多语种语音文本转换模型包括获取所述语音转换文本请求和所述语音转换文本对应的文本嵌入信息；抽取所述语音音频信息的声学特征；对所述声学特征进行压缩处理，获取有效声学特征；对所述有效声学特征进行编码，获取编码声学特征；基于所述文本嵌入信息和所述编码声学特征生成所述语音音频信息对应的文本信息。

所述转换模块43与所述训练模块42相连，用于基于训练好的多语种语音文本转换模型将待识别语音音频信息转换为对应的文本信息。

其中，获取模块41、训练模块42和转换模块43的结构和原理与上述多语种语音转换文本方法中的步骤一一对应，故在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置或方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如，模块/单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或单元可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的，作为模块/单元显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本发明实施例的目的。例如，在本发明各个实施例中的各功能模块/单元可以集成在一个处理模块中，也可以是各个模块/单元单独物理存在，也可以两个或两个以上模块/单元集成在一个模块/单元中。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本发明实施例还提供了一种计算机可读存储介质。本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性（non-transitory）介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带（magnetictape），软盘（floppy disk），光盘（optical disc）及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如数字视频光盘（digital video disc，DVD））、或者半导体介质（例如固态硬盘（solid state disk，SSD））等。

本发明实施例还提供了一种电子设备。所述电子设备包括处理器和存储器。

所述存储器用于存储计算机程序。

所述存储器包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

所述处理器与所述存储器相连，用于执行所述存储器存储的计算机程序，以使所述电子设备执行上述的多语种语音转换文本方法。

优选地，所述处理器可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

如图5所示，本发明的电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于：一个或者多个处理器或者处理单元51，存储器52，连接不同系统组件（包括存储器52和处理单元51）的总线53。

总线53表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构（ISA）总线，微通道体系结构（MAC）总线，增强型ISA总线、视频电子标准协会（VESA）局域总线以及外围组件互连（PCI）总线。

电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器52可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）521和/或高速缓存存储器522。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统523可以用于读写不可移动的、非易失性磁介质（图5未显示，通常称为“硬盘驱动器”）。尽管图5中未示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如CD-ROM ，DVD-ROM或者其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线53相连。存储器52可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组（至少一个）程序模块5241的程序/实用工具524，可以存储在例如存储器52中，这样的程序模块5241包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块5241通常执行本发明所描述的实施例中的功能和/或方法。

电子设备也可以与一个或多个外部设备（例如键盘、指向设备、显示器等）通信，还可与一个或者多个使得用户能与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备（例如网卡，调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口54进行。并且，电子设备还可以通过网络适配器55与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图5所示，网络适配器55通过总线53与电子设备的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种多语种语音转换文本方法，其特征在于，所述方法包括以下步骤：

获取多个语种的语音音频信息和对应的语音转换文本请求和语音转换文本；

基于所述语音音频信息、所述语音转换文本请求和所述语音转换文本训练多语种语音文本转换模型；训练所述多语种语音文本转换模型包括获取所述语音转换文本对应的文本嵌入信息；抽取所述语音音频信息的声学特征；对所述声学特征进行压缩处理，获取有效声学特征；对所述有效声学特征进行编码，获取编码声学特征；基于所述文本嵌入信息和所述编码声学特征生成所述语音音频信息对应的文本信息；

基于训练好的多语种语音文本转换模型将待识别语音音频信息转换为对应的文本信息；

基于所述文本嵌入信息和所述编码声学特征生成所述语音音频信息对应的文本信息包括以下步骤：

基于所述矩阵Q、K、V生成注意力权重矩阵；

对所述注意力权重矩阵的非相关向量进行掩膜处理；

2.根据权利要求1所述的多语种语音转换文本方法，其特征在于：获取所述语音转换文本请求和所述语音转换文本对应的文本嵌入信息包括以下步骤：

将所述分词信息映射为文本嵌入信息。

3.根据权利要求1所述的多语种语音转换文本方法，其特征在于：抽取所述语音音频信息的声学特征包括以下步骤：

抽取所述语音音频信息的短时傅里叶频谱特征；

4.根据权利要求1所述的多语种语音转换文本方法，其特征在于：对所述声学特征进行压缩处理，获取有效声学特征包括以下步骤：

移除所述声学特征中的空字符；

将连续相同的字符保留为单个字符。

5.根据权利要求1所述的多语种语音转换文本方法，其特征在于：对所述有效声学特征进行编码，获取编码声学特征包括以下步骤：

将所述有效声学特征依次输入四个transformer模型的编码层；

获取所述四个transformer模型的编码层输出的编码声学特征。

6.根据权利要求1所述的多语种语音转换文本方法，其特征在于：基于所述矩阵Q、K、V生成注意力权重包括以下步骤：

根据Q’=Q*A+Q*B，K’=K*C+K*D对矩阵Q和矩阵K进行位置编码；

将Q’和V’进行矩阵相乘后经过softmax函数得到注意力权重。

7.一种多语种语音转换文本系统，其特征在于，所述系统包括获取模块、训练模块和转换模块；

所述训练模块用于基于所述语音音频信息、所述语音转换文本请求和所述语音转换文本训练多语种语音文本转换模型；训练所述多语种语音文本转换模型包括获取所述语音转换文本对应的文本嵌入信息；抽取所述语音音频信息的声学特征；对所述声学特征进行压缩处理，获取有效声学特征；对所述有效声学特征进行编码，获取编码声学特征；基于所述文本嵌入信息和所述编码声学特征生成所述语音音频信息对应的文本信息；

所述转换模块用于基于训练好的多语种语音文本转换模型将待识别语音音频信息转换为对应的文本信息；

基于所述矩阵Q、K、V生成注意力权重矩阵；

对所述注意力权重矩阵的非相关向量进行掩膜处理；

8.一种电子设备，其特征在于，所述电子设备包括：处理器和存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行权利要求1至6中任一项所述的多语种语音转换文本方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被电子设备执行时实现权利要求1至6中任一项所述的多语种语音转换文本方法。