CN112800782A

CN112800782A - 融合文本语义特征的语音翻译方法、系统、设备

Info

Publication number: CN112800782A
Application number: CN202110127939.4A
Authority: CN
Inventors: 周玉; 刘宇宸; 张家俊; 宗成庆
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-05-14
Anticipated expiration: 2041-01-29
Also published as: CN112800782B

Abstract

本发明属于机器翻译领域，具体涉及一种融合文本语义特征的语音翻译方法、系统、设备，旨在解决现有语音翻译方法难以融合不同模态之间的信息，无法充分利用语音识别和机器翻译领域的数据，导致翻译性能较差的问题。本发明方法包括获取待翻译的源语言语音数据；提取源语言语音数据对应的语音特征序列；并获取各语音特征对应的声学表征；将声学表征的隐向量映射到源语言词表，并通过softmax函数得到语音特征序列每个时刻被识别为源语言词表中的词语的概率；对声学表征进行过滤处理，并通过第二编码器得到过滤后的声学特征对应的语义表征；基于语义表征，通过解码器得到源语言语音数据对应的目标语言翻译文本。本发明提高了语音翻译的性能。

Description

融合文本语义特征的语音翻译方法、系统、设备

技术领域

本发明属于机器翻译领域，具体涉及一种融合文本语义特征的语音翻译方法、系统、设备。

背景技术

随着全球化信息社会的发展，人们在经济、商贸、体育、文化、旅游等各个领域的交流日益频繁，不同语言之间的信息交流已经成为信息交往中的重要组成部分，随之而来的各种语言服务，尤其是翻译服务的需求也越来越广泛。由于国际会议、跨国商业会谈、跨境电商、出国旅游等各个领域频繁使用口语、语音作为信息交流的直接媒介，语音翻译已经成为人们迫切需要而备受关注的技术。语音翻译服务是指将一种自然语言(一般称为源语言)的语音翻译为另一种自然语言(一般称为目标语言)的语音或文本的服务。近年来，随着人工智能技术在语音识别、文本机器翻译等领域蓬勃发展，与之相关联的语音翻译技术逐渐成为学术界和企业界竞相研究的热点。

为了提供语音翻译服务，目前的语音翻译系统通常由语音识别、文本机器翻译等多个模块级联组成。这种系统构建方法简单、模块集成度高，是目前工业界采用的主流范式。但是这种级联系统面临着噪声容错、断句标点、时间延迟等一系列技术难题，亟需一种全新的解决方案。端到端语音翻译技术在理论上可以缓解传统级联系统面临的缺陷，它通过构造一个完整的神经网络模型，联合优化语音识别、识别后处理和机器翻译，建立源语言语音序列到目标语言文本序列的直接映射关系，进而实现从源语言语音到目标语言翻译文本的翻译过程。

目前端到端的语音翻译相关研究仍处于早期探索的阶段。现有方法只是简单得将基于编、解码器结构的端到端语音识别或者机器翻译模型应用到语音翻译任务上，未能充分利用语音识别和机器翻译领域已积累的大量数据，也未考虑语音和文本模态之间的区别，导致翻译性能较差。为了解决这些问题，本发明提出了一种融合文本语义特征的语音翻译方法。

发明内容

为了解决现有技术中的上述问题，即为了解决现有语音翻译方法难以融合不同模态之间的信息，无法充分利用语音识别和机器翻译领域的数据，导致翻译性能较差的问题，本发明第一方面，提出了一种融合文本语义特征的语音翻译方法，该方法包括以下步骤：

S10，获取待翻译的源语言语音数据，作为输入数据；

S20，利用滤波器组提取所述输入数据对应的语音特征序列；并通过预构建的第一编码器获取所述语音特征序列中各语音特征对应的声学表征；

S30，通过预构建的词嵌入矩阵将所述声学表征的隐向量映射到源语言词表，并通过softmax函数得到输出标签序列中各输出标签的概率分布；所述输出标签序列中每个时刻的输出标签对应语音特征序列每个时刻被识别为源语言词表中的词语；

S40，选取所述输出标签序列每个时刻概率分布中最大概率对应的输出标签并判断其是否为空白标签或连续重复标签，若是，则将该输出标签对应时刻的声学表征进行过滤处理；通过预构建的第二编码器得到过滤后的声学特征对应的语义表征；

S50，基于所述语义表征，通过预构建的解码器得到所述源语言语音数据对应的目标语言翻译文本。

在一些优选的实施方式中，所述第一编码器、第二编码器基于自注意力机制、前馈神经网络构建；所述解码器基于自注意力机制、跨注意力机制及前馈神经网络构建；所述跨注意力机制为解码器到第二编码器的自注意力机制。

在一些优选的实施方式中，所述第一编码器、所述第二编码器与所述解码器的训练方法为：

获取源语言语音数据及对应的源语言转录文本、目标语言翻译参考文本，构建训练数据；

基于所述训练数据中的源语言语音数据，通过步骤S20-S30的方法，获取第一输出标签序列中各输出标签的概率分布；所述第一输出标签序列中每个时刻的输出标签对应语音特征序列每个时刻被识别为源语言词表中的词语；

从第一输出标签序列中选取所有通过删除空白标签和/或连续重复标签后能还原回源语言转录文本的标签序列作为第二输出标签序列，并构建第二输出标签序列集合；将各第二输出标签序列中各输出标签对应的概率相乘作为第二输出标签序列的概率；将所述第二输出标签序列集合中各第二输出标签序列的概率求和取负对数作为连接时序分类损失；

选取第一输出标签序列每个时刻概率分布中最大概率对应的输出标签，并通过步骤S40的方法得到过滤后的声学特征对应的语义表征，作为第一语义表征；

对所述源语言转录文本，通过所述词嵌入矩阵获取其每个词语对应的词向量表示，并通过预构建的第二编码器得到对应的语义表征，作为第二语义表征；计算所述第一语义表征与所述第二语义表征差的L2范数，作为距离损失；

基于所述第一语义表征，通过所述解码器得到目标语言翻译文本，作为第一目标语言翻译文本；基于所述第一目标语言翻译文本、所述目标语言翻译参考文本，计算语音翻译的交叉熵损失；

基于所述第二语义表征，通过所述解码器得到目标语言翻译文本，作为第二目标语言翻译文本；基于所述第二目标语言翻译文本、所述目标语言翻译参考文本，计算文本翻译的交叉熵损失；

将连接时序分类损失、距离损失、语音翻译的交叉熵损失和文本翻译的交叉熵损失进行加和，得到总损失；基于所述总损失，通过梯度反向传播算法更新第一编码器、第二编码器和解码器的参数；

循环执行上述的训练过程，直至得到训练好的第一编码器、第二编码器和解码器。

在一些优选的实施方式中，“利用滤波器组提取所述输入数据对应的语音特征序列”，其方法为：

将源语言语音数据按照固定长度切分，切分后，对每帧源语言语音数据进行预加重处理；

将窗函数与预加重处理后的源语音数据相乘，并通过离散傅里叶变换方法进行时频信号的转换，得到源语音数据对应的功率谱；

利用滤波器组对所述功率谱进行滤波处理，得到语音特征向量；并将语音特征向量的对数作为最终的语音特征；

将每个时刻的语音特征及其后两个时刻的语音特征进行拼帧操作，并每隔设定时长采样一次；

对采样后的每个时刻的语音特征进行归一化处理，处理后构建语音特征序列。

在一些优选的实施方式中，“对每帧源语言语音数据进行预加重处理”，其方法为：

其中，N表示每一帧的长度，s(n-1)、s(n)表示第n-1、n帧的源语言语音数据，k表示预加重系数。

在一些优选的实施方式中，“计算所述第一语义表征与所述第二语义表征差的L2范数，作为距离损失”，其方法为：

其中，

表示距离损失，

表示第一语义表征的均值，

表示第二语义表征的均值。

本发明的第二方面，提出了一种融合文本语义特征的语音翻译系统，该系统包括：语音数据获取模块、声学特征提取模块、词嵌入处理模块、语义表征获取模块、翻译文本输出模块；

所述语音数据获取模块，配置为获取待翻译的源语言语音数据，作为输入数据；

所述声学特征获取模块，配置为利用滤波器组提取所述输入数据对应的语音特征序列；并通过预构建的第一编码器获取所述语音特征序列中各语音特征对应的声学表征；

所述词嵌入处理模块，配置为通过预构建的词嵌入矩阵将所述声学表征的隐向量映射到源语言词表，并通过softmax函数得到输出标签序列中各输出标签的概率分布；所述输出标签序列中每个时刻的输出标签对应语音特征序列每个时刻被识别为源语言词表中的词语；

所述语义表征获取模块，配置为选取所述输出标签序列每个时刻概率分布中最大概率对应的输出标签并判断其是否为空白标签或连续重复标签，若是，则将该输出标签对应时刻的声学表征进行过滤处理；通过预构建的第二编码器得到过滤后的声学特征对应的语义表征；

所述翻译文本输出模块，配置为基于所述语义表征，通过预构建的解码器得到所述源语言语音数据对应的目标语言翻译文本。

本发明的第三方面，提出了一种设备，包括：至少一个处理器；以及与至少一个所述处理器通信连接的存储器；其中，所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述的融合文本语义特征的语音翻译方法。

本发明的第四方面，提出了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的融合文本语义特征的语音翻译方法。

本发明的有益效果：

本发明提高了语音翻译的翻译性能。本发明通过将编码器拆分为声学表征提取器和语义表征提取器，并将声学特征的冗余信息过滤缩减到与对应文本一致的长度，进而使用多任务学习方法与文本语义特征进行深层次融合，并借助已有语音识别和文本机器翻译的数据提升语音翻译模型的性能。通过本发明方案，可以生成包含更多语义信息的语音特征表示，也可以更容易地利用额外的语音识别和文本机器翻译领域的数据辅助训练，因此可以有效提高端到端语音翻译模型的翻译性能，且具有很强的可扩展性。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本申请的其他特征、目的和优点将会变得更明显。

图1是本发明一种实施例的融合文本语义特征的语音翻译方法的流程示意图；

图2是本发明一种实施例的融合文本语义特征的语音翻译系统的结构示例图；

图3是本发明一种实施例的融合文本语义特征的语音翻译方法的简略流程示意图；

图4是本发明一种实施例的第一编码器、第二编码器和解码器的训练过程的简略流程示意图；

图5是本发明一种实施例的过滤声学表征冗余信息的过滤器的结构示意图；

图6是本发明一种实施例的适于用来实现本申请实施例的电子设备的计算机系统的结构示意图；

图7是本发明一种实施例的第一编码器、第二编码器和解码器的训练过程的详细流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的一种融合文本语义特征的语音翻译方法，如图1、图3所示，包括以下步骤：

S10，获取待翻译的源语言语音数据，作为输入数据；

为了更清晰地对本发明融合文本语义特征的语音翻译方法进行说明，下面结合附图对本发明方法实施例中各步骤展开详述。

在下述实施例中，先对第一编码器、第二编码器、解码器的训练过程进行详述，再对融合文本语义特征的语音翻译方法获取源语言语音数据对应的翻译文本的过程进行详述。

1、第一编码器、第二编码器、解码器的训练过程，如图4、图7所示，其中，第一编码器即图4中的声学表征编码器，第二编码器即图4中的语义表征编码器

A10，获取源语言语音数据及对应的源语言转录文本、目标语言翻译参考文本，构建训练数据；

在本实施例中，获取训练数据，训练数据包括源语言语音数据及对应的源语言转录文本、目标语言翻译参考文本。

A20，利用滤波器组提取所述源语言语音数据对应的语音特征序列；并通过预构建的第一编码器获取所述语音特征序列中各语音特征对应的声学表征；

在本实施例中，利用滤波器组提取源语言语音数据对应的语音特征序列，具体过程如下：

A21，将源语言语音数据按照固定长度切分，本发明中优选取每帧25ms，帧迭为10ms；

A22，以帧为单位将切分后的源语言语音数据进行预加重处理，目的是加强高频信号，预加重处理过程如公式(1)所示：

其中，N为每一帧源语言语音数据的长度，s(n-1)、s(n)表示第n-1、n帧的源语言语音数据，k为预加重系数，本发明优选设置为0.95。

A23，将每一帧预加重处理后的源语言语音数据，与窗函数对应相乘，以消除各帧两端造成的信号不连续性，这里选择矩形窗作为窗函数，窗内的值设定为1，窗外的值设定为0，如公式(2)所示：

其中，M表示窗口大小。

A24，使用短时离散傅里叶变换将A23处理后的源语言语音数据由时域信号转换为频域信号，并计算频域信号对应的功率谱，转换如公式(3)(4)所示：

其中，N表示傅里叶变换中采样点的个数，K是频谱系数的个数，且K≥N，X(k)表示第k个采样点对应的傅里叶频谱值，x[n]为时域波形第n个采样点的值，P表示功率谱。

A25，设定频率上限和下限，使用滤波器组(本发明中优选为梅尔滤波器组)屏蔽不需要或者有噪声的频率范围(即过滤能量谱中的噪声)，梅尔滤波器组中滤波器个数取80，得到语音特征向量Fbank，特征提取过程如公式(5)所示：

Fbank＝P·Mel^T (5)

其中，Mel表示Mel滤波器，P表示功率谱。

取语音特征向量的对数作为最终的语音特征logFbank，如公式(6)所示：

logFbank＝log(Fbank) (6)

A26，将每个时刻的语音特征及其后两个时刻的语音特征进行拼帧操作，拼帧后的语音特征维度为240维，并每隔设定时长采样一次，得到采样后的语音特征序列；本发明中设定时长优选设置为30ms，即每三个时刻采样一次。

A27，取采样后的语音特征序列的均值和方差，对每个时刻的语音特征进行归一化操作，构建新的语音特征序列，作为最终构建的语音特征序列。

将最终构建好的语音特征序列中的语音特征输入到N层由自注意力机制和前馈神经网络组成的第一编码器中得到对应的声学特征；本发明中设定层数N优选设置为6。具体为：

将语音特征序列s输入到前馈神经网络EncPre中，将语音特征序列映射到与模型隐层单元相同的维度得到映射后的语音特征序列

，如公式(7)所示：

将映射后的语音特征序列输入到N层由自注意力机制和前馈神经网络组成的第一编码器Enca中，得到对应的声学表征h，如公式(8)所示：

A30，通过预构建的词嵌入矩阵将所述声学表征的隐向量映射到源语言词表，并通过softmax函数得到第一输出标签序列中各输出标签的概率分布；所述第一输出标签序列中每个时刻的输出标签对应语音特征序列每个时刻被识别为源语言词表中的词语；

在本实施例中，将声学表征h乘以词嵌入矩阵

使其维度映射到源语言词表(为预构建的词表)大小，使用softmax函数得到输出标签序列π中各输出标签的概率分布，序列π中每个时刻的输出标签π_t对应语音特征序列每个时刻可能被识别成的词语，输出序列对应的概率p(π|s)具体获取过程如公式(9)所示：

其中，T_s表示语音特征序列的长度。

A40，从第一输出标签序列中选取所有通过删除空白标签和/或连续重复标签后能还原回源语言转录文本的标签序列作为第二输出标签序列，并构建第二输出标签序列集合；将各第二输出标签序列中各输出标签对应的概率相乘作为第二输出标签序列的概率；将所述第二输出标签序列集合中各第二输出标签序列的概率求和取负对数作为连接时序分类损失；

在本实施例中，从第一输出标签序列中选取能够被映射函数

还原回源语言转录文本x的序列，即

即选取通过删除空白标签和/或连续重复标签后能还原回源语言转录文本的输出标签序列，作为第二输出标签序列，并构建第二输出标签序列集合。其中映射函数的作用是去除输出序列中的空白标签和连续重复标签(空白标签即出现空的词语，连续重复标签即出现连续重复的词语)，例如，

表示输出序列π＝a-abbb-通过映射函数

可以被还原成对应序列x＝aab。

将各第二输出标签序列中输出标签对应的概率进行连乘，作为第二输出标签序列的概率；将第二输出标签序列集合中各第二输出标签序列的概率求和并取和的负对数作为连接时序分类损失，如公式(10)(11)所示：

其中，

表示连接时序分类损失，p(x|s)表示删除空白标签和/或连续重复标签后能还原回源语言转录文本的第二输出标签序列的概率。

A50，选取所述第一输出标签序列每个时刻概率分布中最大概率对应的输出标签并判断其是否为空白标签或连续重复标签，若是，则将该输出标签对应时刻的声学表征进行过滤处理；通过所述第二编码器得到过滤后的声学特征对应的语义表征，作为第一语义表征；

在本实施例中，选取第一输出标签序列每个时刻概率分布最大的输出标签，如果该时刻的标签对应非空白标签且非连续重复标签，则将该时刻的声学表征保留，否则将被过滤(即通过冗余特征过滤器进行过滤，冗余特征过滤器的结构如图5所示，图5中最下方显示了每个时刻每个标签的预测输出概率(仅画出了部分标签作为示意)，只有在当前时刻的最大预测概率对应的输出标签为非空白标签和非连续重复标签时，该时刻的声学表征才会被提取，如图5中黑色方块；其他时刻的声学表征将被过滤，如图5中白色方块)，所有保留的声学表征组成过滤后的声学表征

将过滤后的声学表征输入N层由自注意力机制和前馈神经网络组成的第二编码器Enc_s中，编码对应的语义表征作为第一语义表征h_s。如公式(12)所示：

A60，对所述源语言转录文本，通过所述词嵌入矩阵获取其每个词语对应的词向量表示，并通过预构建的第二编码器得到对应的语义表征，作为第二语义表征；计算所述第一语义表征与所述第二语义表征差的L2范数，作为距离损失；

在本实施例中，通过预构建的词嵌入矩阵在源语言转录文本查找每个词语对应的词向量表示，并将各词向量表示输入到N层由自注意力机制和前馈神经网络组成的第二编码器Enc_t中，得到源语言文本对应的语义表征，作为第二语义表征。如公式(13)(14)所示：

e_x＝Emb(x) (13)

h_x＝Enc_t(e_x) (14)

其中，e_x表示源语言转录文本中每个词对应的词向量表示，Enc_s(·)与Enc_t(·)共享参数，即Enc_s(·)＝Enc_t(·)。

计算第一语义表征与第二语义表征差的L2范数，作为距离损失，有两种方法：

第一种方法：计算第一语义表征序列的长度，计算第二语义表征序列的长度，将长度较短的序列的末尾进行补零操作，补齐到与长度较长的序列一致，进而计算两个序列每个时刻表征差的L2范数；

第二种方法：计算第一语义表征的均值

计算第二语义表征的均值

进而计算两个均值的差的L2范数，作为距离损失。如公式(15)所示：

其中，

表示距离损失。

A70，基于所述第一语义表征，通过所述解码器得到目标语言翻译文本，作为第一目标语言翻译文本；基于所述第一目标语言翻译文本、所述目标语言翻译参考文本，计算语音翻译的交叉熵损失；

在本实施例中，通过预构建的词嵌入矩阵，根据目标语言对应的翻译文本查找每个词语对应的词向量表示，如公式(16)所示：

e_y＝Emb(y) (16)

其中，e_y表示目标语言翻译文中每个词语对应的词向量表示。

将词向量表示输入到一个N层由自注意力机制、跨注意力机制(即解码器到第二编码器的自注意力机制)和前馈神经网络组成的解码器中得到解码器的隐向量表示h_sd，并乘以词嵌入矩阵将其隐向量维度映射到词表大小，使用softmax函数得到概率输出序列p(y|s)，该序列的每个时刻对应翻译为目标语言词表中每个词语的概率，进而得到目标语言翻译文本。其中词嵌入矩阵与步骤A27的词嵌入矩阵共享参数，跨注意力机制关注到第一语义表征h_s；即基于第一语义表征，通过解码器得到目标语言翻译文本，作为第一目标语言翻译文本；具体如公式(17)(18)所示：

h_sd＝Dec(h_s，e_y) (17)

其中，Dec表示解码器。

基于第一目标语言翻译文本、目标语言翻译参考文本，计算语音翻译的交叉熵损失

如公式(19)所示：

A80，基于所述第二语义表征，通过所述解码器得到目标语言翻译文本，作为第二目标语言翻译文本；基于所述第二目标语言翻译文本、所述目标语言翻译参考文本，计算文本翻译的交叉熵损失；

在本实施例中，通过词嵌入矩阵，根据目标语言对应的翻译文本查找每个词语对应的词向量表示；

将词向量表示输入到一个N层由自注意力机制和跨注意力机制和前馈神经网络组成的解码器中得到解码器的隐向量表示h_xd，并乘以词嵌入矩阵将其隐向量维度映射到词表大小，使用softmax函数得到概率输出序列p(y|x)，该序列的每个时刻翻译为目标语言词表中每个词语的概率，其中词嵌入矩阵与步骤A23的词嵌入矩阵共享参数，跨注意力机制关注到源语言文本对应的语义表征。即基于所述第二语义表征，通过所述解码器得到目标语言翻译文本，作为第二目标语言翻译文本。具体如公式(20)(21)所示：

h_xd＝Dec(h_x，e_y) (20)

结合第二目标语言翻译文本、目标语言翻译参考文本，计算文本翻译的交叉熵损失

如公式(22)所示：

A90，将连接时序分类损失、距离损失、语音翻译的交叉熵损失和文本翻译的交叉熵损失进行加和，得到总损失；基于所述总损失，通过梯度反向传播算法更新第一编码器、第二编码器和解码器的参数。

在本实施例中，将连接时序分类损失、距离损失、语音翻译的交叉熵损失和文本翻译的交叉熵损失加权求和作为最终的损失函数。如公式(23)所示：

其中，

表示总损失。

对最终的损失函数求导，得到整个神经网络模型参数的梯度，并进行梯度反向传播更新整个神经网络模型(即编码器和解码器)的参数，即获取通过最终的损失函数获取总损失，并更新编码器和解码器的参数。

A100，循环执行步骤A10-A90，直至得到训练好的第一编码器、第二编码器和解码器。

在本实施例中，循环对第一编码器、第二编码器和解码器进行训练，直至收敛，得到训练好的第一、第二编码器和解码器。

2、融合文本语义特征的语音翻译方法

S10，获取待翻译的源语言语音数据，作为输入数据；

在本实施例中，获取待翻译的源语言语音数据。

在本实施例中，利用滤波器组提取源语言语音数据对应的语音特征序列，并输入上述训练好的第一编码器，得到语音特征序列中各语音特征对应的声学表征。

在本实施例中，将声学表征乘以预构建的词嵌入矩阵将其隐向量维度映射到源语言词表，并使用softmax函数得到输出标签序列中各输出标签的概率分布，其中，输出标签序列中每个时刻的输出标签对应语音特征序列每个时刻被识别为源语言词表中的词语。即通过softmax函数得到语音特征序列每个时刻被识别为源语言词表中的词语的概率分布。

在本实施例中，选取输出标签序列中每个时刻概率分布最大的输出标签，如果该时刻的标签对应非空白标签且非连续重复标签，则将该时刻的声学表征保留，否则将被过滤。将过滤后的声学特征，通过预构建的第二编码器得到过滤后的声学特征对应的语义表征。

在本实施例中，将语义特征输入上述训练好的解码器中，得到源语言语音数据对应的目标语言翻译文本。

本发明第二实施例的一种融合文本语义特征的语音翻译系统，如图2所示，该系统包括：语音数据获取模块100、声学特征提取模块200、词嵌入处理模块300、语义表征获取模块400、翻译文本输出模块500；

所述语音数据获取模块100，配置为获取待翻译的源语言语音数据，作为输入数据；

所述声学特征获取模块200，配置为利用滤波器组提取所述输入数据对应的语音特征序列；并通过预构建的编码器获取所述语音特征序列中各语音特征对应的声学表征；

所述词嵌入处理模块300，配置为通过预构建的词嵌入矩阵将所述声学表征的隐向量映射到源语言词表，并通过softmax函数得到输出标签序列中各输出标签的概率分布；所述输出标签序列中每个时刻的输出标签对应语音特征序列每个时刻被识别为源语言词表中的词语；

所述语义表征获取模块400，配置为选取所述输出标签序列每个时刻概率分布中最大概率对应的输出标签并判断其是否为空白标签或连续重复标签，若是，则将该输出标签对应时刻的声学表征进行过滤处理；通过预构建的第二编码器得到过滤后的声学特征对应的语义表征；

所述翻译文本输出模块500，配置为基于所述语义表征，通过预构建的解码器得到所述源语言语音数据对应的目标语言翻译文本。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统具体的工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的融合文本语义特征的语音翻译系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定

本发明第四实施例，提出了一种设备，包括：至少一个处理器；以及与至少一个所述处理器通信连接的存储器；其中，所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述的融合文本语义特征的语音翻译方法。

本发明第四实施例，提出了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的融合文本语义特征的语音翻译方法。

所述技术领域的技术人员可以清楚的了解到，未描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考签署方法实例中的对应过程，在此不再赘述。

下面参考图6，其示出了适于用来实现本申请方法、系统、设备实施例的服务器的计算机系统的结构示意图。图6示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统包括中央处理单元(CPU，Central Processing Unit)601，其可以根据存储在只读存储器(ROM，Read Only Memory)602中的程序或者从存储部分608加载到随机访问存储器(RAM，Random Access Memory)603中的程序而执行各种适当的动作和处理。在RAM603中，还存储有系统操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O，Input/Output)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT，Cathode Ray Tube)、液晶显示器(LCD，Liquid Crystal Display)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN(局域网，Local AreaNetwork)卡、调制解调器等的网络接口卡的通讯部分609。通讯部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通讯部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU601执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种融合文本语义特征的语音翻译方法，其特征在于，该方法包括以下步骤：

S10，获取待翻译的源语言语音数据，作为输入数据；

S20，利用滤波器组提取所述输入数据对应的语音特征序列；并通过预构建的第一编码器获取所述语音特征序列中语音特征对应的声学表征；

2.根据权利要求1所述的融合文本语义特征的语音翻译方法，其特征在于，所述第一编码器、第二编码器基于自注意力机制、前馈神经网络构建；所述解码器基于自注意力机制、跨注意力机制及前馈神经网络构建；所述跨注意力机制为解码器到第二编码器的自注意力机制。

3.根据权利要求2所述的融合文本语义特征的语音翻译方法，其特征在于，所述第一编码器、所述第二编码器与所述解码器的训练方法为：

基于所述训练集中的源语言语音数据，通过步骤S20-S30的方法，获取第一输出标签序列中各输出标签的概率分布；所述第一输出标签序列中每个时刻的输出标签对应语音特征序列每个时刻被识别为源语言词表中的词语；

4.根据权利要求1所述的融合文本语义特征的语音翻译方法，其特征在于，“利用滤波器组提取所述输入数据对应的语音特征序列”，其方法为：

5.根据权利要求4所述的融合文本语义特征的语音翻译方法，其特征在于，“对每帧源语言语音数据进行预加重处理”，其方法为：

6.根据权利要求2所述的融合文本语义特征的语音翻译方法，其特征在于，“计算所述第一语义表征与所述第二语义表征差的L2范数，作为距离损失”，其方法为：

其中，

表示距离损失，

表示第一语义表征的均值，

表示第二语义表征的均值。

7.一种融合文本语义特征的语音翻译系统，其特征在于，该系统包括：语音数据获取模块、声学特征提取模块、词嵌入处理模块、语义表征获取模块、翻译文本输出模块；

所述声学特征获取模块，配置为利用滤波器组提取所述输入数据对应的语音特征序列；并通过预构建的第一编码器获取所述语音特征序列中语音特征对应的声学表征；

8.一种设备，其特征在于，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现权利要求1-6任一项所述的融合文本语义特征的语音翻译方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现权利要求1-6任一项所述的融合文本语义特征的语音翻译方法。