CN107170453B

CN107170453B - 基于人工智能的跨语种语音转录方法、设备及可读介质

Info

Publication number: CN107170453B
Application number: CN201710351933.9A
Authority: CN
Inventors: 邹伟; 李先刚; 黄斌
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-05-18
Filing date: 2017-05-18
Publication date: 2020-11-03
Anticipated expiration: 2037-05-18
Also published as: CN107170453A; US10796700B2; US20180336900A1

Abstract

本发明提供一种基于人工智能的跨语种语音转录方法、设备及可读介质。其所述方法包括：将待转录的语音数据进行预处理，获取多个声学特征；待转录的语音数据采用第一语种表示；根据多个声学特征以及预先训练的跨语种转录模型，预测语音数据对应的转录后的翻译文本；其中，翻译文本采用第二语种表示，第二语种不同于第一语种。采用本发明的技术方案，跨语种语音转录时不用先进行语音识别，再进行机器翻译，而是直接根据预先训练的跨语种转录模型便可以进行跨语种转录，能够克服现有技术中的两步走的跨语种转录方式中的错误累积的问题，与现有技术相比，能够有效地提高跨语种语音转录的准确性和转录效率。

Description

基于人工智能的跨语种语音转录方法、设备及可读介质

【技术领域】

本发明涉及计算机应用技术领域，尤其涉及一种基于人工智能的跨语种语音转录方法、设备及可读介质。

【背景技术】

人工智能(Artificial Intelligence；AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

随着语音技术的发展，从语音到对应文本的语音转录在日常生活中逐步的普及。然而，当前的语音转录技术只能识别转录当前语种的语音，例如一段普通话的语音，对应的转录结果会为其对应的汉字文本，而并不能满足跨语种语音转录的需求，例如无法将输入的一段普通话语音，直接输出跨语种语音转录的对应的英文翻译文本。为了实现跨语种的语音转录，现有技术中多采用两步走的方案：首先，通过语音识别工具对输入的语音进行转录生成文本；然后，通过机器翻译的方法，对前面生成的文本进行翻译，最后得到跨语种的语音转录文本结果。

但是现有的跨语种语音转录时，若第一步的语音识别工具识别错误，那么机器翻译得到的最终的语音转录文本便无可避免地发生错误，即现有技术的跨语种语音转录不可避免地会发生错误累积的问题，导致现有技术的跨语种语音转录准确性较差、转录效率较低。

【发明内容】

本发明提供了一种基于人工智能的跨语种语音转录方法、设备及可读介质，用于提高跨语种语音转录准确性和转录效率。

本发明提供一种基于人工智能的跨语种语音转录方法，所述方法包括：

将待转录的语音数据进行预处理，获取多个声学特征；所述待转录的语音数据采用第一语种表示；

根据多个所述声学特征以及预先训练的跨语种转录模型，预测所述语音数据对应的转录后的翻译文本；其中，所述翻译文本采用第二语种表示，所述第二语种不同于所述第一语种。

进一步可选地，如上所述的方法中，将待转录的语音数据进行预处理，获取多个声学特征，具体包括：

对所述待转录的语音数据采用预设的采样率进行采样，得到多个语音数据采样点；

对所述多个语音数据采样点按照预设的量化位数进行量化处理，得到脉冲编码调制文件；

从所述脉冲编码调制文件中提取多个所述声学特征。

进一步可选地，如上所述的方法中，从所述脉冲编码调制文件中提取多个所述声学特征，具体包括：

从所述脉冲编码调制文件的开头选取预设帧长的数据帧；并按照从前至后依次调整预设帧移后选取所述预设帧长的数据帧，共得到多个所述数据帧；

分别从多个所述数据帧中提取每个所述数据帧的声学特征，得到多个所述声学特征。

进一步可选地，如上所述的方法中，根据多个所述声学特征以及预先训练的跨语种转录模型，预测所述语音数据对应的转录后的翻译文本之前，所述方法还包括：

采集数条所述第一语种表示的训练语音数据以及各条所述训练语音数据转录为所述第二语种表示的真实翻译文本；

采用各条所述训练语音数据和对应的所述真实翻译文本，训练所述跨语种转录模型。

进一步可选地，如上所述的方法中，采用各条所述训练语音数据和对应的所述真实翻译文本，训练所述跨语种转录模型，具体包括：

将当前的所述训练语音数据代入所述跨语种转录模型，使得所述跨语种转录模型预测所述训练语音数据对应的预测翻译文本；

判断所述训练语音数据的所述预测翻译文本与所述真实翻译文本是否一致；

若不一致时，修改所述跨语种转录模型的模型参数，使得所述跨语种转录模型预测的所述训练语音数据的所述预测翻译文本与对应的所述真实翻译文本趋于一致；并继续选择下一条所述训练语音数据进行训练；

利用各条所述训练语音数据，按照执行上述步骤，重复对所述跨语种转录模型进行训练，直至所述跨语种转录模型预测的所述训练语音数据的所述预测翻译文本与对应的所述真实翻译文本一致，确定所述跨语种转录模型的模型参数，从而确定所述跨语种转录模型。

本发明提供一种基于人工智能的跨语种语音转录装置，所述装置包括：

获取模块，用于将待转录的语音数据进行预处理，获取多个声学特征；所述待转录的语音数据采用第一语种表示；

预测模块，用于根据多个所述声学特征以及预先训练的跨语种转录模型，预测所述语音数据对应的转录后的翻译文本；其中，所述翻译文本采用第二语种表示，所述第二语种不同于所述第一语种。

进一步可选地，如上所述的装置中，所述获取模块，具体用于：

从所述脉冲编码调制文件中提取多个所述声学特征。

进一步可选地，如上所述的装置中，所述获取模块，具体用于：从所述脉冲编码调制文件的开头选取预设帧长的数据帧；并按照从前至后依次调整预设帧移后选取所述预设帧长的数据帧，共得到多个所述数据帧；

进一步可选地，如上所述的装置中，所述装置还包括：

采集模块，用于采集数条所述第一语种表示的训练语音数据以及各条所述训练语音数据转录为所述第二语种表示的真实翻译文本；

训练模块，用于采用各条所述训练语音数据和对应的所述真实翻译文本，训练所述跨语种转录模型。

进一步可选地，如上所述的装置中，所述训练模块，具体用于：

本发明还提供一种计算机设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的基于人工智能的跨语种语音转录方法。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的基于人工智能的跨语种语音转录方法。

本发明的基于人工智能的跨语种语音转录方法、设备及可读介质，通过将待转录的语音数据进行预处理，获取多个声学特征；待转录的语音数据采用第一语种表示；根据多个声学特征以及预先训练的跨语种转录模型，预测语音数据对应的转录后的翻译文本；其中，翻译文本采用第二语种表示，第二语种不同于第一语种。采用本发明的技术方案，跨语种语音转录时不用先进行语音识别，再进行机器翻译，而是直接根据预先训练的跨语种转录模型便可以进行跨语种转录，能够克服现有技术中的两步走的跨语种转录方式中的错误累积的问题，与现有技术相比，能够有效地提高跨语种语音转录的准确性和转录效率。

【附图说明】

图1为本发明的基于人工智能的跨语种语音转录方法实施例一的流程图。

图2为本发明的基于人工智能的跨语种语音转录方法实施例二的流程图。

图3为本发明的基于人工智能的跨语种语音转录方法实施例三的流程图。

图4为本发明的基于人工智能的跨语种语音转录装置实施例一的结构图。

图5为本发明的基于人工智能的跨语种语音转录装置实施例二的结构图。

图6为本发明的计算机设备实施例的结构图。

图7为本发明提供的一种计算机设备的示例图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明的基于人工智能的跨语种语音转录方法实施例一的流程图。如图1所示，本实施例的基于人工智能的跨语种语音转录方法，具体可以包括如下步骤：

100、将待转录的语音数据进行预处理，获取多个声学特征；待转录的语音数据采用第一语种表示；

101、根据多个声学特征以及预先训练的跨语种转录模型，预测语音数据对应的转录后的翻译文本；其中，翻译文本采用第二语种表示，第二语种不同于第一语种。

本实施例的基于人工智能的跨语种语音转录方法的执行主体为一基于人工智能的跨语种语音转录装置，该基于人工智能的跨语种语音转录装置能够对待转录的语音数据直接进行跨语种的转录。本实施例的基于人工智能的跨语种语音转录方法，主要用于实现将第一语种表示的待转录的语音数据，转录为第二语种表示的翻译文本。其中的第一语种可以为中文、英文、日文、韩文、藏文、彝文等等。由于第一语种采用语音形式，因此，本实施例的第一语种可以为任一国家的语种，也可以为任一具有自己民族语言的少数民族的语种。第二语种采用文本形式展现，因此第二语种需要具有其文本形式的语种。而每一个国家对应的国家内的标准语种都具有其文本形式，因此第二语种也可以为任一国家的语种。另外，有些少数民族，如藏族、彝族、傣族、壮族等等少数民族不仅具有自己独立的语种，还有自己语种对应的文字。因此，第二语种也可以为任一具有自己语种的文字的少数民族的语种。

本实施例的基于人工智能的跨语种语音转录方法中，预先训练的跨语种转录模型可以为预先经过深度学习训练得到的网络模型。如，本实施例的跨语种转录模型可以是基于Attention的序列到序列的深度学习模型，例如可以为一种采用Encoder-Decoder方式的深度学习模型。本实施例的跨语种转录模型输入的是待转录的语音数据的多个声学特征，因此，本实施例中，首先，将第一语种表示的待转录的语音数据进行预处理，获取待转录的语音数据多个声学特征；然后将待转录的语音数据多个声学特征，输入至预先训练的跨语种转录模型中。由于该跨语种转录模型预先训练中采用深度学习的方式进行训练，此时该训练好的跨语种转录模型可以根据输入的待转录的语音数据的多个声学特征，预测该语音数据对应的转录后的第二语种表示的翻译文本。本实施例中，虽然该跨语种转录模型预测的翻译文本为预测的结果，但是由于该跨语种转录模型是经过深度学习训练得到的，此时可以认为该跨语种转录模型预测的翻译文本与真实的翻译文本一致。

本实施例的基于人工智能的跨语种语音转录方法，通过将待转录的语音数据进行预处理，获取多个声学特征；待转录的语音数据采用第一语种表示；根据多个声学特征以及预先训练的跨语种转录模型，预测语音数据对应的转录后的翻译文本；其中，翻译文本采用第二语种表示，第二语种不同于第一语种。采用本实施例的技术方案，跨语种语音转录时不用先进行语音识别，再进行机器翻译，而是直接根据预先训练的跨语种转录模型便可以进行跨语种转录，能够克服现有技术中的两步走的跨语种转录方式中的错误累积的问题，与现有技术相比，能够有效地提高跨语种语音转录的准确性和转录效率。

图2为本发明的基于人工智能的跨语种语音转录方法实施例二的流程图。本实施例的基于人工智能的跨语种语音转录方法，在上述图1所示实施例的技术方案的基础上，更加详细地介绍本发明的技术方案。如图2所示，本实施例的基于人工智能的跨语种语音转录方法，在上述图1所示实施例的步骤101之前，具体还可以包括如下步骤：

200、采集数条第一语种表示的训练语音数据以及各条训练语音数据转录为第二语种表示的真实翻译文本；

本实施例中在对跨语种转录模型进行训练时，需要采集数条第一语种表示的训练语音数据以及各条训练语音数据转录为第二语种表示的真实翻译文本。例如，具体可以从网络上，或者已经成功转录的数据库中采集数条第一语种表示的训练语音数据以及各条训练语音数据转录为第二语种表示的真实翻译文本。其中每一条训练语音数据与对应的真实翻译文本作为一条训练数据，本实施例中，为了保证训练的跨语种转录模型的准确性，采集的训练数据的条数可以达到数以万条，例如可以包括20万条或者30万条甚至更多条数。其中采集的训练数据的条数越多，训练得到的跨语种转录模型越准确，后续步骤101对第一语种表示的待转录的语音数据转录的第二语种表示的翻译文本越准确。

201、采用各条训练语音数据和对应的真实翻译文本，训练跨语种转录模型。

本实施例中，采集到数条第一语种表示的训练语音数据以及各条训练语音数据转录为第二语种表示的真实翻译文本之后，可以将采集的数条第一语种表示的训练语音数据以及各条训练语音数据转录为第二语种表示的真实翻译文本存储在一个数据库中，生成训练数据库。然后训练时，采用训练数据库中的每一条训练语音数据和对应的真实翻译文本，对跨语种转录模型进行训练。

例如，本实施例的步骤201“采用各条训练语音数据和对应的真实翻译文本，训练跨语种转录模型”，具体可以包括如下步骤：

(a1)将当前的训练语音数据代入跨语种转录模型，使得跨语种转录模型预测训练语音数据对应的预测翻译文本；

(a2)判断训练语音数据的预测翻译文本与真实翻译文本是否一致；若不一致时，执行步骤(a3)；否则，执行步骤(a4)；

(a3)修改跨语种转录模型的模型参数，使得跨语种转录模型预测的训练语音数据的预测翻译文本与对应的真实翻译文本趋于一致；执行步骤(a4)；

(a4)继续选择下一条训练语音数据作为当前的训练数据，以准备采用上述步骤(a1-(a3)进行训练；

利用各条训练语音数据，按照执行上述步骤(a1)-(a4)，重复对跨语种转录模型进行训练，直至跨语种转录模型预测的训练语音数据的预测翻译文本与对应的真实翻译文本一致，确定跨语种转录模型的模型参数，从而确定跨语种转录模型。

例如，训练时，为了便于采用每条训练语音数据和对应的真实翻译文本，对跨语种转录模型进行训练，避免重复采用同一条训练语音数据和对应的真实翻译文本，重复对跨语种转录模型进行训练，可以将各条训练语音数据排序，每次训练时选取一条训练语音数据作为当前的训练语音数据，该条训练语音数据训练完毕，可以继续选择下一条训练语音数据作为当前的训练语音数据，继续对跨语种转录模型进行训练。

需要说明的时，训练之前，本实施例的跨语种转录模型的模型参数具有初始值。若采用第一条训练语音数据对跨语种转录模型进行训练时，将第一条训练语音数据作为当前的训练语音数据，输入至跨语种转录模型中，此时，跨语种转录模型根据当前的模型参数的初始值，输出一个该训练语音数据对应的预测翻译文本。然后判断训练语音数据的预测翻译文本与真实翻译文本是否一致；若不一致时，修改跨语种转录模型的模型参数，使得跨语种转录模型预测的训练语音数据的预测翻译文本与对应的真实翻译文本趋于一致；否则若一致，继续选择下一条训练语音数据作为当前的训练数据，继续进行训练。

训练时，至少要利用训练数据库中的各条训练数据进行一轮训练，若一轮训练完毕后，可以确定跨语种转录模型预测的训练语音数据的预测翻译文本与对应的真实翻译文本一致，此时确定跨语种转录模型的模型参数，从而确定跨语种转录模型。

若一轮训练完毕，跨语种转录模型预测的训练语音数据的预测翻译文本与对应的真实翻译文本仍然不一致，此时可以使用训练数据库中的各条训练数据进行再一轮、两轮或者多轮训练，直至跨语种转录模型预测的训练语音数据的预测翻译文本与对应的真实翻译文本一致，确定跨语种转录模型的模型参数，从而确定跨语种转录模型。

本实施例训练得到的跨语种转录模型，可以对一种第一语种表示的待转录的语音数据，跨语种转录为一种第二语种表示的翻译文本。如果一个跨语种转录模型若能够支持英语到中文的跨语种转录，而不能实现意大利语到中文的跨语种转录，也就是说本实施例的跨语种转录模型为一对一的形式，不支持一对多或者多对一的形式。另外，需要说明的是，本实施例中，若第二语种表示的翻译文本为中文时，为了便于与其它语种对应，优选地，选择以文字的汉语拼音来表示翻译文本。而且本实施例的汉语拼音的表示方式可以为每个汉字的拼音作为最小的建模单元来表示，如“zhong guo ren”；也可以使用声韵母为最小的建模单元，如将“zhong guo ren”切分为“zh ong g uo r en”。

本实施例的基于人工智能的跨语种语音转录方法，通过采用上述技术方案训练得到的跨语种转录模型，可以准确地对待转录的语音数据进行跨语种转录，与现有技术相比，跨语种语音转录时不用先进行语音识别，再进行机器翻译，而是直接根据预先训练的跨语种转录模型便可以进行跨语种转录，能够克服现有技术中的两步走的跨语种转录方式中的错误累积的问题，与现有技术相比，能够有效地提高跨语种语音转录的准确性和转录效率。

图3为本发明的基于人工智能的跨语种语音转录方法实施例三的流程图。本实施例的基于人工智能的跨语种语音转录方法，在上述图1或者图2所示实施例的技术方案的基础上，更加详细地介绍本发明的技术方案。如图3所示，本实施例的基于人工智能的跨语种语音转录方法，具体可以包括如下步骤：

300、对第一语种表示的待转录的语音数据采用预设的采样率进行采样，得到多个语音数据采样点；

例如，本实施例中的预设的采样率可以为16k，即每1/16000秒选择一个采样点，这样，1秒时长的语音有16000个采样点。实际应用中预测的采样率也可以为8k-20k的任意采样率。

301、对多个语音数据采样点按照预设的量化位数进行量化处理，得到脉冲编码调制(Pulse Code Modulation；PCM)文件；

本实施例的预设的量化位数优选地可以为16,位，实际应用中也可以选择16位。其中量化位数越多，表示质量越高。量化处理后可以得到PCM文件。而且该PCM文件为单通道的PCM文件。

302、从PCM文件中提取多个声学特征；

最后从PCM文件中提取多个声学特征，例如可以提取Fbank40格式的声学特征，其中Fbank40格式的声学特征采用一个40维的向量表示。实际应用中也可以采用其他格式的其它维度的向量来表示各声学特征。

例如该步骤302，具体可以包括如下步骤：

(b1)从PCM文件的开头选取预设帧长的数据帧；并按照从前至后依次调整预设帧移后选取预设帧长的数据帧，共得到多个数据帧；

(b2)分别从多个数据帧中提取每个数据帧的声学特征，得到多个声学特征。

本实施例在从PCM文件时，由于PCM文件也采用帧表示，可以先从PCM文件的开头选取预设帧长的数据帧，例如预设帧长可以为25ms。然后按照从前至后依次调整预设帧移后选取预设帧长的数据帧，例如同一个PCM文件，开头取了25ms的数据帧之后，帧移10ms，再取25ms的数据帧，然后再帧移10ms，再取25ms的数据帧，直到PCM文件取完，但是PCM文件的长度不一定是预设帧长的整数倍，此时最后剩下不足25ms长的数据帧可以丢弃，或者可以通过填零补位至25ms的帧长。这样，得到的每个数据帧的长度时一样，这样，从待转录的语音数据对应的每个数据帧中提取的声学特征的方式，以及得到的声学特征的维度也是一样的。而实际应用中，每段待转录的语音的长度可以不相同，但根据待转录的语音获取的每个数据帧的长度是相同的。因此，在根据本实施例的跨语种转录模型跨语种转录时，可跨语种转录的待转录的语音数据的长短可以不做限制，理论上，可以对不超过可处理的最大时长的任意时长的待转录的语音数据进行跨语种转录，当然得到的跨语种转录后的翻译文本的长度也不一。

上述步骤300-302为上述图1所示实施例的步骤100的一种具体实现方式，实际应用中，也可以采用相关现有技术中的从语音数据中提取声学特征的方式来实现，在此不再一一举例赘述。

303、将待转录的语音数据对应的多个声学特征输入至预先训练的跨语种转录模型中，该跨语种转录模型预测并输出对应的转录后的第二语种表示的翻译文本。

本实施例的预先训练的跨语种转录模型采用上述图2所示实施例的方式获取到，详细可以参考上述图2所示实施例的记载，在此不再赘述。

本实施例的基于人工智能的跨语种语音转录方法，通过采用上述技术方案，跨语种语音转录时不用先进行语音识别，再进行机器翻译，而是直接根据预先训练的跨语种转录模型便可以进行跨语种转录，能够克服现有技术中的两步走的跨语种转录方式中的错误累积的问题，与现有技术相比，能够有效地提高跨语种语音转录的准确性和转录效率。

图4为本发明的基于人工智能的跨语种语音转录装置实施例一的结构图。如图4所示，本实施例的发明的基于人工智能的跨语种语音转录装置，具体可以包括：获取模块10和预测模块11。

其中，获取模块10用于将待转录的语音数据进行预处理，获取多个声学特征；待转录的语音数据采用第一语种表示；

预测模块11用于根据获取模块10获取的多个声学特征以及预先训练的跨语种转录模型，预测语音数据对应的转录后的翻译文本；其中，翻译文本采用第二语种表示，第二语种不同于第一语种。

本实施例的基于人工智能的跨语种语音转录装置，通过采用上述模块实现基于人工智能的跨语种语音转录的实现原理以及技术效果与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图5为本发明的基于人工智能的跨语种语音转录装置实施例二的结构图。如图5所示，本实施例的基于人工智能的跨语种语音转录装置，在上述图4所示实施例的技术方案的基础上，进一步更加详细地介绍本发明的技术方案。

本实施例的基于人工智能的跨语种语音转录装置中，获取模块10具体用于：

对待转录的语音数据采用预设的采样率进行采样，得到多个语音数据采样点；

对多个语音数据采样点按照预设的量化位数进行量化处理，得到脉冲编码调制文件；

从脉冲编码调制文件中提取多个声学特征。

进一步可选地，本实施例的基于人工智能的跨语种语音转录装置中，获取模块10具体用于：从脉冲编码调制文件的开头选取预设帧长的数据帧；并按照从前至后依次调整预设帧移后选取预设帧长的数据帧，共得到多个数据帧；

分别从多个数据帧中提取每个数据帧的声学特征，得到多个声学特征。

进一步可选地，如图5所示，本实施例的基于人工智能的跨语种语音转录装置，还包括：

采集模块12用于采集数条第一语种表示的训练语音数据以及各条训练语音数据转录为第二语种表示的真实翻译文本；

训练模块13用于采用采集模块12采集的各条训练语音数据和对应的真实翻译文本，训练跨语种转录模型。

此时对应地，预测模块11用于根据获取模块10获取的多个声学特征以及训练模块13预先训练的跨语种转录模型，预测语音数据对应的转录后的翻译文本；

进一步可选地，本实施例的基于人工智能的跨语种语音转录装置中，训练模块13具体用于：

将当前的训练语音数据代入跨语种转录模型，使得跨语种转录模型预测训练语音数据对应的预测翻译文本；

判断训练语音数据的预测翻译文本与真实翻译文本是否一致；

若不一致时，修改跨语种转录模型的模型参数，使得跨语种转录模型预测的训练语音数据的预测翻译文本与对应的真实翻译文本趋于一致；并继续选择下一条训练语音数据进行训练；

利用各条训练语音数据，按照执行上述步骤，重复对跨语种转录模型进行训练，直至跨语种转录模型预测的训练语音数据的预测翻译文本与对应的真实翻译文本一致，确定跨语种转录模型的模型参数，从而确定跨语种转录模型。

图6为本发明的计算机设备实施例的结构图。如图6所示，本实施例的计算机设备，包括：一个或多个处理器30，以及存储器40，存储器40用于存储一个或多个程序，当存储器40中存储的一个或多个程序被一个或多个处理器30执行，使得一个或多个处理器30实现如上图1-图3所示实施例的基于人工智能的跨语种语音转录方法。图6所示实施例中以包括多个处理器30为例。

例如，图7为本发明提供的一种计算机设备的示例图。图7示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图7显示的计算机设备12a仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于：一个或者多个处理器16a，系统存储器28a，连接不同系统组件(包括系统存储器28a和处理器16a)的总线18a。

总线18a表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28a可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34a可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明上述图1-图5各实施例的功能。

具有一组(至少一个)程序模块42a的程序/实用工具40a，可以存储在例如系统存储器28a中，这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图5各实施例中的功能和/或方法。

计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信，还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信，和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且，计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12a使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16a通过运行存储在系统存储器28a中的程序，从而执行各种功能应用以及数据处理，例如实现上述实施例所示的基于人工智能的跨语种语音转录方法。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所示的基于人工智能的跨语种语音转录方法。

本实施例的计算机可读介质可以包括上述图7所示实施例中的系统存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。

随着科技的发展，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载，或者采用其他方式获取。因此，本实施例中的计算机可读介质不仅可以包括有形的介质，还可以包括无形的介质。

本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于人工智能的跨语种语音转录方法，其特征在于，所述方法包括：

根据多个所述声学特征以及预先训练的跨语种转录模型，预测所述语音数据对应的转录后的翻译文本；其中，所述翻译文本采用第二语种表示，所述第二语种不同于所述第一语种；

根据多个所述声学特征以及预先训练的跨语种转录模型，预测所述语音数据对应的转录后的翻译文本之前，所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，将待转录的语音数据进行预处理，获取多个声学特征，具体包括：

从所述脉冲编码调制文件中提取多个所述声学特征。

3.根据权利要求2所述的方法，其特征在于，从所述脉冲编码调制文件中提取多个所述声学特征，具体包括：

4.根据权利要求1所述的方法，其特征在于，采用各条所述训练语音数据和对应的所述真实翻译文本，训练所述跨语种转录模型，具体包括：

利用各条所述训练语音数据，按照执行上述步骤，重复对所述跨语种转录模型进行训练，直至所述跨语种转录模型预测的所述训练语音数据的所述预测翻译文本与对应的所述真实翻译文本一致，确定所述跨语种转录模型的模型参数，从而确定所述跨语种转录模型；其中，

所述上述步骤包括：

若不一致时，修改所述跨语种转录模型的模型参数，使得所述跨语种转录模型预测的所述训练语音数据的所述预测翻译文本与对应的所述真实翻译文本趋于一致；并继续选择下一条所述训练语音数据进行训练。

5.一种基于人工智能的跨语种语音转录装置，其特征在于，所述装置包括：

预测模块，用于根据多个所述声学特征以及预先训练的跨语种转录模型，预测所述语音数据对应的转录后的翻译文本；其中，所述翻译文本采用第二语种表示，所述第二语种不同于所述第一语种；

所述装置还包括：

6.根据权利要求5所述的装置，其特征在于，所述获取模块，具体用于：

从所述脉冲编码调制文件中提取多个所述声学特征。

7.根据权利要求6所述的装置，其特征在于，所述获取模块，具体用于：从所述脉冲编码调制文件的开头选取预设帧长的数据帧；并按照从前至后依次调整预设帧移后选取所述预设帧长的数据帧，共得到多个所述数据帧；

8.根据权利要求5所述的装置，其特征在于，所述训练模块，具体用于：

所述上述步骤包括：

9.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的方法。