CN114554238A

CN114554238A - 直播语音同传方法、装置、介质及电子设备

Info

Publication number: CN114554238A
Application number: CN202210167850.5A
Authority: CN
Inventors: 刘坚; 李秋平; 王明轩
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-05-27
Anticipated expiration: 2042-02-23
Also published as: CN114554238B

Abstract

本公开涉及一种直播语音同传方法、装置、介质及电子设备，包括：获取目标语种和原始音频流数据；对原始音频流数据进行分句，并同步识别各分句语音对应的原始字幕文本；将各分句语音分别对应的原始字幕文本翻译为目标字幕文本，并根据目标字幕文本合成与分句语音对应的目标语音；将目标语音作为目标音频流数据，以构成经过同传后的直播数据。这样在同传过程中对原始音频流数据识别得到的字幕文本进行翻译时，不再逐字输入翻译引擎中，而是通过在语音识别阶段就对该原始音频流数据进行分句的处理，保证下发至下游的翻译请求中包括的是完整的分句，保证了译文的翻译效果，从而也解决了背景技术中合成语音收听效果不好的问题。

Description

直播语音同传方法、装置、介质及电子设备

技术领域

本公开涉及直播领域，具体地，涉及一种直播语音同传方法、装置、介质及电子设备。

背景技术

目前，直播同传场景中，将直播中的原语音翻译为另一语种的语音的做法通常是基于“自动语音识别——机器翻译——机器语音合成”的处理链路，链路中的每个步骤都是逐字进行，也即，语音识别得到一个字，便输入下游的翻译模块翻译得到该字对应的翻译文本，继而根据该翻译文本合成该字对应的另一语种的语音。由于原文的识别是逐字进行了，机器翻译引擎处在原文识别引擎的下游，接收到的翻译请求是支离破碎的，经常不是完整的句子，因此将译文接入语音合成的引擎会造成译文收听的语音效果不佳。如：主讲人的话语原文为“大家好，欢迎来上海！”，译文在识别中，“大，家，好，欢，迎，来，上，海”是分别提交给翻译引擎的，语音合成时也会因为翻译引擎对该原文的逐字翻译而导致合成语音的收听效果。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

第一方面，本公开提供一种直播语音同传方法，所述方法包括：

获取目标语种和原始音频流数据，所述原始音频流数据为对直播数据解码得到；

对所述原始音频流数据进行分句，并同步识别各分句语音对应的原始字幕文本；

将各分句语音分别对应的所述原始字幕文本翻译为目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音，所述目标字幕文本为所述目标语种的文本；

将所述目标语音作为目标音频流数据，以构成经过同传后的直播数据。

第二方面，本公开提供一种直播语音同传装置，所述装置包括：

获取模块，用于获取目标语种和原始音频流数据，所述原始音频流数据为对直播数据解码得到；

分句模块，用于对所述原始音频流数据进行分句，并同步识别各分句语音对应的原始字幕文本；

同传模块，用于将各分句语音分别对应的所述原始字幕文本翻译为目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音，所述目标字幕文本为所述目标语种的文本；

处理模块，用于将所述目标语音作为目标音频流数据，以构成经过同传后的直播数据。

第三方面，本公开提供一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现第一方面中所述实施例中所述方法的步骤。

第四方面，本公开提供一种电子设备，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现第一方面中所述实施例中所述方法的步骤。

通过上述技术方案，同传过程中，在对原始音频流数据识别得到的字幕文本进行翻译时，不再逐字输入翻译引擎中，而是通过在语音识别阶段就对该原始音频流数据进行分句的处理，保证下游的翻译模块接收到的翻译请求是完整的分句，保证了译文的翻译效果，从而也解决了背景技术中合成语音收听效果不好的问题。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。在附图中：

图1是根据本公开一示例性实施例示出的一种直播语音同传方法的流程图。

图2是根据本公开又一示例性实施例示出的一种直播语音同传方法的流程图。

图3是根据本公开又一示例性实施例示出的一种直播语音同传方法的流程图。

图4是根据本公开一示例性实施例示出的一种直播语音同传装置的结构框图。

图5是根据本公开又一示例性实施例示出的一种直播语音同传装置的结构框图。

图6示出了适于用来实现本公开实施例的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

图1是根据本公开一示例性实施例示出的一种直播语音同传方法的流程图。如图1所示，所述方法包括步骤101至步骤104。

在步骤101中，获取目标语种和原始音频流数据，所述原始音频流数据为对直播数据解码得到。

该直播数据可以为包括视频流和音频流的直播数据，也可以为仅包括音频流的直播数据，而在该直播数据为包括视频流和音频流的直播数据的情况下，将该直播数据解码为原始视频流数据和原始音频流数据可以通过任意音频解码器来实现，本公开对此不进行限定，只要能够从该直播数据中解码得到其中的原始音频流数据即可。

该直播数据可以是从任意直播设备或服务器中获取得到，可以是实时的直播数据，也可以是录播数据，本公开中对该原始直播数据是否为实时产生不做限定，只要是需要进行同传的、包括音频流数据的直播数据即可。在该直播数据非实时直播数据的情况下，对该原始音频流数据的获取可以通过模拟直播推流的方式来进行，而非对整个完整的原始音频流数据进行获取。

该目标语种可以通过用户提前输入所获取得到。或者，用户也可以在对该原始音频流数据进行同传处理的过程中对该目标语种进行更改，在目标语种更改之后所获取到的原始音频流数据根据该更改后的目标语种进行同传即可。

在步骤102中，对所述原始音频流数据进行分句，并同步识别各分句语音对应的原始字幕文本。

对所述原始音频流数据进行分句的方法可以通过现有的语音识别技术来实现，例如，可以通过识别得到的句子在时间轴上是否出现句间停顿来判断是否可以在该位置进行分句等。本公开不对分句的具体方法进行限定。

在步骤103中，将各分句语音分别对应的所述原始字幕文本翻译为目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音，所述目标字幕文本为所述目标语种的文本。

在步骤104中，将所述目标语音作为目标音频流数据，以构成经过同传后的直播数据。

通过分句，在语音识别的阶段即可得到该原始音频流数据中完整的句子，将各完整的句子对应的该原始字幕文本作为一个原始字幕文本，并对对应一个完整的句子的原始字幕文本进行翻译以得到目标字幕文本，进而对整句话进行语音合成，这样能够使得该目标语音在合成的过程中考虑到各字符在一个完整的句子中的语义，进而得到更加合理、精准的目标语音。

例如，若在对该原始音频流数据进行语音识别的过程中，该原始音频流数据中包括前述“大家好，欢迎来上海！”的语音示例，则在对该原始音频流数据识别得到“大家好”之后，可以通过分句方法确定包括语音“大家好”的音频流数据可以作为一个分句，进而将该分句对应的原始字幕文本“大家好”整体进行翻译得到“Everyone is welcoming”，后续通过语音合成模块对该译文整体进行语音合成。

若按照背景技术中所描述的逐字同传的方式，在对该原始音频流数据进行语音识别的过程中，该识别文本的出现过程是“-大-大家-大家好”，译文的出现过程相应为“-big-all-Hello everyone”，对这样的译文进行语音合成在一定程度上会影响合成语音的收听效果，影响用户对直播内容的理解，

另外，同传过程中，还经常出现由于译文进行语音合成后的音频长度和原文所在的音频长度不一样的问题，导致译文的语音会出现和原文错开，影响直播效果。为了解决该问题，本公开还提供了如图2所示的方法。

图2是根据本公开又一示例性实施例示出的一种直播语音同传方法的流程图。如图2所示，所述方法还包括步骤201至步骤206。

在步骤201中，获取各分句语音分别对应的所述原始字幕文本翻译得到的翻译文本。

在步骤202中，根据所述分句语音所在的时间轴确定所述分句语音对应的分句时长，并确定所述分句时长对应的音素数值范围。

在步骤203中，计算所述翻译文本中的实际音素数量。

在步骤204中，判断所述实际音素数量是否处于所述音素数值范围内，若是，则转至步骤205，若否，则转至步骤206；

在步骤205中，也即在判定所述实际音素数量处于所述音素数值范围内的情况下，将所述翻译文本作为所述目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音。

也即，在对任意分句进行翻译和语音合成的过程中，会根据该分句语音在原始音频流数据中的时间轴中对应的该分句时长来确定该音素数值范围，并计算翻译得到的翻译文本中的实际音素数量，只有在给实际音素数量满足处于该音素数值范围内的条件时，才会直接将该翻译文本确定为该目标字幕文本来合成目标语音。

该音素数值范围可以是预先通过训练或者计算得到的，表征合成的目标语音的时长与该分句时长一致的情况下，该目标语音对应的该目标字幕文本中能够包括的音素数量最少及最多为多少。该实际音素数量则为根据该翻译文本直接计算得到。若该翻译文本的实际音素数量处于该翻译文本对应的分句语音在原始音频流数据的时间轴中所在的分句时长所能允许的音素数值范围内，则表征对该翻译文本合成得到的目标语音对应的音频长度与该分句语音对应的音频长度是一致的，不会出现译文语音和原文语音错开的情况。

在步骤206中，也即在判定该所述实际音素数量不处于所述音素数值范围内的情况下，根据所述实际音素数量和所述音素数值范围之间的大小关系，和预设文本调整规则对所述翻译文本进行调整。

在步骤207中，判断调整后的翻译文本中的实际音素数量是否处于所述音素数值范围内，若是，则转至步骤208，若否，则转至步骤206继续进行调整。

在步骤208中，也即在判定调整后的翻译文本中的实际音素数量处于所述音素数值范围内的情况下，将所述调整后的翻译文本作为所述目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音。

在该翻译文本的实际音素数量不处于该翻译文本对应的分句语音在原始音频流数据的时间轴中所在的分句时长所能允许的音素数值范围内，则表征对该翻译文本直接合成得到的目标语音对应的音频长度与该分句语音对应的音频长度是不一致的，会出现译文语音和原文语音错开的情况。因此，此时需要对该翻译文本或者该翻译文本合成的语音进行一定的调整，以保证最终的目标语音与该分句语音的音频时长一致。而步骤204至步骤208给出了一种通过对翻译文本进行调整，以使调整后的翻译文本的实际音素数量处于该音素数值范围内的方案。

对该翻译文本进行调整的该方法可以为如步骤206中所示，根据预设文本调整规则来进行。例如，在该翻译文本中的实际音素数量少于该音素数值范围的最小值时，可以根据语义在该翻译文本中添加不影响该翻译文本实际语义的文本，中文翻译文本可以例如“嗯..”，“啊”等等，英文翻译文本可以包括例如“hum..”等；在该翻译文本中的实际音素数量大于该音素数值范围的最大值时，可以将该翻译文本中不影响语义的部分文本进行删减。

在根据该预设文本调整规则对该翻译文本进行调整之后，还可以进一步进行对调整后的翻译文本中的实际音素数量进行是否处于该音素数值范围内的判断，以保证在确定目标字幕文本以合成目标语音之前，该翻译文本的实际音素数量能够保证在该音素数值范围之内。

另外，若在根据该预设文本调整规则对该翻译文本进行预设阈值次数的调整之后，调整后的翻译文本中的实际音素数量仍不满足处于该音素数值范围内的条件，则可以通过其他方式进一步对该翻译文本或翻译文本对应的合成语音进行处理，以保证同传后的语音时长与同传前的分句时长对齐。具体的的方式可以为例如图3中所示的方法。

图3是根据本公开又一示例性实施例示出的一种直播音频同传方法的流程图。如图3所示，所述方法还包括步骤301和步骤302。

在步骤301中，获取所述各分句语音分别对应的所述原始字幕文本翻译得到的多个候选文本。

在步骤302中，将所述多个候选文本中优先级最高的候选文本确定为所述翻译文本。

也即，对该分句语音对应的所述原始字幕文本进行翻译得到的翻译文本可以是从多个候选文本中通过优先级确定得到。而该候选文本也可以是对该分句语音对应的所述原始字幕文本进行翻译得到的多个文本中与该分句语音对应的所述原始字幕文本匹配度较高的多个文本，该候选文本的优先级也可以根据该候选文本与该分句语音对应的所述原始字幕文本匹配度来确定，匹配度越高，优先级越高。

在步骤303中，判断翻译文本的调整次数是否达到预设阈值次数，若是，则转至步骤304，若否，则回到步骤206再一次对该翻译文本进行调整。

在步骤304中，也即在所述实际音素数量不处于所述音素数值范围内、且翻译文本的调整次数达到预设阈值次数的情况下，按照所述优先级，将所述多个候选文本依次确定为所述翻译文本。

在实际音素数量不处于所述音素数值范围的情况下，还可以通过步骤303中的步骤，从该候选文本中按照优先级的先后顺序对该翻译文本进行替换。例如，在将该候选文本中优先级最高的候选文本作为翻译文本之后，确定该翻译文本的实际音素数量不处于该音素数值范围内，则将该候选文本中优先级次高的候选文本作为翻译文本，再一次计算该翻译文本的实际音素数量，并重新进行该翻译文本的实际因素数量是否处于音素数值范围内的判断。

在步骤305中，判断翻译文本的实际因素数量是否处于音素数值范围内，若是，则可以直接返回步骤205，将该翻译文本作为目标字幕文本，并根据目标字幕文本合成与分句语音对应的目标语音。若否，则转至步骤306。

在步骤306中，判断多个候选文本是否都已被遍历结束，若是，则转至步骤307，若否，则返回步骤304，继续按照优先级将还未被确定为翻译文本的候选文本确定为翻译文本。

也即，在根据步骤304从多个候选文本中按照优先级依次确定翻译文本的过程，会直至所述翻译文本的实际音素数量处于所述音素数值范围内，或所述多个候选文本都已被遍历结束为止。

若判定得到该翻译文本的实际音素数量处于该音素数值范围内，便可以直接返回步骤205，将该实际音素数量符合条件的翻译文本作为所述目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音。

而若多个候选文本都已经被遍历结束，仍没有确定得到满足该音素数值范围条件的翻译文本，则不再重复对该候选文本的依次确定，可以通过例如步骤307和步骤308中所示的方法来获取该目标语音。

在步骤307中，也即在所述多个候选文本都已被遍历结束，且所述翻译文本的实际音素数量仍不处于所述音素数值范围内的情况下，将所述多个候选文本中优先级最高的候选文本确定为所述目标字幕文本。

在步骤308中，根据所述目标字幕文本合成中间语音，并通过所述分句语音对应的所述分句时长对所述中间语音进行调速，以使经过所述调速后的中间语音对应的时长与所述分句时长一致，将经过所述调速后的中间语音确定为与所述分句语音对应的目标语音。

或者，在所述多个候选文本都已被遍历结束，且所述翻译文本的实际音素数量仍不处于所述音素数值范围内的情况下，还可以直接将当前的翻译文本直接作为该目标字幕文本来进行语音的合成，得到中间语音，并根据该分句语音对应的分句时长来对该合成的中间语音进行调速，以保证调速后得到的目标语音能够在时间轴上与该分句语音对齐。

另外，图3中所示的遍历多个候选文本来确定翻译文本以保证最终的目标语音与分句时长一致的方法，与图2中所示的根据预设额文本调整规则对翻译文本进行调整以保证最终的目标语音与分句时长一致的方法，二者之间并没有固定的先后执行顺序。在实际的同传过程中，若所述实际音素数量不处于所述音素数值范围内，既可以直接根据该预设文本调整规则对该翻译文本进行调整，在无法调整的情况下再在多个候选文本中根据优先级依次确定翻译文本的方式来寻找符合要求的翻译文本，最终在无法调整的情况下通过对合成的语音调速的方式保证同传后的语音时长能够与原始音频流数据中的分句时长一致，也可以先在多个候选文本中根据优先级依次确定翻译文本的方式来寻找符合要求的翻译文本，在无法调整的情况下再根据该预设文本调整规则对该翻译文本进行调整，最终在无法调整的情况下通过对合成的语音调速的方式保证同传后的语音时长能够与原始音频流数据中的分句时长一致。或者，仅通过预设文本调整规则或者仅通过有优先级的候选文本来实现同传都可。

在一种可能的实施方式中，所述方法还包括：获取原始语种；所述对所述原始音频流数据进行分句，并同步识别各分句语音对应的原始字幕文本包括：对所述原始音频流数据进行分句，并根据所述原始语种同步识别各分句语音对应的原始字幕文本。也即，在对该原始音频流数据进行语音识别之前，可以先通过用户输入确定得到该原始音频流数据对应的原始语种，以便于进行该语音识别。

在一种可能的实施方式中，对该目标字幕文本进行语音合成的过程还可以根据目标音色、目标音量、目标音调等音频数据来进行，该目标音色、目标音量、目标音调可以是与该目标语种一同通过用户输入的方式所确定得到，以便于用户自定义选择需要合成的语音的语种、音色、音量与音调。

在一种可能的实施方式中，根据用户的设置，可以在有显示字幕需求的情况下，将确定得到的该原始字幕文本和/或目标字幕文本作为字幕显示在直播画面中。

图4是根据本公开一示例性实施例示出的一种直播语音同传装置的结构框图。如图4所示，所述装置包括：获取模块10，用于获取目标语种和原始音频流数据，所述原始音频流数据为对直播数据解码得到；分句模块20，用于对所述原始音频流数据进行分句，并同步识别各分句语音对应的原始字幕文本；同传模块30，用于将各分句语音分别对应的所述原始字幕文本翻译为目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音，所述目标字幕文本为所述目标语种的文本；处理模块40，用于将所述目标语音作为目标音频流数据，以构成经过同传后的直播数据。

图5是根据本公开又一示例性实施例示出的一种直播语音同传装置的结构框图。如图5所示，所述同传模块30包括：获取子模块301，用于获取各分句语音分别对应的所述原始字幕文本翻译得到的翻译文本；确定子模块302，用于根据所述分句语音所在的时间轴确定所述分句语音对应的分句时长，并确定所述分句时长对应的音素数值范围；计算模块303，用于计算所述翻译文本中的实际音素数量；第一合成子模块304，若所述实际音素数量处于所述音素数值范围内，则将所述翻译文本作为所述目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音。

在一种可能的实施方式中，如图5所示，所述同传模块30还包括：第二合成子模块305，用于若所述实际音素数量不处于所述音素数值范围内，则根据所述实际音素数量和所述音素数值范围之间的大小关系，和预设文本调整规则对所述翻译文本进行调整；若调整后的翻译文本中的实际音素数量处于所述音素数值范围内，则将所述调整后的翻译文本作为所述目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音。

在一种可能的实施方式中，如图5所示，所述获取子模块301还用于：获取所述各分句语音分别对应的所述原始字幕文本翻译得到的多个候选文本；将所述多个候选文本中优先级最高的候选文本确定为所述翻译文本。

在一种可能的实施方式中，如图5所示，所述同传模块30还包括：第三合成子模块306，用于若所述实际音素数量不处于所述音素数值范围内，则按照所述优先级，将所述多个候选文本依次确定为所述翻译文本，直至所述翻译文本的实际音素数量处于所述音素数值范围内，或所述多个候选文本都已被遍历结束为止。

在一种可能的实施方式中，如图5所示，所述同传模块30还包括：第四合成子模块307，用于若所述多个候选文本都已被遍历结束，且所述翻译文本的实际音素数量仍不处于所述音素数值范围内，则将所述多个候选文本中优先级最高的候选文本确定为所述目标字幕文本；根据所述目标字幕文本合成中间语音，并通过所述分句语音对应的所述分句时长对所述中间语音进行调速，以使经过所述调速后的中间语音对应的时长与所述分句时长一致，将经过所述调速后的中间语音确定为与所述分句语音对应的目标语音。

在一种可能的实施方式中，所述获取模块10还用于：获取原始语种；所述分句模块20还用于：对所述原始音频流数据进行分句，并根据所述原始语种同步识别各分句语音对应的原始字幕文本。

下面参考图6，其示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取目标语种和原始音频流数据，所述原始音频流数据为对直播数据解码得到；对所述原始音频流数据进行分句，并同步识别各分句语音对应的原始字幕文本；将各分句语音分别对应的所述原始字幕文本翻译为目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音，所述目标字幕文本为所述目标语种的文本；将所述目标语音作为目标音频流数据，以构成经过同传后的直播数据。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，获取模块还可以被描述为“获取目标语种和原始音频流数据的模块”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，示例1提供了一种直播语音同传方法，所述方法包括：获取目标语种和原始音频流数据，所述原始音频流数据为对直播数据解码得到；对所述原始音频流数据进行分句，并同步识别各分句语音对应的原始字幕文本；将各分句语音分别对应的所述原始字幕文本翻译为目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音，所述目标字幕文本为所述目标语种的文本；将所述目标语音作为目标音频流数据，以构成经过同传后的直播数据。

根据本公开的一个或多个实施例，示例2提供了示例1的一种方法，所述将各分句语音分别对应的所述原始字幕文本翻译为目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音包括：获取各分句语音分别对应的所述原始字幕文本翻译得到的翻译文本；根据所述分句语音所在的时间轴确定所述分句语音对应的分句时长，并确定所述分句时长对应的音素数值范围；计算所述翻译文本中的实际音素数量；若所述实际音素数量处于所述音素数值范围内，则将所述翻译文本作为所述目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音。

根据本公开的一个或多个实施例，示例3提供了示例2的一种方法，所述将各分句语音分别对应的所述原始字幕文本翻译为目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音还包括：若所述实际音素数量不处于所述音素数值范围内，则根据所述实际音素数量和所述音素数值范围之间的大小关系，和预设文本调整规则对所述翻译文本进行调整；若调整后的翻译文本中的实际音素数量处于所述音素数值范围内，则将所述调整后的翻译文本作为所述目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音。

根据本公开的一个或多个实施例，示例4提供了示例2的一种方法，所述获取各分句语音分别对应的所述原始字幕文本翻译得到的翻译文本包括：获取所述各分句语音分别对应的所述原始字幕文本翻译得到的多个候选文本；将所述多个候选文本中优先级最高的候选文本确定为所述翻译文本。

根据本公开的一个或多个实施例，示例5提供了示例4的一种方法，所述将各分句语音分别对应的所述原始字幕文本翻译为目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音还包括：若所述实际音素数量不处于所述音素数值范围内，则按照所述优先级，将所述多个候选文本依次确定为所述翻译文本，直至所述翻译文本的实际音素数量处于所述音素数值范围内，或所述多个候选文本都已被遍历结束为止。

根据本公开的一个或多个实施例，示例6提供了示例5的一种方法，所述将各分句语音分别对应的所述原始字幕文本翻译为目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音还包括：若所述多个候选文本都已被遍历结束，且所述翻译文本的实际音素数量仍不处于所述音素数值范围内，则将所述多个候选文本中优先级最高的候选文本确定为所述目标字幕文本；根据所述目标字幕文本合成中间语音，并通过所述分句语音对应的所述分句时长对所述中间语音进行调速，以使经过所述调速后的中间语音对应的时长与所述分句时长一致，将经过所述调速后的中间语音确定为与所述分句语音对应的目标语音。

根据本公开的一个或多个实施例，示例7提供了示例1的一种方法，所述方法还包括：获取原始语种；所述对所述原始音频流数据进行分句，并同步识别各分句语音对应的原始字幕文本包括：对所述原始音频流数据进行分句，并根据所述原始语种同步识别各分句语音对应的原始字幕文本。

根据本公开的一个或多个实施例，示例8提供了一种直播语音同传装置，其特征在于，所述装置包括：获取模块，用于获取目标语种和原始音频流数据，所述原始音频流数据为对直播数据解码得到；分句模块，用于对所述原始音频流数据进行分句，并同步识别各分句语音对应的原始字幕文本；同传模块，用于将各分句语音分别对应的所述原始字幕文本翻译为目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音，所述目标字幕文本为所述目标语种的文本；处理模块，用于将所述目标语音作为目标音频流数据，以构成经过同传后的直播数据。

根据本公开的一个或多个实施例，示例9提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现示例1-7中任一项所述方法的步骤。

根据本公开的一个或多个实施例，示例10提供了一种电子设备，包括：存储装置，其上存储有计算机程序；处理装置，用于执行所述存储装置中的所述计算机程序，以实现示例1-7中任一项所述方法的步骤。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

Claims

1.一种直播语音同传方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将各分句语音分别对应的所述原始字幕文本翻译为目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音包括：

获取各分句语音分别对应的所述原始字幕文本翻译得到的翻译文本；

根据所述分句语音所在的时间轴确定所述分句语音对应的分句时长，并确定所述分句时长对应的音素数值范围；

计算所述翻译文本中的实际音素数量；

若所述实际音素数量处于所述音素数值范围内，则将所述翻译文本作为所述目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音。

3.根据权利要求2所述的方法，其特征在于，所述将各分句语音分别对应的所述原始字幕文本翻译为目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音还包括：

若所述实际音素数量不处于所述音素数值范围内，则根据所述实际音素数量和所述音素数值范围之间的大小关系，和预设文本调整规则对所述翻译文本进行调整；

若调整后的翻译文本中的实际音素数量处于所述音素数值范围内，则将所述调整后的翻译文本作为所述目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音。

4.根据权利要求2所述的方法，其特征在于，所述获取各分句语音分别对应的所述原始字幕文本翻译得到的翻译文本包括：

获取所述各分句语音分别对应的所述原始字幕文本翻译得到的多个候选文本；

将所述多个候选文本中优先级最高的候选文本确定为所述翻译文本。

5.根据权利要求4所述的方法，其特征在于，所述将各分句语音分别对应的所述原始字幕文本翻译为目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音还包括：

若所述实际音素数量不处于所述音素数值范围内，则按照所述优先级，将所述多个候选文本依次确定为所述翻译文本，直至所述翻译文本的实际音素数量处于所述音素数值范围内，或所述多个候选文本都已被遍历结束为止。

6.根据权利要求5所述的方法，其特征在于，所述将各分句语音分别对应的所述原始字幕文本翻译为目标字幕文本，并根据所述目标字幕文本合成与所述分句语音对应的目标语音还包括：

若所述多个候选文本都已被遍历结束，且所述翻译文本的实际音素数量仍不处于所述音素数值范围内，则将所述多个候选文本中优先级最高的候选文本确定为所述目标字幕文本；

根据所述目标字幕文本合成中间语音，并通过所述分句语音对应的所述分句时长对所述中间语音进行调速，以使经过所述调速后的中间语音对应的时长与所述分句时长一致，将经过所述调速后的中间语音确定为与所述分句语音对应的目标语音。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取原始语种；

所述对所述原始音频流数据进行分句，并同步识别各分句语音对应的原始字幕文本包括：

对所述原始音频流数据进行分句，并根据所述原始语种同步识别各分句语音对应的原始字幕文本。

8.一种直播语音同传装置，其特征在于，所述装置包括：

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。