CN113299276A

CN113299276A - 多人多语种识别和翻译方法与装置

Info

Publication number: CN113299276A
Application number: CN202110574284.5A
Authority: CN
Inventors: 李健; 袁逸晨; 陈明; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-08-24
Anticipated expiration: 2041-05-25
Also published as: CN113299276B

Abstract

本申请提供了一种多人多语种识别和翻译方法与装置。该方法包括：获取整段音频数据，整段音频数据为多个发声者发出的，且各发声者发出的音频数据的语种包括至少一种；将整段音频数据，按照发声者的不同划分为多段第一子音频数据；将各段第一子音频数据，按照语种的不同划分为至少一段第二子音频数据；将各段第二子音频数据转换为文字数据；将各文字数据翻译为目标语言。采用本方案实现了对多人多语种的整段音频数据的准确识别和翻译。

Description

多人多语种识别和翻译方法与装置

技术领域

本申请涉及机器翻译领域，具体而言，涉及一种多人多语种识别和翻译方法、装置、计算机可读存储介质与处理器。

背景技术

随着经济、科技、生活逐渐全球化，各国人民之间的交流日益频繁，据统计全球一共有5000多种语言，多种语言之间的交流成为重要课题。例如在多国会议场景下，整理多语种会议音频记录，需要使用语音识别和机器翻译来辅助进行整理，将对应语种进行语音转文字，再将文本翻译成目标语言。而语音翻译不准确的痛点在于两个部分：一个是语音识别不准确(语音到文字)，一个是翻译不准确(原文到译文)，且是线性依赖的，一旦有一环不准确将会导致最终结果不准确。本发明主要解决多人多国语音识别和翻译不准确的问题，以及提升场景体验。

现有技术中没有将多人多语种音频转换为同一语种文字的完整解决方案，无法规避两次转换(语音到文字、原文到译文)带来的转换正确率下降的问题，一般只单一解决语音识别率和翻译正确率的问题。

发明内容

本申请的主要目的在于提供一种多人多语种识别和翻译方法、装置、计算机可读存储介质与处理器，以解决现有技术中多人多国语音识别和翻译不准确的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种多人多语种识别和翻译方法，包括：获取整段音频数据，所述整段音频数据为多个发声者发出的，且各所述发声者发出的音频数据的语种包括至少一种；将所述整段音频数据，按照发声者的不同划分为多段第一子音频数据；将各段所述第一子音频数据，按照语种的不同划分为至少一段第二子音频数据；将各段所述第二子音频数据转换为文字数据；将各所述文字数据翻译为目标语言。

进一步地，将所述整段音频数据，按照发声者的不同划分为多段第一子音频数据，包括：获取各所述发声者的声纹信息；根据所述声纹信息，将所述整段音频数据划分为多段所述第一子音频数据。

进一步地，将各段所述第二子音频数据转换为文字数据，包括：创建各所述发声者的声学模型；根据所述声学模型将各段所述第二子音频数据转换为文字数据。

进一步地，将各段所述第二子音频数据转换为文字数据之后，所述方法还包括：将相同语种的不同的所述发声者对应的所述文字数据进行聚合，得到各所述语种对应的文本。

进一步地，将各所述文字数据翻译为目标语言，包括：获取各所述语种的翻译领域模型；采用所述翻译领域模型将各所述语种对应的文本，翻译为所述目标语言。

进一步地，将各所述文字数据翻译为目标语言之后，所述方法还包括：获取各所述文本的时间戳；按照所述时间戳，将不同的所述目标语言进行聚合，得到最终翻译结果。

进一步地，按照所述时间戳，将不同的所述目标语言进行聚合，得到最终翻译结果之后，所述方法还包括：获取各所述发声者的个性化音库；按照所述时间戳，采用所述个性化音库将各所述文本进行播报。

根据本申请的另一个方面，提供了一种多人多语种识别和翻译装置，包括：第一获取单元，用于获取整段音频数据，所述整段音频数据为多个发声者发出的，且各所述发声者发出的音频数据的语种包括至少一种；第一划分单元，用于将所述整段音频数据，按照发声者的不同划分为多段第一子音频数据；第二划分单元，用于将各段所述第一子音频数据，按照语种的不同划分为至少一段第二子音频数据；转换单元，用于将各段所述第二子音频数据转换为文字数据；翻译单元，用于将各所述文字数据翻译为目标语言。

根据本申请的又一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行任意一种所述的多人多语种识别和翻译方法。

根据本申请的再一方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任意一种所述的多人多语种识别和翻译方法。

应用本申请的技术方案，通过获取多人多语种的整段音频数据，将整段音频数据，按照发声者的不同划分为多段第一子音频数据，即第一子音频数据携带着发声者信息，再将第一子音频数据，按照语种的不同划分为至少一段第二子音频数据，即第二子音频数据携带着发声者信息和语种信息，再将携带着发声者信息和语种信息的第二子音频数据转换为文字数据，最后将文字数据翻译为目标语言。实现了对多人多语种的整段音频数据的准确识别和翻译。本方案可以实现对多人多语种的整段音频数据的离线识别翻译。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了根据本申请的实施例的多人多语种识别和翻译方法流程图；

图2示出了根据本申请的实施例的多人多语种识别和翻译装置示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应该理解的是，当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时，该元件可直接在该另一元件上，或者也可存在中间元件。而且，在说明书以及权利要求书中，当描述有元件“连接”至另一元件时，该元件可“直接连接”至该另一元件，或者通过第三元件“连接”至该另一元件。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

语音识别(ASR)：语音识别也称为自动语音识别，是一种将人类语音转换为文本的技术。语音识别是涉及心理学、生理学、声学、语言学、信息理论、信号处理、计算机科学、模式识别等多个学科的交叉学科。

文本聚类(BDA)：自然语言理解技术的一种，利用大数据分析技术，对文章内容进行深度分析，输出文章主题的分类。

语音合成(TTS)：将计算机自己产生的、或外部输入的文字信息转变为标准流畅的语音朗读出来。

机器翻译(MT)：利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。

翻译领域模型：是指针对不同领域的文本进行翻译的模型，采用翻译领域模型可以对不同领域的文本进行翻译，可以实现对具体的领域中的专有名词的准确翻译，例如，金融、物理、人工智能等领域。

正如背景技术中所介绍的，现有技术中的多人多国语音识别和翻译不准确，为解决如上多人多国语音识别和翻译不准确的问题，本申请的实施例提供了一种多人多语种识别和翻译方法、装置、计算机可读存储介质与处理器。

根据本申请的实施例，提供了一种多人多语种识别和翻译方法。

图1是根据本申请实施例的多人多语种识别和翻译方法的流程图。如图1所示，该方法包括以下步骤：

步骤S101，获取整段音频数据，上述整段音频数据为多个发声者发出的，且各上述发声者发出的音频数据的语种包括至少一种；

步骤S102，将上述整段音频数据，按照发声者的不同划分为多段第一子音频数据；

步骤S103，将各段上述第一子音频数据，按照语种的不同划分为至少一段第二子音频数据；

步骤S104，将各段上述第二子音频数据转换为文字数据；

步骤S105，将各上述文字数据翻译为目标语言。

具体地，由于同一个发声者也不排除存在多种语言的情况，因此为了保证最后转换结果的准确性，需要对第一子音频数据进行分帧后语种检测划分为多个音频段，再按照语种和时间戳进行音频的聚合得到第二子音频数据，第二子音频数据中携带有发声者信息和语种信息，实现了按照发声者和语种进行分类。

具体地，整段音频数据的格式可以为pcm，wav，mp3等格式。

具体地，可以将整段音频数据按照固定长度进行音频流切分，切分固定长度音频流进行声纹识别、语种检测和ASR识别。

上述方案中，通过获取多人多语种的整段音频数据，将整段音频数据，按照发声者的不同划分为多段第一子音频数据，即第一子音频数据携带着发声者信息，再将第一子音频数据，按照语种的不同划分为至少一段第二子音频数据，即第二子音频数据携带着发声者信息和语种信息，再将携带着发声者信息和语种信息的第二子音频数据转换为文字数据，最后将文字数据翻译为目标语言。实现了对多人多语种的整段音频数据的准确识别和翻译。本方案可以实现对多人多语种的整段音频数据的离线识别翻译。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请的一种实施例中，将上述整段音频数据，按照发声者的不同划分为多段第一子音频数据，包括：获取各上述发声者的声纹信息；根据上述声纹信息，将上述整段音频数据划分为多段上述第一子音频数据。由于发声者不同声纹信息也不同，所以可以根据声纹信息对发声者进行区分。具体地，将不同的发声者命名为不同的userID，每个发声者利用声纹技术进行声纹注册，可以通过截取音频内的录音进行注册，也可以直接让发声者进行声纹注册。具体地，根据声纹信息先将整段音频数据按照发声者进行切分，切分为若干个音频段，将切分后的音频段按照userID进行标记并记录每一个音频段的起始时间戳。将若干音频段按照userID收集并根据时间戳先后顺序进行聚合，使得音频段按照userID进行分类，实现了将整段音频数据按照发声者的不同进行划分。

本申请的一种实施例中，将各段上述第二子音频数据转换为文字数据，包括：创建各上述发声者的声学模型；根据上述声学模型将各段上述第二子音频数据转换为文字数据(具体采用ASR语音识别技术)。可以使用事先获取的音频数据进行声学模型的训练，对于同一个发声者的不同的语种可以训练不同的声学模型。采用不同的声学模型可以得到同一个发声者的不同的文字转换结果，每一段文字数据中携带userID、语种标签和对应原始音频的时间戳。

本申请的一种实施例中，将各段上述第二子音频数据转换为文字数据之后，上述方法还包括：将相同语种的不同的上述发声者对应的上述文字数据进行聚合，得到各上述语种对应的文本。具体地，将文字数据按照语种和时间戳先后进行聚合。

本申请的一种实施例中，将各段上述第二子音频数据转换为文字数据之后，且在将各上述文字数据翻译为目标语言之前，所述方法还包括采用文本聚类(BDA)对文字数据进行分类等处理。以便于后续的机器翻译。具体地，利用文本聚类的方式，区分出文本的领域，再利用翻译领域模型进行对应领域翻译。

本申请的一种实施例中，将各上述文字数据翻译为目标语言，包括：获取各上述语种的翻译领域模型；采用上述翻译领域模型将各上述语种对应的文本，翻译为上述目标语言。将文字数据按照语种和时间戳先后进行聚合，在相同语种下利用NLP大数据分析技术，得到此语种下的翻译领域模型，采用翻译领域模型进行文本翻译，此时翻译得到的目标语言(文字的形式)携带有userID、语种标签和对应原始音频的时间戳。

本申请的一种实施例中，将各上述文字数据翻译为目标语言之后，上述方法还包括：获取各上述文本的时间戳；按照上述时间戳，将不同的上述目标语言进行聚合，得到最终翻译结果。最终将翻译得到的目标语言按照文本的时间戳先后聚合成一篇完整的结果。经过两次分类两次聚合的调优得到的最终翻译结果较为准确。本方案的翻译结果利用说话人的音频训练专属声纹模型、ASR声学模型、TTS个性化定制音库，个性化程度较高。利用“两次分类，两次聚合”对音频和文本进行分片标记的方法，将数据处理的颗粒度最小化，从而极大提高识别翻译准确率。

本申请的一种实施例中，按照上述时间戳，将不同的上述目标语言进行聚合，得到最终翻译结果之后，上述方法还包括：获取各上述发声者的个性化音库(具体采用TTS语音合成技术得到个性化音库)；按照上述时间戳，采用上述个性化音库将各上述文本进行播报。如用户有“听”(残障人士，只能听)的需求，可按照userID事先训练的个性化音库进行语音合成，每段翻译得到的目标语言有自己的时间戳标记、语种标记、userID标记，按照这三个标记，按时间戳顺序，合成播报对应userID和语种的音频即可。生成个性化音库的音频来源可以截取音频内录音，也可以直接让发声者提供录音。本方案利用声纹技术、语种检测技术、大数据分析等多种人工智能技术将多人多语种的音频切分成若干音频后分类记录标签，再组合进行ASR识别和MT翻译，解决了同一音频里存在多人(角色)，多语种情况下，难以翻译和识别翻译正确率低的问题。即本申请的翻译结果不仅限于文本，可转换为音频个性化播报。

本申请实施例还提供了一种多人多语种识别和翻译装置，需要说明的是，本申请实施例的多人多语种识别和翻译装置可以用于执行本申请实施例所提供的用于多人多语种识别和翻译方法。以下对本申请实施例提供的多人多语种识别和翻译装置进行介绍。

图2是根据本申请实施例的多人多语种识别和翻译装置的示意图。如图2所示，该装置包括：

第一获取单元10，用于获取整段音频数据，上述整段音频数据为多个发声者发出的，且各上述发声者发出的音频数据的语种包括至少一种；

第一划分单元20，用于将上述整段音频数据，按照发声者的不同划分为多段第一子音频数据；

第二划分单元30，用于将各段上述第一子音频数据，按照语种的不同划分为至少一段第二子音频数据；

转换单元40，用于将各段上述第二子音频数据转换为文字数据；

翻译单元50，用于将各上述文字数据翻译为目标语言。

具体地，整段音频数据的格式可以为pcm，wav，mp3等格式。

上述方案中，第一获取单元获取多人多语种的整段音频数据，第一划分单元将整段音频数据，按照发声者的不同划分为多段第一子音频数据，即第一子音频数据携带着发声者信息，第二划分单元将第一子音频数据，按照语种的不同划分为至少一段第二子音频数据，即第二子音频数据携带着发声者信息和语种信息，转换单元将携带着发声者信息和语种信息的第二子音频数据转换为文字数据，翻译单元将文字数据翻译为目标语言。实现了对多人多语种的整段音频数据的准确识别和翻译。本方案可以实现对多人多语种的整段音频数据的离线识别翻译。

本申请的一种实施例中，第一划分单元包括第一获取模块和划分模块，第一获取模块用于获取各上述发声者的声纹信息；划分模块用于根据上述声纹信息，将上述整段音频数据划分为多段上述第一子音频数据。由于发声者不同声纹信息也不同，所以可以根据声纹信息对发声者进行区分。具体地，将不同的发声者命名为不同的userID，每个发声者利用声纹技术进行声纹注册，可以通过截取音频内的录音进行注册，也可以直接让发声者进行声纹注册。具体地，根据声纹信息先将整段音频数据按照发声者进行切分，切分为若干个音频段，将切分后的音频段按照userID进行标记并记录每一个音频段的起始时间戳。将若干音频段按照userID收集并根据时间戳先后顺序进行聚合，使得音频段按照userID进行分类，实现了将整段音频数据按照发声者的不同进行划分。

本申请的一种实施例中，转换单元包括创建模块和转换模块，创建模块用于创建各上述发声者的声学模型；转换模块用于根据上述声学模型将各段上述第二子音频数据转换为文字数据。可以使用事先获取的音频数据进行声学模型的训练，对于同一个发声者的不同的语种可以训练不同的声学模型。采用不同的声学模型可以得到同一个发声者的不同的文字转换结果，每一段文字数据中携带userID、语种标签和对应原始音频的时间戳。

本申请的一种实施例中，上述装置还包括第一聚合单元，第一聚合单元用于将各段上述第二子音频数据转换为文字数据之后，将相同语种的不同的上述发声者对应的上述文字数据进行聚合，得到各上述语种对应的文本。具体地，将文字数据按照语种和时间戳先后进行聚合。

本申请的一种实施例中，翻译单元包括第二获取模块和翻译模块，第二获取模块用于获取各上述语种的翻译领域模型；翻译模块用于采用上述翻译领域模型将各上述语种对应的文本，翻译为上述目标语言。将文字数据按照语种和时间戳先后进行聚合，在相同语种下利用NLP大数据分析技术，得到此语种下的翻译领域模型，采用翻译领域模型进行文本翻译，此时翻译得到的目标语言(文字的形式)携带有userID、语种标签和对应原始音频的时间戳。

本申请的一种实施例中，上述装置还包括第二获取单元和第二聚合单元：第二获取单元用于将各上述文字数据翻译为目标语言之后，获取各上述文本的时间戳；第二聚合单元用于按照上述时间戳，将不同的上述目标语言进行聚合，得到最终翻译结果。最终将翻译得到的目标语言按照文本的时间戳先后聚合成一篇完整的结果。经过两次分类两次聚合的调优得到的最终翻译结果较为准确。本方案的翻译结果利用说话人的音频训练专属声纹模型、ASR声学模型、TTS个性化定制音库，个性化程度较高。利用“两次分类，两次聚合”对音频和文本进行分片标记的方法，将数据处理的颗粒度最小化，从而极大提高识别翻译准确率。

本申请的一种实施例中，上述装置还包括第三获取单元和播报单元，第三获取单元用于按照上述时间戳，将不同的上述目标语言进行聚合，得到最终翻译结果之后，获取各上述发声者的个性化音库；播报单元用于按照上述时间戳，采用上述个性化音库将各上述文本进行播报。如用户有“听”(残障人士，只能听)的需求，可按照userID事先训练的个性化音库进行语音合成，每段翻译得到的目标语言有自己的时间戳标记、语种标记、userID标记，按照这三个标记，按时间戳顺序，合成播报对应userID和语种的音频即可。生成个性化音库的音频来源可以截取音频内录音，也可以直接让发声者提供录音。本方案利用声纹技术、语种检测技术、大数据分析等多种人工智能技术将多人多语种的音频切分成若干音频后分类记录标签，再组合进行ASR识别和MT翻译，解决了同一音频里存在多人(角色)，多语种情况下，难以翻译和识别翻译正确率低的问题。即本申请的翻译结果不仅限于文本，可转换为音频个性化播报。

所述多人多语种识别和翻译装置包括处理器和存储器，上述第一获取单元、第一划分单元、第二划分单元、转换单元和翻译单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提高多人多语种识别和翻译的准确性。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行所述多人多语种识别和翻译方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述多人多语种识别和翻译方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：

步骤S104，将各段上述第二子音频数据转换为文字数据；

步骤S105，将各上述文字数据翻译为目标语言。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：

步骤S104，将各段上述第二子音频数据转换为文字数据；

步骤S105，将各上述文字数据翻译为目标语言。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

从以上的描述中，可以看出，本申请上述的实施例实现了如下技术效果：

1)、本申请的多人多语种识别和翻译方法，通过获取多人多语种的整段音频数据，将整段音频数据，按照发声者的不同划分为多段第一子音频数据，即第一子音频数据携带着发声者信息，再将第一子音频数据，按照语种的不同划分为至少一段第二子音频数据，即第二子音频数据携带着发声者信息和语种信息，再将携带着发声者信息和语种信息的第二子音频数据转换为文字数据，最后将文字数据翻译为目标语言。实现了对多人多语种的整段音频数据的准确识别和翻译。本方案可以实现对多人多语种的整段音频数据的离线识别翻译。

2)、本申请的多人多语种识别和翻译装置，第一获取单元获取多人多语种的整段音频数据，第一划分单元将整段音频数据，按照发声者的不同划分为多段第一子音频数据，即第一子音频数据携带着发声者信息，第二划分单元将第一子音频数据，按照语种的不同划分为至少一段第二子音频数据，即第二子音频数据携带着发声者信息和语种信息，转换单元将携带着发声者信息和语种信息的第二子音频数据转换为文字数据，翻译单元将文字数据翻译为目标语言。实现了对多人多语种的整段音频数据的准确识别和翻译。本方案可以实现对多人多语种的整段音频数据的离线识别翻译。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种多人多语种识别和翻译方法，其特征在于，包括：

获取整段音频数据，所述整段音频数据为多个发声者发出的，且各所述发声者发出的音频数据的语种包括至少一种；

将所述整段音频数据，按照发声者的不同划分为多段第一子音频数据；

将各段所述第一子音频数据，按照语种的不同划分为至少一段第二子音频数据；

将各段所述第二子音频数据转换为文字数据；

将各所述文字数据翻译为目标语言。

2.根据权利要求1所述的方法，其特征在于，将所述整段音频数据，按照发声者的不同划分为多段第一子音频数据，包括：

获取各所述发声者的声纹信息；

根据所述声纹信息，将所述整段音频数据划分为多段所述第一子音频数据。

3.根据权利要求1所述的方法，其特征在于，将各段所述第二子音频数据转换为文字数据，包括：

创建各所述发声者的声学模型；

根据所述声学模型将各段所述第二子音频数据转换为文字数据。

4.根据权利要求1所述的方法，其特征在于，将各段所述第二子音频数据转换为文字数据之后，所述方法还包括：

将相同语种的不同的所述发声者对应的所述文字数据进行聚合，得到各所述语种对应的文本。

5.根据权利要求4所述的方法，其特征在于，将各所述文字数据翻译为目标语言，包括：

获取各所述语种的翻译领域模型；

采用所述翻译领域模型将各所述语种对应的文本，翻译为所述目标语言。

6.根据权利要求5所述的方法，其特征在于，将各所述文字数据翻译为目标语言之后，所述方法还包括：

获取各所述文本的时间戳；

按照所述时间戳，将不同的所述目标语言进行聚合，得到最终翻译结果。

7.根据权利要求6所述的方法，其特征在于，按照所述时间戳，将不同的所述目标语言进行聚合，得到最终翻译结果之后，所述方法还包括：

获取各所述发声者的个性化音库；

按照所述时间戳，采用所述个性化音库将各所述文本进行播报。

8.一种多人多语种识别和翻译装置，其特征在于，包括：

第一获取单元，用于获取整段音频数据，所述整段音频数据为多个发声者发出的，且各所述发声者发出的音频数据的语种包括至少一种；

第一划分单元，用于将所述整段音频数据，按照发声者的不同划分为多段第一子音频数据；

第二划分单元，用于将各段所述第一子音频数据，按照语种的不同划分为至少一段第二子音频数据；

转换单元，用于将各段所述第二子音频数据转换为文字数据；

翻译单元，用于将各所述文字数据翻译为目标语言。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的多人多语种识别和翻译方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至7中任意一项所述的多人多语种识别和翻译方法。