CN117727306A

CN117727306A - 一种基于原生声纹特征的拾音翻译方法、设备及存储介质

Info

Publication number: CN117727306A
Application number: CN202311773493.8A
Authority: CN
Inventors: 郑晓辉; 牟欣语
Original assignee: Qingdao Runhengyi Technology Co ltd
Current assignee: Qingdao Runhengyi Technology Co ltd
Priority date: 2023-12-21
Filing date: 2023-12-21
Publication date: 2024-03-19

Abstract

本发明公开一种基于原生声纹特征的拾音翻译方法、设备及存储介质，涉及语音识别技术领域。本发明包括，获取原生音频；将原生音频进行分割得到多个原音素以及对应的顺序；获取每个原音素的若干个种类的声纹特征；对原生音频进行语义识别得到原语种文本；将原语种文本翻译为转译语义文本；对转译语义文本进行音素拟合得到多个转译音素以及对应的顺序；根据原音素和对应的顺序以及对应的若干个种类的声纹特征对转译音素进行修正得到转译音频。本发明通过对发言者的原生声纹特征进行识别提取，实现对语音翻译结果的修正，同时实现对翻译结果的润色。

Description

一种基于原生声纹特征的拾音翻译方法、设备及存储介质

技术领域

本发明属于语音识别技术领域，特别是涉及一种基于原生声纹特征的拾音翻译方法、设备及存储介质。

背景技术

在全球化日益加深的今天，跨语言沟通已成为一项日常需求。为了满足这种需求，语音翻译技术得到了迅猛发展。传统的语音翻译流程一般包括语音信号的采集、语音识别(将语音转换为文本)、文本翻译以及语音合成(将翻译后的文本转换回语音)四个步骤。虽然现有技术在语音识别和机器翻译的准确性上取得了显著的进步，但依然存在着一些局限性。

现有的语音翻译系统多专注于语音的文字内容，往往忽略了声音中包含的丰富的非语言信息，这不仅导致翻译结果缺乏发言者的语音情感，同时还会降低识别翻译的准确性。

发明内容

本发明的目的在于提供一种基于原生声纹特征的拾音翻译方法、设备及存储介质，通过对发言者的原生声纹特征进行识别提取，实现对语音翻译结果的修正，同时实现对翻译结果的润色。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明提供一种基于原生声纹特征的拾音翻译方法，包括，

获取原生音频；

将所述原生音频进行分割得到多个原音素以及对应的顺序；

获取每个所述原音素的若干个种类的声纹特征，其中，所述声纹特征的种类包括频谱特征、共振峰特征和/或声音强度特征；

对所述原生音频进行语义识别得到原语种文本；

将所述原语种文本翻译为转译语义文本；

对所述转译语义文本进行音素拟合得到多个转译音素以及对应的顺序；

根据所述原音素和对应的顺序以及对应的若干个种类的声纹特征对所述转译音素进行修正得到转译音频。

本发明还公开了一种基于原生声纹特征的拾音翻译方法，包括，

实时获取并存储音频流；

对所述音频流进行降噪滤波得到人声流；

获取所述人声流中的空白时段；

将空白时段之间的所述人声流截取作为原生音频；

对所述原生音频修正得到转译音频。

接收转译音频；

播放所述转译音频。

本发明还公开了一种设备，其特征在于，包括，

麦克风，用于录制得到原生音频；

转译单元，将所述原生音频转译为转译音频

扬声器，用于播放所述转译音频。

本发明还公开了一种存储介质，包括，

所述存储介质中存储有至少一条命令、至少一段程序、代码集或指令集，所述至少一条命令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现一种基于原生声纹特征的拾音翻译方法。

本发明通过对麦克风录制发言者的原生音频，再通过转译单元对发言者的原生声纹特征进行识别提取，最后通过扬声器对转译音频进行播放。在此过程中能够将发言者的个人的语音特征赋予翻译后合成的语音中，不仅实现对语音翻译结果的修正，同时实现对翻译结果的润色。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所述一种拾音翻译设备于一实施例的功能模块和信息流向示意图；

图2为本发明所述一种基于原生声纹特征的拾音翻译方法于一实施例的步骤流程示意图一；

图3为本发明所述一种基于原生声纹特征的拾音翻译方法于一实施例的步骤流程示意图二；

图4为本发明所述一种基于原生声纹特征的拾音翻译方法于一实施例的步骤流程示意图三；

图5为本发明所述步骤S7于一实施例的步骤流程示意图；

图6为本发明所述步骤S76于一实施例的步骤流程示意图一；

图7为本发明所述步骤S762于一实施例的步骤流程示意图；

图8为本发明所述步骤S76于一实施例的步骤流程示意图二；

图9为本发明所述步骤S77于一实施例的步骤流程示意图；

附图中，各标号所代表的部件列表如下：

1-麦克风，2-转译单元，3-扬声器。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

需要说明的是，本申请中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

语音翻译是将一种语言的口头语音输入转换为另一种语言的口头语音输出的过程。它结合了语音识别和机器翻译技术，使得人们可以通过语音进行跨语言的沟通和交流。但是现有技术中的同声传译的发声使用电子拟合发声，无法还原真实发言者的语气。有鉴于此，本发明提供以下方案。

请参阅图1至4所示，本发明提供了一种拾音翻译设备，从功能上划分包括麦克风1、转译单元2和扬声器3。在使用的过程中麦克风1用于录制得到原生音频，转译单元2，用于将原生音频转译为转译音频，扬声器3用于播放转译音频。当然这只是对每个功能模块的简单介绍，以下对每个功能模块进行具体说明。

首先可以由麦克风1可以执行步骤S011实时获取并存储音频流，当然也可以不进行录制，而是由专用存储模块进行存储。转译单元2接下来可以执行步骤S012对音频流进行降噪滤波得到人声流。接下来可以执行步骤S013获取人声流中的空白时段。接下来可以执行步骤S014将空白时段之间的人声流截取作为原生音频。接下来可以执行步骤S015对原生音频进行修正得到转译音频。

扬声器3可以和麦克风1、转译单元2作为一个整体设备，同时扬声器3也可以分离设置，例如多个扬声器3可以通过有线或无线的方式连接到转译单元2。扬声器3接下来可以执行步骤S021接收权利要求1至6任一项的一种基于原生声纹特征的拾音翻译方法中的转译音频，最后可以执行步骤S022播放转译音频。

转译单元2在针对原生音频转译得到转译音频的过程中，首先可以执行步骤S1获取原生音频。接下来可以执行步骤S2将原生音频进行分割得到多个原音素以及对应的顺序。接下来可以执行步骤S3获取每个原音素的若干个种类的声纹特征。声纹特征是指个体在语音信号中独特的生物特征，类似于指纹或虹膜。每个人的声音都具有独特的声音特征，其中，声纹特征的种类包括频谱特征、共振峰特征和/或声音强度特征。

频谱特征是声音信号在频域上的特征表示，用于描述声音信号在不同频率上的能量分布和谱形特征。频谱特征是声音信号在频域上的特征表示，用于描述声音信号在不同频率上的能量分布和谱形特征。声纹的频谱特征反映了声音信号在不同频率上的能量分布和谱形特征。每个人的声纹频谱特征是独一无二的，因为它们受到喉咙、嘴唇、鼻腔等声道形状的影响。

共振峰特征是声纹分析中的一种重要声学特征，用于描述声音信号在频域上的共振峰分布情况。共振峰是声音信号中频谱强度较高的突出峰值，反映了声音信号在声道系统中通过声带、咽喉和口腔等共振腔体时的共振频率。

声音强度特征是描述声音信号强度(或音量)的特征。它反映了声音信号的能量大小或振幅级别。声音强度特征常用于声音处理、音频分析和声纹识别等领域。

接下来可以执行步骤S4对原生音频进行语义识别得到原语种文本。接下来可以执行步骤S5将原语种文本翻译为转译语义文本。在此过程中可以使用基于规则的机器翻译(Rule-based Machine Translation,RBMT)：这种方法依赖于人工编写的翻译规则和语法规则。它将源语言文本分析成语法结构，然后根据预先定义的规则来生成目标语言文本。然而这种方法需要大量的人工工作和专业知识，并且对于复杂的语言结构和表达方式可能不够灵活。也可以使用神经机器翻译(Neural Machine Translation,NMT)：这种方法使用深度神经网络模型来进行翻译。它通过训练一个端到端的神经网络模型，直接将源语言文本映射到目标语言文本。NMT方法在处理长句子和复杂语法结构时表现较好，且能够更好地捕捉上下文信息。它通常需要大量的训练数据和计算资源来训练和推断。

接下来可以执行步骤S6对转译语义文本进行音素拟合得到多个转译音素以及对应的顺序。可以使用文本转语音(Text-to-Speech,TTS)技术。TTS技术将文本输入转换为可以听到的语音输出。现在有许多在线和离线的TTS工具和服务可供使用，包括开源库和商业产品。这些工具通常提供多种语音合成模型和语音样式，可以根据输入的文本生成相应的语音。

最后以执行步骤S7根据原音素和对应的顺序以及对应的若干个种类的声纹特征对转译音素进行修正得到转译音频。此过程需要结合发言者的声纹特征进行实施，以下进行具体说明。

请参阅图5所示，为了实现对转译音素进行修正的目的，上述的步骤S7在具体实施的过程中首先可以执行步骤S71对原语种文本进行语义分割得到若干个原文本段以及对应的顺序。接下来可以执行步骤S72将转译语义文本进行语义分割得到若干个转译文本段以及对应的顺序。接下来可以执行步骤S73获取每个原文本段对应的若干个原音素以及对应的顺序。接下来可以执行步骤S74获取每个转译文本段对应的若干个转译音素以及对应的顺序。接下来可以执行步骤S75根据原语种文本与转译语义文本的翻译对照关系对转译文本段进行语义匹配得到语义相同的若干对原文本段和转译文本段。接下来可以执行步骤S76根据原文本段对应的若干个原音素的若干个种类的声纹特征对转译文本段对应的若干个转译音素进行修正得到转译文本段对应转译语段。最后可以执行步骤S77根据转译文本段的顺序对转译语段进行合并得到转译音频。

请参阅图9所示，为了提高合并转译音频的流畅度，上述的步骤S77在具体实施的过程中首先可以执行步骤S771获取原生音频的声调特征。声调特征是指语音中的音高变化模式。它反映了语音信号中不同音节或音素之间的音高差异。声调是语言中的重要语音特征，可以传达词义、语气和情感等信息。接下来可以执行步骤S772将原生音频的声调特征赋予按照转译文本段的顺序进行合并的多个转译语段得到转译音频。通过调整声调特征的方式提高了转译音频的流畅度，更贴合发言者的真实发言状态和语气。

为了对上述的步骤S71至步骤S77的实施过程进行补充说明，提供部分功能模块的源代码，并在注释部分进行对照解释说明。为了避免涉及商业秘密的数据泄露，对不影响方案实施的部分数据进行脱敏处理，下同。

以上代码是一个高层次的框架，描述了从文本到转译音频的整个处理流程。流程如下：

首先对原始文本和转译文本进行语义分割得到文本段及其顺序，之后对每个文本段获取对应的音素序列。接下来对原文本段和转译文本段进行匹配，以确保语义的一致性。之后利用原音素的声纹特征对转译音素进行修正，按顺序合并修正后的转译音素序列生成转译音频。

这个过程的实现需要语义分割、音素提取、文本匹配和声音特征调整等多个复杂步骤的具体算法，这些在上面的代码中被简化为框架函数。实际应用中，每个函数的实现将涉及到复杂的算法和可能的深度学习模型。

请参阅图6所示，由于发言者的一段对话时长较长，一段对话可以分为多对具有相关性匹配的原文本段和转译文本段，其对应的声纹特征也具有相关性。有鉴于此，对于每一对语义匹配的原文本段和转译文本段，上述的步骤S76在具体实施的过程中首先可以执行步骤S761对原文本段对应的每个原音素的每个种类的声纹特征进行向量化得到原文本段对应的每个原音素的声纹特征向量。接下来可以执行步骤S762根据原文本段对应的每个原音素的声纹特征向量挑选出若干个特征原音素，并获取每个特征原音素的时长比例系数。接下来可以执行步骤S763根据原文本段对应的全部原音素的顺序以及原文本段对应的特征原音素得到原文本段对应的特征原音素的顺序。接下来可以执行步骤S764获取转译文本段对应的全部转译音素的总时长。接下来可以执行步骤S765将每个特征原音素的时长比例系数按照特征原音素的顺序进行排列后对转译文本段对应的转译音素的总时长进行划分，得到每个特征原音素对应的若干个转译音素。最后可以执行步骤S766将特征原音素的若干个种类的声纹特征赋予对应的若干个转译音素后组合得到转译文本段对应转译语段。

请参阅图8所示，当然并不是每个转译文本段都有语义相同的原文本段，因此还需要执行步骤S767判断是否存在没有对应的原文本段进行语义匹配的转译文本段。若否则不进行处理，若是则接下来可以执行步骤S768对于没有对应的原文本段进行语义匹配的转译文本段，获取相邻的有对应的原文本段进行语义匹配的转译文本段对应的原文本段作为语义匹配的转译文本段和对应的原文本段。并在之后继续执行步骤S762至步骤S766。

为了对上述的步骤S761至步骤S766的实施过程进行补充说明，提供部分功能模块的源代码，并在注释部分进行对照解释说明。

/>

以上代码实现了一个将原始文本段的音素特征应用到转译文本段音素的过程。首先向量化原文本段的音素特征，然后选择特征音素并计算它们的时长比例系数，接着将这些比例系数应用到转译文本段的音素时长分配上，并将原文本段的特征音素的声纹特征赋予相应的转译音素。这段代码是一个框架性质的示例，一些函数如声纹特征的向量化和音素特征的赋值，实际应用中需要根据实际的声纹特征提取和处理算法来填充这些函数的实现细节。

请参阅图7所示，由于原文本段对应的原音素数量众多，为了在不大幅度降低转译发声效果的前提虾提高转译的速度，对于每个原文本段而言，上述的步骤S762在具体实施的过程中首先可以执行步骤S7621在全部的声纹特征向量中选择若干个标记声纹特征向量。接下来可以执行步骤S7622计算获取标记声纹特征向量与非标记声纹特征向量的向量差。接下来可以执行步骤S7623将非标记声纹特征向量与向量差的模长最小的标记声纹特征向量归类至同一个标记群。接下来可以执行步骤S7624计算得到标记群内全部标记声纹特征向量和非标记声纹特征向量的均值向量。接下来可以执行步骤S7625计算获取标记群内与均值向量的向量差的模长最小的标记声纹特征向量或非标记声纹特征向量作为更新后的标记声纹特征向量。接下来可以执行步骤S7626判断标记群的标记声纹特征向量是否发生变化。若是则接下来可以执行步骤S7622至步骤S7626返回持续更新标记群和标记声纹特征向量，若否则接下来可以执行步骤S7627将标记声纹特征向量对应的原音素作为特征原音素。最后可以执行步骤S7628将标记群内的标记声纹特征向量或非标记声纹特征向量对应的原音素的累计时长之间的比例系数作为对应的每个特征原音素的时长比例系数。

为了对上述的步骤S7621至步骤S7628的实施过程进行补充说明，提供部分功能模块的源代码，并在注释部分进行对照解释说明。

/>

这段代码通过算法对一组音素进行分组，然后选出每个群组中与均值向量距离最近的音素作为特征原音素，并计算出每个音素在其所在群组中的时长比例系数。这样可以得到一组代表性的音素和相应的时长比例，有助于后续的声音分析和合成工作。

本发明还公开一种存储介质，存储介质中存储有至少一条命令、至少一段程序、代码集或指令集，至少一条命令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的一种基于原生声纹特征的拾音翻译方法。

附图中的流程图和框图显示了根据本申请的多个实施例的装置、系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行相应的功能或动作的硬件，例如电路或ASIC(专用集成电路，Application Specific Integrated Circuit)来实现，或者可以用硬件和软件的组合，如固件等来实现。

尽管在此结合各实施例对本发明进行了描述，然而，在实施所要求保护的本发明过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其它变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其它单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于原生声纹特征的拾音翻译方法，其特征在于，包括，

获取原生音频；

将所述原生音频进行分割得到多个原音素以及对应的顺序；

对所述原生音频进行语义识别得到原语种文本；

将所述原语种文本翻译为转译语义文本；

2.根据权利要求1所述的方法，其特征在于，所述根据所述原音素和对应的顺序以及对应的若干个种类的声纹特征对所述转译音素进行修正得到转译音频的步骤，包括，

对所述原语种文本进行语义分割得到若干个原文本段以及对应的顺序；

将所述转译语义文本进行语义分割得到若干个转译文本段以及对应的顺序；

获取每个原文本段对应的若干个所述原音素以及对应的顺序；

获取每个所述转译文本段对应的若干个所述转译音素以及对应的顺序；

根据所述原语种文本与所述转译语义文本的翻译对照关系对所述转译文本段进行语义匹配得到语义相同的若干对所述原文本段和所述转译文本段；

根据所述原文本段对应的若干个所述原音素的若干个种类的声纹特征对所述转译文本段对应的若干个所述转译音素进行修正得到所述转译文本段对应转译语段；

根据所述转译文本段的顺序对所述转译语段进行合并得到转译音频。

3.根据权利要求2所述的方法，其特征在于，所述根据所述原文本段对应的若干个所述原音素的若干个种类的声纹特征对所述转译文本段对应的若干个所述转译音素进行修正得到所述转译文本段对应转译语段的步骤，包括，

对于每一对语义匹配的所述原文本段和所述转译文本段，

对所述原文本段对应的每个所述原音素的每个种类的声纹特征进行向量化得到所述原文本段对应的每个所述原音素的声纹特征向量，

根据所述原文本段对应的每个所述原音素的声纹特征向量挑选出若干个特征原音素，并获取每个特征原音素的时长比例系数，

根据所述原文本段对应的全部所述原音素的顺序以及所述原文本段对应的特征原音素得到所述原文本段对应的特征原音素的顺序，

获取所述转译文本段对应的全部所述转译音素的总时长，

将每个特征原音素的时长比例系数按照特征原音素的顺序进行排列后对所述转译文本段对应的所述转译音素的总时长进行划分，得到每个特征原音素对应的若干个所述转译音素，

将特征原音素的若干个种类的声纹特征赋予对应的若干个所述转译音素后组合得到所述转译文本段对应转译语段。

4.根据权利要求3所述的方法，其特征在于，所述根据所述原文本段对应的每个所述原音素的声纹特征向量挑选出若干个特征原音素，并获取每个特征原音素的时长比例系数的步骤，包括，

对于每个原文本段，

在全部的声纹特征向量中选择若干个标记声纹特征向量；

计算获取标记声纹特征向量与非标记声纹特征向量的向量差；

将非标记声纹特征向量与向量差的模长最小的标记声纹特征向量归类至同一个标记群；

计算得到标记群内全部标记声纹特征向量和非标记声纹特征向量的均值向量；

计算获取标记群内与均值向量的向量差的模长最小的标记声纹特征向量或非标记声纹特征向量作为更新后的标记声纹特征向量；

判断标记群的标记声纹特征向量是否发生变化；

若是，则返回持续更新标记群和标记声纹特征向量；

若否，则将标记声纹特征向量对应的所述原音素作为特征原音素；

将标记群内的标记声纹特征向量或非标记声纹特征向量对应的所述原音素的累计时长之间的比例系数作为对应的每个特征原音素的时长比例系数。

5.根据权利要求3所述的方法，其特征在于，所述根据所述原生音频进行分割得到多个所述原音素以及对应的顺序对所述转译音素进行修正得到转译音频的步骤，还包括，

判断是否存在没有对应的所述原文本段进行语义匹配的所述转译文本段；

若否，则不进行处理；

若是，则对于没有对应的所述原文本段进行语义匹配的所述转译文本段，获取相邻的有对应的所述原文本段进行语义匹配的所述转译文本段对应的所述原文本段作为语义匹配的所述转译文本段和对应的所述原文本段。

6.根据权利要求2所述的方法，其特征在于，所述根据所述转译文本段的顺序对所述转译语段进行合并得到转译音频的步骤，包括，

获取所述原生音频的声调特征；

将所述原生音频的声调特征赋予按照所述转译文本段的顺序进行合并的多个所述转译语段得到所述转译音频。

7.一种基于原生声纹特征的拾音翻译方法，其特征在于，包括，

实时获取并存储音频流；

对所述音频流进行降噪滤波得到人声流；

获取所述人声流中的空白时段；

将空白时段之间的所述人声流截取作为原生音频；

对所述原生音频按照权利要求1至6任一项所述的一种基于原生声纹特征的拾音翻译方法修正得到转译音频。

8.一种基于原生声纹特征的拾音翻译方法，其特征在于，包括，

接收权利要求1至6任一项所述的一种基于原生声纹特征的拾音翻译方法中的转译音频；

播放所述转译音频。

9.一种拾音翻译设备，其特征在于，包括，

麦克风，用于录制得到原生音频；

转译单元，用于根据权利要求1至6任一项所述的一种基于原生声纹特征的拾音翻译方法将所述原生音频转译为转译音频；

扬声器，用于播放所述转译音频。

10.一种存储介质，其特征在于，包括，

所述存储介质中存储有至少一条命令、至少一段程序、代码集或指令集，所述至少一条命令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至6任一项所述的一种基于原生声纹特征的拾音翻译方法。