CN117727306A - 一种基于原生声纹特征的拾音翻译方法、设备及存储介质 - Google Patents
一种基于原生声纹特征的拾音翻译方法、设备及存储介质 Download PDFInfo
- Publication number
- CN117727306A CN117727306A CN202311773493.8A CN202311773493A CN117727306A CN 117727306 A CN117727306 A CN 117727306A CN 202311773493 A CN202311773493 A CN 202311773493A CN 117727306 A CN117727306 A CN 117727306A
- Authority
- CN
- China
- Prior art keywords
- original
- translation
- translated
- phonemes
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims description 49
- 238000012545 processing Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 241000894007 species Species 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 claims description 2
- 238000009877 rendering Methods 0.000 abstract description 11
- 238000012937 correction Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 13
- 230000005236 sound signal Effects 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001095 motoneuron effect Effects 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开一种基于原生声纹特征的拾音翻译方法、设备及存储介质,涉及语音识别技术领域。本发明包括,获取原生音频;将原生音频进行分割得到多个原音素以及对应的顺序;获取每个原音素的若干个种类的声纹特征;对原生音频进行语义识别得到原语种文本;将原语种文本翻译为转译语义文本;对转译语义文本进行音素拟合得到多个转译音素以及对应的顺序;根据原音素和对应的顺序以及对应的若干个种类的声纹特征对转译音素进行修正得到转译音频。本发明通过对发言者的原生声纹特征进行识别提取,实现对语音翻译结果的修正,同时实现对翻译结果的润色。
Description
技术领域
本发明属于语音识别技术领域,特别是涉及一种基于原生声纹特征的拾音翻译方法、设备及存储介质。
背景技术
在全球化日益加深的今天,跨语言沟通已成为一项日常需求。为了满足这种需求,语音翻译技术得到了迅猛发展。传统的语音翻译流程一般包括语音信号的采集、语音识别(将语音转换为文本)、文本翻译以及语音合成(将翻译后的文本转换回语音)四个步骤。虽然现有技术在语音识别和机器翻译的准确性上取得了显著的进步,但依然存在着一些局限性。
现有的语音翻译系统多专注于语音的文字内容,往往忽略了声音中包含的丰富的非语言信息,这不仅导致翻译结果缺乏发言者的语音情感,同时还会降低识别翻译的准确性。
发明内容
本发明的目的在于提供一种基于原生声纹特征的拾音翻译方法、设备及存储介质,通过对发言者的原生声纹特征进行识别提取,实现对语音翻译结果的修正,同时实现对翻译结果的润色。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明提供一种基于原生声纹特征的拾音翻译方法,包括,
获取原生音频;
将所述原生音频进行分割得到多个原音素以及对应的顺序;
获取每个所述原音素的若干个种类的声纹特征,其中,所述声纹特征的种类包括频谱特征、共振峰特征和/或声音强度特征;
对所述原生音频进行语义识别得到原语种文本;
将所述原语种文本翻译为转译语义文本;
对所述转译语义文本进行音素拟合得到多个转译音素以及对应的顺序;
根据所述原音素和对应的顺序以及对应的若干个种类的声纹特征对所述转译音素进行修正得到转译音频。
本发明还公开了一种基于原生声纹特征的拾音翻译方法,包括,
实时获取并存储音频流;
对所述音频流进行降噪滤波得到人声流;
获取所述人声流中的空白时段;
将空白时段之间的所述人声流截取作为原生音频;
对所述原生音频修正得到转译音频。
本发明还公开了一种基于原生声纹特征的拾音翻译方法,包括,
接收转译音频;
播放所述转译音频。
本发明还公开了一种设备,其特征在于,包括,
麦克风,用于录制得到原生音频;
转译单元,将所述原生音频转译为转译音频
扬声器,用于播放所述转译音频。
本发明还公开了一种存储介质,包括,
所述存储介质中存储有至少一条命令、至少一段程序、代码集或指令集,所述至少一条命令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现一种基于原生声纹特征的拾音翻译方法。
本发明通过对麦克风录制发言者的原生音频,再通过转译单元对发言者的原生声纹特征进行识别提取,最后通过扬声器对转译音频进行播放。在此过程中能够将发言者的个人的语音特征赋予翻译后合成的语音中,不仅实现对语音翻译结果的修正,同时实现对翻译结果的润色。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所述一种拾音翻译设备于一实施例的功能模块和信息流向示意图;
图2为本发明所述一种基于原生声纹特征的拾音翻译方法于一实施例的步骤流程示意图一;
图3为本发明所述一种基于原生声纹特征的拾音翻译方法于一实施例的步骤流程示意图二;
图4为本发明所述一种基于原生声纹特征的拾音翻译方法于一实施例的步骤流程示意图三;
图5为本发明所述步骤S7于一实施例的步骤流程示意图;
图6为本发明所述步骤S76于一实施例的步骤流程示意图一;
图7为本发明所述步骤S762于一实施例的步骤流程示意图;
图8为本发明所述步骤S76于一实施例的步骤流程示意图二;
图9为本发明所述步骤S77于一实施例的步骤流程示意图;
附图中,各标号所代表的部件列表如下:
1-麦克风,2-转译单元,3-扬声器。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
需要说明的是,本申请中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
语音翻译是将一种语言的口头语音输入转换为另一种语言的口头语音输出的过程。它结合了语音识别和机器翻译技术,使得人们可以通过语音进行跨语言的沟通和交流。但是现有技术中的同声传译的发声使用电子拟合发声,无法还原真实发言者的语气。有鉴于此,本发明提供以下方案。
请参阅图1至4所示,本发明提供了一种拾音翻译设备,从功能上划分包括麦克风1、转译单元2和扬声器3。在使用的过程中麦克风1用于录制得到原生音频,转译单元2,用于将原生音频转译为转译音频,扬声器3用于播放转译音频。当然这只是对每个功能模块的简单介绍,以下对每个功能模块进行具体说明。
首先可以由麦克风1可以执行步骤S011实时获取并存储音频流,当然也可以不进行录制,而是由专用存储模块进行存储。转译单元2接下来可以执行步骤S012对音频流进行降噪滤波得到人声流。接下来可以执行步骤S013获取人声流中的空白时段。接下来可以执行步骤S014将空白时段之间的人声流截取作为原生音频。接下来可以执行步骤S015对原生音频进行修正得到转译音频。
扬声器3可以和麦克风1、转译单元2作为一个整体设备,同时扬声器3也可以分离设置,例如多个扬声器3可以通过有线或无线的方式连接到转译单元2。扬声器3接下来可以执行步骤S021接收权利要求1至6任一项的一种基于原生声纹特征的拾音翻译方法中的转译音频,最后可以执行步骤S022播放转译音频。
转译单元2在针对原生音频转译得到转译音频的过程中,首先可以执行步骤S1获取原生音频。接下来可以执行步骤S2将原生音频进行分割得到多个原音素以及对应的顺序。接下来可以执行步骤S3获取每个原音素的若干个种类的声纹特征。声纹特征是指个体在语音信号中独特的生物特征,类似于指纹或虹膜。每个人的声音都具有独特的声音特征,其中,声纹特征的种类包括频谱特征、共振峰特征和/或声音强度特征。
频谱特征是声音信号在频域上的特征表示,用于描述声音信号在不同频率上的能量分布和谱形特征。频谱特征是声音信号在频域上的特征表示,用于描述声音信号在不同频率上的能量分布和谱形特征。声纹的频谱特征反映了声音信号在不同频率上的能量分布和谱形特征。每个人的声纹频谱特征是独一无二的,因为它们受到喉咙、嘴唇、鼻腔等声道形状的影响。
共振峰特征是声纹分析中的一种重要声学特征,用于描述声音信号在频域上的共振峰分布情况。共振峰是声音信号中频谱强度较高的突出峰值,反映了声音信号在声道系统中通过声带、咽喉和口腔等共振腔体时的共振频率。
声音强度特征是描述声音信号强度(或音量)的特征。它反映了声音信号的能量大小或振幅级别。声音强度特征常用于声音处理、音频分析和声纹识别等领域。
接下来可以执行步骤S4对原生音频进行语义识别得到原语种文本。接下来可以执行步骤S5将原语种文本翻译为转译语义文本。在此过程中可以使用基于规则的机器翻译(Rule-based Machine Translation,RBMT):这种方法依赖于人工编写的翻译规则和语法规则。它将源语言文本分析成语法结构,然后根据预先定义的规则来生成目标语言文本。然而这种方法需要大量的人工工作和专业知识,并且对于复杂的语言结构和表达方式可能不够灵活。也可以使用神经机器翻译(Neural Machine Translation,NMT):这种方法使用深度神经网络模型来进行翻译。它通过训练一个端到端的神经网络模型,直接将源语言文本映射到目标语言文本。NMT方法在处理长句子和复杂语法结构时表现较好,且能够更好地捕捉上下文信息。它通常需要大量的训练数据和计算资源来训练和推断。
接下来可以执行步骤S6对转译语义文本进行音素拟合得到多个转译音素以及对应的顺序。可以使用文本转语音(Text-to-Speech,TTS)技术。TTS技术将文本输入转换为可以听到的语音输出。现在有许多在线和离线的TTS工具和服务可供使用,包括开源库和商业产品。这些工具通常提供多种语音合成模型和语音样式,可以根据输入的文本生成相应的语音。
最后以执行步骤S7根据原音素和对应的顺序以及对应的若干个种类的声纹特征对转译音素进行修正得到转译音频。此过程需要结合发言者的声纹特征进行实施,以下进行具体说明。
请参阅图5所示,为了实现对转译音素进行修正的目的,上述的步骤S7在具体实施的过程中首先可以执行步骤S71对原语种文本进行语义分割得到若干个原文本段以及对应的顺序。接下来可以执行步骤S72将转译语义文本进行语义分割得到若干个转译文本段以及对应的顺序。接下来可以执行步骤S73获取每个原文本段对应的若干个原音素以及对应的顺序。接下来可以执行步骤S74获取每个转译文本段对应的若干个转译音素以及对应的顺序。接下来可以执行步骤S75根据原语种文本与转译语义文本的翻译对照关系对转译文本段进行语义匹配得到语义相同的若干对原文本段和转译文本段。接下来可以执行步骤S76根据原文本段对应的若干个原音素的若干个种类的声纹特征对转译文本段对应的若干个转译音素进行修正得到转译文本段对应转译语段。最后可以执行步骤S77根据转译文本段的顺序对转译语段进行合并得到转译音频。
请参阅图9所示,为了提高合并转译音频的流畅度,上述的步骤S77在具体实施的过程中首先可以执行步骤S771获取原生音频的声调特征。声调特征是指语音中的音高变化模式。它反映了语音信号中不同音节或音素之间的音高差异。声调是语言中的重要语音特征,可以传达词义、语气和情感等信息。接下来可以执行步骤S772将原生音频的声调特征赋予按照转译文本段的顺序进行合并的多个转译语段得到转译音频。通过调整声调特征的方式提高了转译音频的流畅度,更贴合发言者的真实发言状态和语气。
为了对上述的步骤S71至步骤S77的实施过程进行补充说明,提供部分功能模块的源代码,并在注释部分进行对照解释说明。为了避免涉及商业秘密的数据泄露,对不影响方案实施的部分数据进行脱敏处理,下同。
以上代码是一个高层次的框架,描述了从文本到转译音频的整个处理流程。流程如下:
首先对原始文本和转译文本进行语义分割得到文本段及其顺序,之后对每个文本段获取对应的音素序列。接下来对原文本段和转译文本段进行匹配,以确保语义的一致性。之后利用原音素的声纹特征对转译音素进行修正,按顺序合并修正后的转译音素序列生成转译音频。
这个过程的实现需要语义分割、音素提取、文本匹配和声音特征调整等多个复杂步骤的具体算法,这些在上面的代码中被简化为框架函数。实际应用中,每个函数的实现将涉及到复杂的算法和可能的深度学习模型。
请参阅图6所示,由于发言者的一段对话时长较长,一段对话可以分为多对具有相关性匹配的原文本段和转译文本段,其对应的声纹特征也具有相关性。有鉴于此,对于每一对语义匹配的原文本段和转译文本段,上述的步骤S76在具体实施的过程中首先可以执行步骤S761对原文本段对应的每个原音素的每个种类的声纹特征进行向量化得到原文本段对应的每个原音素的声纹特征向量。接下来可以执行步骤S762根据原文本段对应的每个原音素的声纹特征向量挑选出若干个特征原音素,并获取每个特征原音素的时长比例系数。接下来可以执行步骤S763根据原文本段对应的全部原音素的顺序以及原文本段对应的特征原音素得到原文本段对应的特征原音素的顺序。接下来可以执行步骤S764获取转译文本段对应的全部转译音素的总时长。接下来可以执行步骤S765将每个特征原音素的时长比例系数按照特征原音素的顺序进行排列后对转译文本段对应的转译音素的总时长进行划分,得到每个特征原音素对应的若干个转译音素。最后可以执行步骤S766将特征原音素的若干个种类的声纹特征赋予对应的若干个转译音素后组合得到转译文本段对应转译语段。
请参阅图8所示,当然并不是每个转译文本段都有语义相同的原文本段,因此还需要执行步骤S767判断是否存在没有对应的原文本段进行语义匹配的转译文本段。若否则不进行处理,若是则接下来可以执行步骤S768对于没有对应的原文本段进行语义匹配的转译文本段,获取相邻的有对应的原文本段进行语义匹配的转译文本段对应的原文本段作为语义匹配的转译文本段和对应的原文本段。并在之后继续执行步骤S762至步骤S766。
为了对上述的步骤S761至步骤S766的实施过程进行补充说明,提供部分功能模块的源代码,并在注释部分进行对照解释说明。
/>
以上代码实现了一个将原始文本段的音素特征应用到转译文本段音素的过程。首先向量化原文本段的音素特征,然后选择特征音素并计算它们的时长比例系数,接着将这些比例系数应用到转译文本段的音素时长分配上,并将原文本段的特征音素的声纹特征赋予相应的转译音素。这段代码是一个框架性质的示例,一些函数如声纹特征的向量化和音素特征的赋值,实际应用中需要根据实际的声纹特征提取和处理算法来填充这些函数的实现细节。
请参阅图7所示,由于原文本段对应的原音素数量众多,为了在不大幅度降低转译发声效果的前提虾提高转译的速度,对于每个原文本段而言,上述的步骤S762在具体实施的过程中首先可以执行步骤S7621在全部的声纹特征向量中选择若干个标记声纹特征向量。接下来可以执行步骤S7622计算获取标记声纹特征向量与非标记声纹特征向量的向量差。接下来可以执行步骤S7623将非标记声纹特征向量与向量差的模长最小的标记声纹特征向量归类至同一个标记群。接下来可以执行步骤S7624计算得到标记群内全部标记声纹特征向量和非标记声纹特征向量的均值向量。接下来可以执行步骤S7625计算获取标记群内与均值向量的向量差的模长最小的标记声纹特征向量或非标记声纹特征向量作为更新后的标记声纹特征向量。接下来可以执行步骤S7626判断标记群的标记声纹特征向量是否发生变化。若是则接下来可以执行步骤S7622至步骤S7626返回持续更新标记群和标记声纹特征向量,若否则接下来可以执行步骤S7627将标记声纹特征向量对应的原音素作为特征原音素。最后可以执行步骤S7628将标记群内的标记声纹特征向量或非标记声纹特征向量对应的原音素的累计时长之间的比例系数作为对应的每个特征原音素的时长比例系数。
为了对上述的步骤S7621至步骤S7628的实施过程进行补充说明,提供部分功能模块的源代码,并在注释部分进行对照解释说明。
/>
/>
/>
/>
这段代码通过算法对一组音素进行分组,然后选出每个群组中与均值向量距离最近的音素作为特征原音素,并计算出每个音素在其所在群组中的时长比例系数。这样可以得到一组代表性的音素和相应的时长比例,有助于后续的声音分析和合成工作。
本发明还公开一种存储介质,存储介质中存储有至少一条命令、至少一段程序、代码集或指令集,至少一条命令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的一种基于原生声纹特征的拾音翻译方法。
附图中的流程图和框图显示了根据本申请的多个实施例的装置、系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行相应的功能或动作的硬件,例如电路或ASIC(专用集成电路,Application Specific Integrated Circuit)来实现,或者可以用硬件和软件的组合,如固件等来实现。
尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其它变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其它单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (10)
1.一种基于原生声纹特征的拾音翻译方法,其特征在于,包括,
获取原生音频;
将所述原生音频进行分割得到多个原音素以及对应的顺序;
获取每个所述原音素的若干个种类的声纹特征,其中,所述声纹特征的种类包括频谱特征、共振峰特征和/或声音强度特征;
对所述原生音频进行语义识别得到原语种文本;
将所述原语种文本翻译为转译语义文本;
对所述转译语义文本进行音素拟合得到多个转译音素以及对应的顺序;
根据所述原音素和对应的顺序以及对应的若干个种类的声纹特征对所述转译音素进行修正得到转译音频。
2.根据权利要求1所述的方法,其特征在于,所述根据所述原音素和对应的顺序以及对应的若干个种类的声纹特征对所述转译音素进行修正得到转译音频的步骤,包括,
对所述原语种文本进行语义分割得到若干个原文本段以及对应的顺序;
将所述转译语义文本进行语义分割得到若干个转译文本段以及对应的顺序;
获取每个原文本段对应的若干个所述原音素以及对应的顺序;
获取每个所述转译文本段对应的若干个所述转译音素以及对应的顺序;
根据所述原语种文本与所述转译语义文本的翻译对照关系对所述转译文本段进行语义匹配得到语义相同的若干对所述原文本段和所述转译文本段;
根据所述原文本段对应的若干个所述原音素的若干个种类的声纹特征对所述转译文本段对应的若干个所述转译音素进行修正得到所述转译文本段对应转译语段;
根据所述转译文本段的顺序对所述转译语段进行合并得到转译音频。
3.根据权利要求2所述的方法,其特征在于,所述根据所述原文本段对应的若干个所述原音素的若干个种类的声纹特征对所述转译文本段对应的若干个所述转译音素进行修正得到所述转译文本段对应转译语段的步骤,包括,
对于每一对语义匹配的所述原文本段和所述转译文本段,
对所述原文本段对应的每个所述原音素的每个种类的声纹特征进行向量化得到所述原文本段对应的每个所述原音素的声纹特征向量,
根据所述原文本段对应的每个所述原音素的声纹特征向量挑选出若干个特征原音素,并获取每个特征原音素的时长比例系数,
根据所述原文本段对应的全部所述原音素的顺序以及所述原文本段对应的特征原音素得到所述原文本段对应的特征原音素的顺序,
获取所述转译文本段对应的全部所述转译音素的总时长,
将每个特征原音素的时长比例系数按照特征原音素的顺序进行排列后对所述转译文本段对应的所述转译音素的总时长进行划分,得到每个特征原音素对应的若干个所述转译音素,
将特征原音素的若干个种类的声纹特征赋予对应的若干个所述转译音素后组合得到所述转译文本段对应转译语段。
4.根据权利要求3所述的方法,其特征在于,所述根据所述原文本段对应的每个所述原音素的声纹特征向量挑选出若干个特征原音素,并获取每个特征原音素的时长比例系数的步骤,包括,
对于每个原文本段,
在全部的声纹特征向量中选择若干个标记声纹特征向量;
计算获取标记声纹特征向量与非标记声纹特征向量的向量差;
将非标记声纹特征向量与向量差的模长最小的标记声纹特征向量归类至同一个标记群;
计算得到标记群内全部标记声纹特征向量和非标记声纹特征向量的均值向量;
计算获取标记群内与均值向量的向量差的模长最小的标记声纹特征向量或非标记声纹特征向量作为更新后的标记声纹特征向量;
判断标记群的标记声纹特征向量是否发生变化;
若是,则返回持续更新标记群和标记声纹特征向量;
若否,则将标记声纹特征向量对应的所述原音素作为特征原音素;
将标记群内的标记声纹特征向量或非标记声纹特征向量对应的所述原音素的累计时长之间的比例系数作为对应的每个特征原音素的时长比例系数。
5.根据权利要求3所述的方法,其特征在于,所述根据所述原生音频进行分割得到多个所述原音素以及对应的顺序对所述转译音素进行修正得到转译音频的步骤,还包括,
判断是否存在没有对应的所述原文本段进行语义匹配的所述转译文本段;
若否,则不进行处理;
若是,则对于没有对应的所述原文本段进行语义匹配的所述转译文本段,获取相邻的有对应的所述原文本段进行语义匹配的所述转译文本段对应的所述原文本段作为语义匹配的所述转译文本段和对应的所述原文本段。
6.根据权利要求2所述的方法,其特征在于,所述根据所述转译文本段的顺序对所述转译语段进行合并得到转译音频的步骤,包括,
获取所述原生音频的声调特征;
将所述原生音频的声调特征赋予按照所述转译文本段的顺序进行合并的多个所述转译语段得到所述转译音频。
7.一种基于原生声纹特征的拾音翻译方法,其特征在于,包括,
实时获取并存储音频流;
对所述音频流进行降噪滤波得到人声流;
获取所述人声流中的空白时段;
将空白时段之间的所述人声流截取作为原生音频;
对所述原生音频按照权利要求1至6任一项所述的一种基于原生声纹特征的拾音翻译方法修正得到转译音频。
8.一种基于原生声纹特征的拾音翻译方法,其特征在于,包括,
接收权利要求1至6任一项所述的一种基于原生声纹特征的拾音翻译方法中的转译音频;
播放所述转译音频。
9.一种拾音翻译设备,其特征在于,包括,
麦克风,用于录制得到原生音频;
转译单元,用于根据权利要求1至6任一项所述的一种基于原生声纹特征的拾音翻译方法将所述原生音频转译为转译音频;
扬声器,用于播放所述转译音频。
10.一种存储介质,其特征在于,包括,
所述存储介质中存储有至少一条命令、至少一段程序、代码集或指令集,所述至少一条命令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至6任一项所述的一种基于原生声纹特征的拾音翻译方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311773493.8A CN117727306A (zh) | 2023-12-21 | 2023-12-21 | 一种基于原生声纹特征的拾音翻译方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311773493.8A CN117727306A (zh) | 2023-12-21 | 2023-12-21 | 一种基于原生声纹特征的拾音翻译方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117727306A true CN117727306A (zh) | 2024-03-19 |
Family
ID=90210465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311773493.8A Pending CN117727306A (zh) | 2023-12-21 | 2023-12-21 | 一种基于原生声纹特征的拾音翻译方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117727306A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6029131A (en) * | 1996-06-28 | 2000-02-22 | Digital Equipment Corporation | Post processing timing of rhythm in synthetic speech |
CN109410924A (zh) * | 2017-08-14 | 2019-03-01 | 三星电子株式会社 | 识别方法和识别设备 |
CN110008481A (zh) * | 2019-04-10 | 2019-07-12 | 南京魔盒信息科技有限公司 | 翻译语音生成方法、装置、计算机设备和存储介质 |
US20190354592A1 (en) * | 2018-05-16 | 2019-11-21 | Sharat Chandra Musham | Automated systems and methods for providing bidirectional parallel language recognition and translation processing with machine speech production for two users simultaneously to enable gapless interactive conversational communication |
CN112562733A (zh) * | 2020-12-10 | 2021-03-26 | 平安普惠企业管理有限公司 | 媒体数据处理方法及装置、存储介质、计算机设备 |
CN113421571A (zh) * | 2021-06-22 | 2021-09-21 | 云知声智能科技股份有限公司 | 一种语音转换方法、装置、电子设备和存储介质 |
CN113889105A (zh) * | 2021-09-29 | 2022-01-04 | 北京搜狗科技发展有限公司 | 一种语音翻译方法、装置和用于语音翻译的装置 |
US20230013777A1 (en) * | 2021-07-16 | 2023-01-19 | Google Llc | Robust Direct Speech-to-Speech Translation |
CN116935851A (zh) * | 2022-04-02 | 2023-10-24 | 青岛海尔多媒体有限公司 | 用于语音转换的方法及装置、语音转换系统、存储介质 |
-
2023
- 2023-12-21 CN CN202311773493.8A patent/CN117727306A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6029131A (en) * | 1996-06-28 | 2000-02-22 | Digital Equipment Corporation | Post processing timing of rhythm in synthetic speech |
CN109410924A (zh) * | 2017-08-14 | 2019-03-01 | 三星电子株式会社 | 识别方法和识别设备 |
US20190354592A1 (en) * | 2018-05-16 | 2019-11-21 | Sharat Chandra Musham | Automated systems and methods for providing bidirectional parallel language recognition and translation processing with machine speech production for two users simultaneously to enable gapless interactive conversational communication |
CN110008481A (zh) * | 2019-04-10 | 2019-07-12 | 南京魔盒信息科技有限公司 | 翻译语音生成方法、装置、计算机设备和存储介质 |
CN112562733A (zh) * | 2020-12-10 | 2021-03-26 | 平安普惠企业管理有限公司 | 媒体数据处理方法及装置、存储介质、计算机设备 |
CN113421571A (zh) * | 2021-06-22 | 2021-09-21 | 云知声智能科技股份有限公司 | 一种语音转换方法、装置、电子设备和存储介质 |
US20230013777A1 (en) * | 2021-07-16 | 2023-01-19 | Google Llc | Robust Direct Speech-to-Speech Translation |
CN113889105A (zh) * | 2021-09-29 | 2022-01-04 | 北京搜狗科技发展有限公司 | 一种语音翻译方法、装置和用于语音翻译的装置 |
CN116935851A (zh) * | 2022-04-02 | 2023-10-24 | 青岛海尔多媒体有限公司 | 用于语音转换的方法及装置、语音转换系统、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Speech emotion recognition using deep convolutional neural network and discriminant temporal pyramid matching | |
CN112017644B (zh) | 一种声音变换系统、方法及应用 | |
CN112184858B (zh) | 基于文本的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN112562721A (zh) | 一种视频翻译方法、系统、装置及存储介质 | |
CN107657017A (zh) | 用于提供语音服务的方法和装置 | |
CN110223705A (zh) | 语音转换方法、装置、设备及可读存储介质 | |
CN107731228A (zh) | 英文语音信息的文本转换方法和装置 | |
CN111179905A (zh) | 一种快速配音生成方法及装置 | |
CN109637551A (zh) | 语音转换方法、装置、设备及存储介质 | |
CN110853616A (zh) | 一种基于神经网络的语音合成方法、系统与存储介质 | |
CN110010136A (zh) | 韵律预测模型的训练和文本分析方法、装置、介质和设备 | |
CN115565540B (zh) | 一种侵入式脑机接口汉语发音解码方法 | |
US20220157329A1 (en) | Method of converting voice feature of voice | |
CN113707125A (zh) | 一种多语言语音合成模型的训练方法及装置 | |
Karpov | An automatic multimodal speech recognition system with audio and video information | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
CN112509550A (zh) | 语音合成模型训练方法、语音合成方法、装置及电子设备 | |
CN113035169B (zh) | 一种可在线训练个性化音色库的语音合成方法和系统 | |
CN114283822A (zh) | 一种基于伽马通频率倒谱系数的多对一语音转换方法 | |
KR20190135853A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
Howell | Confusion modelling for lip-reading | |
CN116564269A (zh) | 语音数据的处理方法、装置、电子设备和可读存储介质 | |
CN117727306A (zh) | 一种基于原生声纹特征的拾音翻译方法、设备及存储介质 | |
CN116129868A (zh) | 一种结构化画本的生成方法和生成系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |