CN111105781A - 语音处理方法、装置、电子设备以及介质 - Google Patents
语音处理方法、装置、电子设备以及介质 Download PDFInfo
- Publication number
- CN111105781A CN111105781A CN201911343419.6A CN201911343419A CN111105781A CN 111105781 A CN111105781 A CN 111105781A CN 201911343419 A CN201911343419 A CN 201911343419A CN 111105781 A CN111105781 A CN 111105781A
- Authority
- CN
- China
- Prior art keywords
- voice data
- processing
- voice
- data
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 182
- 230000008451 emotion Effects 0.000 claims description 50
- 238000000034 method Methods 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 20
- 238000010586 diagram Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 14
- 230000002996 emotional effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 7
- 238000013519 translation Methods 0.000 description 7
- 239000004065 semiconductor Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了一种语音处理方法,包括:获取目标用户的第一语音数据,其中,第一语音数据的语言类别为第一语言类别,第一语音数据包括目标用户的语音特性;确定用于处理第一语音数据的处理方式,其中,处理方式包括将第一语音数据的语言类别由第一语言类别转换为第二语言类别,处理方式还包括处理第一语音数据时保留语音特性;以及基于处理方式处理第一语音数据,得到第二语音数据,其中,第二语音数据的语言类别为第二语言类别,第二语音数据包括语音特性。本公开还提供了一种语音处理装置、一种电子设备以及一种计算机可读存储介质。
Description
技术领域
本公开涉及一种语音处理方法、一种语音处理装置、一种电子设备以及一种计算机可读存储介质。
背景技术
相关技术中的电子设备具有多种功能,例如具有语音翻译的功能。但是,相关技术的电子设备例如在将用户A的中文语音翻译成英文语音时,翻译后的英文语音通常是标准的系统语音,不具有用户A的语音特性,从而导致针对不同用户的语音进行翻译所得到的语音均为千篇一律的系统语音,无法给用户提供较好的使用体验。
发明内容
本公开的一个方面提供了一种语音处理方法,包括:获取目标用户的第一语音数据,其中,所述第一语音数据的语言类别为第一语言类别,所述第一语音数据包括所述目标用户的语音特性,确定用于处理所述第一语音数据的处理方式,其中,所述处理方式包括将所述第一语音数据的语言类别由所述第一语言类别转换为第二语言类别,所述处理方式还包括处理所述所述第一语音数据时保留所述语音特性,基于所述处理方式处理所述第一语音数据,得到第二语音数据,其中,所述第二语音数据的语言类别为所述第二语言类别,所述第二语音数据包括所述语音特性。
可选地,上述基于所述处理方式处理所述第一语音数据,得到第二语音数据包括:获取经训练处理模型,将所述第一语音数据输入至所述经训练处理模型,其中,所述第一语音数据包括情感信息,经由所述经训练处理模块基于所述处理方式处理所述第一语音数据,得到所述第二语音数据,其中,所述第二语音数据包括所述情感信息。
可选地,上述方法还包括:训练待训练处理模型,得到所述经训练处理模型,所述训练待训练处理模型,得到所述经训练处理模型包括:获取样本数据,其中,所述样本数据包括特定用户的多个第一样本语音数据和与所述多个第一样本语音数据分别对应的多个第二样本语音数据,所述多个第一样本语音数据中的每个第一样本语音数据均具有第一情感标注信息,所述多个第二样本语音数据中的每个第二样本语音数据均具有与所述第一情感标注信息对应的第二情感标注信息,将所述样本数据输入所述待训练模型中进行训练,得到所述经训练处理模型,其中,所述经训练处理模型用于处理所述第一语音数据以得到包括所述情感信息的第二语音数据。
可选地,上述基于所述处理方式处理所述第一语音数据,得到第二语音数据包括:确定所述第一语音数据在所述第二语言类别中的语义信息,基于所述语义信息,从所述目标用户的多个语音子数据中获取与所述语义信息相匹配的多个特定语音子数据,处理所述多个特定语音子数据,得到所述第二语音数据。
可选地,上述方法还包括:获取所述目标用户的多个语音子数据,其中,所述获取所述目标用户的多个语音子数据包括:获取所述目标用户的多个历史语音数据,其中,所述历史语音数据的语言类别为第一语言类别,处理所述多个历史语音数据,得到所述多个语音子数据。
本公开的另一个方面提供了一种语音处理装置,包括:第一获取模块、确定模块以及处理模块。其中,第一获取模块,获取目标用户的第一语音数据,其中,所述第一语音数据的语言类别为第一语言类别,所述第一语音数据包括所述目标用户的语音特性。确定模块,确定用于处理所述第一语音数据的处理方式,其中,所述处理方式包括将所述第一语音数据的语言类别由所述第一语言类别转换为第二语言类别。处理模块,利用所述处理方式处理所述第一语音数据,得到第二语音数据,其中,所述第二语音数据的语言类别为所述第二语言类别,所述第二语音数据包括所述语音特性。
可选地,上述处理模块包括:第一获取子模块、输入子模块以及第一处理子模块。其中,第一获取子模块,获取经训练处理模型。输入子模块,将所述第一语音数据输入至所述经训练处理模型,其中,所述第一语音数据包括情感信息。第一处理子模块,经由所述经训练处理模块基于所述处理方式处理所述第一语音数据,得到所述第二语音数据,其中,所述第二语音数据包括所述情感信息。
可选地,上述装置还包括:训练模块,训练待训练处理模型,得到所述经训练处理模型,所述训练待训练处理模型,得到所述经训练处理模型包括:获取样本数据,其中,所述样本数据包括特定用户的多个第一样本语音数据和与所述多个第一样本语音数据分别对应的多个第二样本语音数据,所述多个第一样本语音数据中的每个第一样本语音数据均具有第一情感标注信息,所述多个第二样本语音数据中的每个第二样本语音数据均具有与所述第一情感标注信息对应的第二情感标注信息,将所述样本数据输入所述待训练模型中进行训练,得到所述经训练处理模型,其中,所述经训练处理模型用于处理所述第一语音数据已得到包括所述情感信息的第二语音数据。
可选地,上述处理模块还包括:确定子模块、第二获取子模块以及第二处理子模块。其中,确定子模块,确定所述第一语音数据在所述第二语言类别中的语义信息。第二获取子模块,基于所述语义信息,从所述目标用户的多个语音子数据中获取与所述语义信息相匹配的多个特定语音子数据。第二处理子模块,处理所述多个特定语音子数据,得到所述第二语音数据。
可选地,上述装置还包括:第二获取模块,获取所述目标用户的多个语音子数据。其中,所述获取所述目标用户的多个语音子数据包括:获取所述目标用户的多个历史语音数据,其中,所述历史语音数据的语言类别为第一语言类别,处理所述多个历史语音数据,得到所述多个语音子数据。
本公开的另一方面提供了一种电子设备,包括:一个或多个处理器;以及存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。
本公开的另一方面提供了一种非易失性可读存储介质,存储有计算机可执行指令,指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,计算机程序包括计算机可执行指令,指令在被执行时用于实现如上所述的方法。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了根据本公开实施例的语音处理方法的应用场景;
图2示意性示出了根据本公开实施例的语音处理方法的流程图;
图3示意性示出了根据本公开第一实施例的获得第二语音数据的流程图;
图4示意性示出了根据本公开第二实施例的获得第二语音数据的流程图;
图5示意性示出了根据本公开实施例的语音处理装置的框图;
图6示意性示出了根据本公开第一实施例的处理模块的框图;
图7示意性示出了根据本公开第二实施例的处理模块的框图;以及
图8示意性示出了根据本公开实施例的用于实现语音处理的计算机系统的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程控制装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。
因此,本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中,计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
本公开的实施例提供了一种语音处理方法,包括:获取目标用户的第一语音数据,其中,第一语音数据的语言类别为第一语言类别,第一语音数据包括目标用户的语音特性。然后,可以确定用于处理第一语音数据的处理方式,其中,处理方式包括将第一语音数据的语言类别由第一语言类别转换为第二语言类别,处理方式还包括处理第一语音数据时保留语音特性。最后,可以基于处理方式处理第一语音数据,得到第二语音数据,其中,第二语音数据的语言类别为第二语言类别,第二语音数据包括语音特性。
图1示意性示出了根据本公开实施例的语音处理方法的应用场景。需要注意的是,图1所示仅为可以应用本公开实施例的场景的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,该应用场景100例如包括电子设备110。其中,该电子设备110例如可以是手机、电脑、服务器等等设备。本公开实施例的语音处理方法例如可以应用于电子设备110。
本公开实施例的语音处理方法例如包括语音翻译。例如将第一语言类别的语音数据翻译成第二语言类别的语音数据。为了便于理解,本公开实施例以第一语言类别为中文,第二语言类别为英文举例。
如图1所示,在电子设备采集到用户的第一语言类别的语音数据后,电子设备可以通过处理所采集的语音数据以将用户的第一语言类别的语音数据翻译为第二语言类别的语音数据。其中,翻译得到的第二语言类别的语音数据例如具有该用户的语音特性。即,翻译得到的第二语言类别的语音数据听起来就像是该用户自己说出来一样。
例如,第一语言类别的语音数据为“我今天很开心!”。电子设备110在采集到“我今天很开心!”的语音数据后,对该语音数据进行处理,得到第二语言类别的语音数据例如为“I am happy today!”。其中,该“I am happy today!”语音具有该用户的语音特性,例如该“I am happy today!”语音为该用户的声音,听起来就像该用户自己说出“I am happytoday!”一样。
下面结合图1的应用场景,参考图2~图4来描述根据本公开示例性实施方式的语音处理方法。需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
图2示意性示出了根据本公开实施例的语音处理方法的流程图。
如图2所示,该方法包括操作S210~S230。
在操作S210,获取目标用户的第一语音数据,其中,第一语音数据的语言类别为第一语言类别,第一语音数据包括目标用户的语音特性。
本公开实施例的语音处理方法例如可以应用于语音翻译的场景中。例如翻译的场景以中文翻译成英文的场景举例。在该场景下,第一语言类别例如可以是中文,第二语言类别例如可以是英文。可以理解,本公开实施例不限定第一语言类别和第二语言类别的具体类型,本领域技术人员可以根据实际应用情况具体设定第一语言类别和第二语言类别。为了便于理解本公开实施例的技术方案,以第一语言类别为中文,第二语言类别为英文举例。
根据本公开实施例,目标用户的第一语音数据例如可以是待翻译的语音数据。由于该第一语音数据是由目标用户说出的,因此,该第一语音数据具有目标用户的语音特性。其中,语音特性例如可以包括音色、音调等等特性。换言之,目标用户的语音特性可以作为目标用户所特有的属性,目标用户的语音特性是与目标用户唯一关联的。
在操作S220,确定用于处理第一语音数据的处理方式,其中,处理方式包括将第一语音数据的语言类别由第一语言类别转换为第二语言类别,处理方式还包括处理第一语音数据时保留语音特性。
根据本公开实施例,在获取到目标用户的第一语音数据之后,需要对第一语音数据进行翻译处理,例如需要将第一语音数据翻译成第二语音数据。其中,将第一语音数据翻译成第二语音数据的处理方式例如至少包括语言类别的确定方式和语音特性的处理方式。
其中,语言类别的确定方式例如可以包括确定将该第一语音数据由第一语言类别转换为第二语言类别,例如将第一语音数据由中文翻译成英文。
其中,语音特性的处理方式例如包括在将第一语音数据由第一语言类别转换为第二语言类别时,保留第一语音数据的语音特性。例如,第一语音数据为中文语音,该中文语音中例如具有目标用户的语音特性。在将中文语音翻译成英文语音后,该英文语音例如也具有该目标用户的语音特性,从而使得翻译后的英文语音听起来像目标用户自己说出来一样。
在操作S230,基于处理方式处理第一语音数据,得到第二语音数据,其中,第二语音数据的语言类别为第二语言类别,第二语音数据包括语音特性。
根据本公开实施例,在确定了处理方式之后,可以基于处理方式处理第一语音数据得到第二语音数据。其中,第二语音数据的语言类别例如为第二语言类别。该第二语音数据中例如具有目标用户的语音特性。在本公开实施例中,该操作S230的具体实现方式例如至少包括两种实现方式,该两种实现方式例如分别在图3和图4中描述。
本公开实施例的技术方案能够处理目标用户的第一语音数据得到第二语音数据。该第二语音数据和第一语音数据中例如均包括目标用户的语音特性,从而使得在进行语言类别的转换时,转换前后的语音数据均包括目标用户的语音特性。特别是在语音翻译场景中,翻译后的语音听起来像目标用户自己说出来的,从而提高了语音处理的效果,使得用户体验得到较大的提升。
图3示意性示出了根据本公开第一实施例的获得第二语音数据的流程图。
如图3所示,操作S230例如可以包括操作S231a~S233a。
在本公开实施例中,例如可以利用机器学习模型来处理第一语音数据得到第二语音数据。
在操作S231a,获取经训练处理模型。例如,经训练处理模型为预先训练好的模型。该经训练处理模型例如可以用于处理第一语音数据得到第二语音数据。
在操作S232a,将第一语音数据输入至经训练处理模型,其中,第一语音数据包括情感信息。其中,情感信息例如表征目标用户在说第一语音数据时的心情状态。即,情感信息例如可以表征目标用户的愉快、愤怒、难过等等状态。换言之,目标用户在说话时,目标用户的语音中会包括目标用户当前的情绪信息。因此,目标用户的第一语音数据中例如包括目标用户的情感信息。
在操作S233a,经由经训练处理模型基于处理方式处理第一语音数据,得到第二语音数据,其中,第二语音数据包括情感信息。
例如,第一语音数据为“我今天很开心!”,该第一语音数据中的情感信息中例如包括目标用户的愉快状态。处理第一语音数据得到的第二语音数据例如为“I am happytoday!”。其中,该第二语音数据例如具有目标用户的语音特性,使得该第二语音数据听起来就像是用户自己说出来一样。并且该第二语音数据中可以包括目标用户的“愉快”的情感信息,从而基于该第二语音数据中能够得知目标用户的情绪状态为愉快状态。
根据本公开实施例,在利用经训练处理模型进行语音处理的过程中,经训练处理模型能够得到第一语音数据中的情感信息,并且在将第一语音数据处理成第二语音数据后,该第二语音数据也包括该情感信息。具体地,在语音翻译的场景下,在将第一语音数据翻译成第二语音数据后,该第二语音数据不仅具有目标用户的语音特性,使其听起来像目标用户自己说出来的,而且该第二语音数据还可以包括目标用户的情感信息,使得该第二语音数据听起来更加生动形象,更加符合用户的当前情绪状态。
接下来,将介绍经训练处理模型的训练过程。
根据本公开实施例,例如可以通过训练待训练处理模型,得到经训练处理模型。
首先,可以获取样本数据。然后,将样本数据输入待训练模型中进行训练,得到经训练处理模型。其中,经训练处理模型例如用于处理第一语音数据以得到包括情感信息的第二语音数据。
根据本公开实施例,样本数据例如包括特定用户的多个第一样本语音数据和与多个第一样本语音数据分别对应的多个第二样本语音数据。其中,多个第一样本语音数据中的每个第一样本语音数据均具有第一情感标注信息,多个第二样本语音数据中的每个第二样本语音数据均具有与第一情感标注信息对应的第二情感标注信息。
例如,获取多个特定用户的第一样本语音数据作为训练样本。由于该训练样本是用于得到情感信息,不同用户在相同场景下的情感信息大致相同。例如不同用户在说“我今天很开心!”时的情感信息大部分都包括“愉快”状态。因此,可以通过获取不同用户的“我今天很开心!”的语音作为第一样本语音数据。因此,多个特定用户与目标用户相同或者不同均可。根据本公开实施例,第一样本语音数据的语言类别例如为第一语言类别,第二样本语音数据的语言类别例如为第二语言类别。
其中,第一样本语音数据中具有第一情感标注信息。例如,以第一样本语音数据为“我今天很开心!”举例。该第一样本语音数据中的第一情感标注信息例如为“愉快”。具体地,该第一情感标注信息例如可以与特定的词语关联,例如该第一情感标注信息与第一样本语音数据中的词语“开心”关联,该标注信息例如体现了特定用户在说出“开心”这个词语时的语调的激昂的。
根据本公开实施例,第二样本语音数据例如与第一样本语音数据对应。例如,第一样本语音数据为用户A的语音,则第二样本语音数据也为用户A的语音“I am happytoday!”。第二样本语音数据中的第二情感标注信息例如为“愉快”。该第二情感标注信息例如与第二样本语音数据中的词语“happy”关联,例如体现了用户A在说出“happy”这个词语时的语调的激昂的。
本公开实施例通过获取大量的具有情感标注信息的第一样本语音数据和对应的第二样本语音数据作为样本数据,并利用样本数据训练得到经训练处理模型,以便于利用经训练处理模型处理目标用户的第一语音数据。在语音翻译的场景下,在将第一语音数据翻译成第二语音数据后,该第二语音数据例如包括目标用户的情感信息,使得该第二语音数据听起来更加生动形象,更加符合目标用户的当前情绪状态。
图4示意性示出了根据本公开第二实施例的获得第二语音数据的流程图。
如图4所示,操作S230例如可以包括操作S231b~S233b。
在本公开实施例中,例如可以通过语音拼接的方式得到第二语音数据。
在操作S231b,确定第一语音数据在第二语言类别中的语义信息。
例如,第一语音数据例如为“我今天很开心!(语音)”。该第一语音数据的语言类别为第一语言类别。在语音翻译场景下,例如需要将第一语音数据转换为第二语言类别的第二语音数据。在转换之前,例如可以确定第一语音数据在第二语言类别中的语义信息。其中,以第二语言类别为英文类别举例,语义信息例如为第一语音数据的英文表达。例如,该语义信息可以以英文文字的形式体现。例如,第一语音数据在第二语言类别中的语义信息为“I am happy today!(文字)”。
在操作S232b,基于语义信息,从目标用户的多个语音子数据中获取与语义信息相匹配的多个特定语音子数据。
根据本公开实施例,例如首先获取目标用户的多个语音子数据。其中,目标用户的多个语音子数据例如为目标用户的多个音素,音素例如包括元音和辅音。
例如,获取目标用户的多个历史语音数据,其中,历史语音数据的语言类别为第一语言类别。然后,处理多个历史语音数据,得到多个语音子数据。例如,获取目标用户的多个中文语音,并将多个中文语音拆分得到目标用户的多个音素,该多个音素作为目标用户的多个语音子数据。
然后,从多个语音子数据中获取所需的特定语音子数据。例如,多个历史语音数据包括关于目标用户的“爱”的语音,该“爱(语音)”可以作为目标用户的一个语音子数据。与语义信息“I am happy today!(文字)”中“I”这个语义对应的特定语音子数据例如包括“爱(语音)”。例如,可以将该“爱(语音)”作为合成第二语音数据的一个特定语音子数据。
在操作S233b,处理多个特定语音子数据,得到第二语音数据。
根据本公开实施例,获得与语义信息“I am happy today!(文字)”相匹配的多个特定语音子数据之后,该多个特定语音子数据中的一个特定语音子数据例如为“爱(语音)”。然后,可以将该多个特定语音子数据进行拼接合成语言类别为第二语言类别的第二语音数据,例如拼接成英文语音“I am happy today!(语音)”。可见,所拼接得到的第二语音数据中的音素均为目标用户的音素。由于目标用户的音素中包含目标用户的语音特性,从而使得第二语音数据中也包括目标用户的语音特性,使得第二语音数据听起来像是目标用户自己说出来一样,实现了提高语音处理的效果,使得用户体验得到较大的提升。
图5示意性示出了根据本公开实施例的语音处理装置的框图。
如图5所示,语音处理装置500例如包括第一获取模块510、确定模块520以及处理模块530。
第一获取模块510可以用于获取目标用户的第一语音数据,其中,第一语音数据的语言类别为第一语言类别,第一语音数据包括目标用户的语音特性。根据本公开实施例,第一获取模块510例如可以执行上文参考图2描述的操作S210,在此不再赘述。
确定模块520可以用于确定用于处理第一语音数据的处理方式,其中,处理方式包括将第一语音数据的语言类别由第一语言类别转换为第二语言类别,处理方式还包括处理第一语音数据时保留语音特性。根据本公开实施例,确定模块520例如可以执行上文参考图2描述的操作S220,在此不再赘述。
处理模块530可以用于基于处理方式处理第一语音数据,得到第二语音数据,其中,第二语音数据的语言类别为第二语言类别,第二语音数据包括语音特性。根据本公开实施例,处理模块530例如可以执行上文参考图2描述的操作S230,在此不再赘述。
图6示意性示出了根据本公开第一实施例的处理模块的框图。
如图6所示,处理模块530例如包括第一获取子模块531a、输入子模块532a以及第一处理子模块533a。
第一获取子模块531a可以用于获取经训练处理模型。根据本公开实施例,第一获取子模块531a例如可以执行上文参考图3描述的操作S231a,在此不再赘述。
输入子模块532a可以用于将第一语音数据输入至经训练处理模型,其中,第一语音数据包括情感信息。根据本公开实施例,输入子模块532a例如可以执行上文参考图3描述的操作S232a,在此不再赘述。
第一处理子模块533a可以用于经由经训练处理模块基于处理方式处理第一语音数据,得到第二语音数据,其中,第二语音数据包括情感信息。根据本公开实施例,第一处理子模块533a例如可以执行上文参考图3描述的操作S233a,在此不再赘述。
图7示意性示出了根据本公开第二实施例的处理模块的框图。
如图7所示,处理模块530例如还可以包括确定子模块531b、第二获取子模块532b以及第二处理子模块533b。
确定子模块531b可以用于确定第一语音数据在第二语言类别中的语义信息。根据本公开实施例,确定子模块531b例如可以执行上文参考图4描述的操作S231b,在此不再赘述。
第二获取子模块532b可以用于基于语义信息,从目标用户的多个语音子数据中获取与语义信息相匹配的多个特定语音子数据。根据本公开实施例,第二获取子模块532b例如可以执行上文参考图4描述的操作S232b,在此不再赘述。
第二处理子模块533b可以用于处理多个特定语音子数据,得到第二语音数据。根据本公开实施例,第二处理子模块533b例如可以执行上文参考图4描述的操作S233b,在此不再赘述。
根据本公开实施例装置500例如还可以包括:训练模块,训练待训练处理模型,得到经训练处理模型,训练待训练处理模型,得到经训练处理模型包括:获取样本数据,其中,样本数据包括特定用户的多个第一样本语音数据和与多个第一样本语音数据分别对应的多个第二样本语音数据,多个第一样本语音数据中的每个第一样本语音数据均具有第一情感标注信息,多个第二样本语音数据中的每个第二样本语音数据均具有与第一情感标注信息对应的第二情感标注信息,将样本数据输入待训练模型中进行训练,得到经训练处理模型,其中,经训练处理模型用于处理第一语音数据已得到包括情感信息的第二语音数据。
根据本公开实施例装置500例如还可以包括:第二获取模块,获取目标用户的多个语音子数据。其中,获取目标用户的多个语音子数据包括:获取目标用户的多个历史语音数据,其中,历史语音数据的语言类别为第一语言类别,处理多个历史语音数据,得到多个语音子数据。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,第一获取模块510、确定模块520、处理模块530、第一获取子模块531a、输入子模块532a、第一处理子模块533a、确定子模块531b、第二获取子模块532b以及第二处理子模块533b中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,第一获取模块510、确定模块520、处理模块530、第一获取子模块531a、输入子模块532a、第一处理子模块533a、确定子模块531b、第二获取子模块532b以及第二处理子模块533b中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一获取模块510、确定模块520、处理模块530、第一获取子模块531a、输入子模块532a、第一处理子模块533a、确定子模块531b、第二获取子模块532b以及第二处理子模块533b中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图8示意性示出了根据本公开实施例的用于实现语音处理的计算机系统的方框图。图8示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,实现语音处理的计算机系统800包括处理器801、计算机可读存储介质802。该系统800可以执行根据本公开实施例的方法。
具体地,处理器801例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
计算机可读存储介质802,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
计算机可读存储介质802可以包括计算机程序803,该计算机程序803可以包括代码/计算机可执行指令,其在由处理器801执行时使得处理器801执行根据本公开实施例的方法或其任何变形。
计算机程序803可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序803中的代码可以包括一个或多个程序模块,例如包括803A、模块803B、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器801执行时,使得处理器801可以执行根据本公开实施例的方法或其任何变形。
根据本公开的实施例,第一获取模块510、确定模块520、处理模块530、第一获取子模块531a、输入子模块532a、第一处理子模块533a、确定子模块531b、第二获取子模块532b以及第二处理子模块533b中的至少一个可以实现为参考图8描述的计算机程序模块,其在被处理器801执行时,可以实现上面描述的相应操作。
本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现以上语音处理方法。
根据本公开的实施例,计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、射频信号等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。
Claims (10)
1.一种语音处理方法,包括:
获取目标用户的第一语音数据,其中,所述第一语音数据的语言类别为第一语言类别,所述第一语音数据包括所述目标用户的语音特性;
确定用于处理所述第一语音数据的处理方式,其中,所述处理方式包括将所述第一语音数据的语言类别由所述第一语言类别转换为第二语言类别,所述处理方式还包括处理所述所述第一语音数据时保留所述语音特性;以及
基于所述处理方式处理所述第一语音数据,得到第二语音数据,其中,所述第二语音数据的语言类别为所述第二语言类别,所述第二语音数据包括所述语音特性。
2.根据权利要求1所述的方法,其中,所述基于所述处理方式处理所述第一语音数据,得到第二语音数据包括:
获取经训练处理模型;
将所述第一语音数据输入至所述经训练处理模型,其中,所述第一语音数据包括情感信息;以及
经由所述经训练处理模块基于所述处理方式处理所述第一语音数据,得到所述第二语音数据,其中,所述第二语音数据包括所述情感信息。
3.根据权利要求2所述的方法,还包括:训练待训练处理模型,得到所述经训练处理模型,
所述训练待训练处理模型,得到所述经训练处理模型包括:
获取样本数据,其中,所述样本数据包括特定用户的多个第一样本语音数据和与所述多个第一样本语音数据分别对应的多个第二样本语音数据,所述多个第一样本语音数据中的每个第一样本语音数据均具有第一情感标注信息,所述多个第二样本语音数据中的每个第二样本语音数据均具有与所述第一情感标注信息对应的第二情感标注信息;以及
将所述样本数据输入所述待训练模型中进行训练,得到所述经训练处理模型,其中,所述经训练处理模型用于处理所述第一语音数据以得到包括所述情感信息的第二语音数据。
4.根据权利要求1所述的方法,其中,所述基于所述处理方式处理所述第一语音数据,得到第二语音数据包括:
确定所述第一语音数据在所述第二语言类别中的语义信息;
基于所述语义信息,从所述目标用户的多个语音子数据中获取与所述语义信息相匹配的多个特定语音子数据;以及
处理所述多个特定语音子数据,得到所述第二语音数据。
5.根据权利要求4所述的方法,还包括:获取所述目标用户的多个语音子数据;
其中,所述获取所述目标用户的多个语音子数据包括:
获取所述目标用户的多个历史语音数据,其中,所述历史语音数据的语言类别为第一语言类别;以及
处理所述多个历史语音数据,得到所述多个语音子数据。
6.一种语音处理装置,包括:
第一获取模块,获取目标用户的第一语音数据,其中,所述第一语音数据的语言类别为第一语言类别,所述第一语音数据包括所述目标用户的语音特性;
确定模块,确定用于处理所述第一语音数据的处理方式,其中,所述处理方式包括将所述第一语音数据的语言类别由所述第一语言类别转换为第二语言类别;以及
处理模块,利用所述处理方式处理所述第一语音数据,得到第二语音数据,其中,所述第二语音数据的语言类别为所述第二语言类别,所述第二语音数据包括所述语音特性。
7.根据权利要求6所述的装置,其中,所述基于所述处理方式处理所述第一语音数据,得到第二语音数据包括:
获取经训练处理模型;
将所述第一语音数据输入至所述经训练处理模型,其中,所述第一语音数据包括情感信息;以及
经由所述经训练处理模块基于所述处理方式处理所述第一语音数据,得到所述第二语音数据,其中,所述第二语音数据包括所述情感信息。
8.根据权利要求7所述的装置,还包括:训练模块,训练待训练处理模型,得到所述经训练处理模型,
所述训练待训练处理模型,得到所述经训练处理模型包括:
获取样本数据,其中,所述样本数据包括特定用户的多个第一样本语音数据和与所述多个第一样本语音数据分别对应的多个第二样本语音数据,所述多个第一样本语音数据中的每个第一样本语音数据均具有第一情感标注信息,所述多个第二样本语音数据中的每个第二样本语音数据均具有与所述第一情感标注信息对应的第二情感标注信息;以及
将所述样本数据输入所述待训练模型中进行训练,得到所述经训练处理模型,其中,所述经训练处理模型用于处理所述第一语音数据已得到包括所述情感信息的第二语音数据。
9.一种电子设备,包括:
一个或多个处理器;以及
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至5中任一项所述的方法。
10.一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911343419.6A CN111105781B (zh) | 2019-12-23 | 2019-12-23 | 语音处理方法、装置、电子设备以及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911343419.6A CN111105781B (zh) | 2019-12-23 | 2019-12-23 | 语音处理方法、装置、电子设备以及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111105781A true CN111105781A (zh) | 2020-05-05 |
CN111105781B CN111105781B (zh) | 2022-09-23 |
Family
ID=70424204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911343419.6A Active CN111105781B (zh) | 2019-12-23 | 2019-12-23 | 语音处理方法、装置、电子设备以及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111105781B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112530456A (zh) * | 2021-02-18 | 2021-03-19 | 北京远鉴信息技术有限公司 | 一种语言类别的识别方法、装置、电子设备及存储介质 |
CN113611286A (zh) * | 2021-10-08 | 2021-11-05 | 之江实验室 | 一种基于共性特征提取的跨语种语音情感识别方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050197835A1 (en) * | 2004-03-04 | 2005-09-08 | Klaus Reinhard | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers |
CN106910514A (zh) * | 2017-04-30 | 2017-06-30 | 上海爱优威软件开发有限公司 | 语音处理方法及系统 |
CN108231059A (zh) * | 2017-11-27 | 2018-06-29 | 北京搜狗科技发展有限公司 | 处理方法和装置、用于处理的装置 |
CN108447486A (zh) * | 2018-02-28 | 2018-08-24 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN108766414A (zh) * | 2018-06-29 | 2018-11-06 | 北京百度网讯科技有限公司 | 用于语音翻译的方法、装置、设备和计算机可读存储介质 |
CN110427455A (zh) * | 2019-06-24 | 2019-11-08 | 卓尔智联(武汉)研究院有限公司 | 一种客服服务方法、装置和存储介质 |
-
2019
- 2019-12-23 CN CN201911343419.6A patent/CN111105781B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050197835A1 (en) * | 2004-03-04 | 2005-09-08 | Klaus Reinhard | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers |
CN106910514A (zh) * | 2017-04-30 | 2017-06-30 | 上海爱优威软件开发有限公司 | 语音处理方法及系统 |
CN108231059A (zh) * | 2017-11-27 | 2018-06-29 | 北京搜狗科技发展有限公司 | 处理方法和装置、用于处理的装置 |
CN108447486A (zh) * | 2018-02-28 | 2018-08-24 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN108766414A (zh) * | 2018-06-29 | 2018-11-06 | 北京百度网讯科技有限公司 | 用于语音翻译的方法、装置、设备和计算机可读存储介质 |
CN110427455A (zh) * | 2019-06-24 | 2019-11-08 | 卓尔智联(武汉)研究院有限公司 | 一种客服服务方法、装置和存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112530456A (zh) * | 2021-02-18 | 2021-03-19 | 北京远鉴信息技术有限公司 | 一种语言类别的识别方法、装置、电子设备及存储介质 |
CN112530456B (zh) * | 2021-02-18 | 2021-05-28 | 北京远鉴信息技术有限公司 | 一种语言类别的识别方法、装置、电子设备及存储介质 |
CN113611286A (zh) * | 2021-10-08 | 2021-11-05 | 之江实验室 | 一种基于共性特征提取的跨语种语音情感识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111105781B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107464554B (zh) | 语音合成模型生成方法和装置 | |
CN107657017B (zh) | 用于提供语音服务的方法和装置 | |
JP6928642B2 (ja) | 音声放送方法及び装置 | |
CN107423364B (zh) | 基于人工智能的回答话术播报方法、装置及存储介质 | |
CN107452369B (zh) | 语音合成模型生成方法和装置 | |
CN109308892B (zh) | 语音合成播报方法、装置、设备及计算机可读介质 | |
CN109754783B (zh) | 用于确定音频语句的边界的方法和装置 | |
CN107481715B (zh) | 用于生成信息的方法和装置 | |
CN109410918B (zh) | 用于获取信息的方法及装置 | |
CN104115221A (zh) | 基于文本到语音转换以及语义的音频人类交互证明 | |
US9009050B2 (en) | System and method for cloud-based text-to-speech web services | |
CN110136715B (zh) | 语音识别方法和装置 | |
RU2692051C1 (ru) | Способ и система для синтеза речи из текста | |
US11587547B2 (en) | Electronic apparatus and method for controlling thereof | |
CN116009748B (zh) | 儿童互动故事中图片信息交互方法及装置 | |
US9384728B2 (en) | Synthesizing an aggregate voice | |
CN110164413B (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
CN111105781B (zh) | 语音处理方法、装置、电子设备以及介质 | |
CN110349569B (zh) | 定制化产品语言模型的训练和识别方法及装置 | |
CN113257218B (zh) | 语音合成方法、装置、电子设备和存储介质 | |
CN112365878A (zh) | 语音合成方法、装置、设备及计算机可读存储介质 | |
WO2021227308A1 (zh) | 一种视频资源的生成方法和装置 | |
KR20160131505A (ko) | 음성 변환 방법 및 음성 변환 장치 | |
US9087512B2 (en) | Speech synthesis method and apparatus for electronic system | |
CN113450760A (zh) | 一种文本转语音的方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |