CN111785246A - 虚拟角色语音处理方法、装置及计算机设备 - Google Patents

虚拟角色语音处理方法、装置及计算机设备 Download PDF

Info

Publication number
CN111785246A
CN111785246A CN202010617733.5A CN202010617733A CN111785246A CN 111785246 A CN111785246 A CN 111785246A CN 202010617733 A CN202010617733 A CN 202010617733A CN 111785246 A CN111785246 A CN 111785246A
Authority
CN
China
Prior art keywords
virtual character
voice
virtual
output
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010617733.5A
Other languages
English (en)
Other versions
CN111785246B (zh
Inventor
赵泽清
杨琳
徐培来
刘慧�
汪俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202010617733.5A priority Critical patent/CN111785246B/zh
Publication of CN111785246A publication Critical patent/CN111785246A/zh
Application granted granted Critical
Publication of CN111785246B publication Critical patent/CN111785246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提出了一种虚拟角色语音处理方法、装置及计算机设备,针对现有的语音合成引擎的虚拟角色固定单一,无法满足用户个性化需求的问题,本申请提出自定义虚拟角色的发明构思,具体的,计算机设备可以响应针对语音合成引擎的虚拟角色配置请求,输出虚拟角色配置界面,用户可以根据自身喜好及需求,在该虚拟角色配置界面相应位置输入虚拟角色的多个形象特征等属性信息,以利用人工智能技术得到与该属性信息相匹配的虚拟角色图像和虚拟角色声音特征,从而利用该虚拟角色图像和虚拟角色声音特征,构建成用户自定义的虚拟角色画像并展示,满足了不同用户对语音合成引擎的虚拟角色的个性化需求,提高了人机语音交互的多样性及乐趣。

Description

虚拟角色语音处理方法、装置及计算机设备
技术领域
本申请主要涉及通信技术领域,更具体地说是涉及一种虚拟角色语音处理方法、装置及计算机设备。
背景技术
目前,大部分电子设备配置有语音识别引擎(如语音助手),在启动该语音识别引擎后,可以利用人工智能(Artificial Intelligence,AI)技术对用户输入的语音信息进行语音识别,确定用户需求,并得到满足用户需求的应答文本信息后,可以利用语音合成引擎将其合成相应的应答语音信息输出,实现了电子设备与用户之间的语音交互,非常方便、有趣。
在实际应用中,各厂家开发的语音合成引擎往往配置固定的虚拟角色画像,即采用固定的虚拟角色声音将应答文本信息合成为应答语音信息输出,导致人机交互应用的语音交互声音单一、无趣,降低了人机语音交互的体验感受。
发明内容
有鉴于此,一方面,本申请提供了一种虚拟角色语音处理方法,所述方法包括:
响应针对语音合成引擎的虚拟角色配置请求,输出虚拟角色配置界面;
获取针对所述虚拟角色配置界面输入的属性信息,得到与所述属性信息相匹配的虚拟角色图像以及虚拟角色声音特征,所述属性信息至少包含所要配置的虚拟角色的多个形象特征;
利用所述虚拟角色图像以及所述虚拟角色声音特征,构建所述语音合成引擎的虚拟角色画像并展示。
可选的,所述虚拟角色声音特征的得到过程包括:
利用所述属性信息包含的所述多个形象特征,构建属性特征向量;
将所述属性特征向量输入身份认证向量提取模型,得到与所述属性信息相匹配的虚拟角色声音特征,所述虚拟角色声音特征包括虚拟角色音色和/或音调;
其中,身份认证向量提取模型是通过对多个样本用户的样本声音特征和样本属性信息进行训练得到的,能够表征不同虚拟角色画像的属性信息与声音特征之间的映射关系。
可选的,所述虚拟角色声音特征的得到过程包括:
依据所述属性信息包含的所述多个形象特征,确定候选角色语音库;
从所述候选角色语音库中,查询与所述多个形象特征具有映射关系的目标角色语音特征,将所述目标角色语音特征确定为与所述属性信息相匹配的虚拟角色声音特征。
可选的,所述方法还包括:
获取待输出文本信息;
将所述虚拟角色画像的虚拟角色声音特征,以及所述待输出文本信息输入语音合成模型,得到具有所述虚拟角色声音特征的待输出语音信息;
将所述待输出语音信息与所述虚拟角色画像的虚拟角色图像进行关联输出。
可选的,所述获取待输出文本信息,包括:
获取语音会话请求;
响应所述语音会话请求,输出包含所述虚拟角色画像的虚拟角色图像的语音会话界面;
获取与请求内容相匹配的待输出文本信息;
所述将所述待输出语音信息与所述虚拟角色画像的虚拟角色图像进行关联输出,包括:
在所述语音会话界面,将所述待输出语音信息与所述虚拟角色画像的虚拟角色图像进行关联输出。
可选的,所述将所述虚拟角色画像的虚拟角色声音特征,以及所述待输出文本信息输入语音合成模型,得到具有所述虚拟角色声音特征的待输出语音信息,包括:
对所述待输出文本信息进行预处理;
对预处理后的待输出文本信息进行韵律预测及音素转换处理,得到包含预测韵律的音素序列;
将所述音素序列和所述虚拟角色画像的虚拟角色声音特征输入声学模型,得到所述虚拟角色画像的声学特征;
将所述声学特征输入声码器进行编码处理,得到具有所述虚拟角色声音特征的待输出语音信息。
可选的,所述响应针对语音合成引擎的虚拟角色配置请求,输出虚拟角色配置界面,包括:
依据针对语音合成引擎的虚拟角色新建操作,输出虚拟角色配置界面;或者,
依据针对语音合成引擎的已有虚拟角色画像的选择调整操作,生成针对所选择的已有虚拟角色画像的虚拟角色调整请求;
响应所述虚拟角色调整请求,输出包含请求调整的已有虚拟角色画像的属性信息的虚拟角色配置界面。
可选的,所述虚拟角色图像的得到过程包括:
获取与所述属性信息包含的所述多个形象特征相匹配的目标动画资源;
利用所述目标动画资源,生成针对所述语音合成引擎的虚拟角色图像。
又一方面,本申请还提出了一种虚拟角色语音处理装置,所述装置包括:
虚拟角色配置界面输出模块,用于响应针对语音合成引擎的虚拟角色配置请求,输出虚拟角色配置界面;
第一数据获取模块,用于获取针对所述虚拟角色配置界面输入的属性信息,得到与所述属性信息相匹配的虚拟角色图像以及虚拟角色声音特征,所述属性信息至少包含所要配置的虚拟角色的多个形象特征;
虚拟角色画像构建模块,用于利用所述虚拟角色图像以及所述虚拟角色声音特征,构建所述语音合成引擎的虚拟角色画像并展示。
又一方面,本申请还提出了一种计算机设备,所述计算机设备包括:至少一个存储器和至少一个处理器,其中:
所述存储器,用于存储实现如上述的虚拟角色语音处理方法的程序;
所述处理器,用于加载并执行所述存储器存储的所述程序,以实现如上述的虚拟角色语音处理方法的各步骤。
由此可见,本申请提供了一种虚拟角色语音处理方法、装置及计算机设备,针对现有的语音合成引擎的虚拟角色固定单一,无法满足用户个性化需求的问题,本申请提出自定义虚拟角色的发明构思,具体的,计算机设备可以响应针对语音合成引擎的虚拟角色配置请求,输出虚拟角色配置界面,用户可以根据自身喜好及需求,在该虚拟角色配置界面相应位置输入虚拟角色的多个形象特征等属性信息,以得到与该属性信息相匹配的虚拟角色图像和虚拟角色声音特征,从而构建具有该虚拟角色图像和虚拟角色声音特征的虚拟角色画像并展示,实现了对虚拟角色画像的自定义配置,满足不同用户对语音合成引擎的虚拟角色画像的个性化需求,提高了人机语音交互的多样性及乐趣。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本申请提出的虚拟角色语音处理方法的一可选示例的流程示意图;
图2示出了本申请提出的虚拟角色语音处理方法中,虚拟角色输出待输出语音信息的应用界面示意图;
图3示出了本申请提出的虚拟角色语音处理方法的又一可选示例的流程示意图;
图4示出了本申请提出的虚拟角色语音处理方法中,i-vector提取模型的一可选训练过程示意图;
图5示出了本申请提出的虚拟角色语音处理方法的又一可选示例的流程示意图;
图6示出了本申请提出的虚拟角色语音处理方法的又一可选示例的流程示意图;
图7示出了本申请提出的虚拟角色语音处理方法的又一可选示例的流程示意图;
图8示出了本申请提出的虚拟角色语音处理方法的又一可选示例的流程示意图;
图9示出了本申请提出的虚拟角色语音处理方法中,语音合成的一可选示例的流程示意图;
图10示出了本申请提出的虚拟角色语音处理装置的一可选示例的结构示意图;
图11示出了实现本申请提出的虚拟角色语音处理方法的计算机设备的一可选示例的硬件结构示意图。
具体实施方式
针对背景技术部分提出的现有技术问题,本申请能够希望用户能够根据自己喜好,定义语音合成引擎的虚拟角色画像,如该虚拟角色的性别、年龄、肤色、眼睛、性格等外在的形象特征,再构建与该虚拟角色形象相匹配的声音特征,这样,在使用该语音合成引擎进行语音合成过程中,电子设备可以将待合成文本信息(如查询到的针对用户请求的应答文本信息),合成具有用户自定义的虚拟角色画像的虚拟角色声音特征的语音信息,并关联自定义配置的虚拟角色图像输出该语音信息,从而解决了现有技术中,语音合成引擎的虚拟角色画像固定,声音单一、无趣,降低了人机语音交互体验感受的技术问题。关于本申请提出的该发明构思的虚拟角色语音处理方案的具体实现过程,可以参照但并不局限于下文实施例的描述。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
应当理解,本申请中使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换该词语。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。以下术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
另外,本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
参照图1,为本申请提出的虚拟角色语音处理方法的一可选示例的流程示意图,该方法可以适用于计算机设备,本申请对该计算机设备的设备类型不做限定,如图1所示,该方法可以包括但并不局限于以下步骤:
步骤S11,响应针对语音合成引擎的虚拟角色配置请求,输出虚拟角色配置界面;
本实施例实际应用中,当用户需要调整其使用的终端设备的语音合成引擎的虚拟角色画像,使用个性化的虚拟角色图像(如外在形象)及其声音,来满足该用户对终端设备的语音控制,用户可以启动终端设备的语音合成引擎的配置界面,选择虚拟角色自定义选项,生成针对该语音合成引擎的虚拟角色画像的虚拟角色配置请求,这样,终端设备可以响应该虚拟角色配置请求,输出针对该语音合成引擎的虚拟角色配置界面,供用户自定义该虚拟角色的外在形象。
在又一些实施例中,用户也可以通过终端设备向为语音合成引擎提供服务的服务器,发送针对该终端设备的语音合成引擎的虚拟角色配置请求,由服务器响应该虚拟角色配置请求,生成供用户配置虚拟角色的虚拟角色配置界面,并发送至该用户的终端设备输出。
在实际应用中,对于本次请求配置的虚拟角色,可以是一个全新的虚拟角色画像,这需要在其虚拟角色配置界面中输入构建该虚拟角色画像的图像所需的各方面的属性信息;也可以是对原有虚拟角色画像进行调整,以得到一个新的虚拟角色画像,因此,在发起虚拟角色配置请求时,用于可以选择新建虚拟角色,生成配置全新的虚拟角色的配置请求,也可以从该语音合成引擎现有的虚拟角色中,选择一个虚拟角色并点击调整按钮,生成调整已有虚拟角色得到新的虚拟角色的配置请求。
基于上述分析,上述步骤S11具体可以包括:依据针对语音合成引擎的虚拟角色新建操作,输出虚拟角色配置界面,这种情况下,可以满足用户新建虚拟角色的请求;在另一种可能的实现方式中,该步骤具体还可以包括:依据针对语音合成引擎的已有虚拟角色画像的选择调整操作,生成针对所选择的已有虚拟角色画像的虚拟角色调整请求,响应该虚拟角色调整请求,输出包含请求调整的已有虚拟角色画像的属性信息的虚拟角色配置界面,这种情况下,可以满足用户对语音合成引擎的已有虚拟角色进行调整,得到新的虚拟角色的配置请求。
需要说明,本申请对虚拟角色配置请求的生成方式,以及响应该虚拟角色配置请求生成的虚拟角色配置界面包含的内容不做限定,并不局限于本实施例上文描述的实现方法,可以根据实际应用需求来确定。
步骤S12,获取针对虚拟角色配置界面输入的属性信息,得到与属性信息相匹配的虚拟角色图像以及虚拟角色声音特征;
在一些实施例中,用户的终端设备输出虚拟角色配置界面后,该虚拟角色配置界面可以包括供用户选择的虚拟角色的形象特征类型,如年龄、性别、肤色、发色、眼睛、性格等等,用户可以根据自身喜好或要求,选择相应的形象特征类型,并填写相应类型的形象特征,以构成该用户自定义的虚拟角色的属性信息。
可见,本实施例获取的虚拟角色的属性信息至少可以包含所要配置的该虚拟角色的多个形象特征,以构建该虚拟角色的外在形象,即构建虚拟角色图像,但该属性信息包含的内容并不局限于本实施例列举的形象特征,可以根据实际需求适应性调整,本申请不做一一详述。
应该理解的是,对于语音合成引擎的虚拟角色相当于是一个虚拟用户,本申请可以为自定义的虚拟角色赋予满足用户喜好及要求的角色图像(如外在角色形象)和声音,得到相应的虚拟角色画像。实际应用中,由于不同年龄段的用户的声音特征不同,成年男士、成年女士以及孩子的声音特征往往是不同,其区别包括但并不局限于音色、音调、音量、语速等。因此,对于不同形象的虚拟角色,应该也会具有不同的声音特征,本申请按照上述方式确定本次请求配置的虚拟角色形象特征之后,可以利用预设的不同形象特征的用户与不同声音特征之间的映射关系,来得到本次请求配置的虚拟角色所具有的声音特征,本申请对虚拟角色声音特征的具体获取过程不做详述。
在一些实施例中,可以由计算机设备(如用户的终端设备)来依据获取的本次请求配置的虚拟角色的属性信息,得到相应匹配的虚拟角色声音特征;或者,终端设备也可以将所获取的属性信息发送至服务器(即为语音合成引擎提供服务的服务设备),由该服务器获取相匹配的虚拟角色声音特征,再反馈给该终端设备,本申请对得到该虚拟角色声音特征的执行主体不做限定。
为了进一步提高用户体验,增强用户与语音合成引擎之间的互动性及互动乐趣,本申请希望语音合成引擎响应语音输入信息时,能够展示该语音合成引擎的虚拟角色图像,如静态的虚拟角色头像,或者是动态的虚拟角色图像,使得听到终端设备输出的语音信息的用户,能够有更强的代入感。因此,本申请得到本次请求配置的虚拟角色的属性信息后,还可以由此构建一个相匹配的虚拟角色图像。
举例说明,若针对虚拟角色配置界面输入的属性信息表示,该虚拟角色是一个年龄为6岁、扎小辫、黄皮肤的可爱小女孩,那么,本申请可以生成一个满足该属性信息的小女孩图像,具体生成过程不做详述。
步骤S13,利用虚拟角色图像以及虚拟角色声音特征,构建语音合成引擎的虚拟角色画像并展示。
本实施例按照上述方式,确定本次自定义配置的语音合成引擎的虚拟角色的图像及声音特征后,可以将其赋予语音合成引擎新的虚拟角色,以创建满足用户需求的新的虚拟角色画面,方便后续语音控制应用中,语音合成引擎能够以本次自定义配置的虚拟角色画像,实现终端设备与用户之间的交互,即以具有所构建的虚拟角色图像和虚拟角色声音特征的虚拟角色,实现与请求用户之间的交互,本申请可以构建一个具有所配置的虚拟角色图像以及虚拟角色声音特征的虚拟角色画像并展示,以使得用户能够更加直观得知本次请求配置的虚拟角色特点。
示例性的,用户查询当前天气的应用场景,参照图2所示的天气查询场景下的语音会话界面示意图,用户输入的语音信息为“今天天气怎么样”,语音识别引擎接收并判断用户所要表达的意图为查询今天(其可以是通过终端设备时间应用确定的具体日期,如2020年6月20日等)天气后,可以获取终端设备所在地理位置为xx市,之后,可以向天气查询系统发起xx市2020年6月20日的天气查询请求,确定xx市2020年6月20日的气温后,由于天气查询系统反馈的往往是文本信息,语音合成引擎可以按照本实施例构建的虚拟角色画像,生成与该文本信息相对应的应答语音信息,如内容为“xx今天晴,温度16℃-32℃”应答语音信息,并由该虚拟角色图像播报出来,仍以上文举例构建的小女孩虚拟角色画像为例进行说明,语音合成引擎可以以一种细声细气、软糯且语速缓慢的小女孩声音播报出来,但并不局限于此。
在一些实施例中,对于本申请按照上述方式构建的语音合成引擎的虚拟角色画像,本申请可以将其展示出来,以判断是否满足用户需求,若用户不满意,还可以按照上述方式进一步对该虚拟角色画像进行调整,可以调整虚拟角色的形象特征和/或声音特征,本申请对此不做限定。
基于此,针对用户对构建的语音合成引擎的虚拟角色画像的调整需求,可以发起相应特征的调整指令,如属性调整指令、音色调整指令和/或音调调整指令等等,终端设备或服务器可以响应该调整指令,实现对虚拟角色画像相应特征的调整,得到满足用户需求的目标虚拟角色画像。
在一种可能的实现方式中,对于上述语音特征的调整,用户可以通过拖动相应语音特征的进度条或粒度数值等方式实现,如用户要想虚拟角色具有相对更轻更细的声音,可以将音调特征对应的进度条向音调高的方向调整;如果用户想要虚拟角色具有语速相对较缓慢的声音,可以将语速特征对应的进度条向语速相对较慢的方向调整,且没完成一次调整,均可以展示调整后的虚拟角色画像,以确定是否还需要继续调整。
应该理解的是,在实际应用中,若用户不需要重新自定义一个完全新的虚拟角色,而是对语音合成引擎目前已有的虚拟角色画像中挑选一个相对满意(即基本满足预设条件)的,再对其具有的用户不满意(即不满足预设条件)的虚拟角色属性和/或声音特征进行调整,具体调整过程可以参照但并不局限于上文描述的实现方式。
在本申请实际应用中,对于按照上述方式针对语音合成引擎构建的新的虚拟角色画像,可以保存至相应的数据库中,在后续应用中激活该语音合成引擎后,可以直接从数据库中调用相应的虚拟角色画像,以响应语音输入信息,满足语音控制应用需求。
综上所述,针对现有的语音合成引擎的虚拟角色固定单一,无法满足用户个性化需求的问题,本申请提出自定义虚拟角色的发明构思,具体的,计算机设备可以响应针对语音合成引擎的虚拟角色配置请求,输出虚拟角色配置界面,用户可以根据自身喜好及需求,在该虚拟角色配置界面相应位置输入虚拟角色的多个形象特征等属性信息,以得到与该属性信息相匹配的虚拟角色图像和虚拟角色声音特征,从而利用该虚拟角色图像和虚拟角色声音特征,构建成用户自定义的虚拟角色画像并展示,满足了不同用户对语音合成引擎的虚拟角色的个性化需求,提高了人机语音交互的多样性及乐趣。
参照图3,为本申请提出的虚拟角色语音处理方法的又一可选示例的流程示意图,本实施例可以是对上述实施例提出的虚拟角色语音处理方法的一可选细化实现方式,主要是对上述实施例请求配置的虚拟角色的虚拟角色声音特征,以及虚拟角色图像的获取过程进行细化,但并不局限于本实施例描述的这种细化实现方法。如图3所示,该方法可以包括:
步骤S31,响应针对语音合成引擎的虚拟角色配置请求,输出虚拟角色配置界面;
步骤S32,获取针对虚拟角色配置界面输入的属性信息;
关于步骤S31和步骤S32的具体实现过程,可以参照但并不局限于上文实施例相应部分的描述,本实施例不做赘述。
步骤S33,利用该属性信息包含的所要配置的虚拟角色的多个形象特征,构建属性特征向量;
步骤S34,将该属性特征向量输入身份认证向量提取模型,得到与属性信息相匹配的虚拟角色声音特征;
在本实施例中,可以利用预先训练得到的模型,来得到请求构建的具有预设属性信息的虚拟角色的声音特征,但本申请对预先训练的模型结构及其训练方法不做限定,包括但并不局限于本实施例描述的这种身份认证向量提取模型,即i-vector(identity-vector)提取模型,本申请仅以此模型为例进行说明。
对于该i-vector提取模型的训练,本申请可以通过对多个样本用户的样本声音特征和样本属性信息进行训练得到,其能够准备表征不同虚拟角色画像的属性信息与声音特征之间的映射关系。所以,本申请由本次请求配置的新的虚拟角色的多个形象特征,构成属性特征向量之后,可以直接将其输入预先训练得到的该i-vector提取模型,从而得到具有该多个形象特征的虚拟角色应该具有的i-vector特征向量。
具体的,参照图4所示的i-vector提取模型训练流程示意图,本申请可以获取多个已标注的训练数据,如多个说话人各自的一条语音信息,以及各自属性信息,如上述实施例相应部分描述的多个形象特征,之后,可以对每一个说话人的属性信息包含的n个特征进行数字化处理,得到n维的属性特征向量,具体向量化实现方法不做限定,其中,n为整数,具体可以是用户输入的形象特征的数量,本申请对其具体数值不做限定。
之后,本申请可以将按照上述处理得到的每一个说话人的属性特征向量作为模型输入,输入机器学习网络进行学习训练,且在学习训练过程中,可以将机器学习网络输出的i-vector特征向量,与训练数据中相应说话人的标准i-vector特征向量进行比对,并依据比对结果调整机器学习网络的网络参数,以提高不断学习训练的机器学习网络的输出结果准确性,直至满足训练约束条件,如比对结果小于特定阈值,说明模型输出的准确率满足要求,可以将最后训练得到的机器学习网络确定为身份认证向量提取模型。
其中,训练数据中相应说话人的标准i-vector特征向量,可以利用预先训练得到说话人识别模型对多个说话人各自的语音信息进行处理得到,本申请对如何从语音信息中,提取相应的i-vector特征向量的说话人识别模型的训练过程不做详述,且对于从语音信息中提取i-vector特征向量的实现方式,也并不局限于本实施例这种模型提取方式。
需要说明,由于i-vector特征向量是将说话人语音通过降维投影到i-vector空间,得到的一个固定长度的矢量表征,如图4所示400维i-vector特征向量,但并不局限于400这一固定维度数值,可以根据实际情况确定。
基于上述分析,预先训练得到上述i-vector提取模型后,在用户需要自定义语音合成引擎的虚拟角色的场景下,用户按照上述方式确定本次自定义的虚拟角色的n个外在的形象特征,并由此构建成n维特征向量后,可以将其输入该i-vector提取模型,输出该虚拟角色可能具有的400维i-vector特征向量,即与请求配置的属性信息相匹配的虚拟角色声音特征。
结合上述实施例的描述,上述虚拟角色声音特征可以包括但并不局限于虚拟角色的音色、音调、音量和/或语速等特征,可以根据实际需求确定。
步骤S35,获取与属性信息包含的多个形象特征相匹配的目标动画资源;
其中,动画资源可以是能够表征相应形象特征的虚拟角色的身体部位或装扮的图像,如黑色头发并扎两个小辫子的发型、黄色皮肤圆脸、双眼皮圆眼、红色上衣等分别对应的图像,本申请对该动画资源包含的内容限定,通常会配置一个动画资源库,步骤S35可以按照本次请求配置的虚拟角色的形象特征,从该动画资源库中选择以各形象特征相匹配的目标动画资源,具体选择过程不做详述。
步骤S36,利用该目标动画资源,生成针对语音合成引擎的虚拟角色图像;
如上述分析,目标动画资源的数量可以为多个,分别表示虚拟角色不同身体部位的特征或装扮,因此,将多个目标动画资源合成为针对语音合成引擎的虚拟角色图像,此时得到的往往是静态图像,如上图2所示的虚拟角色头像。
若本申请需要动态的虚拟角色图像,本申请可以结合动画制作技术,对获取的多个目标动画资源进行处理,以构建动态的虚拟角色图像,本申请对步骤S36的具体实现过程不做详述。
需要说明的是,关于利用虚拟角色的多个形象特征,构建虚拟角色图像的实现方法,并不局限于上文描述的方式,还可以利用预先训练得到的角色图像构建模型实现,本申请不做一一详述。
另外,对于上述虚拟角色声音特征的获取过程,与虚拟角色图像的获取过程之间并不限定执行顺序,也就是说,并不局限于本实施例相应的步骤顺序,这两部分的获取过程也可以同时执行,具体可以根据实际情况灵活调整。
步骤S37,利用虚拟角色图像以及虚拟角色声音特征,构建语音合成引擎的虚拟角色画像并展示。
综上,本实施例实际应用中,用户针对语音合成引擎自定义虚拟角色画像过程中,在输出的虚拟角色配置界面中输入所需的属性信息,通常是该虚拟角色的外在形象特征,之后,将确定由输入的多个形象特征构成的属性特征向量,从而将其输入身份认证向量提取模型,来得到与该属性特征向量相匹配的虚拟角色声音特征,与此同时,还可以利用这多个形象特征所匹配的目标动画资源,生成虚拟角色图像,进而可以将得到的虚拟角色图像和虚拟角色声音特征赋予新的虚拟角色,从而得到满足用户喜好和要求的语音合成引擎的虚拟角色画像,相对于现有技术中,用户只能使用语音合成引擎自带的固定虚拟角色画像,极大提高了语音交互的多样性及趣味性,提高了用户体验。
参照图5,为本申请提出的虚拟角色语音处理方法的又一可选示例的流程示意图,本实施例可以是对上述实施例提出的虚拟角色语音处理方法的又一可选细化实现方式,区别于上文实施例对描述的请求配置的虚拟角色的虚拟角色声音特征的细化实现方法,对于该虚拟角色语音处理方法的其他实现过程,可以参照上述实施例相应部分的描述。如图5所示,该方法可以包括:
步骤S51,响应针对语音合成引擎的虚拟角色配置请求,输出虚拟角色配置界面;
步骤S52,获取针对虚拟角色配置界面输入的属性信息;
步骤S53,利用该属性信息包含的多个形象特征,构建虚拟角色图像;
关于步骤S51~步骤S53的实现过程,可以参照上述实施例相应部分的描述,不再赘述。
步骤S54,依据该属性信息包含的多个形象特征,确定候选角色语音库;
步骤S55,从候选角色语音库中,查询与多个形象特征具有映射关系的目标角色语音特征,将目标角色语音特征确定为与属性信息相匹配的虚拟角色声音特征;
可见,区别于上述实施例对虚拟角色声音特征的提取方式,即基于机器学习算法实现方式,本申请还可以基于预设的规则,来确定本次请求配置的具有上述多个形象特征的虚拟角色应该具有的声音特征。具体的,由于虚拟角色的形象特征可以是人为设定的有限个数,将这些形象特征进行任意组合,所得到的也是有限个数的虚拟角色外在形象,所以,本申请可以设定一些规则,来确定这些外在的形象特征及其组合,分别与虚拟角色声音特征之间的映射关系,本申请对该规则内容不做限定,可以根据实际情况及需求确定。
示例性的,本申请可以预先针对不同的群体,设置相应的语音库,如青年男士语音库、青年女士语音库、儿童语音库、老年人语音库等,如对于年龄小于14岁的虚拟角色,可以从儿童语音库中挑选虚拟角色声音。需要说明,在为不同群体配置语音库时,可以依据但并不局限于年龄这一形象特征。
基于此,本实施例获取本次请求配置的虚拟角色的多个形象特征之后,可以直接从预设的多个语音库中,确定出与这多个形象特征相匹配的语音库为候选语音库,之后,按照预设规则(如不同形象特征或其组合与声音特征之间的映射关系),从该候选语音库中查询与多个形象特征具有映射关系的目标角色语音特征,也就是当前用户希望语音合成引擎的虚拟角色应该具有的声音,本实施例可以将该目标角色语音特征记为虚拟角色声音特征,但对其包含的声音特征内容不做限定。
步骤S56,利用虚拟角色图像以及虚拟角色声音特征,构建语音合成引擎的虚拟角色画像并展示。
综上所述,本实施例中,用户在计算机设备输出的虚拟角色配置界面中输入自定义虚拟角色的多个形象特征之后,可以直接利用这多个形象特征,构建虚拟角色,并从预设的多个语音库,确定与这多个形象特征相匹配的候选语音库,缩小声音特征查询范围,进而再从候选语音库中,查询与这多个形象特征具有映射关系的虚拟角色声音特征,从而将该虚拟角色声音特征和虚拟角色图像赋予语音合成引擎的虚拟角色,得到满足用户个人喜好和要求的自定义虚拟角色画像,提高了语音交互多样性及乐趣。
参照图6,为本申请提出的虚拟角色语音处理方法的又一可选示例的流程示意图,结合上述实施例描述的虚拟角色语音处理方法,针对语音合成引擎构建满足用户个人喜好和要求的虚拟角色画像之后,可以使用该虚拟角色画像满足用户对计算机设备的语音交互需求,本实施例将对构建新的虚拟角色画像后的应用过程进行描述,关于该虚拟角色画像的构建过程,可以参照上述实施例的描述,本实施例不做赘述。
如图6所示,本实施例提出的虚拟角色语音处理方法可以包括但并不局限于以下步骤:
步骤S61,获取待输出文本信息;
本实施例中,该待输出文本信息可以需要语音播报出来的内容,具体可以是需要语音识别引起以新构建的虚拟角色画像播报的语音信息内容,本申请对该待输出文本信息的具体内容不做限定,可以依据具体应用场景的语音交互需求确定。如上图2所示的天气查询场景下,“xx今天晴,温度16℃-32℃”这一信息为待输出文本信息。
对于上文举例的语音交互场景,待输出文本信息通常是计算机设备的搜索引擎依据输入信息搜索到并发送至语音合成引擎,或是语音合成引擎直接依据输入信息搜索到的,用以响应该输入信息的内容,本申请对不同应用场景下,待输出文本信息的具体获取过程不做详述。
步骤S62,将虚拟角色画像的虚拟角色声音特征,以及待输出文本信息输入语音合成模型,得到具有所述虚拟角色声音特征的待输出语音信息;
结合语音合成引擎的应用,本申请将采用用户自定义配置的虚拟角色画像来响应输入信息,即以新配置的虚拟角色画像的声音响应输入信息,来输出上述待输出信息。因此,本申请按照上文实施例描述的方式,得到满足用户喜好及要求的新虚拟角色画像之后,可以直接利用该虚拟角色画像具有的声音特征,对待输出文本信息进行语音合成处理,得到具有该虚拟角色声音特征的语音信息,且该语音信息的内容记为待输出文本信息内容。
需要说明,本申请对步骤S62的具体语音合成方法不做限定,可以参照但并不局限于下文实施例描述的语音合成方法。
示例性的,仍以上述“xx今天晴,温度16℃-32℃”这一待输出文本信息为例,对用户查询天气场景下,虚拟角色语音处理过程进行简单说,参照图7所示的应用场景示意图,用户自定义语音合成引擎的虚拟角色过程中,可以在虚拟角色配置界面输入多个形象特征的内容(并不局限于图7所示的形象特征类型及内容)之后,可以生成相应的虚拟角色图像(如图7中的头像),于此同时,由这些形象特征构成n维属性特征向量,利用预先训练得到的身份认证向量提取模型,如图7中的i-vector提取模型,来获取与该属性特征向量相匹配的i-vector向量,即用户自定义配置的虚拟角色具有的声音特征向量,之后,按照上述方式获得待输出文本信息后,可以利用预先训练的语音合成模型,得到合成的个性化语音,即使用自定义的虚拟角色的声音来说出该待输出文本信息,将虚拟角色发出的语音信号记为待输出语音信息。
其中,上述语音合成模块可以是TTS(Text To Speech)模型,其通常包括如文本分析、声学模型、音频合成等多个模块,本申请对该TTS模型的结构及其训练过程不做详述。
在一些实施例中,本申请具体可以使用一种端到端的TTS深度学习模型,即tacotron(中文语音合成)模型,其核心是seq2seq(序列到序列模型,)+attention(注意力机制),本申请对这种TTS模型的具体语音合成原理不做详述,且对于本申请步骤S62中的语音合成模型的类型,并不局限于本实施例列举的内容,可以根据实际情况灵活选择合适的语音合成模型,本申请不做一一详述。
步骤S63,将待输出语音信息与虚拟角色画像的虚拟角色图像进行关联输出。
继上文对本实施例的描述,按照上述处理方式得到具有新的虚拟角色声音特征的待输出语音信息后,可以进一步将其与该虚拟角色的虚拟角色图像关联输出,从视觉上给用户感受是具有该图像的虚拟角色说的该待输出语音信息内容,提高了用户体验感受。
具体的,在输出待此时用户使用的计算机设备显示界面,可以输出如图2所示的语音交互界面,可以将自定义构建的该语音合成引擎的虚拟角色的头像显示在该语音交互界面的底部和左侧,但并不局限于此,可以根据实际需求灵活调整语音交互界面样式。
综上,在本实施例中,本申请按照上述方式自定义一个满足用户个人喜好和要求的虚拟角色画像后,针对用户发起的语音请求或指令等,获得相应的待输出文本信息后,为了能够采用新构建的虚拟角色声音输出该待输出文本信息内容,本实施例可以将新构建的虚拟角色的声音特征,以及该待输出文本信息输入语音合成模型,从而得到具有该声音特征的待输出语音信息,并与该虚拟角色图像关联输出,满足了用户要求语音合成引擎采用新的形象和声音进行语音响应的需求,提高了语音交互多样性及乐趣。
参照图8,为本申请提出的虚拟角色语音处理方法的又一可选示例的流程示意图,本实施例可以是对上述实施例描述的虚拟角色应用过程的一可选细化实现方法,但并不局限于本实施例描述的这种细化方法,如图8所示,该方法可以包括:
步骤S81,获取语音会话请求;
本实施例对语音会话请求的内容不做限定,在不同的语音交互场景下,其表示的内容可以不同,仍以上文描述的天气查询场景为例,该语音会话请求可以是上图2中的“今天天气怎么样”,但并不局限于这一语音交互场景,且对于本申请计算机设备的语音合成引擎,可以是语音助手或者是智能客服系统中的智能客服机器人等,其可以识别输入的语音会话请求,并响应该语音会话请求,以查询满足该请求的应答信息,具体实现过程不做详述。
步骤S82,响应语音会话请求,输出包含虚拟角色画像的虚拟角色图像的语音会话界面;
仍以上述天气查询场景为例进行说,在语音会话应用中,用户侧通常会输出相应的语音会话界面,在本实施例中,可以在该语音会话界面中输出按照上述方式构建的新的虚拟角色的头像,如图2所示界面中的底部,以使用户能够直观、快速且准确得知当前与其进行语音交互的对象是谁。
需要说明,对于本申请输出的语音会话界面的界面内容、界面样式等,并局限于图2所示的界面,可以根据实际需求灵活调整,本申请在此不再一一列举。
步骤S83,获取与请求内容相匹配的待输出文本信息;
结合上文实施例相应部分的描述,对于待输出文本信息的获取过程,可以结合请求内容确定,若请求查询天气,可以从天气查询系统获取待输出文本信息;或请求查询路况,可以从交通系统获取待输出文本信息;如果查询某产品的价格及性能等信息,可以从该产品的生产或出售等应用平台获取相应的待输出文本信息,可见,对于不同的请求内容,所获取的待输出文本信息的内容及来源往往不同,本申请在此不做一一详述。
步骤S84,对待输出文本信息进行预处理;
本实施例得到待输出文本信息之后,可以将其输入到前端,如图9所示,可以先由文本预处理模块对该待输出文本信息进行预处理,具体预处理方法不做限定。
在一种可能的实现方式中,可以对待输出文本信息做一些正则化处理,以防止过拟合,如将阿拉伯数字、单位符号和其他特殊符号等转换成发音文字,比如,输入“温度15℃-35℃”,输出“温度十五到三十五摄氏度”,本申请对正则化预处理方法的具体实现过程不做详述,且对于待输出文本信息的预处理方式,也并不局限于正则化处理,根据需要还可以采用归一化、标准化等处理方式,本申请不做一一详述。
步骤S85,对预处理后的待输出文本信息进行韵律预测及音素转换处理,得到包含预测韵律的音素序列;
由于本实施例是要以自定义的虚拟角色声音来输出待处理文本信息,通常需要结合声音具有的特征类型,来预测说出该待处理文本信息在相应类型的声音特征是怎样的。基于此,在汉语文本转换语音的系统中,通常需要对基频(如每个说话人的语音中都有的一个基本频率)、语音单元的长度、说话停顿、能量等韵律信息进行预测,以使得发音自然、好听。本实施例可以将实现这些韵律信息预测的模型称为韵律预测模块,
因此,本实施例得到预处理后的待输出文本信息后,可以输入韵律预测模块来对该待输出文本信息的韵律特征进行预测。如本申请可以根据停顿时间从长到短,将韵律特征分为语调短语(以逗号等标点分隔的,用#3表示)、韵律短语(用#2表示)、韵律词(用#1表示)等几个层级。仍以上述“温度十五到三十五摄氏度”这一预处理后的待输出文本信息为例,将其输入该韵律预测模块后,可以输出“温度#2十五#1到#1三十五#2摄氏度”这一预测韵律特征。
其中,对于上述韵律预测模块可以用CRF(conditional random field,条件随机场)模型实现,该CRF模型结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,本申请对CRF模型的具体构建过程及其工作原理不做详述。
需要说明,本申请实现韵律预测的模型并不局限于上文CRF模型,本申请还可以利用神经网络等深度学习算法,实现对预处理后的待处理文本信息的韵律特征的预测,本申请在此不做一一详述。
由于音素是声学中的最小发音单元,对应到中文普通话中,相当于汉语拼音中的声韵母,且韵母后面会加上音调,如1:一声;2,二声;3,三声;4,四声;5:轻声,结尾可以加上终止符“~”。因此,本申请按照上述方式对预处理后的待输出文本信息进行韵律预测,得到韵律特征即文字序列后,可以利用字素音素转换模块,将该文字训练转换成音素序列,即得到包含预测韵律的音素序列。
继续以上文示例进行说明,将预测到的韵律特征“温度#2十五#1到#1三十五#2摄氏度”输入该字素音素转换模块,可以得到“w en1/d u4/#2/sh i2/w u3/#1/d ao4/#1/san1/sh i2/w u3/#2/sh e4/sh i4/d u4/~”这一音素序列。
其中,如图9所示的结构示意图,对于上述字素音素转换模块可以是G2P(Grapheme-to-Phoneme)模块,该G2P模块可以基于人工智能生成,如利用规则结合语音模型实现,具体实现方式及相应的实现过程本申请不做详述,并不局限于本实施例描述的内容。
步骤S86,将音素序列和虚拟角色画像的虚拟角色声音特征输入声学模型,得到虚拟角色画像的声学特征;
在本实施例实际应用中,对于上述步骤得到的音素序列,可以进一步根据待建模字符集里的编号转换成ID序列,输出梅尔谱或线性谱等声学特征,在该过程中,如图9所示,可以利用注意力机制,结合说话人i-vector向量与上述音素序列,得到所需的声学特征,具体实现方法不做限定。
在一些实施例中,对于上述声学模块可以采用Seq2Seq或者Transformer等结构的模型,实现对声学特征的提取,具体实现过程可以参照相应网络结构的工作原理确定,本申请在此不做详述。
步骤S87,将声学特征输入声码器进行编码处理,得到具有虚拟角色声音特征的待输出语音信息;
继上文分析,对于声学模型输出的声学特征,可以继续输入声码器进行处理,得到相应的梅尔谱或线性谱,如图9所示的语音波形。在一种可能的实现方式中,该声码器对声音特征的处理可以采用Griffin-Lim算法实现,不需要进行训练就可以得到语音波形(即待输出语音信息)。当然,根据实际情况的需求,该声码器对声音特征的处理,也可以采用WaveGlow,WaveRNN,LPCNet等需要训练的模型来实现,本申请对如何将声学特征转换得到相应的梅尔谱或线性谱的实现过程不做限定,并不局限于上文列举的几种实现方式。
另外,需要说明,对于本申请提出的将待输出文本信息,利用新构建的虚拟角色的声音特征,合成为待输出语音信息的处理过程,本申请主要是以该待输出文本信息为汉语的情况下,基于汉语语音特点实现的该转换处理过程,对于其他国家的语言,在语音合成处理过程可以结合该来语言自身的特点实现,本申请不做一一详述。
步骤S88,在语音会话界面,将待输出语音信息与虚拟角色画像的虚拟角色图像进行关联输出。
关于步骤S88的展示的语音会话界面,可以参照但并不局限于上文图2所示的界面。
综上所述,本申请按照上述方式自定义一个满足用户个人喜好和要求的虚拟角色画像后,对于需要使用用户自定义配置的虚拟角色的声音,来回应用户提问的情况下,得到回应信息即待输出文本信息之后,本实施例将由前端依次对其进行预处理、音量预测以及音素转换处理,从而得到具有韵律特征的音素序列,之后,可以与该虚拟角色的声音特征同时输入声学模型,来输出由该虚拟角色声音输出该待输出文本信息所具有的声学特征,经过声码器处理后,可以得到待输出语音信息,即由用户自定义配置的虚拟角色声音说待输出文本信息的语音信号,之后,可以结合该虚拟角色图像播放出来,能够更好地拉近与用户之间的距离,提高了语音交互的趣味性。
参照图10,为本申请提出的虚拟角色语音处理装置的一可选示例的结构示意图,该装置可以适用于计算机设备,本申请对该计算机设备的设备类型不做限定,如图10所示,该装置可以包括:
虚拟角色配置界面输出模块101,用于响应针对语音合成引擎的虚拟角色配置请求,输出虚拟角色配置界面;
在一种可能的实现方式中,虚拟角色配置界面输出模块101可以包括:
第一界面输出单元,用于依据针对语音合成引擎的虚拟角色新建操作,输出虚拟角色配置界面。
在又一种可能的实现方式中,虚拟角色配置界面输出模块101也可以包括:
调整请求生成单元,用于依据针对语音合成引擎的已有虚拟角色画像的选择调整操作,生成针对所选择的已有虚拟角色画像的虚拟角色调整请求;
第二界面输出单元,用于响应所述虚拟角色调整请求,输出包含请求调整的已有虚拟角色画像的属性信息的虚拟角色配置界面。
第一数据获取模块102,用于获取针对所述虚拟角色配置界面输入的属性信息,得到与所述属性信息相匹配的虚拟角色图像以及虚拟角色声音特征,所述属性信息至少包含所要配置的虚拟角色的多个形象特征;
在一些实施例中,该第一数据获取模块102可以包括:
动画资源获取单元,用于获取与所述属性信息包含的所述多个形象特征相匹配的目标动画资源;
虚拟角色图像生成单元,用于利用所述目标动画资源,生成针对所述语音合成引擎的虚拟角色图像。
在又一些实施例中,该第一数据获取模块102还可以包括:
第一向量构建单元,用于利用所述属性信息包含的所述多个形象特征,构建属性特征向量;
第一特征提取单元,用于将所述属性特征向量输入身份认证向量提取模型,得到与所述属性信息相匹配的虚拟角色声音特征,所述虚拟角色声音特征包括虚拟角色音色和/或音调;
其中,身份认证向量提取模型是通过对多个样本用户的样本声音特征和样本属性信息进行训练得到的,能够表征不同虚拟角色画像的属性信息与声音特征之间的映射关系。
在又一些实施例中,该第一数据获取模块102也可以包括:
候选角色语音库确定单元,用于依据所述属性信息包含的所述多个形象特征,确定候选角色语音库;
语音特征查询单元,用于从所述候选角色语音库中,查询与所述多个形象特征具有映射关系的目标角色语音特征,将所述目标角色语音特征确定为与所述属性信息相匹配的虚拟角色声音特征。
虚拟角色画像构建模块103,用于利用所述虚拟角色图像以及所述虚拟角色声音特征,构建所述语音合成引擎的虚拟角色画像并展示。
在一些实施例中,基于上文实施例描述的虚拟角色语音处理装置的结构,该装置还可以包括:
信息获取模块,用于获取待输出文本信息;
语音合成模块,用于将所述虚拟角色画像的虚拟角色声音特征,以及所述待输出文本信息输入语音合成模型,得到具有所述虚拟角色声音特征的待输出语音信息;
在一种可能的实现方式中,该语音合成模块可以包括:
预处理单元,用于对所述待输出文本信息进行预处理;
音素序列得到单元,用于对预处理后的待输出文本信息进行韵律预测及音素转换处理,得到包含预测韵律的音素序列;
声学特征得到单元,用于将所述音素序列和所述虚拟角色画像的虚拟角色声音特征输入声学模型,得到所述虚拟角色画像的声学特征;
编码单元,用于将所述声学特征输入声码器进行编码处理,得到具有所述虚拟角色声音特征的待输出语音信息。
图像信息关联模块,用于将所述待输出语音信息与所述虚拟角色画像的虚拟角色图像进行关联输出。
在一种可能的实现方式中,上述信息获取模块可以包括:
请求获取单元,用于获取语音会话请求;
界面输出单元,用于响应所述语音会话请求,输出包含所述虚拟角色画像的虚拟角色图像的语音会话界面;
文本信息获取单元,用于获取与请求内容相匹配的待输出文本信息;
相应地,上述图像信息关联模块具体可以包括:
信息输出单元,用于在所述语音会话界面,将所述待输出语音信息与所述虚拟角色画像的虚拟角色图像进行关联输出
需要说明的是,关于上述各装置实施例中的各种模块、单元等,均可以作为程序模块存储在存储器中,由处理器执行存储在存储器中的上述程序模块,以实现相应的功能,关于各程序模块及其组合所实现的功能,以及达到的技术效果,可以参照上述方法实施例相应部分的描述,本实施例不再赘述。
本申请还提出了一种计算机可读存储介质,其上可以存储计算机程序,该计算机程序可以被处理器调用并加载,以实现上述实施例描述的虚拟角色语音处理方法的各个步骤。
参照图11,为实现本申请提出的虚拟角色语音处理方法的计算机设备的一可选示例的硬件结构示意图,图11示出的计算机设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。如图1所示,计算机设备可以包括:至少一个存储器111和至少一个处理器112,其中:
存储器111可以用于存储实现上文任一方法实施例描述的虚拟角色语音处理方法的程序;处理器112可以用于加载并执行存储器111存储的程序,以实现相应方法实施例描述的虚拟角色语音处理方法的各步骤,具体实现过程可以参照但并不局限于上文实施例相应部分的描述。
在本申请实施例中,存储器112可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。处理器13,可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路(application-specificintegrated circuit,ASIC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。
在一些实施例中,上述计算机设备还可以包括:实现计算机设备与外部设备之间的数据传输,以及实现计算机设备内部组成部件之间的数据传输的通信接口,该通信接口可以包括适用于无线通信网络和/或有线通信网络的网络接口,具体如GSM模块、WIFI模块等通信模块的数据接口,还可以包括如USB接口、串/并口等接口,该通信接口包含的数量及类型,可以依据该计算机设备的设备类型确定,本实施例不做一一详述。
在实际应用中,计算机设备可以包括但并不局限于智能手机、平板电脑、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)、电子书阅读器、台式计算机等终端设备,这些终端设备均可以安装语音合成引擎,方便使用终端设备的用户能够语音控制终端设备操作。
当然,在一些实施例,上述计算机设备也可以是服务器,无独立的物理服务器,或由多个物理服务器构成的服务器集,或支持云计算机的云服务器等,当用户需要自定义其终端设备使用的语音合成引擎的虚拟角色形象时,可以将针对该虚拟角色的自定义信息发送至服务器,由服务器构建满足该自定义信息的虚拟角色形象,再反馈给该终端设备使用。
可见,本申请对执行本申请提出的虚拟角色语音处理方法的计算机设备的设备类型不做限定,可以根据实际应用需求确定。
应该理解的是,若计算机设备可以是如上文列举的终端设备,该计算机设备还可以包括至少一个输入设备,如感应触摸显示面板上的触摸事件的触摸感应单元、键盘、鼠标、摄像头、拾音器等,以及至少一个输出设备,如显示器、扬声器、振动机构、灯等。
可见,图11所示计算机设备的结构并不构成对本申请实施例中计算机设备的限定,在实际应用中,计算机设备可以包括比图11所示的更多或更少的部件,或者组合某些部件,本申请在此不做一一列举。
最后,本说明书中各个实施例采用递进或并列的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、计算机设备而言,由于其与实施例公开的方法对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种虚拟角色语音处理方法,所述方法包括:
响应针对语音合成引擎的虚拟角色配置请求,输出虚拟角色配置界面;
获取针对所述虚拟角色配置界面输入的属性信息,得到与所述属性信息相匹配的虚拟角色图像以及虚拟角色声音特征,所述属性信息至少包含所要配置的虚拟角色的多个形象特征;
利用所述虚拟角色图像以及所述虚拟角色声音特征,构建所述语音合成引擎的虚拟角色画像并展示。
2.根据权利要求1所述的方法,所述虚拟角色声音特征的得到过程包括:
利用所述属性信息包含的所述多个形象特征,构建属性特征向量;
将所述属性特征向量输入身份认证向量提取模型,得到与所述属性信息相匹配的虚拟角色声音特征,所述虚拟角色声音特征包括虚拟角色音色和/或音调;
其中,身份认证向量提取模型是通过对多个样本用户的样本声音特征和样本属性信息进行训练得到的,能够表征不同虚拟角色画像的属性信息与声音特征之间的映射关系。
3.根据权利要求1所述的方法,所述虚拟角色声音特征的得到过程包括:
依据所述属性信息包含的所述多个形象特征,确定候选角色语音库;
从所述候选角色语音库中,查询与所述多个形象特征具有映射关系的目标角色语音特征,将所述目标角色语音特征确定为与所述属性信息相匹配的虚拟角色声音特征。
4.根据权利要求1~3任一项所述的方法,所述方法还包括:
获取待输出文本信息;
将所述虚拟角色画像的虚拟角色声音特征,以及所述待输出文本信息输入语音合成模型,得到具有所述虚拟角色声音特征的待输出语音信息;
将所述待输出语音信息与所述虚拟角色画像的虚拟角色图像进行关联输出。
5.根据权利要求4所述的方法,所述获取待输出文本信息,包括:
获取语音会话请求;
响应所述语音会话请求,输出包含所述虚拟角色画像的虚拟角色图像的语音会话界面;
获取与请求内容相匹配的待输出文本信息;
所述将所述待输出语音信息与所述虚拟角色画像的虚拟角色图像进行关联输出,包括:
在所述语音会话界面,将所述待输出语音信息与所述虚拟角色画像的虚拟角色图像进行关联输出。
6.根据权利要求4所述的方法,所述将所述虚拟角色画像的虚拟角色声音特征,以及所述待输出文本信息输入语音合成模型,得到具有所述虚拟角色声音特征的待输出语音信息,包括:
对所述待输出文本信息进行预处理;
对预处理后的待输出文本信息进行韵律预测及音素转换处理,得到包含预测韵律的音素序列;
将所述音素序列和所述虚拟角色画像的虚拟角色声音特征输入声学模型,得到所述虚拟角色画像的声学特征;
将所述声学特征输入声码器进行编码处理,得到具有所述虚拟角色声音特征的待输出语音信息。
7.根据权利要求1~3任一项所述的方法,所述响应针对语音合成引擎的虚拟角色配置请求,输出虚拟角色配置界面,包括:
依据针对语音合成引擎的虚拟角色新建操作,输出虚拟角色配置界面;或者,
依据针对语音合成引擎的已有虚拟角色画像的选择调整操作,生成针对所选择的已有虚拟角色画像的虚拟角色调整请求;
响应所述虚拟角色调整请求,输出包含请求调整的已有虚拟角色画像的属性信息的虚拟角色配置界面。
8.根据权利要求1~3任一项所述的方法,所述虚拟角色图像的得到过程包括:
获取与所述属性信息包含的所述多个形象特征相匹配的目标动画资源;
利用所述目标动画资源,生成针对所述语音合成引擎的虚拟角色图像。
9.一种虚拟角色语音处理装置,所述装置包括:
虚拟角色配置界面输出模块,用于响应针对语音合成引擎的虚拟角色配置请求,输出虚拟角色配置界面;
第一数据获取模块,用于获取针对所述虚拟角色配置界面输入的属性信息,得到与所述属性信息相匹配的虚拟角色图像以及虚拟角色声音特征,所述属性信息至少包含所要配置的虚拟角色的多个形象特征;
虚拟角色画像构建模块,用于利用所述虚拟角色图像以及所述虚拟角色声音特征,构建所述语音合成引擎的虚拟角色画像并展示。
10.一种计算机设备,所述计算机设备包括:至少一个存储器和至少一个处理器,其中:
所述存储器,用于存储实现如权利要求1~8任一项所述的虚拟角色语音处理方法的程序;
所述处理器,用于加载并执行所述存储器存储的所述程序,以实现如权利要求1~8任一项所述的虚拟角色语音处理方法的各步骤。
CN202010617733.5A 2020-06-30 2020-06-30 虚拟角色语音处理方法、装置及计算机设备 Active CN111785246B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010617733.5A CN111785246B (zh) 2020-06-30 2020-06-30 虚拟角色语音处理方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010617733.5A CN111785246B (zh) 2020-06-30 2020-06-30 虚拟角色语音处理方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN111785246A true CN111785246A (zh) 2020-10-16
CN111785246B CN111785246B (zh) 2024-06-18

Family

ID=72761400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010617733.5A Active CN111785246B (zh) 2020-06-30 2020-06-30 虚拟角色语音处理方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN111785246B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112511853A (zh) * 2020-11-26 2021-03-16 北京乐学帮网络技术有限公司 一种视频处理方法、装置、电子设备及存储介质
CN112755532A (zh) * 2021-01-06 2021-05-07 珠海天燕科技有限公司 一种游戏角色的生成方法、装置及其设备
CN112802447A (zh) * 2021-03-19 2021-05-14 成都启英泰伦科技有限公司 一种语音合成播报方法及装置
CN113010138A (zh) * 2021-03-04 2021-06-22 腾讯科技(深圳)有限公司 文章的语音播放方法、装置、设备及计算机可读存储介质
CN113889069A (zh) * 2021-09-07 2022-01-04 武汉理工大学 一种基于可控最大熵自编码器的零样本语音风格迁移方法
CN113900751A (zh) * 2021-09-29 2022-01-07 平安普惠企业管理有限公司 一种合成虚拟形象的方法、装置、服务器和存储介质
CN114036257A (zh) * 2021-10-18 2022-02-11 北京百度网讯科技有限公司 信息查询方法、装置、电子设备和存储介质
WO2023071166A1 (zh) * 2021-10-25 2023-05-04 网易(杭州)网络有限公司 数据处理方法、装置、存储介质和电子装置
WO2023193652A1 (zh) * 2022-04-06 2023-10-12 长城汽车股份有限公司 一种车机虚拟形象交互方法、系统、车辆及存储介质
CN117475049A (zh) * 2023-12-26 2024-01-30 一站发展(北京)云计算科技有限公司 一种虚拟形象适配方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160379622A1 (en) * 2015-06-29 2016-12-29 Vocalid, Inc. Aging a text-to-speech voice
CN106874472A (zh) * 2017-02-16 2017-06-20 深圳追科技有限公司 一种拟人机器人客服方法
CN107564510A (zh) * 2017-08-23 2018-01-09 百度在线网络技术(北京)有限公司 一种语音虚拟角色管理方法、装置、服务器和存储介质
CN107562195A (zh) * 2017-08-17 2018-01-09 英华达(南京)科技有限公司 人机交互方法及系统
CN108737872A (zh) * 2018-06-08 2018-11-02 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN108766414A (zh) * 2018-06-29 2018-11-06 北京百度网讯科技有限公司 用于语音翻译的方法、装置、设备和计算机可读存储介质
US20180342095A1 (en) * 2017-03-16 2018-11-29 Motional LLC System and method for generating virtual characters

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160379622A1 (en) * 2015-06-29 2016-12-29 Vocalid, Inc. Aging a text-to-speech voice
CN106874472A (zh) * 2017-02-16 2017-06-20 深圳追科技有限公司 一种拟人机器人客服方法
US20180342095A1 (en) * 2017-03-16 2018-11-29 Motional LLC System and method for generating virtual characters
CN107562195A (zh) * 2017-08-17 2018-01-09 英华达(南京)科技有限公司 人机交互方法及系统
CN107564510A (zh) * 2017-08-23 2018-01-09 百度在线网络技术(北京)有限公司 一种语音虚拟角色管理方法、装置、服务器和存储介质
CN108737872A (zh) * 2018-06-08 2018-11-02 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN108766414A (zh) * 2018-06-29 2018-11-06 北京百度网讯科技有限公司 用于语音翻译的方法、装置、设备和计算机可读存储介质

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112511853B (zh) * 2020-11-26 2023-10-27 北京乐学帮网络技术有限公司 一种视频处理方法、装置、电子设备及存储介质
CN112511853A (zh) * 2020-11-26 2021-03-16 北京乐学帮网络技术有限公司 一种视频处理方法、装置、电子设备及存储介质
CN112755532A (zh) * 2021-01-06 2021-05-07 珠海天燕科技有限公司 一种游戏角色的生成方法、装置及其设备
CN113010138A (zh) * 2021-03-04 2021-06-22 腾讯科技(深圳)有限公司 文章的语音播放方法、装置、设备及计算机可读存储介质
CN113010138B (zh) * 2021-03-04 2023-04-07 腾讯科技(深圳)有限公司 文章的语音播放方法、装置、设备及计算机可读存储介质
CN112802447A (zh) * 2021-03-19 2021-05-14 成都启英泰伦科技有限公司 一种语音合成播报方法及装置
CN113889069A (zh) * 2021-09-07 2022-01-04 武汉理工大学 一种基于可控最大熵自编码器的零样本语音风格迁移方法
CN113889069B (zh) * 2021-09-07 2024-04-19 武汉理工大学 一种基于可控最大熵自编码器的零样本语音风格迁移方法
CN113900751A (zh) * 2021-09-29 2022-01-07 平安普惠企业管理有限公司 一种合成虚拟形象的方法、装置、服务器和存储介质
CN114036257A (zh) * 2021-10-18 2022-02-11 北京百度网讯科技有限公司 信息查询方法、装置、电子设备和存储介质
WO2023071166A1 (zh) * 2021-10-25 2023-05-04 网易(杭州)网络有限公司 数据处理方法、装置、存储介质和电子装置
WO2023193652A1 (zh) * 2022-04-06 2023-10-12 长城汽车股份有限公司 一种车机虚拟形象交互方法、系统、车辆及存储介质
CN117475049A (zh) * 2023-12-26 2024-01-30 一站发展(北京)云计算科技有限公司 一种虚拟形象适配方法及系统
CN117475049B (zh) * 2023-12-26 2024-03-08 一站发展(北京)云计算科技有限公司 一种虚拟形象适配方法及系统

Also Published As

Publication number Publication date
CN111785246B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
CN111785246B (zh) 虚拟角色语音处理方法、装置及计算机设备
CN110688911B (zh) 视频处理方法、装置、系统、终端设备及存储介质
KR102668866B1 (ko) 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
CN110211563B (zh) 面向情景及情感的中文语音合成方法、装置及存储介质
WO2020024582A1 (zh) 语音合成方法及相关设备
CN106486121B (zh) 应用于智能机器人的语音优化方法及装置
GB2516965A (en) Synthetic audiovisual storyteller
CN111260761B (zh) 一种生成动画人物口型的方法及装置
CN113010138B (zh) 文章的语音播放方法、装置、设备及计算机可读存储介质
JP2020034883A (ja) 音声合成装置及びプログラム
CN113314097A (zh) 语音合成方法、语音合成模型处理方法、装置和电子设备
CN112735371A (zh) 一种基于文本信息生成说话人视频的方法及装置
CN116129852A (zh) 语音合成模型的训练方法、语音合成方法及相关设备
KR20210045217A (ko) 감정 이식 장치 및 감정 이식 방법
CN117352132A (zh) 心理辅导方法、装置、设备及存储介质
CN116665642A (zh) 语音合成方法、语音合成系统、电子设备及存储介质
KR102605178B1 (ko) 가족 관계에 기초하여 음성 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램
CN115762467A (zh) 说话人表征向量分布空间创建、语音合成方法及相关设备
CN114464163A (zh) 语音合成模型的训练方法、装置、设备、存储介质和产品
JP6289950B2 (ja) 読み上げ装置、読み上げ方法及びプログラム
CN114514576A (zh) 数据处理方法、装置和存储介质
CN113823329B (zh) 数据处理方法以及计算机设备
CN117560340B (zh) 基于模拟角色的信息交互方法、装置和存储介质
CN117935770A (zh) 合成语音的调整方法、训练方法及相关装置
Midtlyng et al. Voice adaptation by color-encoded frame matching as a multi-objective optimization problem for future games

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant