CN111564152B - 语音转换方法、装置、电子设备及存储介质 - Google Patents

语音转换方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111564152B
CN111564152B CN202010685478.8A CN202010685478A CN111564152B CN 111564152 B CN111564152 B CN 111564152B CN 202010685478 A CN202010685478 A CN 202010685478A CN 111564152 B CN111564152 B CN 111564152B
Authority
CN
China
Prior art keywords
sample
information
user
text
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010685478.8A
Other languages
English (en)
Other versions
CN111564152A (zh
Inventor
杜慷
陈孝良
冯大航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202010685478.8A priority Critical patent/CN111564152B/zh
Publication of CN111564152A publication Critical patent/CN111564152A/zh
Application granted granted Critical
Publication of CN111564152B publication Critical patent/CN111564152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请提供了一种语音转换方法、装置、电子设备及存储介质,属于人工智能领域。所述方法包括:获取多个样本信息,每个样本信息包括样本文本信息、样本语音信息和样本用户标识,所述样本用户标识用于指示按照所述样本文本信息发出所述样本语音信息的用户,且所述多个样本信息中包括的样本用户标识不完全相同;根据所述多个样本信息,对语音转换模型进行训练;获取目标文本信息和目标用户标识;调用所述语音转换模型,根据所述目标用户标识对所述目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息。上述方法可以实现语音转换模型的多音色功能,智能化程度高。

Description

语音转换方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能领域,特别涉及一种语音转换方法、装置、电子设备及存储介质。
背景技术
TTS(Text-To-Speech,从文本到语音)技术可以通过机械的、电子的方法产生人造语音,随着人工智能技术的发展和人们对TTS技术精确性需求的日益提升,目前出现了调用语音转换模型将文本信息转换成语音信息的方法。
训练语音转换模型需要通过语料库来实现,语料库中包括多个样本文本信息和每个样本文本信息对应的样本语音信息。如果语料库中的多个样本语音信息通过多个人来录制,会导致语音转换模型生成的语音信息的音色可能是多个人的音色的混合,会影响语音信息的播放效果。
因此,语料库中的多个样本语音信息由同一个人来录制,从而根据多个样本文本信息和对应的样本语音信息训练语音转换模型,但是这样会导致语音转换模型只能生成一种音色的语音信息,智能化程度低。
发明内容
本申请实施例提供了一种语音转换方法、装置、电子设备及存储介质,支持多音色功能,智能化程度高。所述技术方案如下。
第一方面,提供了一种语音转换方法,所述方法包括:
获取多个样本信息,每个样本信息包括样本文本信息、样本语音信息和样本用户标识,所述样本用户标识用于指示按照所述样本文本信息发出所述样本语音信息的用户,且所述多个样本信息中包括的样本用户标识不完全相同;
根据所述多个样本信息,对语音转换模型进行训练;
获取目标文本信息和目标用户标识;
调用所述语音转换模型,根据所述目标用户标识对所述目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息。
在一种可能的实现方式中,所述根据所述多个样本信息,对语音转换模型进行训练,包括:
对于所述每个样本信息,调用所述语音转换模型,根据所述样本用户标识对所述样本文本信息进行转换,得到预测语音信息;
根据所述预测语音信息与所述样本语音信息,确定所述语音转换模型的损失值;
根据所述损失值,调整所述语音转换模型的参数。
在另一种可能的实现方式中,所述语音转换模型包括用户特征提取子模型、文本特征提取子模型、声学特征提取子模型和语音转换子模型,所述调用所述语音转换模型,根据所述样本用户标识对所述样本文本信息进行转换,得到预测语音信息,包括:
调用所述用户特征提取子模型,根据所述样本用户标识进行特征提取,得到所述样本用户标识对应的用户特征;
调用所述文本特征提取子模型,根据所述样本文本信息进行特征提取,得到所述样本文本信息对应的文本特征;
调用所述声学特征提取子模型,根据所述文本特征和所述用户特征进行特征转换,得到声学特征;
调用所述语音转换子模型,根据所述声学特征进行语音转换,得到所述预测语音信息。
在另一种可能的实现方式中,所述调用所述语音转换子模型,根据所述声学特征进行语音转换,得到所述预测语音信息,包括:
调用所述语音转换子模型,根据所述声学特征和所述用户特征进行语音转换,得到所述预测语音信息。
在另一种可能的实现方式中,所述调用所述用户特征提取子模型,根据所述样本用户标识进行特征提取,得到所述样本用户标识对应的用户特征,包括:
调用所述用户特征提取子模型,将所述样本用户标识转换成用户向量,对所述用户向量进行特征提取,得到所述用户特征。
在另一种可能的实现方式中,所述调用所述文本特征提取子模型,根据所述样本文本信息进行特征提取,得到所述样本文本信息对应的文本特征,包括:
调用所述文本特征提取子模型,将所述样本文本信息转换成文本向量;
将所述用户向量与所述文本向量进行融合,得到融合向量;
对所述融合向量进行特征提取,得到所述文本特征。
在另一种可能的实现方式中,所述语音转换模型包括用户特征提取子模型、文本特征提取子模型、声学特征提取子模型和语音转换子模型,所述调用所述语音转换模型,根据所述目标用户标识对所述目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息,包括:
调用所述用户特征提取子模型,根据所述目标用户标识进行特征提取,得到所述目标用户标识对应的用户特征;
调用所述文本特征提取子模型,根据所述目标文本信息进行特征提取,得到所述目标文本信息对应的文本特征;
调用所述声学特征提取子模型,根据所述文本特征和所述用户特征进行特征转换,得到声学特征;
调用所述语音转换子模型,根据所述声学特征进行语音转换,得到所述目标语音信息。
在另一种可能的实现方式中,所述调用所述语音转换子模型,根据所述声学特征进行语音转换,得到所述目标语音信息,包括:
调用所述语音转换子模型,根据所述声学特征和所述用户特征进行语音转换,得到所述目标语音信息。
在另一种可能的实现方式中,所述调用所述用户特征提取子模型,根据所述目标用户标识进行特征提取,得到所述目标用户标识对应的用户特征,包括:
调用所述用户特征提取子模型,将所述目标用户标识转换成用户向量,对所述用户向量进行特征提取,得到所述用户特征。
在另一种可能的实现方式中,所述调用所述文本特征提取子模型,根据所述目标文本信息进行特征提取,得到所述目标文本信息对应的文本特征,包括:
调用所述文本特征提取子模型,将所述目标文本信息转换成文本向量;
将所述用户向量与所述文本向量进行融合,得到融合向量;
对所述融合向量进行特征提取,得到所述文本特征。
在另一种可能的实现方式中,所述多个样本信息中包括的样本文本信息所属的语种不完全相同;
所述目标语音信息所属的语种与所述目标文本信息所属的语种相同。
第二方面,提供了一种语音转换装置,所述装置包括:
样本信息获取模块,被配置为获取多个样本信息,每个样本信息包括样本文本信息、样本语音信息和样本用户标识,所述样本用户标识用于指示按照所述样本文本信息发出所述样本语音信息的用户,且所述多个样本信息中包括的样本用户标识不完全相同;
模型训练模块,被配置为根据所述多个样本信息,对语音转换模型进行训练;
目标信息获取模块,被配置为获取目标文本信息和目标用户标识;
信息转换模块,被配置为调用所述语音转换模型,根据所述目标用户标识对所述目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息。
在一种可能的实现方式中,所述模型训练模块包括:
信息预测子模块,被配置为对于所述每个样本信息,调用所述语音转换模型,根据所述样本用户标识对所述样本文本信息进行转换,得到预测语音信息;
损失值确定子模块,被配置为根据所述预测语音信息与所述样本语音信息,确定所述语音转换模型的损失值;
参数调整子模块,被配置为根据所述损失值,调整所述语音转换模型的参数。
在另一种可能的实现方式中,所述语音转换模型包括用户特征提取子模型、文本特征提取子模型、声学特征提取子模型和语音转换子模型,所述信息预测子模块,包括:
用户特征获取单元,被配置为调用所述用户特征提取子模型,根据所述样本用户标识进行特征提取,得到所述样本用户标识对应的用户特征;
文本特征获取单元,被配置为调用所述文本特征提取子模型,根据所述样本文本信息进行特征提取,得到所述样本文本信息对应的文本特征;
声学特征获取单元,被配置为调用所述声学特征提取子模型,根据所述文本特征和所述用户特征进行特征转换,得到声学特征;
信息预测单元,被配置为调用所述语音转换子模型,根据所述声学特征进行语音转换,得到所述预测语音信息。
在另一种可能的实现方式中,所述信息预测单元,被配置为调用所述语音转换子模型,根据所述声学特征和所述用户特征进行语音转换,得到所述预测语音信息。
在另一种可能的实现方式中,所述用户特征获取单元,被配置为调用所述用户特征提取子模型,将所述样本用户标识转换成用户向量,对所述用户向量进行特征提取,得到所述用户特征。
在另一种可能的实现方式中,所述文本特征获取单元,被配置为调用所述文本特征提取子模型,将所述样本文本信息转换成文本向量;将所述用户向量与所述文本向量进行融合,得到融合向量;对所述融合向量进行特征提取,得到所述文本特征。
在另一种可能的实现方式中,所述语音转换模型包括用户特征提取子模型、文本特征提取子模型、声学特征提取子模型和语音转换子模型,所述信息转换模块,包括:
用户特征获取子模块,被配置为调用所述用户特征提取子模型,根据所述目标用户标识进行特征提取,得到所述目标用户标识对应的用户特征;
文本特征获取子模块,被配置为调用所述文本特征提取子模型,根据所述目标文本信息进行特征提取,得到所述目标文本信息对应的文本特征;
声学特征获取子模块,被配置为调用所述声学特征提取子模型,根据所述文本特征和所述用户特征进行特征转换,得到声学特征;
目标语音信息获取子模块,被配置为调用所述语音转换子模型,根据所述声学特征进行语音转换,得到所述目标语音信息。
在另一种可能的实现方式中,所述目标语音信息获取子模块,被配置为调用所述语音转换子模型,根据所述声学特征和所述用户特征进行语音转换,得到所述目标语音信息。
在另一种可能的实现方式中,所述用户特征获取子模块,被配置为调用所述用户特征提取子模型,将所述目标用户标识转换成用户向量,对所述用户向量进行特征提取,得到所述用户特征。
在另一种可能的实现方式中,所述文本特征获取子模块,被配置为调用所述文本特征提取子模型,将所述目标文本信息转换成文本向量;将所述用户向量与所述文本向量进行融合,得到融合向量;对所述融合向量进行特征提取,得到所述文本特征。
在另一种可能的实现方式中,所述多个样本信息中包括的样本文本信息所属的语种不完全相同;
所述目标语音信息所属的语种与所述目标文本信息所属的语种相同。
第三方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现上述任一种可能实现方式中的语音转换方法中所执行的操作。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述任一种可能实现方式中的语音转换方法中所执行的操作。
本申请实施例提供的技术方案带来的有益效果至少包括:
在本申请实施例中,训练语音转换模型所采用样本信息不仅包括样本文本信息和样本语音信息,还包括按照样本文本信息发出样本语音信息的用户的样本用户标识,且多个样本信息中包括的样本用户标识不完全相同,则根据多个样本信息训练的语音转换模型可以学习到用户标识与语音信息的音色之间的关系,能够根据任一用户标识进行转换得到具有用户匹配音色的语音信息,从而具备了多音色的功能,智能化程度高。那么在调用该语音转换模型时,可以根据目标用户标识对目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息,实现了通过目标用户标识来控制语音信息的音色。并且,由于该语音转换模型能够根据任一用户标识进行转换得到具有用户匹配音色的语音信息,能够将不同音色的用户区分开,使得支持该语音转换模型的语料库可以分别由多个人来录制,一方面生成的语音信息不会出现多个人的音色混合的情况,保证了语音信息的播放效果,另一方面提高了录制语料库的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种语音转换方法流程图;
图3是本申请实施例提供的一种语音转换方法流程图;
图4是本申请实施例提供的一种语音转换模型的结构示意图;
图5是本申请实施例提供的一种语音转换装置的框图;
图6是本申请实施例提供的一种终端的结构示意图;
图7是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
可以理解,本申请所使用的术语“每个”、“多个”及“任一”等,多个包括两个或两个以上,每个是指对应的多个中的每一个,任一是指对应的多个中的任意一个。举例来说,多个样本信息包括10个样本信息,而每个样本信息是指这10个样本信息中的每一个样本信息,任一样本信息是指10个样本信息中的任意一个样本信息。
图1是本申请实施例提供的一种实施环境的示意图。参见图1,该实施环境包括至少一个终端101和服务器102,(图1中以两个终端101为例进行说明)。终端101和服务器102之间通过无线或者有线网络连接。终端101与服务器102可以进行数据传输、消息交互等功能。
终端101可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表或者智能电梯,其中,智能电梯是指安装有语音控制系统,并通过该语音控制系统来控制电梯运行的电梯。终端101也可以为其他终端,本申请对此不做限制。服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算和云存储等云服务的云服务器。
终端101可以根据多个样本信息训练语音转换模型,训练完成后,终端101可以调用语音转换模型,根据输入的目标用户标识对目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息。终端101也可以直接从服务器102下载已经训练好的语音转换模型,将该语音转换模型存储在终端101中,调用该语音转换模型,获取目标语音信息。其中,服务器102中存储的语音转换模型可以是由服务器102根据多个样本信息训练好的,还可以是由其他终端101训练好后上传到服务器102中的。
本申请实施例提供的方法,可以应用于语音转换的任一场景下。
例如,应用在信息播报的场景下,终端101在获取到目标文本信息和目标用户标识后,可以采用本申请实施例提供的方法对目标文本信息进行转换,得到与目标用户的音色匹配的语音信息,然后播放该语音信息。信息播报可以是在任意场合,例如,车站、地铁、火车、医院、比赛会场、新闻发布等各种场合的各类信息的播报,本申请对此不做限制。
又如,应用在语言学习的场景下,用户可以使用终端101,采用本申请实施例提供的方法将文本信息转换为语音信息,终端101播放该语音信息,则用户可以按照文本信息,随着播放的语音信息进行跟读,来学习文本信息的读音。并且,用户可以通过本申请实施例提供的方法来控制语音信息的音色,使得播放的语音信息具备用户喜欢的音色,提高了用户粘性。
当然,本申请实施例提供的方法,还可以应用在其他场景下,本申请对此不做限制。
图2是本申请实施例提供的一种语音转换方法的流程图。参见图2,该实施例包括以下步骤。
步骤201:获取多个样本信息,每个样本信息包括样本文本信息、样本语音信息和样本用户标识,样本用户标识用于指示按照样本文本信息发出样本语音信息的用户,且多个样本信息中包括的样本用户标识不完全相同。
步骤202:根据多个样本信息,对语音转换模型进行训练。
步骤203:获取目标文本信息和目标用户标识。
步骤204:调用语音转换模型,根据目标用户标识对目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息。
在本申请实施例中,训练语音转换模型所采用样本信息不仅包括样本文本信息和样本语音信息,还包括按照样本文本信息发出样本语音信息的用户的样本用户标识,且多个样本信息中包括的样本用户标识不完全相同,则根据多个样本信息训练的语音转换模型可以学习到用户标识与语音信息的音色之间的关系,能够根据任一用户标识进行转换得到具有用户匹配音色的语音信息,从而具备了多音色的功能,智能化程度高。那么在调用该语音转换模型时,可以根据目标用户标识对目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息,实现了通过目标用户标识来控制语音信息的音色。并且,由于该语音转换模型能够根据任一用户标识进行转换得到具有用户匹配音色的语音信息,能够将不同音色的用户区分开,使得支持该语音转换模型的语料库可以分别由多个人来录制,一方面生成的语音信息不会出现多个人的音色混合的情况,保证了语音信息的播放效果,另一方面提高了录制语料库的效率。
在一种可能的实现方式中,根据多个样本信息,对语音转换模型进行训练,包括:
对于每个样本信息,调用语音转换模型,根据样本用户标识对样本文本信息进行转换,得到预测语音信息;
根据预测语音信息与样本语音信息,确定语音转换模型的损失值;
根据损失值,调整语音转换模型的参数。
在另一种可能的实现方式中,语音转换模型包括用户特征提取子模型、文本特征提取子模型、声学特征提取子模型和语音转换子模型,调用语音转换模型,根据样本用户标识对样本文本信息进行转换,得到预测语音信息,包括:
调用用户特征提取子模型,根据样本用户标识进行特征提取,得到样本用户标识对应的用户特征;
调用文本特征提取子模型,根据样本文本信息进行特征提取,得到样本文本信息对应的文本特征;
调用声学特征提取子模型,根据文本特征和用户特征进行特征转换,得到声学特征;
调用语音转换子模型,根据声学特征进行语音转换,得到预测语音信息。
在另一种可能的实现方式中,调用语音转换子模型,根据声学特征进行语音转换,得到预测语音信息,包括:
调用语音转换子模型,根据声学特征和用户特征进行语音转换,得到预测语音信息。
在另一种可能的实现方式中,调用用户特征提取子模型,根据样本用户标识进行特征提取,得到样本用户标识对应的用户特征,包括:
调用用户特征提取子模型,将样本用户标识转换成用户向量,对用户向量进行特征提取,得到用户特征。
在另一种可能的实现方式中,调用文本特征提取子模型,根据样本文本信息进行特征提取,得到样本文本信息对应的文本特征,包括:
调用文本特征提取子模型,将样本文本信息转换成文本向量;
将用户向量与文本向量进行融合,得到融合向量;
对融合向量进行特征提取,得到文本特征。
在另一种可能的实现方式中,语音转换模型包括用户特征提取子模型、文本特征提取子模型、声学特征提取子模型和语音转换子模型,调用语音转换模型,根据目标用户标识对目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息,包括:
调用用户特征提取子模型,根据目标用户标识进行特征提取,得到目标用户标识对应的用户特征;
调用文本特征提取子模型,根据目标文本信息进行特征提取,得到目标文本信息对应的文本特征;
调用声学特征提取子模型,根据文本特征和用户特征进行特征转换,得到声学特征;
调用语音转换子模型,根据声学特征进行语音转换,得到目标语音信息。
在另一种可能的实现方式中,调用语音转换子模型,根据声学特征进行语音转换,得到目标语音信息,包括:
调用语音转换子模型,根据声学特征和用户特征进行语音转换,得到目标语音信息。
在另一种可能的实现方式中,调用用户特征提取子模型,根据目标用户标识进行特征提取,得到目标用户标识对应的用户特征,包括:
调用用户特征提取子模型,将目标用户标识转换成用户向量,对用户向量进行特征提取,得到用户特征。
在另一种可能的实现方式中,调用文本特征提取子模型,根据目标文本信息进行特征提取,得到目标文本信息对应的文本特征,包括:
调用文本特征提取子模型,将目标文本信息转换成文本向量;
将用户向量与文本向量进行融合,得到融合向量;
对融合向量进行特征提取,得到文本特征。
在另一种可能的实现方式中,多个样本信息中包括的样本文本信息所属的语种不完全相同;
目标语音信息所属的语种与目标文本信息所属的语种相同。
图3是本申请实施例提供的一种语音转换方法的流程图。参见图3,该实施例包括以下步骤。
步骤301:终端获取多个样本信息,每个样本信息包括样本文本信息、样本语音信息和样本用户标识。
从内容上来说,样本文本信息可以是包括各种内容的文本信息,例如,可以是包括天气相关内容的文本信息、车次相关内容的文本信息、比赛相关内容的文本信息等。从样本文本信息所属的语种上来说,样本文本信息可以属于各种语种,例如,样本文本信息可以属于英语、汉语、法语、俄语、日语、韩语等,本申请对此不做限制。
样本用户标识用于指示按照样本文本信息发出样本语音信息的用户,该样本用户标识可以是用户的编号、名称等,本申请对比不做限制。
样本语音信息是样本用户标识对应的用户按照样本文本信息发出的语音信息。例如,样本文本信息是“今天的天气特别好,温度是36度”,则样本语音信息则可以为用户阅读该样本文本信息得到的语音信息。与样本文本信息相对应,样本语音信息也可以是属于各种语种的语音信息,例如,属于英语、汉语、法语、俄语、日语、韩语等,本申请对此不做限制。
在一种可能的实现方式中,多个样本信息中包括的样本用户标识不完全相同。例如,有4个样本信息,第一个样本信息包括样本文本信息1,样本语音信息1、样本用户标识A,第二个样本信息包括样本文本信息2,样本语音信息2、样本用户标识A,第三个样本信息包括样本文本信息3,样本语音信息3、样本用户标识B,第四个样本信息包括样本文本信息4,样本语音信息4、样本用户标识B。
在另一种可能的实现方式中,多个样本信息中包括的样本文本信息所属的语种不完全相同。例如,有4个样本信息,第一个样本信息包括汉语样本文本信息1,汉语样本语音信息1、样本用户标识A,第二个样本信息包括汉语样本文本信息2,汉语样本语音信息2、样本用户标识A,第三个样本信息包括英语样本文本信息3,英语样本语音信息3、样本用户标识B,第四个样本信息包括英语样本文本信息4,英语样本语音信息4、样本用户标识B。
终端获取多个样本信息的实现方式可以为:终端从终端存储的语料库中获取多个样本信息,或者终端从服务器存储的语料库中获取多个样本信息。
其中,语料库用于存储多个样本信息,每个样本信息中的文本信息可以是从网页上爬取得到的,也可以是从各种存储有文本信息的数据库中得到的,本申请对此不做限制,多个样本信息可以以各种形式存储在语料库中,参考表1,为一种样本信息的存储形式。
表1
汉语样本文本信息1 汉语样本语音信息1 样本用户标识A
汉语样本文本信息2 汉语样本语音信息2 样本用户标识A
英语样本文本信息3 英语样本语音信息3 样本用户标识B
英语样本文本信息4 英语样本语音信息4 样本用户标识B
… … … … … …
在本申请实施例中,由于多个样本信息中包括的样本用户标识不完全相同,使得语音转换模型可以学习到用户标识与语音信息的音色之间的关系,能够根据任一用户标识进行转换得到具有用户匹配音色的语音信息,从而具备了多音色的功能,智能化程度高。后续在使用该语音转换模型的时候,只需要将目标用户标识与目标文本信息一起输入到该语音转换模型中,该语音转换模型就可以根据目标用户标识对目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息,实现了通过目标用户标识控制语音转换模型输出的语音信息的音色。
并且,由于多个样本信息中包括的样本文本信息所属的语种不完全相同,使得语音转换模型可以学习到文本信息与语音信息的语种之间的关系,能够根据任一文本信息进行转换得到与该文本信息的语种相同的语音信息,从而具备了多音种的功能,智能化程度高。后续在使用该语音转换模型的时候,只需要将目标用户标识与目标文本信息一起输入到该语音转换模型中,该语音转换模型就可以根据目标用户标识对目标文本信息进行转换,得到与目标文本信息的语种相同的目标语音信息,实现了通过目标文本信息控制语音转换模型输出的语音信息的语种。
并且,由于该语音转换模型具有根据用户标识确定语音信息的音色的能力,使得支持该语音转换模型的语料库可以分别由多个人来录制。例如,在录制语料库时,可以将语料库中的文本信息划分为多个文本信息,将该多个文本信息分配给多个人来录制,并且,还可以给录制的每个人分配用户标识。对于每个录制的人来说,这个人可以阅读其分配的每个文本信息来形成每个文本信息对应的语音信息。对于每个人录制的每一个文本信息,将该文本信息、该文本信息对应的语音信息以及录制该文本信息的人的用户标识形成一个样本信息,然后,将得到的多个样本信息存储在语料库中,以使后续通过执行下述步骤302-304训练语音转换模型,则一方面,该语音转换模型生成的语音信息不会出现多个人的音色混合的情况,保证了语音信息的播放效果,另一方面提高了录制语料库的效率。尤其是在该语料库为多语种语料库的情况下,不同语种的文本信息可以分别由不同的人来录制,避免了要寻找会说多语种的人来录制语料库所带来的困难,降低了支持多语种功能的语音转换模型的实现难度。
步骤302:对于每个样本信息,终端调用语音转换模型,根据样本用户标识对样本文本信息进行转换,得到预测语音信息。
其中,预测语音信息可以为预测的声谱信息或者预测的语音波形。预测语音信息是根据样本用户标识和样本文本信息所预测,而得到的样本文本信息对应的语音信息。
在一种可能的实现方式中,终端可以调用语音转换模型,来根据样本用户标识对样本文本信息进行转换,得到预测语音信息。
可选地,参考图4,语音转换模型包括用户特征提取子模型、文本特征提取子模型、声学特征提取子模型和语音转换子模型,相应的,终端调用语音转换模型,根据样本用户标识对样本文本信息进行转换,得到预测语音信息的实现方式包括以下步骤(1)-(4)。
(1)终端调用用户特征提取子模型,根据样本用户标识进行特征提取,得到样本用户标识对应的用户特征。
在一种可能的实现方式中,参考图4,该步骤的实现方式为:终端调用用户特征提取子模型,将样本用户标识转换成用户向量,对用户向量进行特征提取,得到用户特征。例如,用户向量可以为speaker embedding(说话人嵌入)向量。
可选地,用户特征提取子模型包括用户向量获取网络、第一全连接网络和第二全连接网络,第一全连接网络包括的全连接层的数量和第二全连接网络包括的全连接层的数量不同。可选地,第一全连接网络包括4个全连接层,第二全连接网络包括2个全连接层。
参考图4,终端对用户向量进行特征提取,得到用户特征的实现方式可以为:终端调用用户向量获取网络将样本用户标识转换成用户向量,调用第一全连接网络对用户向量进行特征提取,得到第一用户特征,调用第二全连接网络对用户向量进行特征提取,得到第二用户特征。后续可以根据第一用户特征或者第二用户特征中的至少一项来获取语音信息。
(2)终端调用文本特征提取子模型,根据样本文本信息进行特征提取,得到样本文本信息对应的文本特征。
在一种可能的实现方式中,参考图4,该步骤的实现方式为:终端调用文本特征提取子模型,将样本文本信息转换成文本向量,将用户向量与文本向量进行融合,得到融合向量,对融合向量进行特征提取,得到文本特征。
其中,终端将用户向量和文本向量进行融合,得到融合向量的实现方式可以为:终端将用户向量嵌入到文本向量中,得到融合向量。
在本申请实施例中,通过对用户向量与文本向量进行融合,得到融合向量,对融合向量进行特征提取,使得提取的文本特征中融合了用户特征,根据该文本特征进行语音转换,语音转换模型可以学习到用户特征与语音信息的音色的关系,从而具备根据用户标识控制语音信息的音色的能力。
可选地,参考图4,文本特征提取子模型包括文本向量获取网络、第三全连接网络、第一卷积网络、池化网络、第二卷积网络和BiLSTM(Bi-directional Long Short-TermMemory,双向长短时记忆)网络,并且,上述多个网络依次连接。
相应的,参考图4,终端调用文本向量获取网络将样本文本信息转换成文本向量,将用户向量与文本向量进行融合,调用第三全连接网络、第一卷积网络、池化网络、第二卷积网络和BiLSTM网络对融合向量进行多级的特征提取,得到文本特征。
可选地,上述第三全连接网络包括4个全连接层、第一卷积网络包括16个并行的卷积层、第二卷积网络包括2个串行的卷积层、BiLSTM网络包括两个BiLSTM层。
可选地,文本向量获取网络包括文本归一化层、分词层、词性标注层、韵律标注层,重音标注层、多音字预测层、音素序列获取层和文本向量获取层,并且,上述多个层依次连接。
文本归一化层用于规范文本信息的格式,例如将“2020/02/01”转换为“二零二零年二月一号”、将“¥500”转换为“五百元”等。分词层用于对文本信息进行分词,例如将文本信息“今天天气特别好”转换为多个词语:“今天”、“天气”、“特别”、“好”。韵律标注层用于标注出文本信息的停顿、文本信息中的词的音高和音长等。重音标注层用于标注出文本信息中的词的重音。多音字预测层用于标注出文本信息中的多音字。音素序列获取层用于将文本信息转换为音素序列,例如,将“普通话”转换为音素序列“p、u、t、o、ng、h、u、a”,并且,音素序列获取层是将文本信息转换为与该文本信息所属的语种对应的音素序列。
在一种可能的实现方式中,终端调用文本向量获取网络将样本文本信息转换成文本向量,将用户向量与文本向量进行融合的实现方式为:终端依次调用文本归一化层、分词层、词性标注层、韵律标注层,重音标注层、多音字预测层对文本信息进行标注或者转换后,调用音素序列获取层对文本信息进行映射,得到文本信息对应的音素序列,调用文本向量获取层将该音素序列转换为文本向量,将用户向量与文本向量进行融合。
在一种可能的实现方式中,参考图4,终端调用第三全连接网络、第一卷积网络、池化网络、第二卷积网络和BiLSTM网络对融合向量进行特征提取,得到文本特征的实现方式为:终端将融合向量输入到第三全连接网络,通过第三全连接网络、第一卷积网络、池化网络、第二卷积网络和BiLSTM网络的多级特征提取,得到BiLSTM网络输出的文本特征。或者,终端结合用户特征获取文本特征,相应的,终端将融合向量输入到第三全连接网络,通过第三全连接网络、第一卷积网络、池化网络的多级特征提取后,将用户特征以残差的形式和池化网络的输出特征一起输入到第二卷积网络,再将用户特征以残差的形式和第二卷积网络的输出特征一起输入到BiLSTM网络,得到BiLSTM网络输出的文本特征。其中,该过程中融合的用户特征可以为通过上述用户特征提取子模型提取的第二用户特征。并且,用户特征以残差的形式和第二卷积网络的输出一起输入到BiLSTM网络后,可以依据BiLSTM网络中的特征处理时序将用户特征融合到BiLSTM网络的特征处理流程中。
(3)终端调用声学特征提取子模型,根据文本特征和用户特征进行特征转换,得到声学特征。
其中,声学特征提取子模型的内部采用了注意力机制,注意力机制是一种从大量信息中有选择地筛选出少量重要信息并聚焦这些重要信息,而忽略大多不重要的信息的机制。
声学特征提取层采用注意力机制,则会自适应地提高靠近发音位置的声学特征的权重,从而使得样本语音信息中距离发音位置越近的帧越能影响当前帧的发音,保证了语音转换模型的对齐效果。
需要说明的一点是,该步骤中的融合的用户特征可以为上述第一用户特征。
(4)终端调用语音转换子模型,根据声学特征进行语音转换,得到预测语音信息。
在一种可能的实现方式中,终端仅根据声学特征进行语音转换,相应的,该步骤的实现方式为:终端将声学特征输入到语音转换子模型,得到语音转换子模型输出的预测语音信息。
在另一种可能的实现方式中,终端结合用户特征获取预测语音信息,实现方式为:终端调用语音转换子模型,根据声学特征和用户特征进行语音转换,得到预测语音信息。
可选地,参考图4,语音转换子模型包括BiGRU(Bi-directional Gated RecurrentUnit,双向门控循环网络)、第四全连接网络、第三卷积网络、BiLSTM网络、第五全连接网络和语音转换网络,并且上述各个网络依次连接。
可选地,BiGRU网络包括两个BiGRU层,第四全连接网络包括3个全连接层,第三卷积网络包括5个串行的卷积层,BiLSTM网络包括一个BiLSTM层,第五全连接网络包括2个全连接层。语音转换网络包括声码器,用于将声谱信息转换为语音波形,该声码器可以采用Parallel WaveNet(一种神经网络模型)或者其他模型,本申请对此不做限制。
在一种可能的实现方式中,参考图4,终端调用语音转换子模型,根据声学特征和用户特征进行语音转换,得到预测语音信息的实现方式为:终端将用户特征以残差的形式与声学特征一起输入到BiGRU网络,通过BiGRU网络、第四全连接网络和第三卷积网络的多级特征提取后,将用户特征以残差的形式与第三卷积网络的输出特征一起输入到BiLSTM网络,再经过BiLSTM网络和第五全连接网络的多级特征提取后,得到第五全连接网络输出的声谱信息,将声谱信息输入到语音转换网络,得到语音转换网络输出的预测语音信息。其中,该过程中所融合的用户特征可以为第一用户特征。
需要说明的一点是,上述语音转换模型的结构只是示例性说明,语音转换模型也可以采用其他结构,例如,可以将语音转换子模型中的BiGRU网络替换为BiLSTM网络,或者,改变各个全连接网络中的全连接层的数量等,或者在语音转换模型的网络之间添加新的网络等,本申请对此不做限制。
步骤303:终端根据预测语音信息与样本语音信息,确定语音转换模型的损失值。
其中,损失值用于表明语音转换模型的准确率,损失值越小,语音转换模型的准确率越高。终端可以根据多个样本语音信息和多个样本语音信息对应的预测语音信息,确定语音转换模型的损失值。
终端可以预设语音转换模型的损失函数,采用该损失函数,对预测语音信息和样本语音信息进行处理,将得到的结果作为损失值。其中,该损失函数可以是均方根误差函数、平均绝对误差函数等,本申请对此不做限制。
步骤304:终端根据损失值,调整语音转换模型的参数。
该步骤的实现方式为:若损失值大于预设阈值,终端调整模型的参数,直到损失值小于或者等于预设阈值。其中,预设阈值可以根据需要设定,本申请对此不做限制。当损失值小于或者等于预设阈值时,语音转换模型就训练完成。
其中,模型的参数可以包括模型参数和模型超参数,模型参数是模型内部的配置变量,模型超参数是模型外部的配置变量,必须手动设置模型超参数的值。例如,模型参数包括各个层之间的权重、偏差等,模型超参数包括模型的迭代次数,模型的层数等。终端根据损失值,调整模型的参数是指对模型参数的调整。
需要说明的一点是,以上步骤301-304是语音转换模型的训练过程,以下步骤305-306是语音转换模型的使用过程。语音转换模型训练好后,终端可以存储该语音转换模型,之后在获取到目标文本信息和目标用户信息时,可以直接调用该语音转换模型进行语音转换,也即是,直接执行步骤305-306。另外,终端还可以将训练好的语音转换模型上传到服务器中,由服务器将该训练模型分享给其他终端使用。
步骤305:终端获取目标文本信息和目标用户标识。
从内容上来说,目标文本信息可以是包括各种内容的文本信息,例如,可以是包括天气相关内容的文本信息、车次相关内容的文本信息、比赛相关内容的文本信息等。从目标文本信息所属的语种上来说,目标文本信息可以属于各种语种,例如,目标文本信息可以属于英语、汉语、法语、俄语、日语、韩语等,本申请对此不做限制。
目标用户标识用于控制转换出的目标语音信息的音色,例如,若目标用户标识为A,则转换出的目标语音信息即与A对应的目标用户的音色匹配,若目标用户标识为B,则转换出的目标语音信息即与B对应的目标用户的音色匹配。目标用户标识可以是用户的编号、名称等,本申请对比不做限制。
在一种可能的实现方式中,该目标文本信息和目标用户标识可以是用户输入终端中的。相应的,该步骤的实现方式为:终端显示目标文本信息和目标用户标识的输入界面,获取输入界面中的目标文本信息和目标用户标识。
在另一种可能的实现方式中,该目标文本信息可以是从服务器获取的,而目标用户标识可以是用户选择的。例如,终端向服务器发送目标文本信息的获取请求,接收服务器返回的目标文本信息后,将目标文本信息显示在界面中,并在该界面中显示多个用户标识的选择按钮,终端响应于对某个用户标识的选择操作,将该用户标识作为目标用户标识。
步骤306:终端调用语音转换模型,根据目标用户标识对目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息。
其中,目标语音信息所属的语种与目标文本信息所属的语种相同。
需要说明的一点是,终端调用语音转换模型,根据目标用户标识对目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息,与步骤302中终端调用语音转换模型,根据样本用户标识对样本文本信息进行转换,得到预测语音信息的实现方法类似,此处不再赘述。
参考图4,图4为语音转换模型的结构示意图,该语音转换模型包括用户特征提取子模型401、文本特征提取子模型402、声学特征提取子模型403和语音转换子模型404。其中,用户特征提取子模型401包括用户向量获取网络405、第一全连接网络406和第二全连接网络407。文本特征提取子模型402包括文本向量获取网络408、第三全连接网络409、第一卷积网络410、池化网络411、第二卷积网络412和BiLSTM网络413。语音转换子模型404包括BiGRU网络414、第四全连接网络415、第三卷积网络416、BiLSTM网络417、第五全连接网络418和语音转换网络419。
用户向量获取网络405将用户标识转换为用户向量后,将用户向量输出到第一全连接网络406、第二全连接网络407和文本向量获取网络408。文本向量获取网络408将文本信息转换为文本向量后,将用户向量嵌入到文本向量中形成融合向量,将融合向量输入到第三全连接网络409,融合向量经过第三全连接网络409、第一卷积网络410、池化网络411的多级特征提取后,得到池化网络411的输出特征。第二全连接网络407根据用户向量提取第二用户特征后将第二用户特征以残差的形式与池化网络411的输出特征一起输入到第二卷积网络412,再将第二用户特征以残差的形式与第二卷积网络412的输出特征一起输入到文本特征提取子模型402中的BiLSTM网络413。第一全连接网络406根据用户向量提取第一用户特征后将第一用户特征以残差的形式与文本特征提取子模型402中的BiLSTM网络413的输出特征一起输入到声学特征提取子模型403,再将第一用户特征以残差的形式与声学特征提取子模型403的输出特征一起输入到语音转换子模型404中的BiGRU网络414,经过BiGRU网络414、第四全连接网络415和第三卷积网络416的多级特征提取后,得到第三卷积网络416的输出特征,然后将第一用户特征以残差的形式与第三卷积网络416的输出特征一起输入到语音转换子模型中的BiLSTM网络417,BiLSTM网络417进行特征提取后将输出特征输入到第五全连接网络418,第五全连接网络418输出声谱信息,将声谱信息输入到语音转换网络419,语音转换网络419将声谱信息转换成语音波形,输出语音信息(语音波形)。
上述语音转换方法,将用户标识对应的用户特征以各种形式加入到语音转换模型中,使得语音转换模型的各个结构都可以学习到用户标识和语音信息的音色之间的关系,具备根据用户标识确定语音信息的音色的能力。
需要说明的一点是,本申请中的语音转换方法的执行主体为电子设备,其中电子设备包括终端和服务器,在该实施例中仅以执行主体为终端为例进行说明,在其他实施例中,执行主体也可以是服务器,本申请对此不做限制。例如,上述步骤301-304的执行主体可以为服务器,终端从服务器获取训练好的语音转换模型后,执行步骤305和306。
在本申请实施例中,训练语音转换模型所采用样本信息不仅包括样本文本信息和样本语音信息,还包括按照样本文本信息发出样本语音信息的用户的样本用户标识,且多个样本信息中包括的样本用户标识不完全相同,则根据多个样本信息训练的语音转换模型可以学习到用户标识与语音信息的音色之间的关系,能够根据任一用户标识进行转换得到具有用户匹配音色的语音信息,从而具备了多音色的功能,智能化程度高。那么在调用该语音转换模型时,可以根据目标用户标识对目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息,实现了通过目标用户标识来控制语音信息的音色。并且,由于该语音转换模型能够根据任一用户标识进行转换得到具有用户匹配音色的语音信息,能够将不同音色的用户区分开,使得支持该语音转换模型的语料库可以分别由多个人来录制,一方面生成的语音信息不会出现多个人的音色混合的情况,保证了语音信息的播放效果,另一方面提高了录制语料库的效率。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
图5是本申请实施例提供的一种语音转换装置的框图。参见图5,该装置包括:
样本信息获取模块501,被配置为获取多个样本信息,每个样本信息包括样本文本信息、样本语音信息和样本用户标识,样本用户标识用于指示按照样本文本信息发出样本语音信息的用户,且多个样本信息中包括的样本用户标识不完全相同;
模型训练模块502,被配置为根据多个样本信息,对语音转换模型进行训练;
目标信息获取模块503,被配置为获取目标文本信息和目标用户标识;
信息转换模块504,被配置为调用语音转换模型,根据目标用户标识对目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息。
在一种可能的实现方式中,模型训练模块502包括:
信息预测子模块,被配置为对于每个样本信息,调用语音转换模型,根据样本用户标识对样本文本信息进行转换,得到预测语音信息;
损失值确定子模块,被配置为根据预测语音信息与样本语音信息,确定语音转换模型的损失值;
参数调整子模块,被配置为根据损失值,调整语音转换模型的参数。
在另一种可能的实现方式中,语音转换模型包括用户特征提取子模型、文本特征提取子模型、声学特征提取子模型和语音转换子模型,信息预测子模块,包括:
用户特征获取单元,被配置为调用用户特征提取子模型,根据样本用户标识进行特征提取,得到样本用户标识对应的用户特征;
文本特征获取单元,被配置为调用文本特征提取子模型,根据样本文本信息进行特征提取,得到样本文本信息对应的文本特征;
声学特征获取单元,被配置为调用声学特征提取子模型,根据文本特征和用户特征进行特征转换,得到声学特征;
信息预测单元,被配置为调用语音转换子模型,根据声学特征进行语音转换,得到预测语音信息。
在另一种可能的实现方式中,信息预测单元,被配置为调用语音转换子模型,根据声学特征和用户特征进行语音转换,得到预测语音信息。
在另一种可能的实现方式中,用户特征获取单元,被配置为调用用户特征提取子模型,将样本用户标识转换成用户向量,对用户向量进行特征提取,得到用户特征。
在另一种可能的实现方式中,文本特征获取单元,被配置为调用文本特征提取子模型,将样本文本信息转换成文本向量;将用户向量与文本向量进行融合,得到融合向量;对融合向量进行特征提取,得到文本特征。
在另一种可能的实现方式中,语音转换模型包括用户特征提取子模型、文本特征提取子模型、声学特征提取子模型和语音转换子模型,信息转换模块504,包括:
用户特征获取子模块,被配置为调用用户特征提取子模型,根据目标用户标识进行特征提取,得到目标用户标识对应的用户特征;
文本特征获取子模块,被配置为调用文本特征提取子模型,根据目标文本信息进行特征提取,得到目标文本信息对应的文本特征;
声学特征获取子模块,被配置为调用声学特征提取子模型,根据文本特征和用户特征进行特征转换,得到声学特征;
目标语音信息获取子模块,被配置为调用语音转换子模型,根据声学特征进行语音转换,得到目标语音信息。
在另一种可能的实现方式中,目标语音信息获取子模块,被配置为调用语音转换子模型,根据声学特征和用户特征进行语音转换,得到目标语音信息。
在另一种可能的实现方式中,用户特征获取子模块,被配置为调用用户特征提取子模型,将目标用户标识转换成用户向量,对用户向量进行特征提取,得到用户特征。
在另一种可能的实现方式中,文本特征获取子模块,被配置为调用文本特征提取子模型,将目标文本信息转换成文本向量;将用户向量与文本向量进行融合,得到融合向量;对融合向量进行特征提取,得到文本特征。
在另一种可能的实现方式中,多个样本信息中包括的样本文本信息所属的语种不完全相同;
目标语音信息所属的语种与目标文本信息所属的语种相同。
在本申请实施例中,训练语音转换模型所采用样本信息不仅包括样本文本信息和样本语音信息,还包括按照样本文本信息发出样本语音信息的用户的样本用户标识,且多个样本信息中包括的样本用户标识不完全相同,则根据多个样本信息训练的语音转换模型可以学习到用户标识与语音信息的音色之间的关系,能够根据任一用户标识进行转换得到具有用户匹配音色的语音信息,从而具备了多音色的功能,智能化程度高。那么在调用该语音转换模型时,可以根据目标用户标识对目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息,实现了通过目标用户标识来控制语音信息的音色。并且,由于该语音转换模型能够根据任一用户标识进行转换得到具有用户匹配音色的语音信息,能够将不同音色的用户区分开,使得支持该语音转换模型的语料库可以分别由多个人来录制,一方面生成的语音信息不会出现多个人的音色混合的情况,保证了语音信息的播放效果,另一方面提高了录制语料库的效率。
需要说明的是:上述实施例提供的语音转换装置在进行语音转换时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将电子设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音转换装置与语音转换方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6示出了本申请一个示例性实施例提供的终端600的结构框图。该终端600可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端600包括有:处理器601和存储器602。
处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一条指令,该至少一条指令用于被处理器601所执行以实现本申请中方法实施例提供的语音转换方法。
在一些实施例中,终端600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。
外围设备接口603可被用于将I/O(Input /Output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏605用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置终端600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在终端600的不同表面或呈折叠设计;在再一些实施例中,显示屏605可以是柔性显示屏,设置在终端600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。
定位组件608用于定位终端600的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。
加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号,控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器612可以检测终端600的机体方向及转动角度,陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器613可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端600的侧边框时,可以检测用户对终端600的握持信号,由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时,由处理器601根据用户对显示屏605的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器614用于采集用户的指纹,由处理器601根据指纹传感器614采集到的指纹识别用户的身份,或者,由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器601授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时,指纹传感器614可以与物理按键或厂商Logo集成在一起。
光学传感器615用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器615采集的环境光强度,控制显示屏605的显示亮度。具体地,当环境光强度较高时,调高显示屏605的显示亮度;当环境光强度较低时,调低显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器615采集的环境光强度,动态调整摄像头组件606的拍摄参数。
接近传感器616,也称距离传感器,通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中,当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时,由处理器601控制显示屏605从亮屏状态切换为息屏状态;当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时,由处理器601控制显示屏605从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图6中示出的结构并不构成对终端600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图7是本申请实施例提供的一种服务器的结构示意图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)701和一个或一个以上的存储器702,其中,所述存储器702中存储有至少一条指令,所述至少一条指令由所述处理器701加载并执行以实现上述各个方法实施例提供的语音转换方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
本申请实施例还提供了一种电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条指令,该指令由处理器加载并执行,以实现上述实施例的语音转换方法中所执行的操作。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条指令,该指令由处理器加载并执行,以实现上述实施例的语音转换方法中所执行的操作。
本申请实施例还提供了一种计算机程序,该计算机程序中存储有至少一条指令,该指令由处理器加载并执行,以实现上述实施例的语音转换方法中所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种语音转换方法,其特征在于,所述方法包括:
获取多个样本信息,每个样本信息包括样本文本信息、样本语音信息和样本用户标识,所述样本用户标识用于指示按照所述样本文本信息发出所述样本语音信息的用户,且所述多个样本信息中包括的样本用户标识不完全相同;
根据所述多个样本信息,对语音转换模型进行训练;
获取目标文本信息和目标用户标识;
调用所述语音转换模型,根据所述目标用户标识对所述目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息;
所述语音转换模型包括用户特征提取子模型、文本特征提取子模型、声学特征提取子模型和语音转换子模型,所述调用所述语音转换模型,根据所述目标用户标识对所述目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息,包括:
调用所述用户特征提取子模型,根据所述目标用户标识进行特征提取,得到所述目标用户标识对应的用户特征;
调用所述文本特征提取子模型,根据所述目标文本信息进行特征提取,得到所述目标文本信息对应的文本特征;
调用所述声学特征提取子模型,根据所述文本特征和所述用户特征进行特征转换,得到声学特征;
调用所述语音转换子模型,根据所述声学特征进行语音转换,得到所述目标语音信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个样本信息,对语音转换模型进行训练,包括:
对于所述每个样本信息,调用所述语音转换模型,根据所述样本用户标识对所述样本文本信息进行转换,得到预测语音信息;
根据所述预测语音信息与所述样本语音信息,确定所述语音转换模型的损失值;
根据所述损失值,调整所述语音转换模型的参数。
3.根据权利要求2所述的方法,其特征在于,所述语音转换模型包括用户特征提取子模型、文本特征提取子模型、声学特征提取子模型和语音转换子模型,所述调用所述语音转换模型,根据所述样本用户标识对所述样本文本信息进行转换,得到预测语音信息,包括:
调用所述用户特征提取子模型,根据所述样本用户标识进行特征提取,得到所述样本用户标识对应的用户特征;
调用所述文本特征提取子模型,根据所述样本文本信息进行特征提取,得到所述样本文本信息对应的文本特征;
调用所述声学特征提取子模型,根据所述文本特征和所述用户特征进行特征转换,得到声学特征;
调用所述语音转换子模型,根据所述声学特征进行语音转换,得到所述预测语音信息。
4.根据权利要求3所述的方法,其特征在于,所述调用所述语音转换子模型,根据所述声学特征进行语音转换,得到所述预测语音信息,包括:
调用所述语音转换子模型,根据所述声学特征和所述用户特征进行语音转换,得到所述预测语音信息。
5.根据权利要求3所述的方法,其特征在于,所述调用所述用户特征提取子模型,根据所述样本用户标识进行特征提取,得到所述样本用户标识对应的用户特征,包括:
调用所述用户特征提取子模型,将所述样本用户标识转换成用户向量,对所述用户向量进行特征提取,得到所述用户特征。
6.根据权利要求5所述的方法,其特征在于,所述调用所述文本特征提取子模型,根据所述样本文本信息进行特征提取,得到所述样本文本信息对应的文本特征,包括:
调用所述文本特征提取子模型,将所述样本文本信息转换成文本向量;
将所述用户向量与所述文本向量进行融合,得到融合向量;
对所述融合向量进行特征提取,得到所述文本特征。
7.根据权利要求1所述的方法,其特征在于,所述调用所述语音转换子模型,根据所述声学特征进行语音转换,得到所述目标语音信息,包括:
调用所述语音转换子模型,根据所述声学特征和所述用户特征进行语音转换,得到所述目标语音信息。
8.根据权利要求1所述的方法,其特征在于,所述调用所述用户特征提取子模型,根据所述目标用户标识进行特征提取,得到所述目标用户标识对应的用户特征,包括:
调用所述用户特征提取子模型,将所述目标用户标识转换成用户向量,对所述用户向量进行特征提取,得到所述用户特征。
9.根据权利要求8所述的方法,其特征在于,所述调用所述文本特征提取子模型,根据所述目标文本信息进行特征提取,得到所述目标文本信息对应的文本特征,包括:
调用所述文本特征提取子模型,将所述目标文本信息转换成文本向量;
将所述用户向量与所述文本向量进行融合,得到融合向量;
对所述融合向量进行特征提取,得到所述文本特征。
10.根据权利要求1所述的方法,其特征在于,所述多个样本信息中包括的样本文本信息所属的语种不完全相同;
所述目标语音信息所属的语种与所述目标文本信息所属的语种相同。
11.一种语音转换装置,其特征在于,所述装置包括:
样本信息获取模块,被配置为获取多个样本信息,每个样本信息包括样本文本信息、样本语音信息和样本用户标识,所述样本用户标识用于指示按照所述样本文本信息发出所述样本语音信息的用户,且所述多个样本信息中包括的样本用户标识不完全相同;
模型训练模块,被配置为根据所述多个样本信息,对语音转换模型进行训练;
目标信息获取模块,被配置为获取目标文本信息和目标用户标识;
信息转换模块,被配置为调用所述语音转换模型,根据所述目标用户标识对所述目标文本信息进行转换,得到与目标用户的音色匹配的目标语音信息;
所述语音转换模型包括用户特征提取子模型、文本特征提取子模型、声学特征提取子模型和语音转换子模型,所述信息转换模块,包括:
用户特征获取子模块,被配置为调用所述用户特征提取子模型,根据所述目标用户标识进行特征提取,得到所述目标用户标识对应的用户特征;
文本特征获取子模块,被配置为调用所述文本特征提取子模型,根据所述目标文本信息进行特征提取,得到所述目标文本信息对应的文本特征;
声学特征获取子模块,被配置为调用所述声学特征提取子模型,根据所述文本特征和所述用户特征进行特征转换,得到声学特征;
目标语音信息获取子模块,被配置为调用所述语音转换子模型,根据所述声学特征进行语音转换,得到所述目标语音信息。
12.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至权利要求10任一项所述的语音转换方法所执行的操作。
13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至权利要求10任一项所述的语音转换方法所执行的操作。
CN202010685478.8A 2020-07-16 2020-07-16 语音转换方法、装置、电子设备及存储介质 Active CN111564152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010685478.8A CN111564152B (zh) 2020-07-16 2020-07-16 语音转换方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010685478.8A CN111564152B (zh) 2020-07-16 2020-07-16 语音转换方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111564152A CN111564152A (zh) 2020-08-21
CN111564152B true CN111564152B (zh) 2020-11-24

Family

ID=72073930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010685478.8A Active CN111564152B (zh) 2020-07-16 2020-07-16 语音转换方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111564152B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509550A (zh) * 2020-11-13 2021-03-16 中信银行股份有限公司 语音合成模型训练方法、语音合成方法、装置及电子设备
CN112116904B (zh) * 2020-11-20 2021-02-23 北京声智科技有限公司 语音转换方法、装置、设备及存储介质
CN112365882B (zh) * 2020-11-30 2023-09-22 北京百度网讯科技有限公司 语音合成方法及模型训练方法、装置、设备及存储介质
CN112786018B (zh) * 2020-12-31 2024-04-30 中国科学技术大学 语音转换及相关模型的训练方法、电子设备和存储装置
CN113450760A (zh) * 2021-06-07 2021-09-28 北京一起教育科技有限责任公司 一种文本转语音的方法、装置及电子设备
CN113450759A (zh) * 2021-06-22 2021-09-28 北京百度网讯科技有限公司 语音生成方法、装置、电子设备以及存储介质
CN113920979B (zh) * 2021-11-11 2023-06-02 腾讯科技(深圳)有限公司 语音数据的获取方法、装置、设备及计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7539616B2 (en) * 2006-02-20 2009-05-26 Microsoft Corporation Speaker authentication using adapted background models
US9665563B2 (en) * 2009-05-28 2017-05-30 Samsung Electronics Co., Ltd. Animation system and methods for generating animation based on text-based data and user information
CN105185379B (zh) * 2015-06-17 2017-08-18 百度在线网络技术(北京)有限公司 声纹认证方法和装置
CN110136692B (zh) * 2019-04-30 2021-12-14 北京小米移动软件有限公司 语音合成方法、装置、设备及存储介质
CN110853616A (zh) * 2019-10-22 2020-02-28 武汉水象电子科技有限公司 一种基于神经网络的语音合成方法、系统与存储介质
CN111292720B (zh) * 2020-02-07 2024-01-23 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备

Also Published As

Publication number Publication date
CN111564152A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
CN111564152B (zh) 语音转换方法、装置、电子设备及存储介质
CN110933330A (zh) 视频配音方法、装置、计算机设备及计算机可读存储介质
CN110556127B (zh) 语音识别结果的检测方法、装置、设备及介质
CN110322760B (zh) 语音数据生成方法、装置、终端及存储介质
CN112116904B (zh) 语音转换方法、装置、设备及存储介质
CN111031386B (zh) 基于语音合成的视频配音方法、装置、计算机设备及介质
CN111524501B (zh) 语音播放方法、装置、计算机设备及计算机可读存储介质
CN111105788B (zh) 敏感词分数检测方法、装置、电子设备及存储介质
CN108922531B (zh) 槽位识别方法、装置、电子设备及存储介质
CN110992927B (zh) 音频生成方法、装置、计算机可读存储介质及计算设备
CN111739517A (zh) 语音识别方法、装置、计算机设备及介质
CN113420177A (zh) 音频数据处理方法、装置、计算机设备及存储介质
CN111223475B (zh) 语音数据生成方法、装置、电子设备及存储介质
CN112667844A (zh) 检索音频的方法、装置、设备和存储介质
CN111613213A (zh) 音频分类的方法、装置、设备以及存储介质
CN111428079B (zh) 文本内容处理方法、装置、计算机设备及存储介质
CN111081277B (zh) 音频测评的方法、装置、设备及存储介质
CN110837557B (zh) 摘要生成方法、装置、设备及介质
CN113409770A (zh) 发音特征处理方法、装置、服务器及介质
CN109829067B (zh) 音频数据处理方法、装置、电子设备及存储介质
CN113744736A (zh) 命令词识别方法、装置、电子设备及存储介质
CN111212323A (zh) 音视频合成的方法、装置、电子设备及介质
CN111091807A (zh) 语音合成方法、装置、计算机设备及存储介质
CN110288999B (zh) 语音识别方法、装置、计算机设备及存储介质
CN113593521B (zh) 语音合成方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant