CN112863476B - 个性化语音合成模型构建、语音合成和测试方法及装置 - Google Patents

个性化语音合成模型构建、语音合成和测试方法及装置

Info

Publication number
CN112863476B
CN112863476B CN201911184952.2A CN201911184952A CN112863476B CN 112863476 B CN112863476 B CN 112863476B CN 201911184952 A CN201911184952 A CN 201911184952A CN 112863476 B CN112863476 B CN 112863476B
Authority
CN
China
Prior art keywords
speaker
user
synthesis model
voice
speakers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911184952.2A
Other languages
English (en)
Other versions
CN112863476A (zh
Inventor
黄智颖
雷鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201911184952.2A priority Critical patent/CN112863476B/zh
Publication of CN112863476A publication Critical patent/CN112863476A/zh
Application granted granted Critical
Publication of CN112863476B publication Critical patent/CN112863476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种个性化语音合成模型的构建方法、语音合成方法和测试方法及装置。其中,个性化语音合成模型的构建方法,包括:从多说话人语音合成模型的多个说话人的训练集数据中,确定出与用户近似的训练数据;从所述多个说话人中除了所述近似的训练数据所属的说话人之外,选择与所述用户属于相同类别的同类说话人;根据与所述用户近似的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。本发明能够合成用户特定说话风格的语音,提升了用户体验。

Description

个性化语音合成模型构建、语音合成和测试方法及装置
技术领域
本发明涉及人工智能技术领域,特别涉及一种个性化语音合成模型的构建方法、语音合成方法和测试方法及装置。
背景技术
人工智能技术中的语音交互场景需要进行个性化语音合成。个性化语音合成是业务上的强需求,也是语音合成领域未来的趋势之一。
传统的语音合成技术中,利用上百个说话人的几百小时的训练数据,可以构建基于海量数据的多发言人语音合成系统,具体地,可以利用多说话人的语音合成模型,例如基于神经网络的文本到语音(Neural TTS(Text-To-Speech))模型,在该模型的训练数据中,单个说话人的语音数据量往往在几个小时到几十小时不等,利用海量发音人的数据构建的语音合成系统,可以提供更稳定的语音合成效果。
对于多说话人Neural TTS模型来说,给定任何一个训练集中的说话人,利用该多说话人Neural TTS模型,可以合成该说话人的声音,但是对于某个特定说话人(以下简称)而言,该模型无法合成该特定说话人的特定风格的语音。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种个性化语音合成模型的构建方法、语音合成方法和测试方法及装置。
第一方面,本发明实施例提供一种个性化语音合成模型的构建方法,包括:
从多说话人语音合成模型的多个说话人的训练集数据中,确定出与用户近似的训练数据;
从所述多个说话人中除了所述近似的训练数据所属的说话人之外,选择与所述用户属于相同类别的同类说话人;
根据与所述用户近似的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
在一个或多个可能的实施例中,所述从多说话人语音合成模型的多个说话人的训练集数据中,确定出与所述用户近似的训练数据之前,还包括:
对用户的数据进行处理,提取出对应的语言学特征和声学特征;
所述根据与所述用户近似的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型,包括:
将所述同类说话人在所述多说话人语音合成模型中的ID和对应的说话人表征输入所述多说话人语音合成模型,并将用户对应的语言学特征和声学特征和所述相近似的训练数据共同作为训练数据,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
在一个或多个可能的实施例中,所述从多说话人语音合成模型的多个说话人的训练集数据中,确定出与所述用户近似的训练数据,包括:
从多说话人语音合成模型的多个说话人的训练集数据中,确定出与所述用户相近似的预设数量的邻近说话人的训练数据;和/或确定出与所述用户相近似的预设数量的邻近句子对应的训练数据;
所述训练数据包括语音数据和对应的文本,以及所述文本的语言学特征和所述语音数据的声学特征。
在一个或多个可能的实施例中,与所述用户相近似的预设数量的邻近说话人,通过下述方式确定:
针对用户和所述多个说话人中的每个说话人,分别计算对应的矢量;
分别确定多个说话人中的每个说话人与所述用户的矢量之间的距离并按大小排序,将从距离最小开始的预设数量的说话人确定为邻近说话人。
在一个或多个可能的实施例中,与用户相近似的设定数量的邻近句子,通过下述方式确定:
针对用户以及多个说话人中的每个说话人的每个句子,分别计算对应的矢量;
分别确定多个说话人中的每个说话人的每个句子与用户的矢量之间的距离并按照大小排序,将从距离最小开始的预设数量的句子确定为邻近句子。
在一个或多个可能的实施例中,所述用户的数据包括:语音数据和对应的文本;
所述对用户的数据进行处理,提取出对应的语言学特征和声学特征,包括:
将所述用户的文本通过语音合成自动标注确定标注信息,所述标注信息包括:发音标注、韵律标注;以及将所述用户语音数据通过语音识别和语音活动检测,确定音速边界;根据所述发音标注、韵律标注和音速边界,提取出对应的语言学特征;
对所述用户的语音数据进行声学特征的提取。
在一个或多个可能的实施例中,所述对所述用户的语音数据进行声学特征的提取之前,还包括:
对所述语音数据进行包括能量规整、解混响和能量增强的预处理操作。
在一个或多个可能的实施例中,所述相同类别是指按照说话人的下述条件任一或者组合条件所确定的同一类别:性别、年龄、说话方式和说话环境。
第二方面,本发明实施例提供一种个性化语音合成模型的构建方法,包括:
根据预设的场景,从用户的与所述场景对应的至少一个社交网络中选取与所述用户近似的用户,并获取所述近似的说话人的训练集数据;
从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
根据与各场景下所述近似的说话人的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述场景下所述用户的个性化语音合成模型。
第三方面,本发明实施例提供一种个性化语音合成模型的构建方法,包括:
根据预设的各近似用户集合的优先级,按照优先级高低的顺序,依次在各近似说话人集合中查找与所述用户相似的至少一个近似说话人;
根据查找到的至少一个近似说话人,获取所述至少一个近似说话人的训练集数据;
从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
根据所述至少一个近似的说话人的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
第四方面,本发明实施例提供一种个性化语音合成模型的构建方法,包括:
根据用户的各近似用户集合的优先级,按照优先级高低的顺序依次向所述用户所在客户端推送各级别的近似说话人集合;
接收所述客户端返回的从各级别的近似说话人集合中选择的近似说话人的标识,并根据所述标识获取所述近似说话人的训练集数据;
从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
根据所述至少一个近似的说话人的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
在一个或多个可能的实施例中,所述各级近似说话人的集合,包括下述一项或多项:
所述用户的社交网络的至少一个用户集合;
所述用户的属于同一地理区域的至少一个用户集合;
用户根据自身偏好选择的至少一个用户集合。
第五方面,本发明实施例提供一种个性化语音合成方法,包括:
对待语音合成的文本进行处理,提取出对应的语言学特征;
将所述语言学特征和用户在个性化语音合成模型训练过程中对应的同类说话人的ID输入至所述个性化语音合成模型中,预测出所述待语音合成的文本对应的声学特征;
根据所述声学特征,合成所述用户与所述文本对应的合成语音;
所述个性化语音合成模型采用前述个性化语音合成模型的构建方法得到。
在一个实施例中,根据所述声学特征,合成所述用户与所述文本对应的合成语音,包括:
利用声码器,将所述声学特征转换成对应的语音。
第六方面,本发明实施例提供一种个性化语音合成模型的测试方法,包括:
对待语音合成的文本进行处理,提取出对应的语言学特征;
将所述语言学特征和用户在所述个性化语音合成模型训练过程中对应的同类说话人的ID输入至所述个性化语音合成模型中,预测出所述文本对应的声学特征;
根据所述声学特征,合成所述用户与所述文本对应的合成语音;
对所述合成语音进行验证,确定所述个性化语音合成模型是否合格;
所述个性化语音合成模型采用前述的个性化的语音合成模型的创建方法得到。
第七方面,本发明实施例提供前述个性化语音合成模型的构建方法、前述个性化语音合成方法以及前述个性化语音合成模型的测试方法在有声阅读、智能客服、语音交互、语音播报、机器翻译中的应用。
第八方面,本发明实施例提供了一种个性化语音合成模型的构建装置,包括:
推送模块,用于根据用户的各近似用户集合的优先级,按照优先级高低的顺序依次向所述用户所在客户端推送各级别的近似说话人集合;
接收模块,用于接收所述客户端返回的所选择的各级别的近似说话人集合中的近似说话人的标识;
获取模块,用于根据所述标识获取所述近似说话人的训练集数据;
选择模块,用于从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
训练模块,用于根据所述至少一个近似的说话人的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
第九方面,本发明实施例提供了一种个性化语音合成模型的构建装置,包括:
第一选择模块,用于根据预设的场景,从用户的与所述场景对应的至少一个社交网络中选取与所述用户近似的用户;
获取模块,用于获取所述近似的说话人的训练集数据;
第二选择模块,用于从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
训练模块,用于根据与各场景下所述用户近似的说话人的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述场景下所述用户的个性化语音合成模型。
第十方面,本发明实施例提供了一种个性化语音合成模型的构建装置,包括:
查找模块,用于根据预设的各近似用户集合的优先级,按照优先级高低的顺序,依次在各近似说话人集合中查找与所述用户相似的至少一个近似说话人;
获取模块,用于根据查找到的至少一个近似说话人,获取所述至少一个近似说话人的训练集数据;
选择模块,用于从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
训练模块,用于根据所述至少一个近似的说话人的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
第十一方面,本发明实施例提供了一种个性化语音合成模型的构建装置,包括:
推送模块,用于根据用户的各近似用户集合的优先级,按照优先级高低的顺序依次向所述用户所在客户端推送各级别的近似说话人集合;
接收模块,用于接收所述客户端返回的从各级别的近似说话人集合中选择的近似说话人的标识;
获取模块,用于根据所述标识获取所述近似说话人的训练集数据;
选择模块,用于从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
训练模块,用于根据所述至少一个近似的说话人的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
第十二方面,本发明实施例提供一种个性化语音合成装置,包括:
提取模块,用于对待语音合成的文本进行处理,提取出对应的语言学特征;
预测模块,用于将所述语言学特征和用户在个性化语音合成模型训练过程中对应的同类说话人的ID输入至所述个性化语音合成模型中,预测出所述待语音合成的文本对应的声学特征;
语音合成模块,用于根据所述声学特征,合成所述用户与所述文本对应的合成语音;
所述个性化语音合成模型采用前述语音合成模型的构建装置得到。
第十三方面,本发明实施例提供一种个性化语音合成模型的测试装置,包括:
提取模块,用于对待语音合成的文本进行处理,提取出对应的语言学特征;
预测模块,用于将所述语言学特征和用户在个性化语音合成模型训练过程中对应的同类说话人的ID输入至所述个性化语音合成模型中,预测出所述待语音合成的文本对应的声学特征;
语音合成模块,用于根据所述声学特征,合成所述用户与所述文本对应的合成语音;
验证模块,用于对所述合成语音进行验证,确定所述个性化语音合成模型是否合格;
所述个性化语音合成模型采用前述个性化语音合成模型的创建装置得到。
第十四方面,本发明实施例提供了一种智能语音服务器,包括:存储器和处理器;其中,所述存储器存储有计算机程序,所述程序被处理器执行时能够实现前述个性化语音合成模型的构建方法,或者能够实现前述个性化语音合成方法,或者能够实现前述个性化语音合成模型的测试方法。
第十五方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时能够实现前述个性化语音合成模型的构建方法,或者能够实现前述个性化语音合成方法,或者能够实现前述一种个性化语音合成模型的测试方法。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明实施例提供的个性化语音合成模型的构建方法、个性化语音合成方法和个性化语音合成模型的测试方法及装置,从多说话人语音合成模型的多个说话人的训练集数据中,确定出与该个性化的用户(目标说话人)近似的训练数据,从多说话人语音合成模型的多个说话人中,选择与用户属于相同类别的同类说话人,然后利用这个同类说话人,多个说话人的训练集数据中近似的训练数据,对多说话人语音合成模型进行训练,可以得到关于这个用户的个性化语音合成模型,可实现利用数据量较少的目标说话人的数据和已有的多说话人语音合成模型,就能够合成这个用户(即目标说话人)特定说话风格的语音,得到其个性化语音,给机器带来了温度,提高了用户体验。
在一个实施例中,从多说话人语音合成模型的多个说话人的训练集数据中,确定出与用户相近似的预设数量的邻近说话人的训练数据;或者确定出与用户相近似的预设数量的邻近句子对应的训练数据;通过利用与用户相近的邻近说话人和/或邻近句子来辅助对目标说话人的语音的学习,从而可提升最终语音合成的自然度和相似度。
在一个实施例中,相同类别是指按照性别、年龄、说话方式和说话环境,尽量寻找多个说话人中与用户相近的那一个,使得个性化语音合成模型更好地学习用户的声音。
在一个实施例中,本发明实施例提供的语音合成模型的构建方法、语音合成方法及装置,对用户的语音数据在提取语言学特征和声学特征之前,对数据进行能量规整、解混响和能量增强的预处理,使得语音合成模型对于环境噪音、混响以及音量大小不一有更好的鲁棒性。
在一个实施例中,本发明实施例提供的语音合成模型的构建方法,还可以根据所使用的场景,选择用户至少一个社交网络中选取与用户相近似的用户,并利用近似用户的训练集数据和相同类别的同类说话人,对多说话人语音合成模型进行训练,得到该用户最终的个性化语音合成模型,本发明实施例可以实现根据实际使用场景,在用户的社交网络中选择与场景相关的近似用户,还可以由用户自主选择所要模仿的近似用户,因此,可以实现多种场景下更个性化的语音模型的学习,进一步丰富了用户体验。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的个性化语音合成模型的构建方法的流程图;
图2为本发明实施例提供的多说话人语音合成模型的训练过程示意图;
图3为本发明实施例提供的提取语言学特征的过程的流程图;
图4为本发明实施例提供的目标说话人和邻近说话人之间距离关系的示例图;
图5为本发明实施例提供的目标说话人和邻近句子之间距离关系的示例图;
图6A~图6D为本发明实施例一的各流程图;
图7A和图7B为本发明实施例二的各流程图;
图8为本发明实施例提供的个性化语音合成方法的流程图;
图9为本发明实施例提供的个性化语音合成方法的另一流程图;
图10为本发明实施例提供的个性化语音合成模型的测试方法的流程图;
图11~13为本发明实施例提供的另几个个性化语音合成模型的构建方法的流程图;
图14~17分别为本发明实施例提供的个性化语音合成模型的构建装置的几个结构框图;
图18为本发明实施例提供的个性化语音合成装置的结构框图;
图19为本发明实施例提供的个性化语音合成模型的测试装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了实现个性化的说话人的语音的自动合成,本发明实施例提供了一种个性化语音合成模型的构建方法、个性化语音合成方法、个性化语音合成模型的测试方法及相关装置。为了描述方便,将待生成语音合成模型的用户,即这个个性化的说话人称为“目标说话人”,且该目标说话人,并非说话人语音合成模型中的任一个说话人。
下面结合附图,依次对上述各方案的具体实施方式进行详细的说明。
本发明实施例提供的个性化语音合成模型的构建方法,参照图1所示,包括下述步骤:
S11、从多说话人语音合成模型的多个说话人的训练集数据中,确定出与用户近似的训练数据;
S12、从多个说话人中除了所述近似的训练数据所属的说话人之外,选择与用户属于相同类别的同类说话人;
S13、根据与用户近似的训练数据和所选择的同类说话人,对多说话人语音合成模型进行训练,得到用户的个性化语音合成模型。
在一个或一些可能的实施例中,上述步骤S11之前,还可以执行下述步骤:
对用户(即目标说话人)的数据进行处理,提取出对应的语言学特征和声学特征;
相应地,上述步骤S13中,训练用户(目标说话人)的个性化语音合成模型,可以通过下述方式实现:
将同类说话人在多说话人语音合成模型中的ID和对应的说话人表征输入多说话人语音合成模型,并将用户对应的语言学特征和声学特征和相近似的训练数据共同作为训练数据,对多说话人语音合成模型进行训练,得到用户的个性化语音合成模型。
本发明实施例提供的上述个性化语音合成模型的构建方法,可实现利用数据量较少的用户(目标说话人)的数据和已有的多说话人语音合成模型,就能够合成这个用户(目标说话人)特定说话风格的语音,得到其个性化语音,给机器带来了温度,提高了用户体验。
本发明实施例提供的语音合成模型的构建方法和后面说明的语音合成方法中,不论是多说话人语音合成模型,还是用户(目标说话)人的个性化语音合成模型,其类型可以是任何一种基于神经网络的语音合成模型(例如Neural TTS模型等),或者其他类似的语音合成模型例如端到端(End to End)语音合成标注等,本发明实施例对此不做限定。
首先对多说话人语音合成模型进行简单说明。在本发明实施例中,多说话人语音合成模型可以采用现有技术中任何一种已有的多说话人的语音合成模型,在多说话人的语音合成模型的构建中,使用多个说话人的训练集数据对模型进行训练,多个说话人是预先设定的某几个说话人或者某些说话人,比如张三、李四和王五等,每个人都在这个模型中有一个对应的ID(编号)。
多说话人的训练集数据中,包含每个说话人的训练数据,而每个人的训练数据,又可以包含该说话人的语音数据和对应的文本,还有根据该语音数据和文本提取出来的语言学特征和声学特征。
不同个性化语音合成模型可以针对不同的个性化的个人,而多说话任语音合成模型是个性化语音合成模型的基础。为了保证模型的学习准确性,语言学特征和声学特征的提取可以通过一系列的手段来实现,具体实现时也采用多种方式,例如人工标注的方式,或者计算机辅助人工标注的方式。本发明实施例对此不做限定。
一个多说话人语音合成模型的训练过程可参照图2所示,在进行多说话人语音合成模型训练时,会每个说话人设置一个ID,假设训练集数据中有例如ID为1、2和3这三个说话人的数据。训练的时候,输入数据是ID1、ID2和ID3三个人的语言学特征及其对应的ID、说话人表征(Speaker Embedding)输入到这个模型中去,参照图2所示,该多说话人语音合成模型中包含编码(Encoder)、注意力机制(Attention Mechanism)和解码(Decoder)几部分,输出是这个三个人的声学特征,训练过程可采用例如反向传播算法(BP,BackPropagation)算法等神经网络的训练方法实现。BP算法的原理主要由两个环节即激励传播、权重更新反复循环迭代,直到网络的对输入的响应达到预定的目标范围为止。BP算法的学习过程由正向传播过程和反向传播过程组成。在正向传播过程中,输入信息通过输入层经隐含层,逐层处理并传向输出层。如果在输出层得不到期望的输出值,则取输出与期望的误差的平方和作为目标函数,转入反向传播,逐层求出目标函数对各神经元权值的偏导数,构成目标函数对权值向量的梯量,作为修改权值的依据,网络的学习在权值修改过程中完成。误差达到所期望值时,网络学习结束。对利用训练集数据的学习,可以学习到语言学特征和声学特征之间的关系。
以ID为1、2和3这三个说话人的多说话人语音合成模型来说,以多说话人语音合成模型在训练时,输入的是ID为1、2、3三个人的语言学特征和对应的说话人ID,加上三个人的说话人表征,说话人表征包含有ID1、ID2和ID3三个人的表征向量,训练完毕之后,如果输入训练集中某个说话人的ID,随便输入一个语言学特征,就能预测出这个ID为1的说话人的对应的声音。
说话人表征(Speaker Embedding),包含一组特征向量,特征向量的个数等于多个说话人的训练集中的说话人总数目。数学表现为N*M的矩阵(N为多个说话人的人数),每个说话人的特征矢量都是由该说话人的一系列的特征抽象、量化而来。
多说话人语音合成模型还有如下特点:如果多说话人语音合成模型没有说话人ID和说话人表征的话,这个模型只能根据文本输出一个标准的声音,但是如果有了该多说话人语音合成模型的训练集数据中某个具体的说话人(例如张三,ID是1)的ID和说话人表征,就可以输出该具体说话人的语音,也就是可以控制该多说话人语音合成模型输出训练集中任何一个人的语音,但非训练集数据中的说话人,则该多说话人语音合成模型则无法输出对应的声音,换言之,输入ID必须是训练集中的一个说话人的ID。本发明实施例正是利用了上述特点,使得用户(目标说话人)可以“冒充”已训练好的多说话人语音合成模型中的某个说话人,从而可以利用已有的多说话人语音合成模型,实现对该用户(目标说话人)的个性化语音合成模型的训练。个性化语音合成模型的具体训练过程,与多说话人语音合成模型的训练过程类似,在此不再赘述。
在一个实施例中,上述步骤S11中,对用户(目标说话人)的数据进行处理,提取出对应的语言学特征和声学特征的步骤中,用户(目标说话人)的数据包括:语音数据和对应的文本。
提取语言学特征的过程,参照图3所示,例如可以通过下述步骤实现:
S31、将用户的文本通过语音合成自动标注确定标注信息,标注信息包括:发音标注、韵律标注;
例如通过TTS前端进行处理,进行发音标注和韵律标注。
S32、将该用户语音数据通过语音识别和语音活动检测,确定音速边界;
S33、根据发音标注、韵律标注和音速边界,提取出对应的语言学特征。
语言学特征是指基于发音标注和韵律标注提取的一种语言学上的特征,例如音素序列、声调、边界信息和停顿。
例如,发音标注为文本标注上拼音(包含音调),例如:“我”被标注上“wo3”,数字3表示音调为第3声。
韵律标注,例如为标注上停顿标记,例如“我是#3中国#1人。”这句中的“#3”表示长停顿,“#1”表示短停顿。
对语音数据确定音素边界,具体例如可以通过自动语音识别(ASR,AutomaticSpeech Recognition)、语音活动检测(VAD,Voice Activity Detection,功能是判断语音的静音部分)等技术手段,确定每个音素的开始时间和结束时间。
在本发明实施例中,声学特征为基于语音提取的声学上的特征,例如:线性谱、梅尔倒谱系数(MFCC,Mel-scaleFrequency Cepstral Coefficients)和Fbank(Filter bank)等。
MFCC是在Mel标度频率域提取出来的倒谱参数,根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以,人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,这种参数比基于声道模型的LPCC相比具有更好的鲁邦性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
MFCC的提取过程包括:预加重、分帧、加窗、FFT(快速傅里叶变换)、三角带通滤波器进行滤波,计算每个滤波器组输出的对数能量,然后经离散余弦变换(DCT)得到MFCC系数。
MFCC系数的提取是在Fbank的基础上再进行离散余弦变换变换得到的,因此,Fbank的提取的过程与MFCC系数提取的前几个步骤是一致的。
线性谱的提取通过下述方式实现:对语音数据信号进行滑窗傅里叶变换,经过滑窗傅里叶处理后就得到语音信号的线性谱。
本发明实施例并不限定语言学特征和声学特征采用何种具体的特征,也不限定该特征的具体提取方式,可以采用现有技术中的提取手段实现。
因为用户语音数据的语音采集方式较随意的原因,例如利用手机在背景较杂的环境中说话,这样,用户的语音中,可能存在不同程度的环境噪音、混响,并且其音量也可能大小不一,为了达到在较差的录音环境下也有较好的训练效果,较佳地,在本发明实施例中,在对用户的语音数据进行声学特征的提取之前,还可以执行下述步骤:对语音数据进行包括能量规整、解混响和能量增强的预处理操作。
具体来说,能量规整步骤,即将同一批的数据的能量规整到某一个特定的能量分布。解混响的步骤是消除语音中的混响;能量增强的步骤是增强语音信号,并减弱噪声。
理论上,用户的语音数据越多,语音越长,则对训练个性化语音合成模型越有利,但是实践中,数据过多,则会带来录音、语音处理成本(例如标注、提取语言学和声学特征)增加,并降低用户体验,因此,在本发明实施例中,用户可以提供10~100句左右的语音数据,就可以完成个性化语音合成模型的构建,在保证了模型的准确性的前提下,极大地提升了用户体验。
在一个实施例中,上述步骤S12中,从多说话人语音合成模型的多个说话人的训练集数据中,确定出与用户近似的训练数据,在具体实施时,可以通过下述步骤实现:
从多说话人语音合成模型的多个说话人的训练集数据中,确定出与用户相近似的预设数量的邻近说话人的训练数据;和/或确定出与用户相近似的预设数量的邻近句子对应的训练数据;其中,训练数据包括语音数据和对应的文本,以及文本的语言学特征和语音数据的声学特征。
之所以在多说话人语音合成模型的多个说话人的训练集数据,尽可能地寻找与用户相近似的说话人或者相近似句子的数据,目的是利用这些近似的说话人或者近似的句子的训练数据,辅助用户(目标说话人)的语音相关特征的学习,从而实现最终合成的语音的自然度和相似度。
确定与用户(目标说话人)相近似的预设数量的邻近说话人,可以通过下述方式实现:
针对用户和所述多个说话人中的每个说话人,分别计算对应的矢量;
分别确定多个说话人中的每个说话人与用户的矢量之间的距离并按大小排序,将从距离最小开始的预设数量的说话人确定为邻近说话人。
举例说明,例如可以利用i-vector的说话人识别算法,该算法针对每个说话人,都计算一个矢量(称之为i-vector),通过矢量间的距离(欧氏距离或者cosine距离)来判断不同说话人之间的相似程度。
可以将多个说话人中的每个说话人的矢量,与用户(目标说话人)矢量之间的距离根据大小进行排序,将从距离最小的开始的若干个说话人,作为邻近说话人。
参照图4所示,圆点分别表征说话人的矢量,位于虚线圈中心的圆点是用户的矢量,在该虚线圈内的还包含四个邻近说话人(均为多说话人语音合成模型的训练集中的说话人),分别标识为邻近说话人1~邻近说话人4。
邻近句子的确定方式与此类似。由于邻近说话人没有考虑到训练集这个池子中同一个说话人句子的多样性,即有些句子和用户相近,有些句子和用户距离较远。因此,可以计算每个句子的矢量,与用户矢量之间的距离,计算两者之间的距离,将与用户距离较近的若干个句子作为邻近句子。
分别确定多个说话人中的每个说话人的每个句子与用户的矢量之间的距离并按照大小排序,将从距离最小开始的预设数量的句子确定为邻近句子。
参照图5所示,较大的圆点表征说话人的矢量,较小的圆点表征句子的矢量,虚线框内中心位置是用户,虚线框内其他较小的圆点表征与该用户相近的邻近句子。
确定了用户(目标说话人)的邻近说话人和/或邻近句子之后,还需要在多说话人语音合成模型的训练集中的说话人中,选择一个与用户(目标说话人)属于相同类别的同类说话人,所选择的这个说话人是除了邻近说话人或者邻近句子所属的说话人之外的。
在一个实施例中,相同类别是指按照说话人的下述任意条件之一或者组合条件而确定的同一个类别:性别、年龄、说话方式和说话环境等。综合考虑其中一个或多个条件,选择同类的说话人。
举例子来说,可以直接选择属于同一个性别的说话人,还可以是选择性别相同且所属年龄段相同的说话人,等等,总体原则是选择与用户(目标说话人)较接近的说话人。
如果简单选择,考虑单一条件即可,例如选择同一性别的说话人,因为男声和女声的存在较大差异,简单的选择同性别的说话人即可。
下面以两个具体的实例简单说明本发明实施例提供的个性化语音合成模型的构建方法。
实施例一:
假设多说话人语音合成模型的多个说话人的训练集数据中,包含说话人A、说话人B、说话人C、说话人D和说话人E,其在多说话人语音合成模型中的ID分别为ID1、ID2、ID3、ID4和ID5。使用这些说话人的训练数据对多说话人Neural TTS模型进行训练,得到训练好的多说话人Neural TTS模型。
当前有一个性化说话人为说话人F,参照图6A所示的流程图,对该说话人F的个性化的数据即语音数据和文本分别进行语音合成、自动标注和语音的数据预处理后,提取出对应的语言学特征和声学特征。
图6B所示的是从文本和语音如何提取语言学特征的过程,例如经过TTS前端先提取文本中的发音标注和韵律标注,以及将语音经过ASR和VAD处理得到音素边界,再根据发音标注、韵律标注结合音素边界,提取出语言学特征。
图6C所示的是从语音进行预处理(能量规整、解混响和能量增强)后提取对应的声学特征的流程。
根据说话人A、说话人B、说话人C、说话人D、说话人E与说话人F矢量之间的距离,选出说话人F的邻近说话人即说话人B和说话人C。
在说话人A~说话人E中,排除了说话人B和说话人C之外,从说话人A、说话人D和说话人E三个人中,选择与说话人F同性别的说话人D。
参照图6D所示,将说话人D的ID即ID4和该说话人D的说话人表征输入到多说话人Neural TTS模型的Attention中,并使用用户(目标说话人)即说话人F的语言学特征,声学特征,以及多说话人Neural TTS模型训练集数据中说话人B和说话人C的训练数据(包含语音数据、文本及对应的语言学特征和声学特征)一并对多说话人Neural TTS模型进行训练,获得针对说话人F的个性化语音合成模型。
实施例二:
与实施例一类似的是,实施例二中多说话人语音合成模型的多个说话人的训练集数据中,包含说话人A、说话人B、说话人C、说话人D和说话人E的所有训练数据,其在多说话人语音合成模型中的ID分别为ID1、ID2、ID3、ID4和ID5。使用这些说话人的训练数据对多说话人Neural TTS模型进行训练,得到训练好的多说话人Neural TTS模型。
当前有一个性化说话人为说话人F,参照图7A所示的流程图,对该说话人F的个性化的数据即语音数据和文本分别进行语音合成、自动标注和语音的数据预处理后,提取出对应的语言学特征和声学特征。具体如何提取可参照实施例一中的图6B和图6C。
与实施例一所不同的是,为说话人A、说话人B、说话人C、说话人D、说话人E与说话人F所说的每个句子分别计算对应的矢量,计算这些句子的矢量与说话人F的矢量之间的距离,选出说话人F的邻近句子,假设为句子1~句子14共14个句子。
在说话人A~说话人E中,排除了这14个句子所属的说话人之外,选择出一个与说话人F同性别的说话人假设仍为说话人D。
参照图7B所示,将说话人D的ID即ID4和该说话人D的说话人表征输入到多说话人Neural TTS模型的Attention中,并使用目标说话人即说话人F的语言学特征,声学特征,以及多说话人Neural TTS模型训练集数据中句子1~句子14所对应的训练数据(包含语音数据、文本及对应的语言学特征和声学特征)一并对多说话人Neural TTS模型进行训练,获得针对说话人F的个性化语音合成模型。
发明人经过实验验证,本发明实施例提供的个性化语音合成模型的构建方法,对于目标说话人F来说,其提供较少的句子的情况下,例如即使只有10句话,该方案也可以很好地模拟出说话人的语音,这样,用户使用起来会很方便,也不会受限于录音的环境和所使用的录音设备。另外,目标说话人F的数据量小,其录音和标注的时间成本大幅减少,也使得语音合成模型的训练过程和语音合成的速度大大加快。
本发明实施例还提供了基于上述个性化语音合成模型的构建方法的个性化语音合成方法。
该个性化语音合成方法,参照图8所示,包括下述步骤:
S81、对待语音合成的文本进行处理,提取出对应的语言学特征;
S82、将语言学特征和用户(目标说话人)在个性化语音合成模型训练过程中对应的同类说话人的ID输入至所述个性化语音合成模型中,预测出待语音合成的文本对应的声学特征;
S83、根据声学特征,合成用户(目标说话人)与文本对应的合成语音。
上述个性化语音合成模型是采用前述个性化语音合成模型的构建方法得到的。
以图9所示的流程图为例,假设需要合成目标说话人F的关于一段短文的语音,该说话人F在个性化Neural TTS模型训练时所选择的同类的说话人为说话人D,则首先利用TTS前端将待合成的文本进行语言学特征的提取,然后将提取出来的语言学特征和说话人D的ID即ID4一起输入至个性化Neural TTS模型中去,就可以输出对应的声学特征,然后再通过声码器(Vocoder),将声学特征转换成说话人F的语音。需要语音合成的文本是可以按照需求任意指定的。
参照图10所示,本发明实施例提供的个性化语音合成模型的测试方法中,S101~S103与上述语音合成方法类似,所不同的是步骤S104测试后续还需要验证模型输出的语音结果,确定该个性化语音合成模型是否合格,如果检测不合格,还可以根据结果反馈调整模型的训练过程,具体实施过程在此不再赘述。
本发明实施例提供的上述个性化语音合成模型的训练方法以及个性化语音合成方法可以广泛应用于各种人工智能场景,例如在有声阅读、智能客服、语音交互、语音播报、机器翻译等应用场景。
例如应用在语音助手,智能客服等产品上,用户预先输入一段自己录制的语音,给定任何一段文字内容,系统就可输出与逼真的语音,从而实现智能交互,语音播报等场景。
在另一个或另一些可能的实施例中,本发明实施例提供了一种个性化语音合成模型的构建方法,参照图11所示,包括下述步骤:
S111、根据预设的场景,从用户的与场景对应的至少一个社交网络中选取与所述用户近似的用户,并获取所述近似的说话人的训练集数据;
S112、从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;多个说话人为多说话人语音合成模型的训练集对应的说话人;
S113、根据与各场景下所述用户近似的说话人的训练数据和所选择的同类说话人,对多说话人语音合成模型进行训练,得到场景下用户的个性化语音合成模型。
在上述方法中,场景可以有很多种,比如客户端的APP对应的是社交网络的场景,则服务器端可以根据用户使用的客户端APP的适用场景,比如社交类APP,又或者语音模仿类APP,或者联机游戏类APP,可以根据具体的场景,从用户的至少一个社交网络中选取与用户相似的用户,比如从用户所属的朋友圈中的家人、亲戚、朋友、同事、同学等人群中,选择与该用户存在某个或某些共同点的用户,比如同一个家庭、或者同一个学校、或者同一个工作单位等,然后再获取这些相似用户的训练数据,用以后续对多说话人语音合成模型进行训练。
又例如这个场景还可以是用户自主在客户端设定的场景,比如家庭内场景、工作场景、休闲场景等,在不同的场景下,用户可能想采用不同的语音和/或不同的语言表达方式,或者在某些特定的场合下,想采用特定的语音和/或语言表达方式,这样,用户可以自主选择其对应的个性化语音合成模型需要学习那些近似用户的训练数据,通过客户端,用户可以从用户的多个社交网络中,选择近似的用户,或者直接选择在特定场合下学习某个特定的人物的语音,以达到模仿该近似用户的语音和/或表达方式的目的。
本发明实施例还提供了一种个性化语音合成模型的构建方法,参照图12所示,包括下述步骤:
S121、根据预设的各近似用户集合的优先级,按照优先级高低的顺序,依次在各近似说话人集合中查找与用户相似的至少一个近似说话人;
S122、根据查找到的至少一个近似说话人,获取所述至少一个近似说话人的训练集数据;
S123、从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
S124、根据至少一个近似的说话人的训练数据和所选择的同类说话人,对多说话人语音合成模型进行训练,得到用户的个性化语音合成模型。
在上述步骤S121~S122中,按照不同的方式选择出来的相似用户的集合可能会有多个,比如前述从社交网络中选出的相似用户的集合,按照预设的优先级,服务器可依次从各近似说话人集合中查找与该用户相似的至少一个近似说话人,例如不同优先级的集合包括:家人的集合、朋友的集合、同学的集合、同事的集合、居住社区的集合,大到一个行政区域范围的集合比如一个区、一个市、一个省等等,各优先级级别依次从高到低,此时,选额近似说话人的时候,可根据优先级从高到低的顺序,依次选取,直至选择足够数量的相似用户,如果在一个较高的集合中已满足所有近似说话人的选择,则不需要再向下一个级别的集合中查找。
近似说话人或者近似用户的选择,还可以完全交给用户(目标说话人)的来选择,比如由服务器来推送对应的近似用户集合,由客户端选择,完成后再返回服务器进行训练数据的获取和个性化语音合成模型的训练。
对应的个性化语音合成模型的构建方法,参照图13所示,包括下述步骤:
S131、根据用户的各近似用户集合的优先级,按照优先级高低的顺序依次向用户所在客户端推送各级别的近似说话人集合;
S132、接收客户端返回的所选择的各级别的近似说话人集合中的近似说话人的标识,并根据标识获取近似说话人的训练集数据;
S133、从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
S134、根据至少一个近似的说话人的训练数据和所选择的同类说话人,对多说话人语音合成模型进行训练,得到用户的个性化语音合成模型。
在一个实施例中,上述各级近似说话人的集合,包括下述一项或多项:
用户的社交网络的至少一个用户集合;如前述,用户的社交网络可以是用户自主选择的多个社群的好友等等,在此不再赘述。
用户的属于同一地理区域的至少一个用户集合,比如用户同属一个区、一个市,甚至一个省的同区域的用户;这种场景比如在需要个性化语音合成模型需要学习特定地区的方言、发音特点等可以适用。
用户根据自身偏好选择的至少一个用户集合;用户比如就想模仿某个特定人的语音和/或语言风格时,就可以根据自己的喜好,选择一个或多个偏好用户作为近似用户(近似的说话人)。
上述S131~S134在具体实施时,可以由服务器或者由具有一定计算能力的客户端来实现,由用户在多个可能的集合中选择近似说话人,比如选择自己喜好的明星,用来将自己的语音特点和该明星的语音特点按照一定的比例融合,产生丰富的语音体验。服务器或者客户端根据该近似说话人的标识获取对应训练集数据,从而通过训练多说话人语音合成模型,生成用户对应的个性化语音合成模型。
基于同一发明构思,本发明实施例还提供了一种个性化语音合成模型的构建装置、个性化语音合成装置和服务器,由于这些装置和服务器所解决问题的原理与前述个性化语音合成模型的构建方法和一种个性化语音合成方法相似,因此该装置和服务器的实施可以参见前述方法的实施,重复之处不再赘述。
本发明实施例提供的一种个性化语音合成模型的构建装置,参照图14所示,包括:
确定模块141,用于从多说话人语音合成模型的多个说话人的训练集数据中,确定出与用户近似的训练数据;
选择模块142,用于从所述多个说话人中除了所述近似的训练数据所属的说话人之外,选择一个与所述用户属于相同类别的同类说话人;
训练模块143,用于根据与所述用户近似的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
在一个实施例中,上述个性化语音合成模型的构建装置,参照图14所示,还包括:提取模块144;其中:
提取模块144,用于对目标说话人的数据进行处理,提取出对应的语言学特征和声学特征;
相应地,上述训练模块143,具体用于将同类说话人在多说话人语音合成模型中的ID和对应的说话人表征输入所述多说话人语音合成模型,并将用户对应的语言学特征和声学特征和相近似的训练数据共同作为训练数据,对多说话人语音合成模型进行训练,得到用户的个性化语音合成模型。
在一个实施例中,上述确定模块141进一步用于从多说话人语音合成模型的多个说话人的训练集数据中,确定出与所述用户相近似的预设数量的邻近说话人的训练数据;和/或确定出与所述用户相近似的预设数量的邻近句子对应的训练数据;所述训练数据包括语音数据和对应的文本,以及所述文本的语言学特征和所述语音数据的声学特征。
在一个实施例中,上述确定模块141进一步用于针对用户和所述多个说话人中的每个说话人,分别计算对应的矢量;分别确定多个说话人中的每个说话人与所述用户的矢量之间的距离并按大小排序,将从距离最小开始的预设数量的说话人确定为邻近说话人。
在一个实施例中,上述确定模块141进一步用于针对用户以及多个说话人中的每个说话人的每个句子,分别计算对应的矢量;分别确定多个说话人中的每个说话人的每个句子与用户的矢量之间的距离并按照大小排序,将从距离最小开始的预设数量的句子确定为邻近句子。
在一个实施例中,所述用户的数据包括:语音数据和对应的文本;
相应地,上述提取模块144进一步用于将所述用户的文本通过语音合成自动标注确定标注信息,所述标注信息包括:发音标注、韵律标注;以及将所述用户语音数据通过语音识别和语音活动检测,确定音速边界;根据所述发音标注、韵律标注和音速边界,提取出对应的语言学特征;以及对所述用户的语音数据进行声学特征的提取。
在一个实施例中,上述提取模块144进一步用于对所述用户的语音数据进行声学特征的提取之前,对所述语音数据进行包括能量规整、解混响和能量增强的预处理操作。
在一个实施例中,本发明实施例提供的个性化语音合成模型的构建方法、个性化语音合成方法及装置,在训练得到个性化语音合成模型的过程中,如若更新所有的模型参数,能够更好地学习用户的声音。当然,只更新部分参数也可行,例如只更新模型中Decoder参数。
本发明实施例还提供了另外一种个性化语音合成模型的构建装置,参照图15所示,包括:
第一选择模块151,用于根据预设的场景,从用户的与所述场景对应的至少一个社交网络中选取与所述用户近似的用户;
获取模块152,用于获取所述近似的说话人的训练集数据;
第二选择模块153,用于从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
训练模块154,用于根据与各场景下所述用户近似的说话人的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述场景下所述用户的个性化语音合成模型。
本发明实施例还提供了另外一种个性化语音合成模型的构建装置,参照图16所示,包括:
查找模块161,用于根据预设的各近似用户集合的优先级,按照优先级高低的顺序,依次在各近似说话人集合中查找与所述用户相似的至少一个近似说话人;
获取模块162,用于根据查找到的至少一个近似说话人,获取所述至少一个近似说话人的训练集数据;
选择模块163,用于从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
训练模块164,用于根据所述至少一个近似的说话人的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
本发明实施例还提供了另外一种个性化语音合成模型的构建装置,参照图17所示,包括:
推送模块171,用于根据用户的各近似用户集合的优先级,按照优先级高低的顺序依次向所述用户所在客户端推送各级别的近似说话人集合;
接收模块172,用于接收所述客户端返回的所选择的各级别的近似说话人集合中的近似说话人的标识;
获取模块173,用于根据所述标识获取所述近似说话人的训练集数据;
选择模块174,用于从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
训练模块175,用于根据所述至少一个近似的说话人的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
本发明实施例提供的一种个性化语音合成装置,参照图18所示,包括:
提取模块181,用于对待语音合成的文本进行处理,提取出对应的语言学特征;
预测模块182,用于将所述语言学特征和用户在个性化语音合成模型训练过程中对应的同类说话人的ID输入至所述个性化语音合成模型中,预测出所述待语音合成的文本对应的声学特征;
语音合成模块183,用于根据所述声学特征,合成所述用户与所述文本对应的合成语音;
上述个性化语音合成模型采用前述语音合成模型的构建装置得到。
本发明实施例还提供了一种个性化语音合成模型的测试装置,参照图19所示,包括:
提取模块191,用于对待语音合成的文本进行处理,提取出对应的语言学特征;
预测模块192,用于将所述语言学特征和用户在个性化语音合成模型训练过程中对应的同类说话人的ID输入至所述个性化语音合成模型中,预测出所述待语音合成的文本对应的声学特征;
语音合成模块193,用于根据所述声学特征,合成所述用户与所述文本对应的合成语音;
验证模块194,用于对所述合成语音进行验证,确定所述个性化语音合成模型是否合格;
类似地,上述个性化语音合成模型也是采用上述个性化语音合成模型的创建装置得到的。
本发明实施例还提供了一种智能语音服务器,包括:存储器和处理器;其中,所述存储器存储有计算机程序,所述程序被处理器执行时能够实现前述个性化语音合成模型的构建方法或者能够实现前述一种个性化语音合成方法。
本发明实施例还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器执行时,能够执行前述个性化语音合成模型的构建方法或者能够实现前述个性化语音合成方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (22)

1.一种个性化语音合成模型的构建方法,其特征在于,包括:
将用户的文本通过语音合成自动标注确定标注信息,所述标注信息包括:发音标注、韵律标注;以及将用户语音数据通过语音识别和语音活动检测,确定音素边界;根据所述发音标注、韵律标注和音素边界,提取出对应的语言学特征;对所述用户的语音数据进行声学特征的提取;
从多说话人语音合成模型的多个说话人的训练集数据中,确定出与用户近似的训练数据;
从所述多个说话人中除了所述近似的训练数据所属的说话人之外,选择与所述用户属于相同类别的同类说话人;
将所述同类说话人在多说话人语音合成模型中的ID和对应的说话人表征输入所述多说话人语音合成模型,并将用户对应的语言学特征、声学特征和所述近似的训练数据共同作为训练数据,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
2.如权利要求1所述的方法,其特征在于,所述从多说话人语音合成模型的多个说话人的训练集数据中,确定出与所述用户近似的训练数据,包括:
从多说话人语音合成模型的多个说话人的训练集数据中,确定出与所述用户相近似的预设数量的邻近说话人的训练数据;和/或确定出与所述用户相近似的预设数量的邻近句子对应的训练数据;
所述训练数据包括语音数据和对应的文本,以及所述文本的语言学特征和所述语音数据的声学特征。
3.如权利要求1所述的方法,其特征在于,与所述用户相近似的预设数量的邻近说话人,通过下述方式确定:
针对用户和所述多个说话人中的每个说话人,分别计算对应的矢量;
分别确定多个说话人中的每个说话人与所述用户的矢量之间的距离并按大小排序,将从距离最小开始的预设数量的说话人确定为邻近说话人。
4.如权利要求2所述的方法,其特征在于,与用户相近似的设定数量的邻近句子,通过下述方式确定:
针对用户以及多个说话人中的每个说话人的每个句子,分别计算对应的矢量;
分别确定多个说话人中的每个说话人的每个句子与用户的矢量之间的距离并按照大小排序,将从距离最小开始的预设数量的句子确定为邻近句子。
5.如权利要求2或4所述的方法,其特征在于,所述对所述用户的语音数据进行声学特征的提取之前,还包括:
对所述语音数据进行包括能量规整、解混响和能量增强的预处理操作。
6.如权利要求1、2、4任一项所述的方法,其特征在于,所述相同类别是指按照说话人的下述条件任一或者组合条件所确定的同一类别:性别、年龄、说话方式和说话环境。
7.一种个性化语音合成模型的构建方法,其特征在于,包括:
将用户的文本通过语音合成自动标注确定标注信息,所述标注信息包括:发音标注、韵律标注;以及将用户语音数据通过语音识别和语音活动检测,确定音素边界;根据发音标注、韵律标注和音素边界,提取出对应的语言学特征;对所述用户的语音数据进行声学特征的提取;
根据预设的场景,从用户的与所述场景对应的至少一个社交网络中选取与所述用户近似的说话人,并获取所述近似的说话人的训练集数据;
从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
将所述同类说话人在多说话人语音合成模型中的ID和对应的说话人表征输入所述多说话人语音合成模型,并将用户对应的语言学特征、声学特征和各场景下所述近似的说话人的训练数据共同作为训练数据,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
8.一种个性化语音合成模型的构建方法,其特征在于,包括:
将用户的文本通过语音合成自动标注确定标注信息,所述标注信息包括:发音标注、韵律标注;以及将用户语音数据通过语音识别和语音活动检测,确定音素边界;根据所述发音标注、韵律标注和音素边界,提取出对应的语言学特征;对所述用户的语音数据进行声学特征的提取;
根据预设的各近似用户集合的优先级,按照优先级高低的顺序,依次在各近似说话人集合中查找与所述用户相似的至少一个近似说话人;
根据查找到的至少一个近似说话人,获取所述至少一个近似说话人的训练集数据;
从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
根据所述至少一个近似的说话人的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型;
将所述同类说话人在多说话人语音合成模型中的ID和对应的说话人表征输入所述多说话人语音合成模型,并将用户对应的语言学特征和声学特征和所述至少一个近似的说话人的训练数据共同作为训练数据,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
9.一种个性化语音合成模型的构建方法,其特征在于,包括:
将用户的文本通过语音合成自动标注确定标注信息,所述标注信息包括:发音标注、韵律标注;以及将用户语音数据通过语音识别和语音活动检测,确定音素边界;根据所述发音标注、韵律标注和音素边界,提取出对应的语言学特征;对所述用户的语音数据进行声学特征的提取;
根据用户的各近似用户集合的优先级,按照优先级高低的顺序依次向所述用户所在客户端推送各级别的近似说话人集合;
接收所述客户端返回的从各级别的近似说话人集合中选择的近似说话人的标识,并根据所述标识获取所述近似说话人的训练集数据;
从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
将所述同类说话人在所述多说话人语音合成模型中的ID和对应的说话人表征输入所述多说话人语音合成模型,并将用户对应的语言学特征、声学特征和所述近似说话人的训练集数据共同作为训练数据,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
10.如权利要求9所述的方法,其特征在于,所述各级别的近似说话人集合,包括下述一项或多项:
所述用户的社交网络的至少一个用户集合;
所述用户的属于同一地理区域的至少一个用户集合;
用户根据自身偏好选择的至少一个用户集合。
11.一种个性化语音合成方法,其特征在于,包括:
对待语音合成的文本进行处理,提取出对应的语言学特征;
将所述语言学特征和用户在个性化语音合成模型训练过程中对应的同类说话人的ID输入至所述个性化语音合成模型中,预测出所述待语音合成的文本对应的声学特征;
根据所述声学特征,合成所述用户与所述文本对应的合成语音;
所述个性化语音合成模型采用如权利要求1-10任一项所述的个性化语音合成模型的构建方法得到。
12.如权利要求11所述的方法,其特征在于,根据所述声学特征,合成所述用户与所述文本对应的合成语音,包括:
利用声码器,将所述声学特征转换成对应的语音。
13.一种个性化语音合成模型的测试方法,其特征在于,包括:
对待语音合成的文本进行处理,提取出对应的语言学特征;
将所述语言学特征和用户在所述个性化语音合成模型训练过程中对应的同类说话人的ID输入至所述个性化语音合成模型中,预测出所述文本对应的声学特征;
根据所述声学特征,合成所述用户与所述文本对应的合成语音;
对所述合成语音进行验证,确定所述个性化语音合成模型是否合格;
所述个性化语音合成模型采用如权利要求1-10任一项所述的个性化的语音合成模型的创建方法得到。
14.根据权利要求1-10任一项所述的个性化语音合成模型的构建方法、根据权利要求11或12所述的个性化语音合成方法以及根据权利要求13所述的个性化语音合成模型的测试方法在有声阅读、智能客服、语音交互、语音播报、机器翻译中的应用。
15.一种个性化语音合成模型的构建装置,其特征在于,包括:
用于将用户的文本通过语音合成自动标注确定标注信息,所述标注信息包括:发音标注、韵律标注;以及将用户语音数据通过语音识别和语音活动检测,确定音素边界;根据发音标注、韵律标注和音素边界,提取出对应的语言学特征;对所述用户的语音数据进行声学特征的提取的模块;
确定模块,用于从多说话人语音合成模型的多个说话人的训练集数据中,确定出与用户近似的训练数据;
选择模块,用于从所述多个说话人中除了所述近似的训练数据所属的说话人之外,选择一个与所述用户属于相同类别的同类说话人;
训练模块,用于将所述同类说话人在多说话人语音合成模型中的ID和对应的说话人表征输入所述多说话人语音合成模型,并将用户对应的语言学特征、声学特征和所述近似的训练数据共同作为训练数据,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
16.一种个性化语音合成模型的构建装置,其特征在于,包括:
用于将用户的文本通过语音合成自动标注确定标注信息,所述标注信息包括:发音标注、韵律标注;以及将用户语音数据通过语音识别和语音活动检测,确定音素边界;根据发音标注、韵律标注和音素边界,提取出对应的语言学特征;对所述用户的语音数据进行声学特征的提取的模块;
第一选择模块,用于根据预设的场景,从用户的与所述场景对应的至少一个社交网络中选取与所述用户近似的用户;
获取模块,用于获取所述近似的说话人的训练集数据;
第二选择模块,用于从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
训练模块,用于将所述同类说话人在多说话人语音合成模型中的ID和对应的说话人表征输入所述多说话人语音合成模型,并将用户对应的语言学特征、声学特征和各场景下所述近似的说话人的训练数据共同作为训练数据,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
17.一种个性化语音合成模型的构建装置,其特征在于,包括:
用于将用户的文本通过语音合成自动标注确定标注信息,所述标注信息包括:发音标注、韵律标注;以及将用户语音数据通过语音识别和语音活动检测,确定音素边界;根据所述发音标注、韵律标注和音素边界,提取出对应的语言学特征;对所述用户的语音数据进行声学特征的提取的模块;
查找模块,用于根据预设的各近似用户集合的优先级,按照优先级高低的顺序,依次在各近似说话人集合中查找与所述用户相似的至少一个近似说话人;
获取模块,用于根据查找到的至少一个近似说话人,获取所述至少一个近似说话人的训练集数据;
选择模块,用于从多个说话人中除了所述近似说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
训练模块,用于将所述同类说话人在多说话人语音合成模型中的ID和对应的说话人表征输入所述多说话人语音合成模型,并将用户对应的语言学特征、声学特征和所述至少一个近似说话人的训练数据共同作为训练数据,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
18.一种个性化语音合成模型的构建装置,其特征在于,包括:
用于将用户的文本通过语音合成自动标注确定标注信息,所述标注信息包括:发音标注、韵律标注;以及将用户语音数据通过语音识别和语音活动检测,确定音素边界;根据所述发音标注、韵律标注和音素边界,提取出对应的语言学特征;对所述用户的语音数据进行声学特征的提取的模块;
推送模块,用于根据用户的各近似用户集合的优先级,按照优先级高低的顺序依次向所述用户所在客户端推送各级别的近似说话人集合;
接收模块,用于接收所述客户端返回的从各级别的近似说话人集合中选择的近似说话人的标识;
获取模块,用于根据所述标识获取所述近似说话人的训练集数据;
选择模块,用于从多个说话人中除了所述近似说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
训练模块,用于将所述同类说话人在所述多说话人语音合成模型中的ID和对应的说话人表征输入所述多说话人语音合成模型,并将用户对应的语言学特征、声学特征和所述近似说话人的训练集数据共同作为训练数据,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
19.一种个性化语音合成装置,其特征在于,包括:
提取模块,用于对待语音合成的文本进行处理,提取出对应的语言学特征;
预测模块,用于将所述语言学特征和用户在个性化语音合成模型训练过程中对应的同类说话人的ID输入至所述个性化语音合成模型中,预测出所述待语音合成的文本对应的声学特征;
语音合成模块,用于根据所述声学特征,合成所述用户与所述文本对应的合成语音;
所述个性化语音合成模型采用如权利要求15-18任一项所述的语音合成模型的构建装置得到。
20.一种个性化语音合成模型的测试装置,其特征在于,包括:
提取模块,用于对待语音合成的文本进行处理,提取出对应的语言学特征;
预测模块,用于将所述语言学特征和用户在个性化语音合成模型训练过程中对应的同类说话人的ID输入至所述个性化语音合成模型中,预测出所述待语音合成的文本对应的声学特征;
语音合成模块,用于根据所述声学特征,合成所述用户与所述文本对应的合成语音;
验证模块,用于对所述合成语音进行验证,确定所述个性化语音合成模型是否合格;
所述个性化语音合成模型采用如权利要求15-18任一项所述的个性化语音合成模型的创建装置得到。
21.一种智能语音服务器,其特征在于,包括:存储器和处理器;其中,所述存储器存储有计算机程序,所述程序被处理器执行时能够实现如权利要求1-10任一项所述的个性化语音合成模型的构建方法,或者能够实现权利要求11或12所述的一种个性化语音合成方法,或者能够实现如权利要求13所述的一种个性化语音合成模型的测试方法。
22.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时能够实现如1-10任一项所述的个性化语音合成模型的构建方法,或者能够实现权利要求11或12所述的一种个性化语音合成方法,或者能够实现如权利要13所述的一种个性化语音合成模型的测试方法。
CN201911184952.2A 2019-11-27 个性化语音合成模型构建、语音合成和测试方法及装置 Active CN112863476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911184952.2A CN112863476B (zh) 2019-11-27 个性化语音合成模型构建、语音合成和测试方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911184952.2A CN112863476B (zh) 2019-11-27 个性化语音合成模型构建、语音合成和测试方法及装置

Publications (2)

Publication Number Publication Date
CN112863476A CN112863476A (zh) 2021-05-28
CN112863476B true CN112863476B (zh) 2024-07-02

Family

ID=

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105206258A (zh) * 2015-10-19 2015-12-30 百度在线网络技术(北京)有限公司 声学模型的生成方法和装置及语音合成方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105206258A (zh) * 2015-10-19 2015-12-30 百度在线网络技术(北京)有限公司 声学模型的生成方法和装置及语音合成方法和装置

Similar Documents

Publication Publication Date Title
Hsu et al. Disentangling correlated speaker and noise for speech synthesis via data augmentation and adversarial factorization
AU2019395322B2 (en) Reconciliation between simulated data and speech recognition output using sequence-to-sequence mapping
Shor et al. Personalizing ASR for dysarthric and accented speech with limited data
KR20190104941A (ko) 감정 정보 기반의 음성 합성 방법 및 장치
CN105593936B (zh) 用于文本转语音性能评价的系统和方法
Kelly et al. Deep neural network based forensic automatic speaker recognition in VOCALISE using x-vectors
CN110998716A (zh) 经由教师-学生学习在话音识别中进行的域自适应
CN112071330B (zh) 一种音频数据处理方法、设备以及计算机可读存储介质
CN109741732A (zh) 命名实体识别方法、命名实体识别装置、设备及介质
CN110246488A (zh) 半优化CycleGAN模型的语音转换方法及装置
KR20190106890A (ko) 감정 정보 기반의 음성 합성 방법 및 장치
Do et al. Preserving word-level emphasis in speech-to-speech translation
CN112185363B (zh) 音频处理方法及装置
CN113205793B (zh) 音频生成方法、装置、存储介质及电子设备
WO2022043712A1 (en) A text-to-speech synthesis method and system, and a method of training a text-to-speech synthesis system
CN114242033A (zh) 语音合成方法、装置、设备、存储介质及程序产品
CN111477210A (zh) 语音合成方法和装置
Sivaprasad et al. Emotional prosody control for speech generation
CN112885326A (zh) 个性化语音合成模型创建、语音合成和测试方法及装置
Ahmad et al. SUST TTS Corpus: A phonetically-balanced corpus for Bangla text-to-speech synthesis
Shechtman et al. Synthesis of Expressive Speaking Styles with Limited Training Data in a Multi-Speaker, Prosody-Controllable Sequence-to-Sequence Architecture.
CN114125506B (zh) 语音审核方法及装置
Cao et al. Emotion recognition from children speech signals using attention based time series deep learning
CN112863476B (zh) 个性化语音合成模型构建、语音合成和测试方法及装置
CN112863476A (zh) 个性化语音合成模型构建、语音合成和测试方法及装置

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant