CN112289303B

CN112289303B - 合成语音数据的方法和装置

Info

Publication number: CN112289303B
Application number: CN201910616259.1A
Authority: CN
Inventors: 王伟楠
Original assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Current assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2024-04-16
Anticipated expiration: 2039-07-09
Also published as: CN112289303A

Abstract

本发明公开了合成语音数据的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：解析指示信息，以确定第一用户的声纹；获取语音数据，并根据所述第一用户的声纹从所述语音数据中识别出第一用户的目标语音数据；根据所述第一用户的目标语音数据，更新所述第一用户对应的目标语料库；获取第二用户的语音数据，并基于所述第二用户的语音数据和更新后的所述第一用户对应的目标语料库，合成响应语音数据。该实施方式在任何时候采集第一用户的目标语音数据，不断更新第一用户的目标语料库，降低了语音学习成本，并且通过第一用户的声音响应第二用户的语音数据，达到第二用户与第一用户的声音自由交流的效果，提高用户体验。

Description

合成语音数据的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种合成语音数据的方法和装置。

背景技术

随着智能音箱的普及，智能语音交流的需求也在日益扩大，用户已经不再满足与陌生的声音进行交流，更希望与熟悉的声音交流。熟悉的声音对于用户而言具有很强的磁性，大多数用户都希望自己熟悉的声音能一直陪伴着自己，比如妈妈的声音、爸爸的声音、孩子的声音、或者已故亲人的声音等等。目前能够满足让熟悉的声音陪伴用户的方法只有录音，然而录音不能形成与用户的互动，具有很大的局限性。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：一、现有智能音箱不能够实现定制特定声音进行合成播放；二、现有录音方法，无法实现与用户进行交流；三、现有合成真人声音的方法，仅针对某些明星等公众人物，不够普及。

发明内容

有鉴于此，本发明实施例提供一种合成语音数据的方法和装置，能够不断更新第一用户的目标语料库，降低了语音学习成本，并且可以达到第二用户与第一用户的声音自由交流的效果，提高用户体验。

为实现上述目的，根据本发明实施例的第一方面，提供了一种合成语音数据的方法。

本发明实施例的一种合成语音数据的方法，包括：解析指示信息，以确定第一用户的声纹；获取语音数据，并根据所述第一用户的声纹从所述语音数据中识别出第一用户的目标语音数据；根据所述第一用户的目标语音数据，更新所述第一用户对应的目标语料库；获取第二用户的语音数据，并基于所述第二用户的语音数据和更新后的所述第一用户对应的目标语料库，合成响应语音数据。

可选地，所述根据所述第一用户的目标语音数据，更新所述第一用户对应的目标语料库，包括：基于预先构建的基础语料库，对所述第一用户的目标语音数据进行切片处理，获得目标语音切片数据；利用所述第一用户对应的目标语料库，对所述目标语音切片数据进行波纹对比，并根据对比结果，更新所述第一用户对应的目标语料库。

可选地，所述利用所述第一用户对应的目标语料库，对所述目标语音切片数据进行波纹对比，并根据对比结果，更新所述第一用户对应的目标语料库，包括：确定所述目标语音切片数据的文本信息；根据所述文本信息，从所述第一用户对应的目标语料库提取出所述目标语音切片数据对应的基准参照数据；对所述目标语音切片数据和所述基准参照数据进行波纹对比；若对比结果超过预设差异值，则将所述目标语音切片数据放入所述第一用户对应的目标语料库中，以完成所述第一用户对应的目标语料库的更新。

可选地，所述基于所述第二用户的语音数据和更新后的所述第一用户对应的目标语料库，合成响应语音数据，包括：对所述第二用户的语音数据进行语义理解处理，获得所述第二用户的语音数据对应的响应文本数据；利用更新后的所述第一用户对应的目标语料库，合成所述响应文本数据对应的响应语音数据。

可选地，解析指示信息，以确定第一用户的声纹，包括：解析所述指示信息，获取第一用户的参照语音数据；对所述第一用户的参照语音数据进行声纹分析，获得所述第一用户的声纹；或者，从所述指示信息中提取预先配置的所述第一用户的声纹。

为实现上述目的，根据本发明实施例的第二方面，提供了一种合成语音数据的装置。

本发明实施例的一种合成语音数据的装置，包括：确定模块，用于解析指示信息，以确定第一用户的声纹；识别模块，用于获取语音数据，并根据所述第一用户的声纹从所述语音数据中识别出第一用户的目标语音数据；更新模块，用于根据所述第一用户的目标语音数据，更新所述第一用户对应的目标语料库；合成模块，用于获取第二用户的语音数据，并基于所述第二用户的语音数据和更新后的所述第一用户对应的目标语料库，合成响应语音数据。

为实现上述目的，根据本发明实施例的第三方面，提供了一种电子设备。

本发明实施例的一种电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本发明实施例的合成语音数据的方法。

为实现上述目的，根据本发明实施例的第四方面，提供了一种计算机可读介质。

本发明实施例的一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现本发明实施例的合成语音数据的方法。

上述发明中的一个实施例具有如下优点或有益效果：通过解析指示信息得到第一用户的声纹，也就是得到指定声音的声纹，能够在任何时候基于第一用户的声纹采集第一用户的目标语音数据，进而可以不断更新第一用户对应的目标语料库，并且通过第一用户的声音响应第二用户的语音数据，达到第二用户与第一用户的声音自由交流的效果，即可以实现用户指定声音与用户之间的自由交流，克服了现有智能音箱不能够实现定制特定声音进行合成播放的技术问题，降低了语音学习成本，进而达到真人语音自由交流普及化的技术效果，提高用户体验。此外，本发明实施例中更新目标语料库的方法中，可以随时对采集到的第一用户的目标语音数据进行切片处理，并将与基准参照数据的波纹差异超过预设差异值的目标切片数据放入目标语料库中，从而可以实现第一用户声音的不断学习，达到持续更新目标语料库的效果，降低第一用户声音的学习成本。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的合成语音数据的方法的主要步骤的示意图；

图2是根据本发明实施例的目标语音切片数据与其对应的基准参照数据进行波纹比对的示意图；

图3是根据本发明实施例的合成语音数据的系统的结构示意图；

图4是根据本发明实施例的更新目标语料库的方法的主要流程的示意图；

图5是根据本发明实施例的合成语音数据的装置的主要模块的示意图；

图6是本发明实施例可以应用于其中的示例性系统架构图；

图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

现有智能音箱无法合成用户指定声音的发声，比如说用户希望智能音箱能够发出用户妈妈的声音，并且通过发出妈妈的声音与用户进行互动交流，但是目前市场上还没有可以满足上述需求的智能音箱。因此，本发明提供一种合成语音数据的方法，能够实现用户指定声音的学习，实现用户指定声音与用户之间的自由交互，降低了语音学习成本，提高用户体验。

图1是根据本发明实施例的合成语音数据的方法的主要步骤的示意图。作为本发明的一个可参考实施例，如图1所示，本发明实施例的合成语音数据的方法的主要步骤可以包括步骤S101至步骤S104。

步骤S101：解析指示信息，以确定第一用户的声纹。其中，指示信息中可以包括第一用户的参照语音数据或者预先设置的第一用户的声纹。此外，本发明实施例中的第一用户是期望听到的声音对应的用户。另外，指示信息中还可以包括发出指示的用户，比如说用户A期望用户B的声音与其进行语音交流，也就是说用户A是步骤S104中的第二用户，用户B就是第一用户，那么指示信息中就包括用户A的声纹，这样就可以实现当智能音箱采集到用户A的语音数据，并且分析该语音数据需要响应时，智能音箱就可以通过用户B的声音响应用户A。指示信息中还可以包括其他信息，比如指示时间信息(即发出指示的时间)以及指示截止时间信息(即该指示的截止时间)等等。具体地，确定指定声纹的方法可以包括：接收指示信息，对指示信息进行解析处理，获得第一用户的参照语音数据；对获得的第一用户的参照语音数据进行声纹分析，得到第一用户的声纹。此种情况可以是指示信息中包括第一用户的参照语音数据，因此可以通过对指示信息进行解析，得到参照语音数据，接着对参照语音数据进行声纹分析，得到第一用户的声纹。这是因为每个人的声纹和指纹类似，具有唯一性，因此可以通过对某用户的语音数据进行声纹分析，得到该用户的声纹。比如说，孩子希望播放的声音是妈妈的声音，那么指示信息中可以包括预先采集的妈妈的语音数据，然后可以根据妈妈的语音数据分析得到妈妈的声纹。

又或者是，确定指定声纹的方法可以包括：从指示信息中提取预先配置的第一用户的声纹。这种情况说明，指示信息中就包括了第一用户的声纹，这样可以直接解析指示信息，就能得到第一用户的声纹。比如说，用户希望听到某明星的声音，网上可以直接搜索到该明星的声纹，那么就可以在指示信息中直接设置该明星的声纹。

本发明实施例中可以利用智能音箱解析指示信息以确定第一用户的声纹，也可以利用云服务器解析指示信息以确定第一用户的声纹。如果本发明实施例是利用智能音箱确定第一用户的声纹的，比如说第一用户是用户A，则可以通过智能音箱采集用户A的语音数据，然后智能音箱可以对采集到的用户A的语音数据进行声纹分析，得到用户A的声纹，这样智能音箱中就存储了用户A的声纹。又或者，如果本发明实施例是利用云服务器确定第一用户的声纹的，比如说第一用户是用户A，则可以通过智能音箱采集用户A的语音数据，然后智能音箱将采集到的用户A的语音数据发送至云服务器，然后云服务器对用户A的语音数据进行声纹分析，得到用户A的声纹，这样云服务器中就存储了用户A的声纹。

步骤S102：获取语音数据，并根据第一用户的声纹从语音数据中识别出第一用户的目标语音数据。

本发明实施例中在步骤S101中确定第一用户的声纹，因此可以在使用过程中，利用智能音箱随时采集语音数据，然后从语音数据中识别出第一用户的目标语音数据，这样从日常使用智能音箱入手，进而可以降低目标语音数据的学习成本，从而能够将真人语音自由交流普及化。如果步骤S101是利用智能音箱确定第一用户的声纹，那么智能音箱可以从采集的语音数据中识别出第一用户的目标语音数据，也就是说，当用户通过智能音箱用户将需要指定声纹设定好后，智能音箱可以随时采集指定声纹对应的目标语音数据。或者是，如果步骤S101是利用云服务器确定第一用户的声纹，那么智能音箱将在任何时候采集到的所有语音数据发送至云服务器，然后云服务器可以从接收的语音数据中识别出第一用户的目标语音数据。又或者是，如果步骤S101是利用云服务器确定第一用户的声纹，并且云服务器将第一用户的声纹返回至智能音箱，那么智能音箱可以直接采集第一用户的目标语音数据。

综上所述，本发明实施例中步骤S101和步骤S102可以通过智能音箱执行，也可以通过云服务器执行，本发明可以根据实际情况设置，对此不作具体限制，这样可以进一步提高本技术方案的实用性。

步骤S103：根据第一用户的目标语音数据，更新第一用户对应的目标语料库。

本发明实施例中在步骤S101确定第一用户的声纹，步骤S102识别出第一用户的目标语音数据之后，在步骤S103中对识别出的目标语音数据进行解析处理，从而可以得到第一用户对应的目标语料库。在步骤S102中提到，智能音箱可以随时采集到语音数据，因此本发明的智能音箱或者云服务器可以在任何时候从语音数据中识别出目标语音数据，这样本发明实施例就可以通过日常交流，获取到目标语音数据，然后利用目标语音数据，对目标语料库进行更新，从而可以利用智能音箱本身实现目标语音数据的学习，降低了学习成本。

本发明实施例中，更新目标语料库是主要创新点。作为本发明的又一个可参考实施例，根据识别出的目标语音数据，更新第一用户对应的目标语料库，可以包括：

步骤S1031：基于预先构建的基础语料库，对第一用户的目标语音数据进行切片处理，获得目标语音切片数据；

步骤S1032：利用第一用户对应的目标语料库，对目标语音切片数据进行波纹对比，并根据对比结果，更新第一用户对应的目标语料库。

可以看出，步骤S1031是基于基础语料库，对目标语音数据进行切片处理，得到至少一个目标语音切片数据，然后在步骤S1032中，依次将得到的目标语音切片数据进行波纹对比，从而可以完成对目标预料库的更新。此处需要注意的是，由于本发明实施例中音箱设备可以随时采集语音数据，得到第一用户的目标语音数据，实现目标语音数据的不断学习积累，达到利用音箱设备实现目标语音数据学习的结果，进而可以不断更新目标语料库。需要注意的是，初始时期目标语料库为空，这时候是用切片处理得到的目标语音切片数据与基础语料库中的对应数据进行对比的。本发明实施例中预先构建的基础语料库相当于是标准语料库，比如说，普通话是以北方话(官话)为基础方言，以典范的现代白话文著作为语法规范的现代标准汉语，那么可以将预先基于普通话构建的语料库定义为标准语料库。

为了便于理解，此处详细介绍步骤S1031的实现方法。本发明实施例中目标语音切片数据的获取方法可以包括语音识别、确认切片划分以及语音切片截取三个部分。

(1)语音识别就是将识别的目标语音数据编码转译为文本数据，目前语义理解技术已经很完善，并且已经广泛应用于各大领域，因此本发明实施例中对于语音识别的具体实现方法不作详细描述。

(2)确认切片划分是确认转译得到的文本数据中涉及到的基础语料库中的内容，举例说明，识别的目标语音数据涉及到汉语中21个声母、37个韵母、4个声调等组合的3000多个语音，则预先构建的基础语料库是3000多个标准文本数据以及标准语音数据，此时利用这3000多个标准文本数据对转译的文本数据进行切片划分，得到多个切片文本数据。

(3)语音切片截取是将切片划分的结果在识别的目标语音数据中进行对应的语音截取。比如说，将识别的目标语音数据进行编码转译得到文本数据“今天，弟弟吃了一大碗米饭，真棒”，然后用构建的基础语料库对文本数据进行切片，得到的切片文本数据为“今天”、“弟弟”、“吃了”、“一大碗”、“米饭”和“真棒”，则将这些切片文本数据在识别的目标语音数据中进行对应的语音截取，这样就可以得到这些切片文本数据对应的第一用户的发音，如果第一用户的声纹是利用妈妈的语音数据分析得到的，那么就可以得到妈妈发出这些切片文本数据的声音、语调以及语气等信息。

综上所述，可以得到目标语音切片数据，如果预先构建了有3000多个标准文本数据以及标准语音数据组成的基础语料库，当在目标预料库中存在这3000多个标准文本数据对应的第一用户的语音数据，再合成语句就相当于将多个单个的语音数据串联起来播放。

在描述了目标语音切片数据的获取方法之后，接下来描述是否应该将得到目标语音切片数据放入目标语料库中，也就是判断现有的目标语料库中是否已经存在得到的目标语音切片数据，也就是说如何完成第一用户对应的目标语料库的更新。作为本发明的再一个可参考实施例，更新第一用户对应的目标语料库的方法可以包括：

步骤S10321：确定目标语音切片数据的文本信息，此处的文本信息可以是目前语音切片数据对应的文本，比如说目标语音切片数据是妈妈说的“明天”，则对应的文本信息就是明天；

步骤S10322：根据文本信息，从第一用户对应的目标语料库提取出目标语音切片数据对应的基准参照数据，其中基准参照数据是指目标预料库已近存储的该文本信息对应的语音数据，比如说目标语音切片数据是妈妈说的“明天”，则对应的文本信息就是明天，那么基准参照数据可以是妈妈昨天说的“明天”，也可以是妈妈用方言说的“明个儿”，这些基准参照数据的共同部分是它们对应的文本信息是相同的，因此本发明实施例中可以根据本文信息，从现有的目标语料库中提取目标语音切片数据对应的基准参照数据；

步骤S10323：对目标语音切片数据和基准参照数据进行波纹对比，在步骤S10322提取到现有的目标语料库中存储的基准参照数据，那么就通过波纹对比，得到基准参数数据与该目标语音切片数据的对比结果，语音数据均为音频文件，而音频文件具有波纹形态，每个人声音的波纹形态会随着年龄、生理等因素的影响有差异，此步骤的波纹对比是将两个音频文件图形化，在图形化基础上进行对比；

步骤S10324：若对比结果超过预设差异值，则将目标语音切片数据放入目标预料库中，以完成目标预料库的更新，此步骤是在目标语音切片数据与基准参照数据的对比结果超过预设差异值的情况下，说明可以将目标语音切片数据放入目标语料库中，如果目标语音切片数据与基准参照数据的对比结果没有超过预设差异值，则说明目标语音切片数据与基准参照数据的发音类似，即不需要再次存储该目标语音切片数据了。

此外还需要注意的是，本发明实施例中现有的目标语料库中可能包括至少一个基准参照数据，因此需要逐一将目标语音切片数据与其对应的所有基准参照数据进行波纹对比，直到目前语音切片数据与其对应的所有基准参数数据的波纹比对结果大于预设差异值，才可以将该目标语音切片数据放入目标预料库中。只要与其中一个基准参照数据的波纹比对结果小于预设差异值，就退出比对，此时说明现有目标语料库中已经有类似发音，即不再存储。这样，就可以持续对目标预料库进行更新，举例来说，如果基础库里有个词是“吃饭”，湖北话叫“恰饭”，当语音解析那里解析出方言为吃饭后，云服务器将吃饭的语音切片数据放入目标语料库，当以后要合成“妈妈叫你吃饭”播放出来就是“妈妈叫你恰饭”。

图2是根据本发明实施例的目标语音切片数据与其对应的基准参照数据进行波纹比对的示意图。目前语音切片数据对应的基准参照数据是目标预料库中已经存储的语音数据。图2中的n代表基准参数数据的个数，不确定数量的多少，上文中提到每个人声音的波纹形态会随着年龄、生理等因素的影响有差异，因此声纹的波纹会受到影响，因此会产生多个基准参照数据。另外，从图2可以看出，预设差异值可以设置为30％，但是本发明实施例不限于设置为30％，可以根据实际情况进行调整。在图2中，将目标语音切片数据逐一与基准参照数据进行波纹对比，差异度大于等于30％后，继续比对，直到全部波纹比对结果均大于等于30％，将该目标语音切片数据存入目标语料库中。其中，有一个波纹比对结果小于30％，就退出比对，说明目标语料库中已经有类似音频发音，即不再存储。

此外，针对某一文本信息，可能存在目标语料库中包括该文本信息对应的多个彼此差异值超过预设差异值的语音数据，此种情况下，可以根据语音数据加入目标语料库的时间，选择最晚加入目标语料库的语音数据，也可以对同一文本信息对应的多个彼此差异值超过预设差异值的语音数据进行波纹综合，最后去中间值作为合成发音的发音数据。举例说明，因为人在成长过程中，声音是变化的，为了保证播放的声音的真实性，播放时候可以截取最近几年的语音数据进行合成，合成的目的是为了保证不以某一次为准，对多次声纹进行波纹综合处理后，得到的声音最接近现阶段的发音。

步骤S104：获取第二用户的语音数据，并基于第二用户的语音数据和更新后的第一用户对应的目标语料库，合成响应语音数据。

上文详细描述了第一用户的目标语料库的更新过程，步骤S104介绍在获取更新后的目标语料库之后，利用最新的目标语料库合成响应语音数据。此处需要注意的是，此处的更新后的目标语料库是指在获取第二用户的语音数据的情况下，此时的目标语料库为最新的目标语料库，这是由于本发明实施例的智能音箱可以随时采集目标语音数据，因此会不断对目标语料库进行更新。另外，第二用户的语音数据是智能音箱采集的需要响应的语音数据。比如说，第一用户是妈妈，第二用户是宝宝，通过上述步骤S101至S103，得到了妈妈的语料库。在妈妈上班时，宝宝希望听到妈妈的声音讲故事，则宝宝可以对着智能音箱说“请讲个故事”，然后智能音箱就会用妈妈的声音讲故事。此时，宝宝是第二用户，“请讲个故事”是获取的第二用户的语音数据。智能音箱用妈妈的声音播放的故事就是针对宝宝提出的请求的响应语音数据。此外，本发明实施例中需要注意的是，第一用户与第二用户可以相同，第一用户与第二用户也可以不同，本发明对比不作限制。

作为本发明的再一个可参考实施例，基于第二用户的语音数据和更新后的第一用户对应的目标语料库，合成响应语音数据，可以包括：

步骤S1041：对第二用户的语音数据进行语义理解处理，获得第二用户的语音数据对应的响应文本数据；

步骤S1042：利用更新后的第一用户对应的目标语料库，合成响应文本数据对应的响应语音数据，具体实现为，对响应文本数据进行文本分析，获得至少一个响应文本子数据，从第一用户对应的目标语料库中，抽取响应文本子数据对应的响应语音子数据，合成响应语音子数据，得到响应语音数据。图3是根据本发明实施例的合成语音数据的系统的结构示意图。从图3中可以看出，本发明实施例的合成语音数据的系统包括：智能音箱和云服务器两部分。

从图3可以看出，智能音箱包括：音箱麦克风阵列模块、音频解码模块、语音算法本地处理模块、音频存储模块、音效模块和无线通信模块。由于音箱麦克风阵列模块、音频解码模块、语音算法本地处理模块、音频存储模块、音效模块与现有的智能音箱没有区别，此处不再详细解释。对于本发明实施例的无线通信模块，在上文步骤S101和步骤S102提到，可以利用智能音箱直接设定指定声纹，然后直接利用该智能音箱采集到指定声纹对应的目标语音数据，因此无线通信模块可以实现步骤S101和步骤S102。

如图3所示，云服务端可以包括语音学习/合成部分和语义理解部分组成。其中，语音学习/合成部分用于更新目标语料库，上文已经详细介绍目标语料库的更新过程，此处也不再累述。语义理解部分与现有技术中的语音理解相同，此处也不详细阐述。此处需要注意的是，为了便于理解，上述描述的步骤S103和步骤S104的执行主体均为云服务器，但是步骤S103和步骤S104的执行主体也可以是智能音箱，此时音箱需要具有图3所示的语音学习/合成部分单元和语音理解单元，本发明上述描述仅是为了便于理解，具体可以结合实际情况设置。

本发明实施例的合成语音数据的方法包括更新目标语料库和利用目标预料合成响应语音数据两部分。其中，利用目标预料合成响应语音数据在上述步骤S1041和S1042中已经详细介绍，此处不在做描述。图4是根据本发明实施例的更新目标语料库的方法的主要流程的示意图。如图4所示，本发明实施例的更新目标语料库的方法的主要流程可以包括：

步骤S401：解析指示信息，获取第一用户的参照语音数据；

步骤S402：对第一用户的参照语音数据进行声纹分析，获得第一用户的声纹；

步骤S403：获取语音数据，并根据第一用户的声纹从语音数据中识别出第一用户的目标语音数据；

步骤S404：基于预先构建的基础语料库，对第一用户的目标语音数据进行切片处理，获得目标语音切片数据；

步骤S405：确定目标语音切片数据的文本信息；

步骤S406：根据文本信息，从第一用户对应的目标语料库提取出目标语音切片数据对应的基准参照数据；

步骤S407：对目标语音切片数据和基准参照数据进行波纹对比；

步骤S408：判断对比结果是否超过预设差异值，若是，则执行步骤S409：

步骤S409：将目标语音切片数据放入目标预料库中，以完成目标预料库的更新。

需要注意的是，若指示信息中包括第一用户的参照语音数据，则可以执行上述步骤S401和步骤S402，这样确定第一用户的声纹。若指示信息中包括预先设置的第一用户的声纹，则解析指示信息，就可以直接获取到第一用户的声纹。

根据本发明实施例的合成语音数据的技术方案，通过解析指示信息得到第一用户的声纹，也就是得到指定声音的声纹，能够在任何时候基于第一用户的声纹采集第一用户的目标语音数据，进而可以不断更新第一用户对应的目标语料库，并且通过第一用户的声音响应第二用户的语音数据，达到第二用户与第一用户的声音自由交流的效果，即可以实现用户指定声音与用户之间的自由交流，克服了现有智能音箱不能够实现定制特定声音进行合成播放的技术问题，降低了语音学习成本，进而达到真人语音自由交流普及化的技术效果，提高用户体验。此外，本发明实施例中更新目标语料库的方法中，可以随时对采集到的第一用户的目标语音数据进行切片处理，并将与基准参照数据的波纹差异超过预设差异值的目标切片数据放入目标语料库中，从而可以实现第一用户声音的不断学习，达到持续更新目标语料库的效果，降低第一用户声音的学习成本。

图5是根据本发明实施例的合成语音数据的装置的主要模块的示意图。如图5所示，本发明实施例的合成语音数据的装置500主要包括以下模块：确定模块501、识别模块502、更新模块503和合成模块504。

其中，确定模块501可用于解析指示信息，以确定第一用户的声纹；识别模块502可用于获取语音数据，并根据第一用户的声纹从语音数据中识别出第一用户的目标语音数据；更新模块503可用于根据第一用户的目标语音数据，更新第一用户对应的目标语料库；合成模块504可用于获取第二用户的语音数据，并基于第二用户的语音数据和更新后的第一用户对应的目标语料库，合成响应语音数据。

本发明实施例中，更新模块503还可用于：基于预先构建的基础语料库，对第一用户的目标语音数据进行切片处理，获得目标语音切片数据；利用第一用户对应的目标语料库，对目标语音切片数据进行波纹对比，并根据对比结果，更新第一用户对应的目标语料库。

本发明实施例中，更新模块503还可用于：确定目标语音切片数据的文本信息；根据文本信息，从第一用户对应的目标语料库提取出目标语音切片数据对应的基准参照数据；对目标语音切片数据和基准参照数据进行波纹对比；若对比结果超过预设差异值，则将目标语音切片数据放入第一用户对应的目标语料库中，以完成第一用户对应的目标语料库的更新。

本发明实施例中，合成模块504还可用于：对第二用户的语音数据进行语义理解处理，获得第二用户的语音数据对应的响应文本数据；利用更新后的第一用户对应的目标语料库，合成响应文本数据对应的响应语音数据。

本发明实施例中，确定模块501还可用于：解析指示信息，获取第一用户的参照语音数据；对第一用户的参照语音数据进行声纹分析，获得第一用户的声纹；或者，从指示信息中提取预先配置的第一用户的声纹。

从以上描述可以看出，本发明实施例的合成语音数据的装置通过解析指示信息得到第一用户的声纹，也就是得到指定声音的声纹，能够在任何时候基于第一用户的声纹采集第一用户的目标语音数据，进而可以不断更新第一用户对应的目标语料库，并且通过第一用户的声音响应第二用户的语音数据，达到第二用户与第一用户的声音自由交流的效果，即可以实现用户指定声音与用户之间的自由交流，克服了现有智能音箱不能够实现定制特定声音进行合成播放的技术问题，降低了语音学习成本，进而达到真人语音自由交流普及化的技术效果，提高用户体验。此外，本发明实施例中更新目标语料库的方法中，可以随时对采集到的第一用户的目标语音数据进行切片处理，并将与基准参照数据的波纹差异超过预设差异值的目标切片数据放入目标语料库中，从而可以实现第一用户声音的不断学习，达到持续更新目标语料库的效果，降低第一用户声音的学习成本。

图6示出了可以应用本发明实施例的合成语音数据的方法或合成语音数据的装置的示例性系统架构600。

如图6所示，系统架构600可以包括终端设备601、602、603，网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备601、602、603通过网络604与服务器605交互，以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器605可以是提供各种服务的服务器，例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的合成语音数据的方法一般由服务器605执行，相应地，合成语音数据的装置一般设置于服务器605中。

应该理解，图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图7，其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括确定模块、识别模块、更新模块和合成模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，确定模块还可以被描述为“解析指示信息，以确定第一用户的声纹的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：解析指示信息，以确定第一用户的声纹；获取语音数据，并根据所述第一用户的声纹从所述语音数据中识别出第一用户的目标语音数据；根据所述第一用户的目标语音数据，更新所述第一用户对应的目标语料库；获取第二用户的语音数据，并基于所述第二用户的语音数据和更新后的所述第一用户对应的目标语料库，合成响应语音数据。

根据本发明实施例的技术方案，通过解析指示信息得到第一用户的声纹，也就是得到指定声音的声纹，能够在任何时候基于第一用户的声纹采集第一用户的目标语音数据，进而可以不断更新第一用户对应的目标语料库，并且通过第一用户的声音响应第二用户的语音数据，达到第二用户与第一用户的声音自由交流的效果，即可以实现用户指定声音与用户之间的自由交流，克服了现有智能音箱不能够实现定制特定声音进行合成播放的技术问题，降低了语音学习成本，进而达到真人语音自由交流普及化的技术效果，提高用户体验。此外，本发明实施例中更新目标语料库的方法中，可以随时对采集到的第一用户的目标语音数据进行切片处理，并将与基准参照数据的波纹差异超过预设差异值的目标切片数据放入目标语料库中，从而可以实现第一用户声音的不断学习，达到持续更新目标语料库的效果，降低第一用户声音的学习成本。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种合成语音数据的方法，其特征在于，包括：

解析指示信息，以确定第一用户的声纹；

获取语音数据，并根据所述第一用户的声纹从所述语音数据中识别出第一用户的目标语音数据；

根据所述第一用户的目标语音数据，更新所述第一用户对应的目标语料库；其中包括：基于预先构建的基础语料库，对所述第一用户的目标语音数据进行切片处理，获得目标语音切片数据；确定所述目标语音切片数据的文本信息；根据所述文本信息，从所述第一用户对应的目标语料库提取出所述目标语音切片数据对应的基准参照数据；对所述目标语音切片数据和所述基准参照数据进行波纹对比；若对比结果超过预设差异值，则将所述目标语音切片数据放入所述第一用户对应的目标语料库中，以完成所述第一用户对应的目标语料库的更新；

获取第二用户的语音数据，并基于所述第二用户的语音数据和更新后的所述第一用户对应的目标语料库，合成响应语音数据。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第二用户的语音数据和更新后的所述第一用户对应的目标语料库，合成响应语音数据，包括：

对所述第二用户的语音数据进行语义理解处理，获得所述第二用户的语音数据对应的响应文本数据；

利用更新后的所述第一用户对应的目标语料库，合成所述响应文本数据对应的响应语音数据。

3.根据权利要求1所述的方法，其特征在于，解析指示信息，以确定第一用户的声纹，包括：

解析所述指示信息，获取第一用户的参照语音数据；对所述第一用户的参照语音数据进行声纹分析，获得所述第一用户的声纹；或者，

从所述指示信息中提取预先配置的所述第一用户的声纹。

4.一种合成语音数据的装置，其特征在于，包括：

确定模块，用于解析指示信息，以确定第一用户的声纹；

识别模块，用于获取语音数据，并根据所述第一用户的声纹从所述语音数据中识别出第一用户的目标语音数据；

更新模块，用于根据所述第一用户的目标语音数据，更新所述第一用户对应的目标语料库；其中用于：基于预先构建的基础语料库，对所述第一用户的目标语音数据进行切片处理，获得目标语音切片数据；确定所述目标语音切片数据的文本信息；根据所述文本信息，从所述第一用户对应的目标语料库提取出所述目标语音切片数据对应的基准参照数据；对所述目标语音切片数据和所述基准参照数据进行波纹对比；若对比结果超过预设差异值，则将所述目标语音切片数据放入所述第一用户对应的目标语料库中，以完成所述第一用户对应的目标语料库的更新；

合成模块，用于获取第二用户的语音数据，并基于所述第二用户的语音数据和更新后的所述第一用户对应的目标语料库，合成响应语音数据。

5.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-3中任一所述的方法。

6.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-3中任一所述的方法。