CN109427325B

CN109427325B - 语音合成字典分发装置、语音合成系统以及程序存储介质

Info

Publication number: CN109427325B
Application number: CN201810971707.5A
Authority: CN
Inventors: 森纮一郎; 平林刚; 森田真弘; 大谷大和
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2017-08-29
Filing date: 2018-08-24
Publication date: 2022-11-18
Anticipated expiration: 2038-08-24
Also published as: US20190066656A1; CN109427325A; JP2019040166A; JP7013172B2; US10872597B2

Abstract

一种语音合成字典分发装置，将用于执行语音合成的字典分发至终端，包括：用于语音合成字典数据库的存储装置，储存：包括说话人的声学模型并且与所述说话人的识别信息相关联的第一字典；包括使用多个说话人的声音数据生成的声学模型的第二字典；以及与第二字典一起使用的且与说话人的识别信息相关联的说话人的参数集；确定第一字典和第二字典中的哪一个将在终端中用于特定说话人的处理器；和输入输出接口，接收从终端发送的说话人的识别信息，随后基于所接收的说话人的识别信息和处理器的确定结果分发第一字典、第二字典、和第二字典的参数集中的至少一个。

Description

语音合成字典分发装置、语音合成系统以及程序存储介质

相关申请的交叉引用

本申请要求于2017年8月29日提交的日本专利申请No.2017-164343的优先权权益，其整个内容在此通过引用并入本申请。

技术领域

本发明的实施方式涉及语音合成字典分发装置、语音合成字典分发系统、以及程序存储介质。

背景技术

近年来，随着语音合成技术的发展，能够通过用户输入文本生成各种说话人的被合成的语音(有时简称为“合成语音”)。

对于语音合成技术，考虑以下两种类型的方法：(1)直接对对象说话人的声音建模的方法；和(2)通过能够通过操作参数(本征音、多元回归HSMM等，稍后描述)生成各种声音的方案，估计与对象说话人的声音一致的参数的方法。一般来说，方法(1)的优点是可以更好地模仿对象说话人的声音，而方法(2)的优点在于用于指定对象说话人的声音所需的数据可以更小，即只是一组参数而不是整个语音模型。最近，通过使用这种语音合成技术，提供语音合成的功能或应用的语音合成服务作为网络服务已为人所知。例如，如果用户在诸如PC、PDA、智能电话等终端上选择说话人并在终端上输入文本，则用户可以接收用户希望说话人所说的任何话语的合成语音。这里，用户指的是利用语音合成服务使用各种合成语音的个人或组织，而说话人是指提供他/她自己的话语样本以生成语音合成字典、并且其合成语音由用户使用的人。如果用户已经创建了他/她自己声音的语音合成字典，则还可以选择该用户作为说话人。在Web服务中，说话人的合成声音和自己的声音通常用作人机界面，以通过网络在两个或多个用户之间进行通信，并且该界面设置在诸如服务器、PC、PDA、智能手机之类的硬件上。

在通过网络上的语音合成服务提供多个说话人的合成语音的情形下，存在以下两种类型的方法：(a)通过在连接至网络的服务器上切换说话人并将它们发送到用户终端来产生合成语音的方法；和(b)将所需语音合成字典(下文有时称为“字典”)发送到在终端中运行的语音合成引擎的方法。然而，在方法(a)中，除非终端始终连接到网络，否则不能合成声音。在方法(b)中，尽管终端不需要经常连接到网络，但要分发的字典的大小或数量受到终端的硬件规格的强烈限制。例如，考虑这样的情况：一个或多个用户想要在单个终端上使用1000个不同的说话人以使应用程序从SNS读取许多消息。传统上，在这种情况下，在每个说话人的字典中指定分发条件(例如字典尺寸)，并且需要向终端分发1000个语音合成字典。因此，有必要在终端上储存和管理1000个语音合成字典。由于网络频带或终端存储容量的限制向终端分发如此大量的字典并在其上管理它们是不现实的。此外，存在的问题是难于在不是经常连接到网络的终端上实现使用多个说话人的应用程序。

发明内容

根据一个实施方式，一种语音合成字典分发装置，将用于执行语音合成的字典分发至终端，包括：用于语音合成字典数据库的存储装置，该存储装置储存包括说话人的声学模型并且与所述说话人的识别信息相关联的第一字典，并储存包括使用多个说话人的声音数据生成的声学模型的第二字典，并储存与所述第二字典一起使用的、且与所述说话人的识别信息相关联的说话人的参数集；处理器，确定将在所述终端中用于特定说话人的所述第一字典和所述第二字典中的一个；和输入输出接口，接收从所述终端发送的说话人的识别信息，随后基于所接收的说话人的识别信息和由所述处理器所提供的确定结果，分发第一字典、所述第二字典、和所述第二字典的参数集中的至少一个。

附图说明

图1是表示根据第一实施方式的语音合成字典分发系统的框图；

图2示出了根据第一实施方式的字典分发服务器100的语音合成字典DB105中存储的数据表的示例；

图3示出了根据第一实施方式的存储在终端110的语音合成字典DB114中的数据表的示例；

图4是根据第一实施方式的字典分发服务器100的字典分发的处理流程；

图5是根据第一实施方式的字典分发服务器100的字典生成(S401)的更详细的处理流程；

图6是根据第一实施方式的终端110的处理流程；

图7示出了根据第一实施方式的终端110的语音合成(S603)的更详细的处理流程；

图8是根据第二实施方式的字典分发服务器100的框图；

图9是根据第二实施方式的字典分发服务器100的字典分发的处理流程；

图10是根据第二实施方式的说话人重要度表1001的示例；

图11是根据第三实施方式的字典分发服务器100的框图；

图12是根据第三实施方式的字典分发服务器100的字典分发的处理流程；

图13示出了根据第三实施方式的说话人再现度表1401的示例；

图14是示出根据第三实施方式的估计说话人再现度的方法的例子的处理流程；

图15是示出根据第四实施方式的语音合成系统的框图；

图16是根据第四实施方式的语音合成服务器1500的处理流程；

图17是根据第四实施方式的字典加载(S1601)的更详细的处理流程；以及

图18示出了根据第四实施方式的说话人请求频度表1801的示例。

图19是示意性示出根据实施方式的字典分发服务器的示例性硬件结构的框图。

具体实施方式

在下文中，将参考附图描述实施方式。在以下描述中，相同的附图标记被分配给相同的构件，并且适当地省略对已描述构件的描述。

(第一实施方式)

图1是示出根据第一实施方式的语音合成字典分发系统的框图。语音合成字典分发系统包括字典分发服务器100和终端110，它们通过网络120相互连接。这里，“终端”表示至少一个终端，有时包括多个终端。

字典分发服务器100包括说话人数据库(DB)101、第一字典生成单元102、第二字典生成单元103、条件确定单元104、语音合成字典DB105、通信状态测定单元106、和收发单元107。终端110包括输入单元111、收发单元112、字典管理单元113、语音合成字典DB 114、合成单元115、和输出单元116。

字典分发服务器100具有硬件结构，例如包括CPU、ROM、RAM、I/F和存储装置。这些部件或元件通常包括电路配置。稍后将描述这种硬件结构的详细说明。

说话人DB101存储一个或多个说话人的所记录的声音和记录文本。说话人DB101安装在字典合成服务器100的存储装置或ROM中。使用所记录的声音和记录文本生成第一字典和第二字典(下文中称为“第一字典”和“第二字典”，有时简称为“字典”。这里，“字典”表示至少一个字典，并且在实施方式中可以包括多个字典)。

第一字典生成单元102生成第一字典，其是根据所记录的说话人的声音和说话人DB101中的记录文本生成的语音合成字典。第二字典生成单元103生成第二字典，其是根据储存在说话人DB101中的一个或多个说话人的所记录的声音生成的，并估计每个说话人的一组参数。第一字典和第二字典的生成由语音合成服务器100中的CPU控制。

第一字典是一种只能合成特定说话人的声音的字典。每个说话人有不同的字典，例如说话人A的字典、说话人B的字典、和说话人C的字典。

另一方面，第二字典是一种通用字典，通过输入每个说话人的参数集(由N维矢量表示)，可借助该词典合成多个说话人的声音。譬如，能够借助相同的第二字典通过分别输入说话人A、说话人B、和说话人C的参数集来合成说话人A、说话人B、和说话人C的语音(下文将详细描述)。

对于各个说话人的第一字典、第二字典和估计的参数集储存在语音合成字典DB105中。合成字典DB105安装在字典分发服务器100的存储装置中。

语音合成字典DB105例如储存图2所示的数据表201。数据表201包括说话人ID202的字段，其是每个说话人的识别信息，一个用于第一字典的文件名203，一个用于与第二字典一起使用的说话人参数集204。在本实施方式中，说话人参数集由七维矢量表示，其每个元素取0到100范围内的值，并表示说话人的声音质量特征。

当存在来自终端的字典分发请求时，条件确定单元104确定第一字典和第二字典中的哪一个将在终端中用于特定的每个说话人。在本实施方式中，网络120的通信状态由通信状态测定单元106测量，并用作确定标准。收发单元107接收来自终端110的请求并将字典分发给它。

终端110包括输入单元111、收发单元112、字典管理单元113、语音合成字典DB114、合成单元115、和输出单元116。输入单元111获取要合成的文本和要使用的一个或多个说话人。收发单元112将由输入单元111获取的这样的说话人的列表(即说话人ID列表)发送至字典分发服务器100，并从其接收字典或说话人参数。

字典管理单元113参照终端中的语音合成字典DB 114，并确定终端110是否已经从字典分发服务器100接收到说话人ID列表中的每个说话人的第一字典、和第二字典的说话人参数集。在既没有为说话人ID列表中的说话人分发第一字典，也没有分发说话人参数集的情形下，字典管理单元113将字典分发请求发送至字典分发服务器100。进一步地，在第一字典或第二字典的参数集已经从字典分发服务器100分发的情况下，字典管理单元113确定第一字典和第二字典中的哪一个用于合成语音。

终端的语音合成字典DB 114例如存储图3所示的数据表301。数据表301包括说话人ID 302的字段，该字段将在字典分发请求中发送至字典分发服务器100，一个用于从字典分发服务器100分发的第一字典文件名303，并且一个用于与第二字典一起使用的说话人参数304。与存储在字典分发服务器100的语音合成字典DB105中的数据表201不同，尚未分发的第一字典和说话人参数集的值由数据表301中的空白表示。字典管理单元113基于数据表中的相应条目是否为空白来确定是否已经为用于语音合成的说话人ID分发了第一字典或说话人参数集。此外，第二字典也与数据表301分开地存储在语音合成字典DB 114中。

合成单元115使用第一字典或第二字典和参数集的组合，来根据文本合成语音。输出单元116再现合成语音。

图4是根据本实施方式的字典分发服务器100的字典分发的处理流程图。首先，例如，当用户激活或登录本实施方式的系统时，字典分发服务器100中的第一字典生成单元102和第二字典生成单元103参考说话人DB101生成字典(S401)。将在下文详细描述字典生成。随后，字典分发服务器100的收发单元107从终端110接收字典分发请求(S402)。在字典分发请求中，终端110将声音将被合成的说话人的说话人ID发送到字典分发服务器100。例如，在终端110中合成了1000个说话人的声音的情形下，字典分发服务器100接收1000个说话人的ID。随后，通信状态测定单元106测定字典分发服务器100和终端110之间的通信状态(S403)。这里，通信状态是在条件确定单元104中的确定中使用的指标，并且例如包括网络的通信速度、网络上的通信量的测量值等。可以使用任何指标，只要它可以确定通信状态即可。

随后，条件确定单元104确定在S403中测定的通信状态是否等于或大于阈值(S404)。在通信状态等于或大于阈值，即判断为“好”的情形下，对于每个接收的说话人ID(S404中的“是”)，通过收发单元112将第一字典分发到终端110。在通信状态小于阈值，即判断为“坏”的情形下(S404中的“否”)，通过收发单元112将参数集分发到终端110，而不是第一字典。由于参数集在数据量方面小于字典，因此可以减少通信量。然后，字典分发服务器100的处理结束。

图5为根据本实施方式的字典分发服务器100的字典生成(S401)的更详细的处理流程图。首先，字典分发服务器100的第一字典生成单元102确定是否存在每个说话人的第一字典(S501)。如果不存在第一字典(S501中的“否”)，则处理进入S502。例如，当存储在说话人DB101的说话人中存在尚未生成第一字典的说话人时，或当特定的用户第一次使用本实施方式的系统时，或当通过终端110的输入单元111输入消息“再次生成第一字典”时或类似情形时，可能会发生这种情况。在存在第一字典的情况下(S501中的“是”)，生成第一字典的过程结束。例如，当用户先前已经使用过系统并且已经生成了对象说话人的第一字典时，就会发生这种情况。

在S502中，第一字典生成单元102参考说话人DB101并根据所记录的说话人的声音和相应的记录文本生成说话人的第一字典。这里，从所记录的声音中提取声学特征，从记录文本中提取语言特征，并且学习表示从语言特征到声学特征的映射的声学模型。随后，用于一个或多个声学特征(例如频谱、音色、时间长度等)的声学模型被组合成一个并用作第一字典。由于第一字典生成方法的细节通常被称为HMM语音合成(非专利文献1)，因此这里省略其详细描述。所生成的第一字典与说话人ID相关联地存储在语音合成字典DB105中。

(非专利文献1)K.Tokuda"Speech Synthesis on the basis of Hidden MarkovModels,"in Proceedings of the IEEE,vol.101,no.5,pp.1234-1252,2013.

说话人的所记录的声音与相应的记录文本相关联并储存在说话人DB101中。譬如，说话人读取终端110的显示单元(图1中未示出)上显示的每个记录文本，通过输入单元111(例如麦克风或声音传感器)获取说话人读取的声音。随后，所获取的声音通过收发单元112和网络120发送到字典分发服务器100，并与记录文本相关联地储存在说话人DB101中。可替换地，可以通过字典分发服务器100的输入单元(图1中未示出)直接获取声音。该输入单元是与输入单元111不同的另一个，但基本相似(例如麦克风或声音传感器)。这里，可以将一组准备好的文本预先储存在说话人DB101或终端110中作为记录文本。可替换地，记录文本可以由说话人或系统管理员等使用终端110的输入单元111或字典分发服务器100的输入单元(图1中未示出)输入。并且，可以进行声音识别，使得所获取的声音被转换为文本并用作记录文本。然后，第一字典生成过程结束。

接下来，将描述第二字典的生成。首先，例如，当用户激活或登录本实施方式的系统时，字典分发服务器100中的第二字典生成单元103确定是否存在第二字典(S503)。在存在第二字典的情况下(S503中的“是”)，处理进入S506。

在没有第二字典的情况下(S503中的“否”)，第二字典生成单元103生成第二字典(S504)。这里，例如使用储存在说话人DB101中的多个说话人的声学特征。不同于为每个说话人所生成的第一字典，第二字典是单个字典。由于诸如本征音(非专利文献2)、多元回归HSMM(非专利文献3)、和聚类自适应训练(非专利文献4)的几种方法已知为用于产生第二字典的方法，这里省略说明。

(非专利文献2)K.Shichiri et al."Eigenvoices for HMM-based speechsynthesis,"in Proceedings of ICSLP-2002.

(非专利文献3)M.Tachibana et al."A technique for controlling voicequality of synthetic speech using multiple regression HSMM,"in Proceedings ofINTERSPEECH 2006.

(非专利文献4)Y.Ohtani et al."Voice quality control using perceptualexpressions for statistical parametric speech synthesis on the basis ofcluster adaptive training,"in Proceedings of INTERSPEECH 2016.

优选地，根据性别、年龄等以良好平衡的方式包括用于创建第二字典的说话人的声学特征。例如，包括每个说话人的性别和年龄的属性存储在说话人DB101中。第二字典生成单元103可以参考储存在说话人DB101中的说话人的属性选择其声学特征将被使用的说话人，使得属性上没有偏差。可替换地，系统管理员等可以使用储存在说话人DB101中的说话人的声学特征、或使用单独准备的说话人的声学特征来预先生成第二字典。生成的第二字典储存在语音合成字典DB105中。

随后，将生成的第二字典发送到终端110(S505)。完成此操作一次后，只需要分发说话人的参数集，从而用第二字典合成一个新的说话人的声音。随后，第二字典生成单元103确定是否已经为储存在说话人DB中的每个说话人估计了参数集(S506)。在估计了参数集的情形下(S506中的“是”)，第二字典生成过程结束。在尚未估计参数集的情形下(S506中的“否”)，第二字典生成单元103使用第二字典估计说话人的参数集(S507)。然后，第二字典生成过程结束。

虽然参数估计的细节根据产生第二字典的方法而不同，但这里省略详细描述，因为它是众所周知的。例如，在本征音用于生成第二字典的情况下，各个本征矢量的本征值被用作参数集。估计的参数集与说话人ID相关联地储存在语音合成字典DB108中。这里，在使用本征音作为产生第二字典的方法的情况下，七维矢量的每个轴的含义通常不能被人解释。然而，例如在使用多元回归HSMM或聚类自适应训练的情况下，七维矢量的每个轴可以具有人类能够解释的含义，例如声音的亮度和柔和度。换句话说，参数是指示说话人的声音的特征的系数。参数集可以是任何东西，只要它可以在应用于第二字典时能很好地近似说话人的声音。

第二字典可以在说话人人数增加一定数量的时刻更新，或者可以以规则的时间间隔更新。此时，有必要重新调整参数集。可以对所有说话人的参数进行参数的重新调整，或者通过适当地管理第二字典的版本和参数，也能够使用它们的兼容组合。

如上所述，在第一字典的情况下，由于其声学模型是专门为每个说话人而学习的，因此它具有说话人再现性较高的优点。然而，每个说话人的字典尺寸很大，并且为了能够在应用中使用许多说话人，需要预先向终端分发与所需说话人的人数一样多的字典。另一方面，在第二字典的情形下，其具有每个说话人需要分发的数据的规模较小的优点，这是因为能够通过借助单个第二字典输入参数集来生成任意说话人的合成语音。此外，如果已经预先将第二字典发送到终端，则可以仅通过只发送具有非常小尺寸的参数集来在终端上合成多个说话人的语音。然而，由于参数集仅给出粗略的相似，因此说话人的再现性可能低于第一字典的再现性。根据本实施方式，通过自适应地使用各自具有不同特性的第一字典和第二字典，能够独立于终端的硬件规格获得多个说话人的合成语音。

图6为根据本实施方式的终端110的处理流程图。首先，终端110将希望合成语音的说话人的说话人ID发送给字典分发服务器100，以进行字典分发请求(S601)。终端110的收发单元112基于当前网络的通信状态的测量结果接收从字典分发服务器100发送的第一字典或参数集，并将第一字典或参数集储存在语音合成字典DB114中(S602)。到目前为止的过程要求终端连接到网络，并且根据网络的通信状态分发适当的字典。随后，进行语音合成(S603)。在语音合成过程的时刻，假定终端已经接收到第一字典、第二字典和参数集，因此即使没有与网络的连接也可以进行语音合成过程。

图7为根据本实施方式的终端110的语音合成过程(S603)的更详细的处理流程。首先，终端110从输入单元111获取要合成的文本(S701)。这里，用户例如可以输入希望合成的文本，或者可以简单地选择希望在诸如SNS的应用中合成的文本。随后，指定希望合成其声音的说话人(S702)。这里，例如可以使用用户从说话人列表中选择说话人的方案，或者如果文本和说话人预先关联，则可以自动指定相关联的说话人。

随后，字典管理单元113参考语音合成字典DB114确定是否已经分发了第一字典(S703)。如果已经分发了第一字典(S703中的“是”)，则合成单元115使用第一字典合成语音(S704)。如果仅分发了参数集而不是第一字典(S703中的“否”)，则合成单元115使用第二字典和参数集合成语音(S705)。在第一字典和参数集都已被分发的情况下，优先考虑具有较高说话人再现性的第一字典。这里，例如在终端(例如加载了字典的存储器)的硬件规格不足的情况下，可以给参数集赋予优先权。

在这个阶段，假设已经为希望使用的所有说话人中的每一个都分发了第一字典或参数集，但是在对于某些说话人而言第一字典和参数都没有的情况下，可以准备这样一个说话人的队列，使得下次与网络建立连接时自动下载必要的说话人。进一步地，在通信状态非常好并且可以持续连接的情况下，也可以使用在服务器侧合成语音然后仅分发合成语音而不是第一字典的配置。

随后，输出单元116播放由合成单元115合成的语音(S706)。然后，输入单元111接收是否应该继续语音合成的请求信号(S707)。例如，在用户对当前合成语音不满意或者想要获取另一个说话人的合成语音的情况下，用户通过输入单元111输入指示“继续语音合成”的请求信号(S706中的“是”)。如果输入单元111获取指示“继续语音合成”的请求信号，则处理进行到S701。另一方面，用户可以通过输入单元111输入指示“终止系统”的请求信号(S706中的“否”)。如果输入单元111接收到指示“终止系统”的请求信号，则语音合成处理结束。这里，即使在一段时间或更长时间内没有用户操作的情形下，语音合成处理也可以结束。此外，当用户输入请求信号时，例如可以在终端110的显示单元(图1未示出)上设置选择按钮，并且可以通过点击选择按钮来输入请求信号。

根据本实施方式的语音合成字典分发系统是这样一种系统，其中第一字典(仅一个说话人的声音可以使用一个字典来合成，并且第一字典具有高的说话人再现性)、和第二字典(多个说话人的声音可以使用一个字典来合成，并且第二字典具有比第一字典更低的说话人再现性)是基于连接服务器和终端的网络的通信状态动态切换的，并且字典被分发到终端。因此，在通信状态良好的情况下，系统分发具有高说话人再现性的第一字典，但是每个说话人需要大的通信量，并且在通信状态差的情况下，系统只分发说话人再现性较低的第二字典的说话人参数集，但只需要很小的通信量。结果，能够在保持说话人再现性尽可能高的同时在终端上合成多个说话人的语音。

根据第一实施方式，甚至可以在输入单元中对服务器提出1000说话人的请求。在这种情况下，可以使用这种方法，即首先一次下载所有具有小的尺寸的参数集合以便使用参数集和第二字典的组合合成声音，并逐渐用当通信状态变得更好时下载的说话人再现性较高的第一个字典替换它们。作为本实施方式的变型，除了网络的通信状态之外，还要考虑用户的网络使用量的限制。例如，还可以考虑当前月份的网络使用量来切换第一字典和第二字典。

根据第一实施方式，即使在与网络连接受限的终端中，也可以在终端上合成多个说话人的语音，同时保持尽可能高的说话人再现性。

(第二实施方式)

图8是第二实施方式中的字典分发服务器100的框图。与第一实施方式中相同的模块用相同的附图标记表示。在本实施方式中，第一实施方式的通信状态测定单元106被替换为说话人重要度估计单元800。说话人重要度估计单元800根据终端110所请求的说话人和附加信息估计说话人的重要程度。

图9是根据本实施方式的字典分发服务器100的字典分发的处理流程。字典生成的处理流程、终端的处理流程和语音合成的处理流程与第一实施方式中的相同，因此在此省略。与第一实施方式中相同的步骤用相同的步骤编号表示。不同点在于收发单元107除了来自用户的终端110的说话人ID之外还接收估计重要程度所需的附加信息(S901)，并且说话人重要度估计单元800使用所接收的附加信息估计用户和每个说话人之间的重要程度(S902)。所估计的说话人重要程度被储存在语音合成字典DB108中。由于说话人重要程度根据用户不同，因此需要为每个用户储存说话人重要程度。随后，条件确定单元104使用说话人重要程度作为决定第一字典和参数中的一个要被分发的条件(S903)。譬如，在说话人重要程度等于或大于预先指定的阈值的情况下(S903中的“是”)，分发第一字典(S405)，而在说话人重要程度小于该阈值的情况下(S902中的“否”)，分发参数(S406)。因此，根据本实施方式的字典分发服务器100的字典分发的处理流程结束。

语音合成字典DB105还储存说话人重要度表1001，该表是其中保存有每个用户的说话人重要程度的数据表。图10中示出了说话人重要度表1001的示例。说话人重要度表1001至少储存每个用户的彼此相关联的说话人ID 1002和说话人重要程度1003。在该示例中，说话人重要程度由0至100范围内的数值表示，并且随着数值增加，说话人的重要程度被确定为更重要。

譬如，对于用户1，说话人1、说话人2和说话人4的说话人重要程度分别为100、85和90，对于用户1而言说话人1、说话人2和说话人4是更重要的说话人，而其他说话人并不那么重要。如果阈值被设置为50，则当说话人1、说话人2和说话人4的声音被合成时，说话人再现性高的第一字典被分发，并且当其他说话人的声音被合成时，仅分发参数，并使用第二字典进行合成。

估计说话人重要程度的方法很大程度上取决于应用。这里，作为示例，考虑读取SNS的时间线。作为前提，假设对于在SNS中登记的每个用户，登记与服务器的语音合成字典DB105相对应的说话人(其不一定需要是他/她自己的声音)。在这样的应用中，终端优选将关注用户信息和出现在时间线上的用户的频度信息作为附加信息发送到服务器。字典分发服务器可以确定用户所关注(follow)的用户的说话人重要程度高，或者确定频繁出现在时间线上的用户在说话人重要程度方面是高的。此外，用户可以直接指定被认为是重要的用户，而不是基于这样的附加信息进行自动确定。

根据第二实施方式，即使在与网络连接受限的终端中，也能够在尽可能高地保持用户认为重要的说话人再现性的同时，在终端上合成多个说话人的语音。

根据第二实施方式的语音合成字典分发系统是一种根据说话人的重要程度动态地切换第一字典和第二字典，并且将字典分发到终端的系统。因此，可以使用字典尺寸较大但具有高说话人相似性的第一字典再现重要程度较高的说话人的声音，并使用字典尺寸较小但具有低说话人相似性的第二字典再现其他说话人的声音，并且能够在保持说话人再现性尽可能高的同时在终端上合成多个说话人的语音。

(第三实施方式)

图11是根据第三实施方式的字典分发服务器100的框图。与第一实施方式中相同的模块用相同的附图标记表示。在本实施方式中，第一实施方式的通信状态测定单元106被替换为说话人再现度估计单元1100。说话人再现度估计单元1100估计使用终端所请求的说话人的第二字典由参数生成的合成语音和原始真实声音之间的相似性。

图12是根据本实施方式的字典分发服务器100的字典分发的处理流程。字典生成的处理流程、终端的处理流程和语音合成的处理流程与第一实施方式中的相同，因而在此省略。与第一实施方式中相同的步骤由相同的步骤编号表示。不同点在于说话人再现度估计单元1100在说话人的字典生成之后估计每个说话人的说话人再现度(S401)(S1201)。说话人再现度是指示使用第二字典从参数生成的合成语音与原始真实声音之间的相似性的指标。将所估计的说话人再现度储存在语音合成字典DB105中。

图14示出了一个说话人再现度表1401的示例，该表是保存有每个说话人的说话人再现度的数据表。每个用户的至少说话人ID 1402和说话人再现度1403彼此相关联地储存在说话人再现度表1401中。在该示例中，说话人再现度由0至100范围内的数值表示，并且随着数值增大，说话人再现度被确定为更高。随后，条件确定单元104使用所估计的说话人再现度作为确定第一字典和参数中的一个将被分发的条件(S1202)。

例如，在说话人再现度小于预先指定的阈值的情况下(S1202中的“是”)，分发第一字典(S405)，这是因为不能使用第二字典和参数进行充分的再现，而在说话人再现度等于或大于该阈值的情况下(S1202中的“否”)，由于能够使用参数实现充分的近似，因此分发参数(S406)。例如，在图14的示例中，在阈值被设置为70的情况下，说话人再现度高于该阈值的说话人1、说话人5和说话人9通过参数产生的再现程度足够高，因此传递参数。对于其他说话人，使用该参数不能获得足够的说话人再现度，因此分发第一字典。由此，根据本实施方式的字典分发服务器100的字典分发的处理流程结束。

图13为示出在S1201中估计说话人再现度的方法的示例的处理流程图。首先，为了估计每个说话人的说话人再现度，参考说话人DB101，从与每个说话人使用的记录文本相对应的所记录的声音中提取每个声学特征量(S1301)。声学特征量的示例包括指示音色的melLSP、指示声音高度的LF0等。然后，根据第二字典和每个说话人的参数创建每个说话人所使用的记录文本的声学特征量(S1302)。由于这里希望比较声学特征量，因此不必从声学特征量生成合成语音。随后，获取从真实声音提取的声学特征量与从第二字典生成的声学特征量之间的距离(S1303)。例如，使用欧几里德距离等。最后，通过平均所有文本的距离并获得其倒数来将距离转换为相似度(说话人再现度)(S1304)。随着说话人再现度增加，原始说话人的真实声音与从第二字典生成的合成语音之间的相似性增大，并且原始说话人的真实声音可以基于第二字典和参数而充分再现。

尽管从第二字典估计的参数是原始说话人的声音质量特征的近似值，但是可以理解近似精度根据说话人而不同。要理解的是，随着用于产生第二字典的说话人DB101中具有相似声音质量的说话人人数增加，近似精度也增大，并且能够使用第二字典和参数充分再现对象说话人的说话人个性。

根据第三实施方式，即使在与网络连接受限的终端中，也能在终端上合成多个说话人的语音，这是因为为说话人分发了具有高说话人再现度的参数，并由此抑制了网络通信量。

根据第三实施方式的语音合成字典分发系统是一种当使用第二字典进行合成时基于说话人再现度动态地切换第一字典和第二字典，并将字典分发至终端的系统。因此，能够使用具有小规模的参数在第二字典中再现具有高说话人再现度的说话人的声音，使用第一字典再现其他说话人的声音，并且能够在保持说话人再现度尽可能高的同时在终端上合成多个说话人的语音。

(第四实施方式)

图15是示出根据本实施方式的语音合成系统的框图。与第一实施方式中相同的模块用相同的附图标记表示。在本实施方式中，安装在终端110侧的合成单元115被移动至语音合成服务器1500侧，并且用字典配置单元1501代替条件确定单元104。字典配置单元1501例如根据语音合成服务器1500的服务器负载和说话人的重要程度在存储器上动态地切换第一字典和第二字典的布置或使用。语音合成单元1502通过收发单元107将使用第一字典或第二字典合成的合成语音分发到终端。在本实施方式中，语音合成单元1502存在于语音合成服务器1500中，而不存在于终端110中。因此，通过输出单元116再现经由网络120从收发单元112接收的合成语音。

图16是根据本实施方式的语音合成服务器1500的处理流程。这里，在本实施方式中，假定每个说话人的第一字典、第二字典和参数被预先生成并储存在语音合成字典DB105中。可替换地，在开始下文将要描述的字典加载(S1601)之前，可以根据与第一实施方式中相同的流程创建每个说话人的第一字典、第二字典和参数。

首先，字典配置单元1501将语音合成字典DB105的字典加载到语音合成服务器1500的存储器上(S1601)。随后，语音合成服务器1500的收发单元107从终端110接收语音合成请求(S1602)。在语音合成请求中，终端110将声音被请求合成的说话人的说话人ID发送到语音合成服务器1500。然后，字典配置单元1501确定从终端110请求的说话人的第一字典是否已经被加载到存储器上(S1603)。在从终端110请求的说话人的第一字典已被加载到存储器的情况下(S1603中的“是”)，语音合成单元1502使用第一字典合成语音(S1608)。在从终端110请求的说话人的第一字典尚未加载到存储器的情况下(S1603中的“否”)，字典配置单元1501测量当前服务器负载(S1604)。这里，服务器负载是在字典配置单元1501的确定中使用的指标，并且是例如基于语音合成服务器1500中的存储器的可用容量、连接到语音合成服务器1500的终端110的数量等来测量的。可以使用任何指标，只要它可以用于确定服务器负载。

在服务器负载等于或大于阈值的情况下(S1605中的“是”)，字典配置单元1501确定不能进行使用第一字典的语音合成处理，并加载从终端请求的说话人的参数(S1609)，并且合成单元115使用第二字典和参数合成语音(S1610)。在服务器负载小于该阈值的情况下(S1605中的“否”)，字典配置单元1501从存储器卸载具有最低说话人请求频度(稍后描述)的第一字典，因为第一字典无法再被加载到存储器中(S1606)。随后，将从终端请求的说话人的新的第一字典加载到存储器(S1607)，并且合成单元115使用加载到存储器上的第一字典来合成语音(S1608)。使用第一字典或第二字典合成的语音通过收发单元107从服务器分发到终端(S1611)。由此，语音合成服务器1500的处理流程结束。

图17是进一步细化加载字典的过程(S1601)的处理流程。首先，将第二字典加载到语音合成服务器1500中的存储器上(S1701)。随后，获取说话人请求频度(S1702)。说话人请求频度是指示对每个说话人进行语音合成请求的频度的数据表，并且图18示出了说话人请求频度的示例。在图18所示的说话人请求频度表1801中，至少将说话人ID和请求频度(从终端110发送的语音合成请求的数量)1703彼此相关联地储存。在请求频度1703中，每当从用户接收语音合成请求(S1602)时，增加所请求的说话人的计数。除了计数的增加之外，还能够以规则的间隔重置频度或者能使用随着时间经过频度逐渐衰减的方法，但是这里省略了。

随后，按说话人请求频度的降序对说话人ID进行分类(S1703)。然后，从具有高说话人请求频度的说话人起，将第一字典加载到存储器上(S1704)。之后，加载字典的处理流程结束。这里，假设储存在语音合成字典DB105中的所有说话人的第一字典不能被加载到存储器上。因此，由于具有高说话人请求频度的说话人被优先加载到存储器上，所以提高了语音合成的处理效率。

根据第四实施方式的语音合成字典分发系统是在服务器上合成声音并且仅将声音分发至终端的配置，类似于现有技术的系统。通常，在这样的配置中，常见的是预先将合成所需的字典加载到存储器中以提高服务器的响应。然而，在服务器上提供有多个说话人的情况下，就硬件规格而言，难以将说话人的所有字典加载到存储器上。

根据第四实施方式，通过根据说话人的重要程度动态地切换要加载到存储器上的第一字典和第二字典的使用来改善服务器的响应和说话人再现性，由此能够合成多个说话人的语音。

这里，能够通过诸如通用计算机的硬件与计算机程序(软件)的配合来实现实施方式中描述的字典分发服务器的每个功能组件。例如，通过在计算机上执行某个计算机程序，能够实现组件中的每一个，例如图1中所示的第一字典生成单元102、第二字典生成单元103、条件确定单元104、和通信状态测定单元106。使用包括在计算机中的存储装置，实现说话人DB101和语音合成字典DB105。另外，使用包括在计算机中的通信接口(I/F)来实现收发单元107。

图19是示意性地示出字典分发服务器100的主要部分的示例性硬件结构的框图。

如图19所示，字典分发服务器100的主要部分被构造为通用计算机系统，其包括诸如CPU的处理器1801、诸如随机存取存储器(RAM)的主存储单元1802、使用各种存储装置的辅助存储单元1803、通信接口1804、以及连接至处理器1801、主存储单元1802、辅助存储单元1803和通信接口的总线1805。这里，辅助存储单元1803例如可以以有线或无线方式利用局域网(LAN)直接或间接地连接到其他单元。

具体而言，字典分发服务器100的功能组件例如可以通过处理器1801开发和执行储存在主存储单元(RAM)1802上的ROM(示例性地包括在服务器100中)中的程序来实现。例如，该程序还可以作为计算机程序产品提供，该程序产品被记录在计算机可读记录介质上以作为可安装或可执行文件，例如光盘只读存储器(CD-ROM)、软盘(FD)、可记录光盘(CD-R)、以及数字通用光盘(DVD)。

该程序还可以储存在连接到诸如因特网的网络的另一计算机中，并且通过经由网络下载来提供。该程序可以通过诸如因特网之类的网络提供或分布。程序可以预先嵌入或预先安装在计算机的ROM中。

该程序包括字典分发服务器100的功能组件(第一字典生成单元102、第二字典生成单元103、条件确定单元104和通信状态测定单元106)的模块结构。在实际硬件中，处理器1801从记录介质读取程序并执行该程序。一旦程序被加载并执行，组件就形成在主存储单元1802中。字典分发服务器100的全部或部分组件可包括专用硬件，例如专用集成电路(ASIC)和现场可编程门阵列(FPGA)。

主存储单元1802储存说话人DB101和语音合成字典DB105。此外，收发单元107由通信I/F 1804实现。

本实施方式的字典分发服务器100可以被配置为多个计算机可通信地彼此连接的网络系统，并且可以被配置成实现分布到多个计算机的组件。本实施方式的字典分发服务器100可以是在云系统上运行的虚拟机。

此外，根据实施方式的终端110中的功能组件例如可以类似地通过诸如通用计算机的硬件与由计算机执行的计算机程序(软件)的配合来实现。该程序可以包括终端110的功能组件(输入单元111、字典管理单元113、合成单元115和输出单元116)的模块结构。在实际硬件中，处理器(未示出)从记录介质读取程序并执行程序。一旦程序被加载并执行，各个组件就形成在主存储单元(未示出)中。主存储单元储存语音合成字典DB114。此外，收发单元112由通信I/F实现。

上述实施方式中描述的技术可以储存在存储介质中，例如磁盘(软盘(注册商标)、硬盘等)、光盘(CD-ROM、DVD等)、磁光盘(MO)或半导体存储器，以作为计算机可执行程序并分发。

这里，任何形式都可以用作存储介质的存储形式，只要它是能够储存程序的计算机可读存储介质即可。

并且，安装在计算机中的、并基于来自存储介质或诸如数据库管理软件或网络软件的中间件(MW)的程序的指令而在计算机上运行的操作系统(OS)可以执行用于实施本实施方式的每个过程的一部分。

此外，根据本实施方式的存储介质不限于独立于计算机的介质，还可以包括其中经由LAN、因特网等发送的程序被下载并储存或临时储存的存储介质。

此外，存储介质的数量不限于一个，并且即使根据多个介质执行根据本实施方式的处理过程的情形也包括在本实施方式的存储介质中，并且也没有特别限制介质的配置。

这里，本实施方式的计算机是指基于储存在存储介质中的程序执行本实施方式的每个处理的计算机，并且可以具有任意配置，例如其中诸如为个人计算机的单个设备或多个设备被连接到网络的系统。

此外，本实施方式的每个存储装置都可以由一个存储装置或由多个存储装置实现。

此外，本实施方式的计算机不局限于个人计算机，并且包括操作处理设备、微计算机、或包括在信息处理设备中的类似设备，并且统称为能够根据程序实现本实施方式的功能的设备或装置。

尽管已经对某些实施方式进行了描述，但是这些实施方式仅是通过示例性的方式来呈现的，并且并不是要限制本发明的范围。实际上，本文中所述的新颖实施方式可以体现为各种其它形式；此外，可以在不脱离本发明的精神的前提下对本文中所述的实施方式的形式做出各种省略、替换和改变。所附权利要求及其等同物旨在覆盖落入本发明的范围和精神内的这种形式或修改。

Claims

1.一种语音合成字典分发装置，将用于执行语音合成的字典分发至终端，包括：

用于语音合成字典数据库的存储装置，该存储装置储存：包括说话人的声学模型并且与所述说话人的识别信息相关联的第一字典；包括使用多个说话人的声音数据生成的声学模型的第二字典；以及与所述第二字典一起使用的、且与所述说话人的识别信息相关联的说话人的参数集；

处理器，确定将在所述终端中用于特定说话人的所述第一字典和所述第二字典中的一个；和

输入输出接口，接收从所述终端发送的说话人的识别信息，随后基于所接收的说话人的识别信息和由所述处理器所提供的确定结果，分发第一字典、所述第二字典、和所述第二字典的参数集中的至少一个。

2.根据权利要求1所述的语音合成字典分发装置，

在所述第二字典已被发送至所述终端之后，所述输入输出接口基于所接收的所述说话人的识别信息和所述处理器的确定结果，分发所述第一字典或所述第二字典的参数集。

3.根据权利要求1所述的语音合成字典分发装置，

所述处理器测量网络的通信状态，并基于测量结果确定所述第一字典和所述第二字典中的某一个将被使用。

4.根据权利要求1所述的语音合成字典分发装置，

所述处理器估计说话人的重要程度，并基于估计结果确定所述第一字典和所述第二字典中的某一个将被使用。

5.根据权利要求1所述的语音合成字典分发装置，

当所终端的硬件规格不足时，所述第二字典的参数集优先。

6.根据权利要求1所述的语音合成字典分发装置，

所述处理器将基于所述第二字典生成的声学特征与从说话人的真实声音样本中提取的声学特征进行比较，并估计通过所述第二字典合成语音的再现性程度，并基于再现性程度的估计结果确定要使用的字典。

7.一种语音合成系统，向终端分发合成语音，包括：

输入输出接口，接收从所述终端发送的说话人的识别信息；

用于语音合成字典数据库的存储装置，该存储装置储存：包括说话人的声学模型并且与所述说话人的识别信息相关联的第一字典，包括使用多个说话人的声音数据生成的通用声学模型的第二字典，以及与所述第二字典一起使用的、且与所述说话人的识别信息相关联的说话人的参数集；和

硬件处理器，参考所述语音合成字典数据库选择要加载到所述存储装置上的字典和/或参数集，并使用通过所述处理器选择的第一字典或第二字典合成语音，

所述输入输出接口还将所述硬件处理器合成的语音分发至所述终端。

8.根据权利要求7所述的语音合成系统，

所述硬件处理器测量语音合成系统的服务器负载，并且在所测量的服务器负载大于阈值的情况下，将所加载的第一字典中具有最低使用频度的第一字典卸载，并加载从所述终端请求的说话人的第一字典。

9.根据权利要求7所述的语音合成系统，

所述硬件处理器测量语音合成系统的服务器负载，并且在所测量的服务器负载大于阈值的情况下，将从所述终端请求的说话人的参数集加载到所述存储装置。

10.一种记录介质，储存有语音合成字典分发程序，所述语音合成字典分发程序包括：

储存：包括说话人的声学模型并且与所述说话人的识别信息相关联的第一字典；包括使用多个说话人的声音数据生成的通用声学模型的第二字典；以及与所述第二字典一起使用的且与所述说话人的识别信息相关联的说话人的参数集；

参照所储存的字典，确定所述第一字典和所述第二字典中的哪一个将用于特定说话人；和

接收从终端发送的说话人的识别信息，并基于所接收的说话人的识别信息和确定结果，分发字典和/或所述参数集。

11.一种语音合成装置，向终端提供合成语音，包括：

用于语音合成字典数据库的存储装置，该存储装置储存：第一字典、第二字典和说话人的参数集，该第一字典中的每一个都包括说话人的声学模型且与所述说话人的识别信息相关联，该第二字典的声学模型通过使用多个说话人的声音数据而生成，该说话人的参数集与所述第二字典一起使用、且与所述说话人的识别信息相关联；

条件确定单元，用于确定所述第一字典和所述第二字典中的哪一个将用于特定说话人；和

收发单元，用于接收从所述终端发送的说话人的识别信息，并基于所接收的说话人的识别信息和所述条件确定单元的确定结果分发第一字典、第二字典和/或所述第二字典的参数集。

12.根据权利要求11所述的语音合成装置，

在所述第二字典已被发送至所述终端之后，所述收发单元基于所接收的所述说话人的识别信息和所述条件确定单元的确定结果，分发第一字典或所述第二字典的参数集。

13.根据权利要求11所述的语音合成装置，

还包括通信状态测定单元，该通信状态测定单元测量网络的通信状态并基于所述测量的结果确定要使用所述第一字典和所述第二字典中的哪一个。

14.根据权利要求11所述的语音合成装置，

还包括说话人重要度估计单元，该说话人重要度估计单元估计说话人的重要程度，并基于所述估计的结果确定要使用所述第一字典和所述第二字典中的哪一个。

15.根据权利要求11所述的语音合成装置，

还包括说话人再现度估计单元，该说话人再现度估计单元将基于所述第二字典生成的声学特征与从说话人的真实声音中提取的声学特征进行比较并估计再现性程度，

其中，所述条件确定单元基于所述再现性程度的估计结果确定要使用的字典。