CN105340003B

CN105340003B - 语音合成字典创建装置以及语音合成字典创建方法

Info

Publication number: CN105340003B
Application number: CN201380077502.8A
Authority: CN
Inventors: 橘健太郎; 森田真弘; 笼岛岳彦
Original assignee: Toshiba Corp
Current assignee: Color Sound Station Co ltd
Priority date: 2013-06-20
Filing date: 2013-06-20
Publication date: 2019-04-05
Anticipated expiration: 2033-06-20
Also published as: US9792894B2; CN105340003A; WO2014203370A1; JP6184494B2; JPWO2014203370A1; US20160104475A1

Abstract

根据实施例的语音合成字典创建装置包括第一语音输入单元、第二语音输入单元、确定单元以及创建单元。第一语音输入单元接收第一语音数据的输入。第二语音输入单元接收被认为是适当的语音数据的第二语音数据的输入。确定单元确定第一语音数据的说话人是否与第二语音数据的说话人相同。当确定单元确定第一语音数据的说话人与第二语音数据的说话人相同时，创建单元使用第一语音数据以及与第一语音数据对应的文本来创建语音合成字典。

Description

语音合成字典创建装置以及语音合成字典创建方法

技术领域

本发明的实施例涉及语音合成字典创建装置以及语音合成字典创建方法。

背景技术

近年来，随着语音合成技术的质量的提高，语音合成的使用范围已经急剧扩大，诸如在汽车导航系统中、在蜂窝电话的语音邮件读取应用中、在语音助手应用中。此外，还提供了用于根据一般用户的语音创建语音合成字典的服务。在该服务中，如果只有所记录的语音可用，则语音合成字典可根据任何人的语音创建。

专利文献1：特开2010-117528号公报

发明内容

然而，如果语音是以欺诈方式从电视或因特网中获得，则有可能通过模仿他人来创建语音合成字典，并且语音合成字典有被滥用的风险。因此，本发明的目的是提供一种语音合成字典创建装置以及语音合成字典创建方法，其使得能够防止以欺骗的方式创建语音合成字典。

根据实施例，语音合成字典创建装置包括第一语音输入单元、第二语音输入单元、确定单元和创建单元。第一语音输入单元接收第一语音数据的输入。第二语音输入单元接收被认为是适当的语音数据的第二语音数据的输入。确定单元确定第一语音数据的说话人是否与第二语音数据的说话人相同。当确定单元确定第一语音数据的说话人与第二语音数据的说话人相同时，创建单元使用第一语音数据以及与第一语音数据对应的文本来创建语音合成字典。

附图说明

图1是示出根据第一实施例的语音合成字典创建装置的配置的配置图；

图2是示出根据第一实施例的语音合成字典创建装置的变形例的配置的配置图；

图3是用于说明在根据第一实施例的语音合成字典创建装置中执行的用于创建语音合成字典的操作的流程图；

图4是示意性地示出在包括根据第一实施例的语音合成字典创建装置的语音合成字典创建系统中执行的操作的示例的图；

图5是示出根据第二实施例的语音合成字典创建装置的配置的配置图；

图6是用于说明在根据第二实施例的语音合成字典创建装置中执行的用于创建语音合成字典的操作的流程图；

图7是示意性地示出在包括根据第二实施例的语音合成字典创建装置的语音合成字典创建系统中执行的操作的示例的图。

具体实施方式

第一实施例

以下参考附图说明根据第一实施例的语音合成字典创建装置。图1是示出根据第一实施例的语音合成字典创建装置1a的配置的配置图。在此，语音合成字典创建装置1a例如是使用通用计算机实现的。也就是说，语音合成字典创建装置1a例如具有包括CPU、存储器装置、输入输出装置和通信接口的计算机的功能。

如图1所示，语音合成字典创建装置1a包括第一语音输入单元10、第一存储单元11、控制单元12、呈现单元13、第二语音输入单元14、分析确定单元15、创建单元16和第二存储单元17。在此，第一语音输入单元10、控制单元12、呈现单元13、第二语音输入单元14和分析确定单元15可使用硬件来配置或者可使用由CPU执行的软件来配置。第一存储单元11和第二存储单元17使用例如HDD(硬盘驱动器)或存储器来配置。因此，语音合成字典创建装置1a可被配置以使得其功能通过执行语音合成字典创建程序来实现。

第一语音输入单元10例如经由通信接口(未示出)接收例如任意用户的语音数据(第一语音数据)；并将语音数据输入到分析确定单元15。另外，第一语音输入单元10可包括诸如通信接口和麦克风的硬件。

第一存储单元11在其中存储多个文本(或所记录的文本)，并响应于控制单元12的控制而输出所存储的文本中的任何一个。控制单元12控制语音合成字典创建装置1a的构成单元。此外，控制单元12选择在第一存储单元11中存储的文本中的任何一个，从第一存储单元11读取所选择的文本，并向呈现单元13输出所读取的文本。

呈现单元13经由控制单元12接收在第一存储单元11中存储的文本中的任何一个文本，并向用户呈现所接收的文本。在此，呈现单元13以随机的方式呈现在第一存储单元11中存储的文本。此外，呈现单元13呈现文本仅仅持续预定的时间段(例如，大约几秒钟到一分钟)。另外，呈现单元13可以是例如显示装置、扬声器或通信接口。也就是说，为了使用户能够识别并说出所选择的文本，呈现单元13通过显示文本或者通过执行所记录的文本的语音输出来执行文本呈现。

当任意用户例如大声朗读由呈现单元13呈现的文本时，第二语音输入单元14接收其语音数据作为适当的语音数据(第二语音数据)，并将其输入到分析确定单元15。在此，第二语音输入单元14可例如经由通信接口(未示出)接收第二语音数据。另外，第二语音输入单元14可包括诸如通信接口和麦克风的与第一语音输入单元10共享的硬件，或者可包括共享的软件。

在经由第一语音输入单元10接收了第一语音数据后，分析确定单元15使控制单元12开始工作，以使得呈现单元13呈现文本。此外，在经由第二语音输入单元14接收了第二语音数据后，分析确定单元15通过将第一语音数据的特征量与第二语音数据的特征量进行比较来确定第一语音数据的说话人是否与第二语音数据的说话人相同。

例如，分析确定单元15对第一语音数据和第二语音数据执行语音识别，并生成分别与第一语音数据和第二语音数据对应的文本。此外，分析确定单元15可对第二语音数据执行语音质量检查，以确定信噪比(SNR)和振幅值是否等于或大于预定阈值。另外，分析确定单元15基于第一语音数据和第二语音数据的以下属性中的至少一个来比较特征量：振幅值、基本频率(F₀)的平均值或离散值、频谱包络提取结果的相关性、语音识别的单词准确率和单词识别率。在此，频谱包络提取方法的示例包括线性预测系数(LPC)、梅尔频率倒谱系数、线谱对(LSP)、梅尔LPC和梅尔LSP。

然后，分析确定单元15将第一语音数据的特征量与第二语音数据的特征量进行比较。如果第一语音数据的特征量与第二语音数据的特征量之间的差等于或小于预定阈值，或者如果第一语音数据的特征量与第二语音数据的特征量之间的相关性等于或大于预定阈值，则分析确定单元15确定第一语音数据的说话人与第二语音数据的说话人相同。在此，假定由分析确定单元15在确定中使用的阈值通过预先学习同一个人的特征量的平均值和离散值或者通过预先从大量数据中学习语音识别结果来设置。

当确定第一语音数据的说话人与第二语音数据的说话人相同时，分析确定单元15确定语音是适当的。然后，分析确定单元15向创建单元16输出第一语音数据(和第二语音数据)作为适当的语音数据，其中第一语音数据的说话人被确定为与第二语音数据的说话人相同。另外，分析确定单元15可被划分成分析第一语音数据和第二语音数据的分析单元以及执行确定的确定单元。

创建单元16实现语音识别技术，并根据经由分析确定单元15接收的第一语音数据，创建所说出的内容的文本。然后，创建单元16使用所创建的文本和第一语音数据创建语音合成字典，并向第二存储单元17输出语音合成字典。因此，第二存储单元17在其中存储从创建单元16接收的语音合成字典。

第一实施例的变形例

图2是示出根据第一实施例的在图1中示出的语音合成字典创建装置1a的变形例的配置的配置图(语音合成字典创建装置1b的配置示例)。如图2所示，语音合成字典创建装置1b包括第一语音输入单元10、第一存储单元11、控制单元12、呈现单元13、第二语音输入单元14、分析确定单元15、创建单元16、第二存储单元17和文本输入单元18。在语音合成字典创建装置1b中，用相同的参考标记指代实际上与语音合成字典创建装置1a相同的构成单元。

文本输入单元18经由例如通信接口(未示出)接收与第一语音数据对应的文本，并将文本输入到分析确定单元15。在此，文本输入单元18可使用诸如能够接收文本输入的输入装置的硬件来配置，或者可使用软件来配置。

分析确定单元15将输入到文本输入单元18的通过用户说出文本而获得的语音数据当作第一语音数据，并确定第一语音数据的说话人是否与第二语音数据的说话人相同。然后，创建单元16使用被分析确定单元15确定为适当的语音以及输入到文本输入单元18的文本来创建语音合成字典。因此，在语音合成字典创建装置1b中，由于包括了文本输入单元18，因此，无需通过执行语音识别来创建文本。这使得能够实现处理负载的减少。

下面给出在根据第一实施例的语音合成字典创建装置1a中(或者在语音合成字典创建装置1b中)执行的用于创建语音合成字典的操作的说明。图3是用于说明在根据第一实施例的语音合成字典创建装置1a中(或者在语音合成字典创建装置1b中)执行的，用于创建语音合成字典的操作的流程图。

如图3所示，在步骤100(S100)，第一语音输入单元10经由例如通信接口(未示出)接收第一语音数据的输入，并将第一语音数据输入到分析确定单元15(第一语音输入)。

在步骤102(S102)，呈现单元13向用户呈现所记录的文本(或文本)。

在步骤104(S104)，第二语音输入单元14接收当由呈现单元13呈现的文本例如由用户大声朗读时获得的语音数据，作为适当的语音数据(第二语音数据)；并将第二语音数据输入到分析确定单元15。

在步骤106(S106)，分析确定单元15提取第一语音数据的特征量和第二语音数据的特征量。

在步骤108(S108)，分析确定单元15将第一语音数据的特征量与第二语音数据的特征量进行比较，从而确定第一语音数据的说话人是否与第二语音数据的说话人相同。在语音合成字典创建装置1a(或语音合成字典创建装置1b)中，如果分析确定单元15确定第一语音数据的说话人与第二语音数据的说话人相同(在S108的“是”)，则在语音是适当的前提下，系统控制进行到S110。如果分析确定单元15确定第一语音数据的说话人与第二语音数据的说话人不同(在S108的“否”)，则语音合成字典创建装置1a(或语音合成字典创建装置1b)标记操作的结束。

在步骤110(S110)，创建单元16使用由分析确定单元15确定为适当的第一语音数据(和第二语音数据)，并且使用与第一语音数据(和第二语音数据)对应的文本，创建语音合成字典；并向第二存储单元17输出语音合成字典。

图4是示意性地示出在包括语音合成字典创建装置1a的语音合成字典创建系统100中执行的操作的示例。语音合成字典创建系统100包括语音合成字典创建装置1a，并执行经由网络(未示出)的数据(语音数据和文本)的输入和输出。也就是说，语音合成字典创建系统100是使用由系统的用户上载的语音创建语音合成字典并提供语音合成字典的系统。

参照图4，第一语音数据20表示由个人A通过说出具有任意内容的任意数量的文本而生成的语音数据。第一语音数据20由第一语音输入单元10接收。

呈现示例22提示用户说出由语音合成字典创建装置1a呈现的文本“高级电视是50英寸大小的”。第二语音数据24表示当由语音合成字典创建装置1a呈现的文本被用户大声朗读时获得的语音数据。第二语音数据24被输入到第二语音输入单元14。在经由电视或因特网获得的语音中，很难说出由语音合成字典创建装置1a随机呈现的文本。第二语音输入单元14将所接收的语音数据当作适当的语音数据，并将其输出到分析确定单元15。

分析确定单元15将第一语音数据20的特征量与第二语音数据24的特征量进行比较，从而确定第一语音数据20的说话人是否与第二语音数据24的说话人相同。

如果第一语音数据20的说话人与第二语音数据24的说话人相同，则语音合成字典创建系统100创建语音合成字典，并例如向用户显示一显示26作为关于创建语音合成字典的通知。另一方面，如果第一语音数据20的说话人与第二语音数据24的说话人不同，则语音合成字典创建系统100拒绝第一语音数据20，并例如向用户显示一显示28作为关于未创建语音合成字典的通知。

第二实施例

下面给出对根据第二实施例的语音合成创建装置的说明。图5是示出根据第二实施例的语音合成字典创建装置3的配置的配置图。在此，语音合成字典创建装置3例如使用通用计算机实现。也就是说，语音合成字典创建装置3例如具有包括CPU、存储器装置、输入输出装置和通信接口的计算机的功能。

如图5所示，语音合成字典创建装置3包括第一语音输入单元10、语音输入单元31、检测单元32、分析单元33、确定单元34、创建单元16和第二存储单元17。在图3所示出的语音合成字典创建装置3中，用相同的参考标记指代实际上与图1所示的语音合成字典创建装置1a的构成单元相同的构成单元。

语音输入单元31、检测单元32、分析单元33和确定单元34可以使用硬件来配置或者可以使用由CPU执行的软件来配置。因此，语音合成字典创建装置3可被配置以使得其功能通过执行语音合成字典创建程序来实现。

语音输入单元31向检测单元32输入由例如能够嵌入认证信息的语音记录装置记录的语音数据以及诸如由其它记录装置记录的语音数据的任意语音数据。

另外，能够嵌入认证信息的语音记录装置以连续但随机的方式在例如整个语音或指定的文本内容或文本号码中嵌入认证信息。嵌入方法的示例包括使用公钥或共享密钥的加密和数字水印。当认证信息表示加密时，语音波形被加密(波形加密)。应用于语音的数字水印包括使用连续掩蔽的回波扩散法、其中操纵调制振幅频谱并嵌入位信息的频谱扩散法和拼凑法、或其中通过调制相位来嵌入位信息的相位调制法。

检测单元32检测在由语音输入单元31接收的语音数据中包括的认证信息。而且，检测单元32从在其中嵌入了认证信息的语音数据中提取认证信息。当实施波形加密作为嵌入方法时，检测单元32可被配置成使用私钥来执行解密。当认证信息表示数字水印时，检测单元32根据解码顺序获取位信息。

当检测到认证信息时，检测单元32认为输入语音数据是由指定语音记录装置记录的语音数据。这样，检测单元32将在其中检测到认证信息的语音数据设置为被认为是适当的第二语音数据，并向分析单元33输出第二语音数据。

另外，例如，语音输入单元31和检测单元32可被集成为第二语音输入单元35，其检测在任意语音数据中包括的认证信息并输出在其中检测到认证信息的语音数据，作为被认为是适当的第二语音数据。

分析单元33从第一语音输入单元10接收第一语音数据，从检测单元32接收第二语音数据，分析第一语音数据和第二语音数据，并向确定单元34输出分析结果。

例如，分析单元33对第一语音数据和第二语音数据执行语音识别，并生成与第一语音数据对应的文本和与第二语音数据对应的文本。此外，分析单元33可对第二语音数据执行语音质量检查，以确定信噪比(SNR)和振幅值是否等于或大于预定阈值。此外，分析单元33基于第一语音数据和第二语音数据的以下属性中的至少一个来提取特征量：振幅值、基本频率(F0)的平均值或离散值、频谱包络提取结果的相关性、语音识别的单词准确率和单词识别率。频谱包络提取方法可以与由分析确定单元15(图2)实施的方法相同。

确定单元34接收由分析单元33计算的特征量。然后，确定单元34将第一语音数据的特征量与第二语音数据的特征量进行比较，从而确定第一语音数据的说话人是否与第二语音数据的说话人相同。例如，如果第一语音数据的特征量与第二语音数据的特征量之间的差等于或小于预定阈值，或者如果第一语音数据的特征量与第二语音数据的特征量之间的相关性等于或大于预定阈值，则确定单元34确定第一语音数据的说话人与第二语音数据的说话人相同。在此，假定由确定单元34在确定中使用的阈值通过预先学习同一个人的特征量的平均值和离散值或者通过预先从大量的数据中学习语音识别结果来设置。

如果确定第一语音数据的说话人与第二语音数据的说话人相同，则确定单元34确定语音是适当的。然后，确定单元34向创建单元16输出第一语音数据(和第二语音数据)作为适当的语音数据，其中第一语音数据的说话人被确定与第二语音数据的说话人相同。另外，分析单元33和确定单元34可一起被配置为分析确定单元36，其以与语音合成字典创建装置1a(图1)的分析确定单元15相同的方式起作用。

下面给出在根据第二实施例的语音合成字典创建装置3中执行的用于创建语音合成字典的操作的说明。图6是用于说明在根据第二实施例的语音合成字典创建装置3中执行的用于创建语音合成字典的操作的流程图。

如图6所示，在步骤200(S200)，第一语音输入单元10向分析单元33输入第一语音数据，语音输入单元31向检测单元32输入任意的语音数据(语音输入)。

在步骤202(S202)，检测单元32检测认证信息。

在步骤204(S204)，例如，语音合成字典创建装置3确定检测单元32是否已经从任意的语音数据中检测到认证信息。在语音合成字典创建装置3中，如果检测单元32已经检测到认证信息(在S204的“是”)，则系统控制进行到S206。另一方面，在语音合成字典创建装置3中，如果检测单元32还没有检测到认证信息(在S204的“否”)，则标记操作的结束。

在步骤206(S206)，分析单元33提取第一语音数据的特征量和第二语音数据的特征量(分析)。

在步骤208(S208)，确定单元34将第一语音数据的特征量与第二语音数据的特征量进行比较，从而确定第一语音数据的说话人是否与第二语音数据的说话人相同。

在步骤210(S210)，在语音合成字典创建装置3中，如果确定单元34在S208确定第一语音数据的说话人与第二语音数据的说话人相同(在S210的“是”)，则在语音是适当的前提下，系统控制进行到S212。另一方面，在语音合成字典创建装置3中，如果确定单元34在S208确定第一语音数据的说话人与第二语音数据的说话人不同(在S210的“否”)，则在语音是不适当的前提下，标记操作的结束。

在步骤212(S212)，创建单元16创建与由确定单元34确定为适当的第一语音数据(和第二语音数据)对应的语音合成字典，并向第二存储单元17输出语音合成字典。

图7是示意性地示出在包括语音合成字典创建装置3的语音合成字典创建系统300中执行的操作的示例的图。语音合成字典创建系统300包括语音合成字典创建装置3，并执行经由网络(未示出)的数据(语音数据)的输入和输出。也就是说，语音合成字典创建系统300是用于使用由用户上载的语音来创建语音合成字典并提供语音合成字典的系统。

参考图7，第一语音数据40表示由个人A或个人B通过说出具有任意内容的任意数量的文本而生成的语音数据。第一语音数据40由第一语音输入单元10接收。

例如，个人A大声朗读由包括认证信息嵌入单元的记录装置42呈现的文本“高级电视是50英寸大小的”，并执行语音记录。由个人A说出的文本表示其中嵌入了认证信息的认证信息嵌入语音44。因此，认证信息嵌入语音(第二语音数据)被认为是由能够在语音数据中嵌入认证信息的预先指定的记录装置记录的语音数据。也就是说，认证信息嵌入语音被认为是适当的语音数据。

语音合成字典创建系统300将第一语音数据40的特征量与认证信息嵌入语音(第二语音数据)44的特征量进行比较，从而确定第一语音数据40的说话人是否与认证信息嵌入语音(第二语音数据)44的说话人相同。

如果第一语音数据40的说话人与认证信息嵌入语音(第二语音数据)44的说话人相同，则语音合成字典创建系统300创建语音合成字典，并例如向用户显示一显示46作为关于创建语音合成字典的通知。另一方面，如果第一语音数据40的说话人与认证信息嵌入语音(第二语音数据)的说话人44不同，则语音合成字典创建系统300拒绝第一语音数据40，并例如向用户显示一显示48作为关于未创建语音合成字典的通知。

这样，在根据实施例的语音合成字典创建装置中，由于确定了第一语音数据的说话人是否与被认为是适当的语音数据的第二语音数据的说话人相同，因此，可以防止以欺骗的方式创建语音合成字典。

尽管已经描述了本发明的一些实施例，但是这些实施例仅仅作为示例提出，并不旨在限制本发明的范围。事实上，在此描述的新的方法和系统可以以各种其它形式体现；此外，在不脱离本发明的精神的情况下，可以对在此描述的方法和系统的形式进行各种省略、替换和改变。所附的权利要求及其等同旨在覆盖也落入本发明的范围和精神的这样的形式或修改。

参考符号列表

1a、1b、3：语音合成字典创建装置

10：第一语音输入单元

11：第一存储单元

12：控制单元

13：呈现单元

14：第二语音输入单元

15：分析确定单元

16：创建单元

17：第二存储单元

18：文本输入单元

31：语音输入单元

32：检测单元

33：分析单元

34：确定单元

35：第二语音输入单元

36：分析确定单元

100、300：语音合成字典创建系统

Claims

1.一种语音合成字典创建装置，包括：

第一语音输入单元，其被配置成接收第一语音数据的输入；

第二语音输入单元，其被配置成接收第二语音数据的输入，所述第二语音数据被认为是适当的语音数据；

确定单元，其被配置成确定所述第一语音数据的说话人是否与所述第二语音数据的说话人相同；以及

创建单元，其被配置成当所述确定单元确定所述第一语音数据的说话人与所述第二语音数据的说话人相同时，使用所述第一语音数据以及与所述第一语音数据对应的文本创建语音合成字典，

其中所述适当的语音数据为朗读呈现文本的语音数据或检测到认证信息的语音数据。

2.根据权利要求1所述的装置，还包括：

存储单元，其被配置成在其中存储多个文本；以及

呈现单元，其被配置成呈现在所述存储单元中存储的所述文本中的任何一个；

其中，所述第二语音输入单元将通过说出由所述呈现单元呈现的所述文本而获得的语音数据设置为被认为是适当的语音数据的所述第二语音数据。

3.根据权利要求2所述的装置，其中，所述呈现单元执行以下的至少一个：随机呈现在所述存储单元中存储的所述文本中的任何一个，以及呈现所述文本中的任何一个仅仅预定的时间段。

4.根据权利要求1所述的装置，其中，所述确定单元通过将所述第一语音数据的特征量与所述第二语音数据的特征量进行比较来确定所述第一语音数据的说话人是否与所述第二语音数据的说话人相同。

5.根据权利要求4所述的装置，其中，所述确定单元基于所述第一语音数据和所述第二语音数据的单词识别率、单词准确率、振幅、基本频率和频谱包络中的至少一个来比较特征量。

6.根据权利要求5所述的装置，其中，当所述第一语音数据的特征量与所述第二语音数据的特征量之间的差等于或小于预定阈值时，或者当所述第一语音数据的特征量与所述第二语音数据的特征量之间的相关性等于或大于预定阈值时，所述确定单元确定所述第一语音数据的说话人与所述第二语音数据的说话人相同。

7.根据权利要求1所述的装置，还包括：文本输入单元，其被配置成输入与所述第一语音数据对应的文本，

其中，所述确定单元将通过说出由所述文本输入单元接收的所述文本而获得的语音数据作为所述第一语音数据，以确定所述第一语音数据的说话人是否与所述第二语音数据的说话人相同。

8.根据权利要求1所述的装置，其中，所述第二语音输入单元包括：

语音输入单元，其被配置成接收语音数据的输入；以及

检测单元，其被配置成检测在由所述语音输入单元接收的所述语音数据中包括的认证信息；

其中，所述检测单元将检测到认证信息的语音数据设置为被认为是适当的所述第二语音数据。

9.根据权利要求8所述的装置，其中，所述认证信息表示语音水印或语音波形加密。

10.一种语音合成字典创建方法，包括：

接收第一语音数据的输入；

接收第二语音数据的输入，所述第二语音数据被认为是适当的语音数据；

确定所述第一语音数据的说话人是否与所述第二语音数据的说话人相同；以及

当确定所述第一语音数据的说话人与所述第二语音数据的说话人相同时，使用所述第一语音数据以及与所述第一语音数据对应的文本创建语音合成字典。