CN103021402A

CN103021402A - 合成字典制作装置及合成字典制作方法

Info

Publication number: CN103021402A
Application number: CN2012100585726A
Authority: CN
Inventors: 橘健太郎; 森田真弘; 笼岛岳彦
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2011-09-26
Filing date: 2012-03-07
Publication date: 2013-04-03
Anticipated expiration: 2032-03-07
Also published as: US20130080155A1; US9129596B2; JP2013072903A; CN103021402B

Abstract

本发明的实施方式涉及合成字典制作装置及合成字典制作方法。提高声音合成字典的制作效率。合成字典制作装置具备提示单元、录制单元、要否判断单元、字典制作单元和声音合成单元。提示单元向用户提示从上述句子存储单元存储的上述N个(N是自然数，N≥2)句子依次选择的第1句子。录制单元将朗读上述第1句子的用户的声音录制，将该录制波形与上述第1句子相关联存储。要否判断单元，在上述录制单元中存储M个(M是自然数，1≤M＜N)上述第1句子的录制波形的状态下，判断要否制作声音合成字典。字典制作单元，在判断需要声音合成字典的制作的场合，制作声音合成字典。声音合成单元，采用由上述字典制作单元制作的声音合成字典，将第2句子变换为合成波形。

Description

合成字典制作装置及合成字典制作方法

优先权基础申请等关联申请的引用

本申请以日本专利申请2011-209989(申请日：2011年9月26日)为基础，享受该申请的优先权。本申请通过参照该申请，包含该申请的全部内容。

技术领域

本发明的实施方式涉及合成字典(词典)制作装置及合成字典制作方法。

背景技术

已知有将任意的文本变换为合成波形的声音合成技术。为了使用声音合成技术再现某特定的用户的音质，必须将该用户的声音大量录制，使用该录制波形制作声音合成字典。为了实现该目的，提出了使用户朗读预定的多个句子，使用将其录制(录音)的录制波形制作用户定制的声音合成字典的系统。

但是，上述系统中，声音合成字典的制作中需要全部朗读预定的句子的声音的录制波形，无法在录制的中途阶段确认合成波形的音质。从而，即使合成波形的音质足够高，也产生用户继续录制等的状况，存在声音合成字典的制作效率降低的问题。

发明内容

本实施方式目的是提供提高声音合成字典的制作效率的合成字典制作装置。

根据实施方式，合成字典制作装置具备提示单元、录制单元、要否判断单元、字典制作单元和声音合成单元。提示单元向用户提示从句子存储单元所存储的N个(N是自然数，N≥2)句子依次选择的第1句子(语句)。录制单元将朗读上述第1句子的用户的声音录制，将该录制波形与上述第1句子相关联存储。要否判断单元，在上述录制单元中存储M个(M是自然数，1≤M＜N)上述第1句子的录制波形的状态下，判断要否制作声音合成字典。字典制作单元，在判断需要声音合成字典的制作的场合，制作声音合成字典。声音合成单元，采用由上述字典制作单元制作的声音合成字典，将第2句子变换为合成波形。

根据本实施方式，可提供声音合成字典的制作效率提高的合成字典制作装置。

附图说明

图1是第1实施方式的合成字典制作装置的方框图。

图2是实施方式的合成字典制作装置的硬件构成的示图。

图3是实施方式的合成字典制作装置的流程图。

图4是实施方式的合成字典制作装置的接口的示图。

图5是第2实施方式的合成字典制作装置的方框图。

具体实施方式

以下，参照附图说明本发明的实施方式。

(第1实施方式)

第1实施方式的合成字典制作装置是将朗读句子的用户的声音录制，使用该录制波形制作用户定制的声音合成字典的装置。通过利用由本装置制作的声音合成字典的声音合成，用户可以自身的音质朗读任意的句子。

图1是第1实施方式的合成字典制作装置100的方框图。本实施方式的合成字典制作装置具备：存储预定的N个(N是自然数，N≥2)句子的句子存储部109；向用户提示从句子存储部109存储的N个句子依次选择的第1句子的提示部110；将朗读第1句子的用户的声音录制，将该录制波形与第1句子相关联存储的录制部101；根据第1句子和其录制波形提取特征量的特征提取部102；存储提取的特征量的特征量存储部103；判断要否制作声音合成字典的要否判断部104；在要否判断部104判断需要声音合成字典的制作的场合，用特征量制作声音合成字典的字典制作部105；存储制作的声音合成字典的字典存储部106；用声音合成字典将第2句子变换为合成波形的声音合成部107；和评价合成波形的音质的音质评价部108。

这里，要否判断部104在录制部101中存储了M个(M是自然数，1≤M＜N)第1句子的录制波形的状态下，即，预定的N个句子的朗读声音的录制未结束的状态下，根据来自用户的声音合成字典的制作指示、上述变量M、录制部101存储的全部录制波形的数据量的至少一个，判断要否制作声音合成字典。

另外，合成字典制作装置100在音质评价部108中评价合成波形的音质没有问题的场合，停止提示部110中第1句子的提示，停止录制部101中声音的录制。

这样，本实施方式的合成字典制作装置根据要否制作声音合成字典的判断结果，即使在录制的中途阶段，也可用迄今为止存储的录制波形和与其相关联的第1句子制作声音合成字典。从而，用户可以在全部朗读预定的N个句子前，确认声音合成字典生成的合成波形的音质。

另外，本实施方式的合成字典制作装置在音质评价部108中评价合成波形的音质没有问题的场合，停止用户的声音的录制。从而，可以避免用户朗读必要以上的句子，提高声音合成字典的制作效率。

(硬件构成)

本实施方式的合成字典制作装置由采用图2所示通常的计算机的硬件构成，具备：控制装置全体的CPU(Central Processing Unit，中央处理单元)等的控制部201；存储各种数据和/或各种程序的ROM(Read OnlyMemory，只读存储器)、RAM(Random Access Memory，随机存取存储器)等的存储部202；存储各种数据和/或各种程序的HDD(Hard Disk Drive，硬盘驱动器)、CD(Compact Disk，压缩盘)驱动器装置等的外部存储部203；接受用户的指示输入的键盘、鼠标等的操作部204；控制与外部装置的通信的通信部205；取得用户的发声的麦克风206；再生合成波形而产生再生音的扬声器207；显示图像的显示器209；和将这些连接的总线208。

这样的硬件构成中，控制部201通过执行在ROM等的存储部202、外部存储部203存储的各种程序，实现以下的功能。

(句子存储部)

句子存储部109将预定的N个(N是自然数，N≥2)句子在存储部202或外部存储部203存储。N个句子考虑对前后的音素环境、句子进行形态分析(形态素分析)而获得的韵律信息、重音(accent)句的短音节(mora)数·重音类型·语言信息等的覆盖而制作。从而，即使N小，也可以生成音质高的声音合成字典。

(提示部)

提示部110从句子存储部109存储的N个句子依次选择句子，选择的句子作为第1句子向用户提示。提示用户时，在显示器209显示第1句子。本实施方式的提示部110，在音质评价部108中由评价声音合成部107生成的合成波形的音质没有问题时，可以停止向用户提示第1句子。

提示部110可以从句子存储部109存储的N个句子按照音素不重复的顺序选择句子。另外，除了音质评价部108评价合成波形的音质没有问题的场合外，提示部110最终将N个句子全部选择为第1句子，向用户提示。另外，提示部110也可以从用户易发声的简易句子开始按照顺序选择第1句子。

(录制部)

录制部101将朗读第1句子的用户的声音录制，将该录制波形与第1句子相关联地存储在存储部202或外部存储部203。用户的声音通过麦克风206取得。本实施方式的录制部101，在音质评价部108中由评价声音合成部107生成的合成波形的音质没有问题时，可以停止声音的录制。

录制部101判断用户声音的录制状态是否适当，可以将判断为不适当的声音不用于后续的处理。例如，根据录制的用户的录制波形计算平均功率、声音区间长度，在这些值低于预定的阈值的场合，可以判断录制状态不适当。这样，通过将录制状态不适当的声音除外，仅仅存储以适当录制状态录制的声音，可以提高后述的处理制作的声音合成字典的精度。

(特征提取部)

特征提取部102从录制部101存储的录制波形及与其相关联的第1句子提取特征量。具体地说，特征提取部102按每个录制波形或声音单位提取韵律信息。这里，声音单位例如有单词(字)、音节、重音句。另外，韵律信息例如有倒谱、矢量量子化数据、基本频率(F0，即基频)、功率、继续时间。

另外，特征提取部102从第1句子的朗读和重音类型提取音素标签信息和语言属性信息。

(特征量存储部)

特征量存储部103将特征提取部102提取的韵律信息、音素标签信息、语言属性信息等的特征量在存储部202或外部存储部203存储。

(要否判断部)

要否判断部104判断要否制作声音合成字典。具体地说，录制部101中存储M个(M是自然数，1≤M＜N)第1句子的录制波形的状态下，即，预定的N个句子的朗读声音的录制未结束的状态下，根据来自用户的声音合成字典的制作指示、上述变量M、录制部101存储的全部录制波形的数据量中的至少一个，判断要否制作声音合成字典。

为来自用户的指示的场合，要否判断部104根据经由键盘、鼠标等的操作部204的用户的预定操作，判断要否制作声音合成字典。例如，用户按下预定的按钮的场合，可将要否制作声音合成字典判断为「要」。

采用表示录制部101已录制结束的第1句子的数的变量M的场合，要否判断部104在变量M超过预定的阈值时，将要否制作声音合成字典判断为「要」。例如，阈值预设定为50句，在变量M超过50后，可以将要否制作声音合成字典判断为「要」。另外，也可以在变量M每次以预定的数增加时，将要否制作声音合成字典判断为「要」。例如，在变量M为5、10、15…这样每增加5句时，可以将要否制作声音合成字典判断为「要」。

采用录制部101存储的全部录制波形的数据量的场合，要否判断部104在全部录制波形的数据量超过预定的阈值时，将要否制作声音合成字典判断为「要」。数据量可以采用全部录制波形的时间长度和/或由录制部101进行的全部录制波形所占存储容量的尺寸等。例如，数据量设为时间长度，阈值设为5分钟的场合，数据量超过5分钟后，将要否制作声音合成字典判断为「要」。另外，也可以在数据量每次以预定的量增加时，将要否制作声音合成字典判断为「要」。例如，数据量每增加1分钟，可以将要否制作声音合成字典判断为「要」。

而且，要否判断部104根据特征量存储部103存储的特征量的数据量，也可以进行声音合成字典的要否判断。

这样，本实施方式的要否判断部104即使在录制的中途阶段也可以判断要否制作声音合成字典。从而，后述的字典制作部105中，在预定的N个句子全部朗读前，可以制作声音合成字典。

(字典制作部)

字典制作部105在要否判断部104判断要否制作声音合成字典为「要」的场合，采用特征量存储部103存储的特征量，制作声音合成字典。本实施方式的字典制作部105在要否判断部104每次将制作要否判断为「要」时制作声音合成字典。从而，在后述的字典存储部106，可以存储总是利用最新的录制波形制作的声音合成字典。

声音合成字典的制作方法例如有适应方式、学习方式。适应方式是将事先制作的不特定说话人的声音合成字典用新提取的特征量逼近目标用户的特性的方式。学习方式是根据提取的特征量新制作声音合成字典的方式。

一般，适应方式即使根据少量的特征量也可以制作声音合成字典。另外，学习方式在可以利用大量特征量的场合，可以高精度再现用户的音质。从而，字典制作部105可以在特征量存储部103存储的特征量的数据量低于预定的阈值的场合采用适应方式，阈值以上的场合采用学习方式，来制作声音合成字典。另外，字典制作部105也可以在上述变量M或者全部录制波形的数据量低于预定的阈值的场合采用适应方式，阈值以上的场合采用学习方式，来制作声音合成字典。例如，在阈值设为50句、M比50小的场合可以采用适应方式，M为50以上的场合可以采用学习方式，来制作声音合成字典。

声音合成的方式为片断连接型的场合，声音合成字典分为控制声音的韵律的韵律控制字典和表现声音的音质的声音片断字典。这些字典可以个别制作，例如，韵律控制字典可以采用适应方式制作，声音片断字典可以采用逐次学习方式制作。另外，声音合成的方式为采用HMM等的统计手法的场合，可以通过采用适应方式，短时间制作用户定制的声音合成字典。

这样，字典制作部105根据特征量的数据量、变量M、全部录制波形的数据量的之一，切换学习方式。从而，可由适于录制的进展状况的学习方式制作声音合成字典。

(字典存储部)

字典存储部106将字典制作部105制作的声音合成字典在存储部202或外部存储部203存储。

(声音合成部)

声音合成部107根据经由操作部204的来自用户的请求，采用字典存储部106存储的声音合成字典，将第2句子变换为合成波形。声音合成部107生成的合成波形从扬声器207再生。本实施方式中的第2句子采用声音合成的波形生成难的句子等预定的句子。

声音合成部107根据特征量的数据量、变量M、全部录制波形的数据量的之一，也可以判断要否生成合成波形。例如，也可以在变量M每增加10句时，或全部录制波形的数据量每增加10分钟时，生成合成波形。另外，也可以在字典存储部106存储的声音合成字典每次更新时生成合成波形。

(音质评价部)

音质评价部108评价由声音合成部107生成的合成波形的音质。评价的结果为音质没有问题的场合，音质评价部108可以向提示部110发送停止向用户提示第1句子的信号，向录制部101发送停止声音的录制的信号。

本实施方式的音质评价部108经由操作部204取得用户对声音合成的评价。例如，用户评价由声音合成部107试听的合成波形的音质足够的场合，音质评价部108认为合成波形的音质没有问题，可以指示停止声音的录制。

这样，音质评价部108评价合成波形的音质没有问题的场合，发送用于停止用户声音的录制的信号。从而，用户可以避免朗读必要以上的第1句子，提高声音合成字典的制作效率。

(流程图)

利用图3的流程图，说明本实施方式的合成字典制作装置的处理。

首先，步骤S1中，合成字典制作装置100，判断预定的N个(N是自然数，N≥2)句子的朗读声音的录制是否结束。结束的场合，向步骤S10转移，制作声音合成字典。未结束的场合，向步骤S2转移。初期状态中，选择向步骤S2转移。

步骤S2中，提示部110从句子存储部109存储的N4句子选择第1句子，向用户提示。

步骤S3中，录制部101录制朗读第1句子的用户的声音，将该录制声音与第1句子相关联存储。此时，也确认录制波形的录制状态。

步骤S4中，特征提取部102从录制部101存储的录制波形及与其相关联的第1句子提取特征量，在特征量存储部103存储。

步骤S5中，要否判断部104判断要否制作声音合成字典。本实施方式的要否判断部104根据来自用户的声音合成字典的制作指示、变量M、全部录制波形的数据量中的至少一个，判断要否制作。判断为「不要」的场合向步骤S1转移，继续录制。判断为「要」的场合向步骤S6转移。

步骤S6中，字典制作部105采用在特征量存储部103存储的特征量制作声音合成字典，将制作的声音合成字典在字典存储部106存储。

步骤S7中，声音合成部107采用声音合成字典生成合成波形，从扬声器207再生。

步骤S8中，音质评价部108评价生成的合成波形的音质。用户试听合成波形的结果评价为音质没有问题的场合，向步骤S9转移。另一方面，评价有问题的场合，向步骤S1转移，继续录制。

步骤S9中，合成字典制作装置100结束声音的录制。

(接口)

图4表示本实施方式的合成字典制作装置的接口(interface)的一例。

该图的402是朗读句子显示栏，显示由提示部110选择的第1句子。用户按下录制开始按钮404后，合成字典制作装置100开始声音的录制。录制部101判断用户声音的录制状态。该例中，与以下的3个基准之一相符的场合，判断录制状态不适当。

1.录制波形的声音区间中的平均功率低于预定的阈值

2.录制波形的短时间功率的最大值超出预定的阈值/声音区间中的录制波形的短时间功率的最小值低于预定的阈值

3.录制波形的长度比预定的时间长度(例如，20ms)短

其他场合，判断录制状态适当。

判断录制状态不适当的场合，合成字典制作装置100对用户通知该情况。例如，不满足上述的1的条件的场合，在消息显示栏401显示「请提高麦克风的音量，提高录制装置的音量。」这样的消息。

用户按下合成音确认按钮406后，声音合成部107判断有合成波形的生成请求，从扬声器再生用声音合成字典生成的合成波形。

另外，在用户按下合成音确认按钮406的时刻，在字典存储部106未存储声音合成字典的场合，要否判断部104判断声音合成字典制作为「要」，将该信号向字典制作部105发送。然后，声音合成部107在字典制作部105的声音合成字典制作结束后，将第2句子变换为合成波形。

用户确认从扬声器再生的合成波形的音质，评价音质没有问题的场合，按下录制结束按钮405。从而，合成字典制作装置100结束声音的录制。继续录制的场合，在朗读句子显示栏402提示接着选择的第1句子。

(第2实施方式)

图5是第2实施方式的合成字典制作装置500的方框图。与第1实施方式的声音合成制作装置100的差异在于，音质评价部501根据录制部101存储的录制波形和声音合成部107生成的合成波形的相似度，评价合成波形的音质。

这里，声音合成部107中的第2句子采用与在存储部101存储的录制波形对应的第1句子。然后，计算该第1句子的录制波形和从第2句子生成的合成波形的相似度。这样，通过在录制波形和合成波形中使发声内容一致，可以评价排除了发话内容的差异的类似性。该录制波形是用户实际发声的声音，与其相似度高意味着采用声音合成字典生成的合成波形接近用户声音。

音质评价部501将录制波形和合成波形的频谱失真、F0图形的均方误差作为相似度。频谱失真或F0图形的均方误差成为预定的阈值以上的场合(相似度低的场合)，声音合成字典的性能不充分，因此继续声音的录制。另一方面，低于阈值的场合(相似度高的场合)，声音合成字典的性能充分，因此停止声音的录制。

本实施方式的音质评价部501采用作为客观指标的相似度评价合成波形的音质。由于音的传播通路的差异，用户可能判断在发声时听到的自身的声和从扬声器再生的自身的声为不同的音质。如本实施方式，通过采用客观指标，可以正确评价声音合成部107生成的合成波形的音质。结果，可以正确判断继续录制的必要性，提高声音合成字典的制作效率。

(变形例1)

本实施方式的声音合成字典制作装置中，向用户提示从预定的N4句子依次选择的第1句子，但是，向用户提示的第1句子也可以是多个句子。即，也可以向用户提示包括多个第1句子的句段。另外，N个句子也可以作为包括多个句子的句段在句子存储部109存储。

另外，本实施方式的声音合成字典制作装置中，根据变量M、全部录制波形的数据量判断要否制作声音合成字典，但是，也可以根据对于录制部101中录制状态适当的朗读声音的变量M、全部录制波形的数据量，判断要否制作声音合成字典。即，要否判断部104根据录制适当结束的第1句子的数或者录制状态适当的全部录制波形的数据量，判断要否制作声音合成字典。

(效果)

根据以上所述至少一个实施方式的合成字典制作装置，即使在录制的中途阶段，也可以根据要否制作声音合成字典的判断结果，采用迄今为止存储的录制波形制作声音合成字典。从而，用户在全部朗读预定的句子前，可以确认声音合成字典生成的合成波形的音质。

另外，以上所述至少一个实施方式的合成字典制作装置，在评价合成波形的音质没有问题的场合，停止用户的声音的录制。从而，可以避免用户朗读必要以上的句子，提高声音合成字典的制作效率。

另外，以上说明的本实施方式中的部分功能或者全部功能可以通过软件处理实现。

虽然说明本发明的几个实施方式，这些实施方式只是例示，而不是限定发明的范围。这些新实施方式可以其他各种方式实施，在不脱离发明的要旨的范围，可以进行各种省略、置换、变更。这些实施方式及其变形是发明的范围、要旨所包含的，也是权利要求的范围所述的发明及其均等的范围所包含的。

Claims

1.一种合成字典制作装置，其特征在于，具备：

句子存储单元，其存储预定的N个(N是自然数，N≥2)句子；

提示单元，其向用户提示从上述句子存储单元存储的上述N个句子依次选择的第1句子；

录制单元，其将朗读上述第1句子的用户的声音录制，将该录制波形与上述第1句子相关联存储；

要否判断单元，其在上述录制单元中存储M个(M是自然数，1≤M＜N)上述第1句子的录制波形的状态下，根据来自用户的声音合成字典的制作指示、上述M和上述录制单元存储的全部上述录制波形的数据量中的至少一个，判断要否制作声音合成字典；

字典制作单元，其在上述要否判断单元判断需要声音合成字典的制作的场合，使用上述录制单元存储的上述录制波形及与其相关联的上述第1句子，制作声音合成字典；和

声音合成单元，其使用由上述字典制作单元制作的声音合成字典，将第2句子变换为合成波形。

2.如权利要求1所述的合成字典制作装置，其特征在于，还具备：

音质评价单元，其评价上述合成波形的音质。

3.如权利要求2所述的合成字典制作装置，其特征在于，

在上述音质评价单元中评价上述合成波形的音质没有问题的场合，上述提示单元停止向用户提示上述第1句子。

4.如权利要求2或3所述的合成字典制作装置，其特征在于，

在上述音质评价单元中评价上述合成波形的音质没有问题的场合，上述录制单元停止上述用户的声音的录制。

5.如权利要求2所述的合成字典制作装置，其特征在于，

上述声音合成单元中的上述第2句子是上述句子存储单元存储的上述N个句子的某个句子，

上述音质评价单元，根据上述录制单元存储的与上述第2句子对应的上述录制波形和上述合成波形的相似度，评价上述合成波形的音质。

6.如权利要求2所述的合成字典制作装置，其特征在于，

上述音质评价单元取得来自试听上述合成波形的用户的上述合成波形的评价。

7.如权利要求1所述的合成字典制作装置，其特征在于，

上述字典制作单元根据上述M或者上述数据量，切换声音合成字典的制作方法。

8.如权利要求7所述的合成字典制作装置，其特征在于，

上述字典制作单元在上述M或者上述数据量低于预定的阈值的场合，用适应方式制作声音合成字典。

9.如权利要求1所述的合成字典制作装置，其特征在于，

上述录制单元判断上述用户的声音的录制状态，将判断为适当录制的录制波形与上述第1句子相关联存储。

10.一种合成字典制作方法，其特征在于，具备：

提示步骤，向用户提示从句子存储单元存储的N个(N是自然数，N≥2)句子依次选择的第1句子；

录制步骤，将朗读上述第1句子的用户的声音录制，将该录制波形与上述第1句子相关联存储；

要否判断步骤，在上述录制单元中存储M个(M是自然数，1≤M＜N)上述第1句子的录制波形的状态下，根据来自用户的声音合成字典的制作指示、上述M和上述录制步骤中存储的全部上述录制波形的数据量中的至少一个，判断要否制作声音合成字典；

字典制作步骤，在上述要否判断步骤判断需要声音合成字典的制作的场合，使用上述录制步骤中存储的上述录制波形及与其相关联的上述第1句子，制作声音合成字典；和

声音合成步骤，使用由上述字典制作步骤制作的声音合成字典，将第2句子变换为合成波形。