CN104464717B

CN104464717B - 声音合成装置

Info

Publication number: CN104464717B
Application number: CN201410133441.9A
Authority: CN
Inventors: 大塚贵弘; 川岛启吾; 古田训; 山浦正
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2013-09-25
Filing date: 2014-04-03
Publication date: 2017-11-03
Anticipated expiration: 2034-04-03
Also published as: US9230536B2; JP2015064482A; CN104464717A; US20150088520A1; JP6234134B2

Abstract

得到能够制作高质量的合成声音的声音合成装置。候补声音片段系列制作部（1）针对输入语言信息系列（101），使用声音片段数据库（4）的DB声音片段（105）来制作候补声音片段系列（102）。输出声音片段系列决定部（2）使用表示与输入语言信息系列（101）、和表示候补声音片段系列（102）中的多个候补声音片段各自的属性的声音参数的共生条件（106）对应的值的参数（107），来计算候补声音片段系列（102）适合于输入语言信息系列（101）的程度，根据适合的程度，决定输出声音片段系列（103）。

Description

声音合成装置

技术领域

本发明涉及与输入语言信息的时间系列对应地从声音片段合成声音来生成合成声音的声音合成装置。

背景技术

在基于大容量的声音数据库的声音合成方式中，提出了通过代替组合了根据预期的知识决定的物理性的参数的尺度，而将基于在声音识别等中使用的HMM（Hidden MarkovModel，隐马尔可夫模型）的统计性的似然度用作尺度，从而一并具有基于依照HMM的合成方式的概率尺度的合理性和声音质量的均匀性的优点、和基于大容量的声音数据库的声音合成方式的高质量这样的优点的、以实现高质量并且均质的合成声音为目的的声音合成方法（参照例如专利文献1）。

在专利文献1中，使用表示按照音韵输出每个状态迁移的音响参数（线性预测系数、倒谱等）系列的概率的音响模型、和表示按照韵律输出每个状态迁移的韵律参数（基本频率等）系列的概率的韵律模型，通过与构成针对输入文本的音韵系列的各音韵对应的每个状态迁移的音响参数系列的音响上的似然度、和与构成针对输入文本的韵律系列的各韵律对应的每个状态迁移的韵律参数系列的韵律上的似然度，计算声音片段成本，选择声音片段。

【专利文献1】日本特开2004-233774号公报

发明内容

但是，在上述那样的以往的声音合成方法中，对于声音片段的选择，难以决定如何决定按照音韵，得不到恰当的按照音韵的音响模型，存在无法恰当地求出输出音响参数系列的概率这样的问题。另外，关于韵律，也同样地，难以决定如何决定按照韵律，得不到恰当的按照韵律的韵律模型，存在无法恰当地求出输出韵律参数系列的概率的问题。

另外，在以往的声音合成方法中，通过按照音韵的音响模型，计算音响参数系列的概率，所以按照音韵的音响模型不成为适合于依赖于韵律参数系列的音响参数系列的模型，存在无法恰当地输出音响参数系列的概率这样的问题。另外，关于韵律，也同样地，通过按照韵律的韵律模型，计算韵律参数系列的概率，所以按照韵律的韵律模型不成为适合于依赖于音响参数系列的韵律参数系列的韵律模型，存在无法恰当地求出输出韵律参数系列的概率这样的问题。

另外，在以往的声音合成方法中，使用设定与输入文本对应的音韵系列（每个音韵的功率、音韵长、基本频率），按照音韵输出每个状态迁移的音响参数系列的音响模型存储单元的内容记载于专利文献1中，但在使用了这样的单元的情况下，存在如果音韵系列的设定的精度低，则无法选择恰当的音响模型这样的问题。另外，还存在需要音韵系列的设定，动作变得繁杂的问题。

另外，在以往的声音合成方法中，预先根据输出音响参数系列、韵律参数系列等声音参数系列的概率，计算声音片段成本，不成为考虑了声音参数的听觉上的重要性的声音片段成本，存在所得到的声音片段听觉上成为不自然这样的问题。

本发明是为了解决上述那样的课题而完成的，其目的在于得到一种能够制作高质量的合成声音的声音合成装置。

本发明提供一种声音合成装置，其特征在于，具备：候补声音片段系列制作部，针对作为所输入的声音单位的时间系列的输入语言信息系列，参照积蓄声音片段的时间系列的声音片段数据库来制作候补声音片段系列；输出声音片段决定部，使用表示与输入语言信息系列、和表示候补声音片段系列中的多个候补声音片段各自的属性的声音参数的共生条件对应的值的参数，来计算候补声音片段系列适合于输入语言信息系列的程度，根据适合的程度，决定输出声音片段系列；以及波形片段连接部，连接与输出声音片段系列对应的声音片段来制作声音波形。

本发明的声音合成装置使用表示与输入语言信息系列、和表示候补声音片段系列中的多个候补声音片段各自的属性的声音参数的共生条件对应的值的参数，计算候补声音片段系列适合于输入语言信息系列的程度，根据适合的程度，决定输出声音片段系列，所以能够制作高质量的合成声音。

附图说明

图1是示出本发明的实施方式1～5的声音合成装置的结构图。

图2是示出本发明的实施方式1～5的声音合成装置的输入语言信息系列的说明图。

图3是示出本发明的实施方式1～5的声音合成装置的声音片段数据库的说明图。

图4是示出本发明的实施方式1～5的声音合成装置的参数辞典的说明图。

图5是示出本发明的实施方式1～5的声音合成装置的动作的流程图。

图6是示出本发明的实施方式1的声音合成装置的输入语言信息系列和候补声音片段系列的一个例子的说明图。

符号说明

1：候补声音片段系列制作部；2：输出声音片段系列决定部；3：波形片段连接部；4：声音片段数据库；5：参数辞典；101：输入语言信息系列；102：候补声音片段系列；103：输出声音片段系列；104：声音波形；105：DB声音片段；106：共生条件；107：参数。

具体实施方式

实施方式1.

图1是示出本发明的实施方式1的声音合成装置的结构图。

图1所示的声音合成装置具备候补声音片段系列制作部1、输出声音片段系列决定部2、波形片段连接部3、声音片段数据库4、参数辞典5。

在候补声音片段系列制作部1中，组合成为向声音合成装置的输入的输入语言信息系列101和声音片段数据库4的DB声音片段105，来制作候补声音片段系列102。在输出声音片段系列决定部2中，参照输入语言信息系列101、候补声音片段系列102以及参数辞典5，制作输出声音片段系列103。在波形片段连接部3中，参照输出声音片段系列103，制作成为声音合成装置6的输出的声音波形104。

输入语言信息系列101是输入语言信息的时间系列。输入语言信息具有表示所制作的声音波形的语言内容的音韵和音高等记号。

图2示出输入语言信息系列的例子。该例子是表示所制作的声音波形“湖”（みずうみ（mizuumi）（日文））的输入语言信息系列，是7个输入语言信息的时间系列。

例如，第1输入语言信息表示音韵是m，音高是L，第3输入语言信息表示音韵是z，音高是H。此处，m是表示“湖”的开头的“み”的子音的记号。音高L是表示音的高低低的记号，音高H是表示音的高低高的记号。输入语言信息系列101既可以人工制作，也可以通过使用以往的一般的语言解析技术对表示所制作的声音波形的语言内容的文本进行自动解析而机械地制作。

声音片段数据库4是存储DB声音片段系列的数据库。DB声音片段系列是DB声音片段105的时间系列。DB声音片段105具有波形片段、DB语言信息以及声音参数。

波形片段是音压信号系列。音压信号系列是与用麦克风等记录解说员等发声了的声音而得到的音压有关的信号的时间系列的断片。另外，记录波形片段的形式也可以成为通过以往的一般的信号压缩技术压缩了数据量的形式。

DB语言信息是表示波形片段的记号，具有音韵和音高等。音韵是表示波形片段的音的种类（读）的音素记号等。音高是对波形片段的音的高低进行抽象化而表示的H（高）、L（低）等记号。

声音参数具有分析谱、基本频率、持续长等波形片段而得到的信息和语言环境，是表示各声音片段的属性的信息。

谱是表示对音压信号系列进行频率分析而得到的每个频率频带的振幅的大小、相位的值。

基本频率是分析音压信号系列而得到的声带的振动频率。

持续长是音压信号系列的时间长。

语言环境是具有比相应的DB语言信息先行或者后续等的多个DB语言信息的记号。具体而言，语言环境具有比相应的DB语言信息先先行的DB语言信息、先行的DB语言信息、后续的DB语言信息、以及后后续的DB语言信息。在相应是声音的开头、末尾的情况下，先行的DB语言信息、后续的DB语言信息用星号（*）等记号来表现。

另外，声音参数除了上述以外，也可以是表示谱的时间变化的特征量、MFCC（MelFrequency Cepstral Coefficient：梅尔频率倒谱系数）等为了选择声音片段而使用的以往的特征量。

图3示出声音片段数据库4的例子。该声音片段数据库4是存储具有编号301、DB语言信息302、声音参数303、波形片段304的DB声音片段105的时间系列的数据库。编号301是为了识别DB声音片段而赋予的编号。

波形片段304的音压信号系列是与用麦克风等记录解说员发声了的第1声音“みず”、第2声音“きぜ…”、…而得到的与音压有关的信号的时间系列的断片。编号301为1的音压信号系列是与第1声音“みず”的开头部分对应的断片。

DB语言信息302表示在之间夹着斜杠的音韵和音高。音韵是m、i、z、u、k、i、z、e、…，音高是L、L、H、H、L、L、H、H、…。例如，编号301为1的音韵m是表示与第1声音“みず”的“み”的子音对应的音的种类（读）的记号，编号301为1的音高L是表示与第1声音“みず”的“み”的子音对应的音的高低的记号。

声音参数303表示具有谱305、谱时间变化306、基本频率307、持续长308以及语言环境309的例子。

谱305具有针对音压信号系列的左端（在时刻上前面）和右端（在时刻上后面）的附近的信号，分别将10个频率频带中的振幅值量化为1～10这10个阶段而得到的值。

谱时间变化306具有在音压信号系列的左端（在时刻上前面）的断片中，将10个频率频带中的振幅值的时间变化量化为-10～10这21个阶段而得到的值。

另外，基本频率307在有声音下用量化为1至10这10个阶段而得到的值表现，在无声音下用0表现。

另外，持续长308用量化为1至10这10个阶段而得到的值来表现。

另外，关于量化的阶段，在上述中设为10，但也可以根据声音合成装置的规模等，设为不同的值。

另外，编号1的声音参数303的语言环境309是“*/**/*i/Lz/H”，表示具有比相应的DB语言信息（m/L）先先行的DB语言信息（*/*）、先行的DB语言信息（*/*）、后续的DB语言信息（i/L）、以及后后续的DB语言信息（z/H）。

参数辞典5是存储共生条件106和参数107的对的装置。共生条件106是用于判定输入语言信息系列101和候补声音片段系列102中的多个候补声音片段的声音参数303是特定的值或者记号的条件。参数107是为了计算输入语言信息系列和候补声音片段系列之间的适合程度，根据共生条件106参照的值。

此处，多个候补声音片段是指，在候补声音片段系列102中相应的候补声音片段、比相应的候补声音片段先行（或者先先行）的候补声音片段、比相应的候补声音片段后续（或者后后续）的候补声音片段。

共生条件106也可以设为包括候补声音片段系列102中的、多个候补声音片段的声音参数303之差、差的绝对值、距离、相关值等运算结果成为特定的值的条件。

参数107是根据喜好设定输入语言信息和多个候补声音片段的声音参数303的组合（共生）的值。在喜欢时，设定大的值，在不喜欢时，设定小的值（负的值）。

图4示出参数辞典5的例子。参数辞典5是存储编号401、共生条件106、参数107的装置。编号401是为了容易识别共生条件106而赋予的编号。

能够通过共生条件106和参数107，详细地表示输入语言信息系列101、基本频率307等韵律参数的系列、以及谱305等音响参数的系列等的优选的关系。此处，在图4的共生条件106中示出共生条件106的例子。

相应的候补声音片段的声音参数303的基本频率307具有对相应的输入语言信息系列101的音高有用（喜欢或者不喜欢）的关系，所以记述与相应的候补声音片段的声音参数303的基本频率307和相应的输入语言信息的音高有关的条件（例如图4的编号1和编号2的共生条件106）。

相应的候补声音片段和先行的候补声音片段的基本频率307之差基本上没有对相应的输入语言信息有用的关系，所以仅记述与相应的候补声音片段和先行的候补声音片段的基本频率的差有关的条件（例如图4的编号3和编号4的共生条件106）。

其中，相应的候补声音片段和先行的候补声音片段的基本频率307之差具有对相应的输入语言信息的特定的音韵和先行的输入语言信息的特定的音韵有用的关系，所以记述与相应的候补声音片段、和先行的候补声音片段的基本频率307之差、相应的输入语言信息的特定的音韵、和先行的输入语言信息的特定的音韵有关的条件（例如图4的编号5和编号6的共生条件106）。

相应的候补声音片段的声音参数303的基本频率307具有对相应的输入语言信息的音高、先行的候补声音片段的声音参数303的基本频率307、以及先先行的候补声音片段的声音参数303的基本频率307有用的关系，所以记述与它们有关的共生条件106（例如图4的编号7的共生条件106）。

相应的候补声音片段的声音参数303的谱左端第1频率频带的振幅具有对相应的输入语言信息的音韵、和先行的候补声音片段的声音参数303的谱右端第1频率频带的振幅有用的关系，所以记述与它们有关的共生条件106（例如图4的编号8和编号9的共生条件106）。

相应的DB声音片段的声音参数303的持续长308具有对相应的输入语言信息系列的音韵、和先行的输入语言信息系列的音韵有用的关系，所以记述与它们有关的共生条件106（例如图4的编号10的共生条件106）。

另外，在上述中存在有用的关系的情况下设置了共生条件106，但不限于此，在不存在有用的关系的情况下，也可以设置共生条件106。在该情况下，将参数设定为0。

接下来，说明实施方式1的声音合成装置的动作。

图5是示出实施方式1的声音合成装置的动作的流程图。

<步骤ST1>

在步骤ST1中，候补声音片段系列制作部1接受输入语言信息系列101作为向声音合成装置的输入。

<步骤ST2>

在步骤ST2中，候补声音片段系列制作部1参照输入语言信息系列101，从声音片段数据库4选择DB声音片段105，将其作为候补声音片段。具体而言，候补声音片段系列制作部1针对各输入语言信息，选择输入语言信息和DB语言信息302一致的DB声音片段105，将其作为候补声音片段。

例如，与图2所示的输入语言信息系列中的第1输入语言信息一致的图3的DB语言信息302是编号1的DB声音片段。关于编号1的DB声音片段，音韵是m、音高是L，与图2中的第1输入语言信息的音韵m和音高L一致。

<步骤ST3>

在步骤ST3中，候补声音片段系列制作部1使用在步骤ST2中得到的候补声音片段，制作候补声音片段系列102。

针对输入语言信息，通常选择多个候补声音片段，将这些候补声音片段的全部组合作为多个候补声音片段系列102。

另外，在针对全部输入语言信息选择的候补声音片段是1个的情况下，候补声音片段系列102仅为一个，也可以省略后续的动作（步骤ST3～步骤ST5），将候补声音片段系列102作为输出声音片段系列103，使动作转移到步骤ST6。

在图6中，上下对应地示出候补声音片段系列102和输入语言信息系列101的例子。候补声音片段系列102是参照输入语言信息系列101，从图3所示的声音片段数据库4选择DB声音片段105，而在步骤ST3中制作的多个候补声音片段系列。输入语言信息系列101是图2所示的输入语言信息的时间系列。

在该例子中，示出了候补声音片段系列102内的实线矩形框所示的箱表示1个候补声音片段，连接箱和箱的线表示候补声音片段的组合，得到8种候补声音片段系列102。另外，示出了与第2输入语言信息（i/L）对应的第2候补声音片段601是编号2的DB声音片段和编号6的DB声音片段。

<步骤ST4>

在步骤ST4中，输出声音片段系列决定部2根据共生条件106和参数107，计算候补声音片段系列102与输入语言信息系列之间的适合程度。

以针对先先行的候补声音片段、先行候补声音片段、以及相应候补声音片段记述了共生条件106的情况为例子，详细叙述计算适合程度的方法。

参照第s-2、第s-1、以及第s个输入语言信息、和与它们对应的候补声音片段的声音参数303，从参数辞典5搜出适用的共生条件106，将对与适用的全部共生条件106对应的参数107进行加法而得到的值作为参数加法值。此处，第s个是表示输入语言信息系列101等的时间位置的变量。

此时，共生条件106的“先先行的输入语言信息”对应于第s-2个输入语言信息，共生条件106的“先行的输入语言信息”对应于第s-1个输入语言信息，共生条件106的“相应的输入语言信息”对应于第s个输入语言信息。

另外，此时，共生条件106的“先先行的声音片段”对应于与编号s-2的输入语言信息对应的候补声音片段，共生条件106的“先行的声音片段”对应于与编号s-1的输入语言信息对应的候补声音片段，共生条件106的“相应的声音片段”对应于与编号s的输入语言信息对应的DB声音片段。适合程度成为使s从3变化至输入语言信息系列的数量并反复与上述同样的处理而得到的参数加法值。另外，也可以使s从1变化，在该情况下，关于编号0、编号-1的输入语言信息、对应的声音片段的声音参数303，预先设定预定的固定的值。

针对各候补声音片段系列102，反复执行上述处理，分别求出各候补声音片段系列102与输入语言信息系列之间的适合程度。

在图6的多个候补声音片段系列102内，以下述所示的候补声音片段系列102为例子，而示出适合程度的计算。

第1输入语言信息：第1候补声音片段是编号1的DB声音片段

第2输入语言信息：第2候补声音片段是编号2的DB声音片段

第3输入语言信息：第3候补声音片段是编号3的DB声音片段

第4输入语言信息：第4候补声音片段是编号4的DB声音片段

第5输入语言信息：第5候补声音片段是编号4的DB声音片段

第6输入语言信息：第6候补声音片段是编号1的DB声音片段

第7输入语言信息：第7候补声音片段是编号2的DB声音片段

参照第1、第2及第3输入语言信息、和编号1、编号2及编号3的DB声音片段的声音参数303，从图4的参数辞典5搜出适用的共生条件106，将对与适用的全部共生条件106对应的参数107进行加法而得到的值作为参数加法值。

此时，共生条件106的“先先行的输入语言信息”对应于第1输入语言信息（m/L），共生条件106的“先行的输入语言信息”对应于第2输入语言信息（i/L），共生条件106的“相应的输入语言信息”对应于第3输入语言信息（z/H）。

另外，此时，共生条件106的“先先行的声音片段”对应于编号1的DB声音片段，共生条件106的“先行的声音片段”对应于编号2的DB声音片段，共生条件106的“相应的声音片段”对应于编号3的DB声音片段。

接下来，参照第2、第3及第4输入语言信息、和编号2、编号3及编号4的DB声音片段的声音参数303，从图4的参数辞典5搜出适用的共生条件106，将与适用的全部共生条件106对应的参数107加到前面的参数加法值。此时，共生条件106的“先先行的输入语言信息”对应于第2输入语言信息（i/L），共生条件106的“先行的输入语言信息”对应于第3输入语言信息（z/H），共生条件106的“相应的输入语言信息”对应于第4输入语言信息（u/H）。

另外，此时，共生条件106的“先先行的声音片段”对应于编号2的DB声音片段，共生条件106的“先行的声音片段”对应于编号3的DB声音片段，共生条件106的“相应的声音片段”对应于编号4的DB声音片段。

将直至最后的“第5、第6及第7输入语言信息和编号4、编号1及编号2的DB声音片段”，反复与上述同样的处理而得到的参数加法值作为适合程度。

<步骤ST5>

在步骤ST5中，输出声音片段系列决定部2在多个候补声音片段系列102内，将在步骤ST4中计算的适合程度高的候补声音片段系列102作为输出声音片段系列103。即，将成为适合程度高的候补声音片段系列102的DB声音片段作为输出声音片段，将该时间系列作为输出声音片段系列103。

<步骤ST6>

在步骤ST6中，波形片段连接部3从声音合成装置输出将输出声音片段系列103的各输出声音片段的波形片段304依次连接而制作的声音波形104。在波形片段304的连接中，例如，使用使先行的输出声音片段的音压信号系列的右端和后续的输出声音片段的音压信号系列的左端的相位匹配地连接那样的公知技术即可。

如以上说明，根据实施方式1的声音合成装置，具备：候补声音片段系列制作部，针对作为所输入的声音单位的时间系列的输入语言信息系列，参照积蓄声音片段的时间系列的声音片段数据库来制作候补声音片段系列；输出声音片段决定部，使用表示与输入语言信息系列、和表示候补声音片段系列中的多个候补声音片段各自的属性的声音参数的共生条件对应的值的参数，计算候补声音片段系列适合于输入语言信息系列的程度，根据适合的程度，决定输出声音片段系列；以及波形片段连接部，连接与输出声音片段系列对应的声音片段来制作声音波形，所以具有无需准备按照音韵的音响模型、按照韵律的韵律模型，能够避免与以往的“按照音韵、按照韵律”的决定方法有关的问题的效果。

另外，具有能够设定考虑了音韵、振幅谱、以及基本频率等的关系的参数，能够计算恰当的适合程度的效果。

另外，具有无需准备按照音韵的音响模型，也无需设定成为用于按照音韵分配的信息的音韵系列，能够简化装置的动作的效果。

另外，根据实施方式1的声音合成装置，共生条件设为是候补声音片段系列中的多个候补声音片段各自的声音参数的值的运算结果成为特定的值的条件，所以具有能够设定先先行的声音片段、先行的声音片段、以及相应的声音片段等多个候补声音片段的声音参数的差、差的绝对值、距离、相关值等共生条件，能够设定还考虑了与声音参数的关系有关的差、距离、相关等的共生条件和参数，能够计算恰当的适合程度的效果。

实施方式2.

在实施方式1中，参数107成为根据输入语言信息系列101和候补声音片段系列102的声音参数303的组合的喜好设定的值，但也可以代替其而如下那样设定参数107。

即，在与DB声音片段系列的DB语言信息302的系列对应的多个候补声音片段系列102内、与DB声音片段系列相同的候补声音片段系列102的情况下，参数107成为大的值。或者，在与DB声音片段系列不同的候补声音片段系列102的情况下，成为小的值。或者，成为这些两方。

接下来，说明实施方式2中的参数107的设定方法。

候补声音片段系列制作部1将声音片段数据库4中的DB语言信息的系列视作输入语言信息系列101，制作与该输入语言信息系列101对应的多个候补声音片段系列102。

接下来，在多个候补声音片段系列102内，在与DB声音片段系列相同的候补声音片段系列102中，求出各共生条件106适用的次数A。

接下来，在多个候补声音片段系列102内，在与DB声音片段系列不同的候补声音片段系列102中，求出各共生条件106适用的次数B。

另外，各共生条件106的参数107设定为次数A与次数B的差（次数A-次数B）。

如以上说明，候补声音片段系列制作部将声音片段数据库中的声音片段的时间系列视作输入语言信息系列，制作与视作的时间系列对应的多个候补声音片段系列，输出声音片段系列决定部在所制作的多个候补声音片段系列中、与视作的时间系列相同的系列的情况下，使参数成为大的值，或者，在是与视作的时间系列不同的系列的情况下，使参数成为小的值，使用其中的至少某一个值，计算输入语言信息系列和候补声音片段系列之间的适合程度，所以在候补声音片段系列与DB声音片段系列相同的情况下，适合程度变大，或者，在候补声音片段系列与DB声音片段系列不同的情况下，适合程度变小，或者其两方，所以具有能够得到具有与根据解说员的录音声音构筑的DB声音片段系列的各声音参数的时间系列类似的声音参数的时间系列的输出声音片段系列，得到接近解说员的录音声音的声音波形的效果。

实施方式3.

在实施方式1或者实施方式2的参数107的设定方法中，也可以如以下那样设定参数107。

即，关于参数107，在与DB声音片段系列的DB语言信息302的系列对应的候补声音片段系列102中，DB声音片段系列的DB声音片段的声音参数303的听感上的重要的程度、和DB语言信息302的语言环境309与候补声音片段系列102的候补声音片段的语言环境309的类似的程度大的情况下，成为更大的值。

接下来，说明实施方式3中的参数107的设定方法。

候补声音片段系列制作部1将声音片段数据库4中的DB语言信息302的系列视作输入语言信息系列101，制作与该输入语言信息系列101对应的多个候补声音片段系列102。

接下来，针对输入语言信息系列101的DB声音片段系列的每个DB声音片段，求出该DB声音片段的声音参数303的重要的程度C1。此处，重要的程度C₁在DB声音声片段的声音参数303在听感上重要的情况下成为大（重要的程度大）的值。具体而言，例如，重要的程度C₁用谱的振幅的大小表示。在该情况下，重要的程度C₁在谱的振幅大时（听感上易于听见的母音等）变大，在谱的振幅小时（听感上比较不易听见的子音等）变小。另外，具体而言，例如，重要的程度C₁成为DB声音片段的谱时间变化306（音压信号系列的左端附近的谱的时间变化）的倒数。在该情况下，重要的程度C₁在波形片段304的连接中的连续性重要时（母音、母音间等）变大，相比较在波形片段304的连接中的连续性比较不重要时（母音、子音间等）变小。

接下来，针对输入语言信息系列101的语言环境309和候补声音片段系列102的候补声音片段的语言环境309的每个配对，求出两个声音片段的语言环境309的类似的程度C₂。此处，语言环境309的类似的程度C₂在输入语言信息系列101的语言环境309和候补声音片段系列102的声音片段的语言环境309的类似的程度大时成为大的值。具体而言，例如，语言环境309的类似的程度C₂在语言环境309一致的情况下成为2，在仅语言环境309的音韵一致的情况下成为1，在完全不一致的情况下成为0。

接下来，各共生条件106的参数107将在实施方式1或者实施方式2中设定的参数107设定为初始值。

接下来，在候补声音片段系列102的各声音片段中，将适用的各共生条件106的参数107用C₁和C₂来更新。具体而言，在候补声音片段系列102的各声音片段中，对适用的各共生条件106的参数107，加上C₁与C₂之积。针对全部候补声音片段系列102的各声音片段，进行该积的加法。

如以上说明，根据实施方式3的声音合成装置，候补声音片段系列制作部将声音片段数据库中的声音片段的时间系列视作输入语言信息系列，制作与视作的时间系列对应的多个候补声音片段系列，输出声音片段系列决定部在所制作的多个候补声音片段系列中的、所视作的时间系列中的各个声音片段的听感上的重要度的值大、并且候补声音片段系列中的包括作为对象的声音片段并且连续的多个声音片段的时间系列的语言环境、与所视作的时间系列中的语言环境的类似的程度大的情况下，将参数设为比实施方式1或者实施方式2的参数大的值，计算输入语言信息系列与候补声音片段系列之间的适合程度，所以听感上重要的共生条件的参数成为更大的值，并且对类似的语言环境的DB声音片段适用的共生条件的参数成为更大的值，所以具有在听感上重要的声音参数下，得到成为更类似于根据解说员的录音声音构筑的DB声音片段系列的各声音参数的时间系列的声音参数的时间系列的输出声音片段系列，得到更近似于解说员的录音声音的声音波形的效果，并且，具有得到成为构成更类似于由具有与各输入语言信息的音韵和音高的排列类似的语言环境的DB声音片段的声音参数构成的时间系列的声音参数的时间系列的输出声音片段系列，得到音韵、音高的语言内容更易于听懂的声音波形的效果。

另外，在上述实施方式3中，对在候补声音片段系列的各候补声音片段中适用的各共生条件的参数，加上C₁与C₂之积，所以具有在听感上重要的情况的候补声音片段下，得到成为构成更类似于由具有与各输入语言信息的音韵和音高的排列类似的语言环境的DB声音片段的声音参数构成的时间系列的声音参数的时间系列的输出声音片段系列，得到音韵、音高的语言内容更易于听懂的声音波形的效果。

[实施方式3的变形例1]

在上述实施方式3中，对在候补声音片段系列102的各声音片段中适用的各共生条件106的参数107加上C₁与C₂之积，但也可以代替其而仅加上C₁。

在该情况下，在与DB声音片段系列的DB语言信息302的系列对应的多个候补声音片段系列102内，DB声音片段系列的DB声音片段的声音参数303的重要的程度大的情况下，使参数107成为更大的值，所以听感上重要的共生条件106的参数107成为更大的值，具有在听感上重要的声音参数303下，得到成为更类似于根据解说员的录音声音构筑了的DB声音片段系列的各声音参数303的时间系列的声音参数303的时间系列的输出声音片段系列103，得到更近似于解说员的录音声音的声音波形的效果。

[实施方式3的变形例2]

另外，在上述实施方式3中，对在候补声音片段系列102的各声音片段中适用的各共生条件106的参数107加上C₁与C₂之积，但也可以代替其而仅加上C₂。

在该情况下，在与DB声音片段系列的DB语言信息302的系列对应的多个候补声音片段系列102内，候补声音片段系列102的语言环境309与DB语言信息302的语言环境309的类似的程度大的情况下，使参数107成为更大的值，所以对类似的语言环境309的DB声音片段适用的共生条件106的参数107成为更大的值，具有得到成为更类似于由具有与各输入语言信息的音韵和音高的排列类似的语言环境309的DB声音片段的声音参数303构成的时间系列的声音参数303的时间系列的输出声音片段系列103，得到音韵、音高的语言内容更易于听懂的声音波形的效果。

实施方式4.

在实施方式1中，参数107成为根据输入语言信息系列101和候补声音片段系列102的声音参数的组合的喜好设定的值，但也可以代替其而如下那样设定参数107。

即，在输入语言信息系列101和候补声音片段系列102中的多个候补声音片段的声音参数303满足共生条件106时，是0以外的固定值，否则将根据作为成为0值的特征函数的附条件的概率场模型（CRF；conditional random field（条件随机场））得到的模型参数作为参数值。

另外，关于附条件的概率场模型，例如，如「自然言語処理シリーズ1言語処理のための機械学習入門」（奥村学監修、高村大也著、コロナ社、第5章、ｐ.153－158）公开那样公知，所以此处的详细的说明省略。

此处，附条件的概率场模型用下述所示的式（1）至式（3）来定义。

式(1)

式(2)

式(3)

此处，矢量值w是使基准L（w）最大化的值，是模型参数。

x^（i）是第i个声音的DB语言信息302的系列。

y^（i，0）是第i个声音的DB声音片段系列。

L^（i，0）是第i个声音的DB声音片段系列的声音片段的数量。

P（y^（i，0）|x^（i））是用式（2）定义的概率模型，是在提供了x^（i）时，引起y^（i，0）的概率（附条件的概率）。

s表示声音片段系列中的声音片段的时间位置。

N^（i）是与x^（i）对应的候补声音片段系列102的数量。关于候补声音片段系列102，将x^（i）视作输入语言信息系列101，进行在实施方式1中说明的步骤ST1～步骤ST3的动作而制作。

y^（i，j）是与x^（i）对应的第j个候补声音片段系列102的声音片段系列。

L^（i，j）是y^（i，j）的候补声音片段的数量。

φ（x，y，s）是以特征函数（feature function）为要素的矢量值。特征函数是在声音片段系列y中的时间位置s的声音片段中，在DB语言信息的系列x和声音片段系列y满足共生条件106时成为0以外的固定值（在该例子中成为1），否则成为0值的函数。下式示出第k个要素的特征函数。

值C₁、C₂是用于调整模型参数的大小的值，实验性地调整来决定。

在图4所示的参数辞典5的情况下，成为φ（x^（i），y^（i，j），s）的第1要素的特征函数是式（5）。

在该式（5）中，共生条件106将“相应的输入语言信息”改读为“x^（i）处的位置s的DB语言信息”，将“相应的声音片段”改读为“y^（i，j）处的时间位置s的候补声音片段”，解释为“x^（i）处的时间位置s的DB语言信息的音高是H、并且y^（i，j）处的时间位置s的候补声音片段的基本频率是7”。式（5）的特征函数是在满足该共生条件106时成为1，否则成为0的函数。

将使用最陡梯度法、概率梯度法等以往的模型参数推测方法，以使上述L（w）成为最大的方式求出的模型参数w设定为参数辞典5的参数107。通过这样设定参数107，能够根据式（1）的尺度的基础，选择最佳的DB声音片段。

如以上说明，根据实施方式4的声音合成装置，输出声音片段系列决定部代替实施方式1的参数，而使用根据使用了在满足输入语言信息系列、和表示候补声音片段系列中的多个候补声音片段各自的属性的声音参数的共生条件时成为0以外的固定值、否则成为0值的特征函数的概率场模型得到的参数，来计算候补声音片段系列适合于输入语言信息系列的程度，所以具有能够按照附条件的概率最大的基准自动地设定参数的效果、和能够在短时间内构筑能够按照使附条件的概率成为最大那样的一贯的尺度选择声音片段系列的装置的效果。

实施方式5.

在上述实施方式4中，根据式（1）、式（2）、式（3）设定参数107，但也可以代替式（3），使用以下所示的式（6）来设定参数107。式（6）是附第2条件的概率场模型。

附第2条件的概率场模型是使在声音识别的领域中提出的（例如参照DanielPovey等、BOOSTED MMI FOR MODEL ANDFEATURE-SPACE DISCRIINATIVE TRAINING）被称为BOOSTED MMI的方法适用于附条件的概率场模型，进而为了选择声音片段而对其施加了改良的式。

式(6)

在上式（6）中，φ1（y^（i，0），s）是声音参数重要性函数，是在y^（i，0）的时间位置s的DB声音片段的声音参数303听感上重要的情况下返回大（重要的程度大）的值那样的函数。该值成为在实施方式3中叙述的重要的程度C1。

φ2（y^（i，j），y^（i，0），s）是语言信息类似性函数，是在y^（i，0）处的位置s的DB声音片段的语言环境309、和与x^（i）对应的y^（i，j）处的位置s的候补声音片段的语言环境309类似（类似的程度大）的情况下返回大的值那样的函数。类似的程度越大，该值成为越大的值。该值成为在实施方式3中叙述的语言环境309的类似的程度C₂。

在使用加上了-σφ₁（y^（i，0），s）φ₂（y^（i，j），y^（i，0），s）的式（6）而求出使L（w）成为最大化的参数w的情况下，相比于式（3）的情况，以补偿-σφ₁（y^（i，0），s）φ₂（y^（i，j），y^（i，0），s）的方式，求出模型参数w。其结果，语言信息类似性函数的值大、并且声音参数重要性函数的值大、且共生条件106成立时的参数w比式（3），成为更大的值。

通过将如上述那样求出的模型参数用作参数107，在步骤ST4中，在声音参数303的重要的程度大的情况下，能够求出重视了将语言环境309更重视的适合程度的适合度。

[实施方式5的变形例1]

在上述中，使用加上了-σφ₁（y^（i，0），s）φ₂（y^（i，j），y^（i，0），s）的式（6）而求出了使L（w）成为最大化的参数w，但也可以代替其，而求出加上了-σφ₂（y^（i，j），y^（i，0），s）的、使式（6）成为最大化的参数w。在该情况下，在步骤ST4中，能够求出将语言环境309更加重视的适合程度。

[实施方式5的变形例2]

在上述中，使用加上了-σφ₁（y^（i，0），s）φ₂（y^（i，j），y^（i，0），s）的式（6）而求出了使L（w）成为最大化的参数w，但也可以代替其，而求出加上了-σφ₁（y^（i，0），s）的、使式（6）成为最大化的参数w。在该情况下，在步骤ST4中，能够求出将声音参数303的重要的程度更重视的适合程度。

[实施方式5的变形例3]

在上述中，使用加上了-σφ₁（y^（i，0），s）φ₂（y^（i，j），y^（i，0），s）的式（6）而求出了使L（w）成为最大化的参数w，但也可以代替其，而求出加上了-σ₁φ₁（y^（i，0），s）-σ₂φ₂（y^（i，j），y^（i，0），s）的使式（6）成为最大化的参数w。σ₁、σ₂是实验性地调整的常数。在该情况下，在步骤ST4中，能够求出重视了声音参数303的重要的程度和语言环境309的适合程度。

如以上说明，根据实施方式5的声音合成装置，具有同时得到与实施方式3的效果和实施方式4同样的效果的效果。即，具有能够依照附第2条件的概率最大的基准自动地设定参数的效果、能够在短时间内构筑能够按照使附第2条件的概率成为最大那样的一贯的尺度选择声音片段系列的装置的效果、以及得到听感上的易于听懂且音韵、音高等语言内容易于听懂的声音波形的效果。

另外，本申请发明能够在发明的范围内，实现各实施方式的自由的组合、或者各实施方式的任意的构成要素的变形、或者各实施方式的任意的构成要素的省略。

例如，还能够在因特网等网络上的2台以上的计算机上，实施本发明。

具体而言，关于实施方式1的波形片段，设为声音片段数据库的构成要素的一个，但也可以设为具有大型的存储装置的计算机上（服务器）具备的波形片段数据库的构成要素的一个。服务器从作为用户的终端的计算机（客户端）通过网络将要求的波形片段发送到客户端。另一方面，客户端从服务器得到与输出声音片段系列对应的波形片段。

由此，即使在成为小型的存储装置的计算机中，也能够实施本发明来得到效果。

Claims

1.一种声音合成装置，其特征在于，具备：

候补声音片段系列制作部，针对作为所输入的声音单位的时间系列的输入语言信息系列，参照积蓄声音片段的时间系列的声音片段数据库来制作候补声音片段系列；

输出声音片段系列决定部，使用表示与所述输入语言信息系列、和表示所述候补声音片段系列中的多个候补声音片段各自的属性的声音参数的共生条件对应的值的参数，来计算所述候补声音片段系列适合于所述输入语言信息系列的程度，根据适合的所述程度，决定输出声音片段系列；以及

波形片段连接部，连接与所述输出声音片段系列对应的所述声音片段来制作声音波形。

2.根据权利要求1所述的声音合成装置，其特征在于，

所述输出声音片段系列决定部代替权利要求1所述的参数，而使用如下参数来计算所述候补声音片段系列适合于所述输入语言信息系列的程度，该参数是根据使用了在满足所述输入语言信息系列、与表示所述候补声音片段系列中的多个候补声音片段各自的属性的声音参数的共生条件时成为0以外的固定值、除此以外时成为0值的特征函数的概率场模型得到的。

3.根据权利要求1或2所述的声音合成装置，其特征在于，

共生条件是所述候补声音片段系列中的多个候补声音片段各自的声音参数的值的运算结果成为特定的值的条件。