CN106688035B

CN106688035B - 声音合成装置及声音合成方法

Info

Publication number: CN106688035B
Application number: CN201580046128.4A
Authority: CN
Inventors: 平野薰; 铃木优; 水谷博之
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2014-10-30
Filing date: 2015-09-09
Publication date: 2020-11-10
Anticipated expiration: 2035-09-09
Also published as: JP2016090664A; CN106688035A; JP6415929B2; US20170004821A1; WO2016067766A1; US10217454B2

Abstract

提供能够高效地生成带标签文本的声音合成装置及声音合成方法。实施方式的声音合成装置具有内容选择部、内容生成部、以及内容登记部。内容选择部从被登记于内容存储部的多个内容中决定选择内容，内容是包含对成为声音合成的对象的文本附加了控制声音合成用的标签信息的带标签文本的内容。内容生成部将所述选择内容所包含的所述带标签文本的所述标签信息适用于所指定的文本，并生成新的所述内容。内容登记部将所生成的新的所述内容登记在所述内容存储部中。

Description

声音合成装置及声音合成方法

技术领域

本发明涉及声音合成装置及声音合成方法。

背景技术

在声音合成的领域中，例如作为对得到伴随有各种情感表现等的期望的合成声音的有效方法，已知有根据带标签文本生成合成声音的声音波形的方法。带标签文本是对成为声音合成的对象的文本附加了用置标语言记述的标签信息的文本。标签信息是用于控制针对用标签包围的文本的声音合成的信息。声音合成引擎根据该标签信息，例如选择在声音合成中使用的辞典、调整韵律参数，由此能够得到期望的合成声音。

带标签文本能够由用户使用编辑器对文本附加标签信息而生成，但是在该方法中用户的作业烦杂。因此，通常是将事前生成的模板适用于成为声音合成的对象的文本，由此生成带标签文本。

但是，在以往的通常的方法中，为了应对各种标签信息，需要事前生成多个模板，事前的准备需要大量工时。虽然也有通过机械学习自动生成模板的技术，但是在该方法中需要另外准备机械学习用的训练数据和正确数据，比较烦杂。因此，期望构建用于高效地生成带标签文本的新机构。

发明内容

本发明要解决的课题是，提供能够高效地生成带标签文本的声音合成装置及声音合成方法。

实施方式的声音合成装置具有内容选择部、内容生成部、以及内容登记部。内容选择部从被登记于内容存储部的多个内容中决定选择内容，内容是包含对成为声音合成的对象的文本附加了控制声音合成用的标签信息的带标签文本的内容。内容生成部将所述选择内容所包含的所述带标签文本的所述标签信息适用于所指定的文本，并生成新的所述内容。内容登记部将所生成的新的所述内容登记在所述内容存储部中。

根据上述结构的声音合成装置，不需要为生成带标签文本而事前准备多个模板，也不需要为自动生成模板而准备训练数据和正确数据，能够利用过去生成的内容从任意的文本生成带标签文本，因而能够高效地生成带标签文本。

附图说明

图1是表示实施方式的声音合成装置的概略结构的框图。

图2是表示内容选择部的结构例的框图。

图3是表示内容生成部的结构例的框图。

图4是表示内容登记部的结构例的框图。

图5是表示在内容存储部登记的内容的一例的概念图。

图6是说明内容存储部中的内容的存储形式的图。

图7是说明在用户终端显示的UI画面的画面推移的图。

图8是表示标志内容一览画面的一例的图。

图9是表示关联内容一览画面的一例的图。

图10是表示内容详情画面的一例的图。

图11是表示内容生成画面的一例的图。

图12是表示内容选择部的处理步骤的一例的流程图。

图13是表示内容生成部的处理步骤的一例的流程图。

图14是表示内容登记部的处理步骤的一例的流程图。

图15是表示第2实施方式的内容选择部的结构例的框图。

图16是说明在用户终端显示的UI画面的画面推移的图。

图17是表示内容检索画面的一例的图。

图18是表示基于第2实施方式的内容选择部的处理步骤的一例的流程图。

图19是概略地表示声音合成装置的硬件结构的一例的框图。

具体实施方式

下面，参照附图详细说明实施方式的声音合成装置、声音合成方法及程序。实施方式的声音合成装置是根据对成为声音合成的对象的文本附加了标签信息的带标签文本进行声音合成的装置，特别具有高效地生成带标签文本的机构。下面，将带标签文本和根据该带标签文本生成的合成声音的声音波形的组合称为“内容”。在内容中，除带标签文本和合成声音的声音波形以外，还可以包含例如在声音合成中使用的声音合成辞典的识别信息等其它信息。另外，关于声音合成的方法，例如能够采用语音单元结合型的声音合成、使用了HMM(隐马尔科夫模型)的声音合成等任何公知的方法，因而省略详细说明。

(第1实施方式)

图1是表示本实施方式的声音合成装置1的概略结构的框图。本实施方式的声音合成装置1例如能够作为网络上的服务器来实现，对作为客户端而连接于网络的用户终端2提供Web网页的服务。用户终端2是用户使用的个人电脑、平板终端、智能电话等信息设备，安装了CPU和存储器等构成计算机系统的各种资源、以及显示装置和扬声器、各种输入设备等硬件、OS(操作系统)和Web浏览器等各种软件。

另外，本实施方式的声音合成装置1不需要构成为单体的装置，但可以构成为使多个装置协作工作的系统。并且，声音合成装置1也可以作为在云系统中进行工作的假想设备来实现。

声音合成装置1如图1所示具有内容选择部10、内容生成部20、内容登记部30、内容存储部40、声音合成辞典50。

内容选择部10使用户终端2显示UI(用户界面)画面并受理使用了该UI画面的用户的操作输入，从被登记于内容存储部40的多个内容中，根据用户的操作决定选择内容。即，选择内容是按照用户的操作从多个内容中选择的内容。

内容生成部20使用户终端2显示UI画面并受理使用了该UI画面的用户的操作输入，将由内容选择部10决定的选择内容中包含的带标签文本的标签信息适用于用户指定的文本，并生成新的内容。

内容登记部30将由内容生成部20生成的新的内容(新内容)登记在内容存储部40中。

内容存储部40存储成为标记的内容即标志内容和由内容生成部20生成的内容。标志内容是强调特定的特点的内容，被事前登记在内容存储部40中。由内容生成部20生成的内容通过内容登记部30，按照与标志内容的相似度，与标志内容相关联地被登记在内容存储部40中。

另外，内容存储部40也可以在声音合成装置1的外部。在这种情况下，内容登记部30例如经由网络访问声音合成装置1的外部的内容存储部40，将由内容生成部20生成的内容登记在内容存储部40中。并且，内容选择部10例如经由网络访问声音合成装置1的外部的内容存储部40，按照用户操作从内容存储部40取得所需要的内容。

声音合成辞典50是在内容生成部20根据带标签文本生成合成声音的声音波形时使用的辞典。声音合成辞典50例如按照要生成的合成声音的特点被分类，根据带标签文本的标签信息选择最佳的辞典。另外，声音合成辞典50也可以在声音合成装置1的外部。在这种情况下，内容生成部20例如经由网络访问声音合成装置1的外部的声音合成辞典50，从声音合成辞典50取得所需要的信息。

下面，说明构成本实施方式的声音合成装置1的各个部分的具体情况。

图2是表示内容选择部10的结构例的框图。内容选择部10如图2所示具有标志内容提示部11、关联内容提示部12、选择内容决定部13、再现部14。

标志内容提示部11将在内容存储部40登记的标志内容的一览提示给用户。例如，标志内容提示部11生成后述的标志内容一览画面SC1(参照图8)作为在用户终端2显示的UI画面，并显示于用户终端2。

关联内容提示部12将与用户从标志内容的一览中选择的标志内容相关联的内容即关联内容的一览提示给用户。例如，关联内容提示部12生成后述的关联内容一览画面SC2(参照图9)作为在用户终端2显示的UI画面，并显示于用户终端2。

选择内容决定部13将从关联内容一览中选择的关联内容决定为选择内容。例如，选择内容决定部13将用户从在用户终端2显示的关联内容一览画面SC2中选择的关联内容决定为选择内容。

再现部14按照用户的操作对标志内容中包含的合成声音的声音波形、或者关联内容中包含的合成声音的声音波形进行再现，并作为声音从例如用户终端2的扬声器进行输出。例如，再现部14对用户从在用户终端2显示的标志内容一览画面SC1中指定的标志内容中包含的合成声音的声音波形、或者用户从在用户终端2显示的关联内容一览画面SC2中指定的关联内容中包含的合成声音的声音波形进行再现，并作为声音从用户终端2的扬声器进行输出。

图3是表示内容生成部20的结构例的框图。内容生成部20如图3所示具有标签信息抽取部21、带标签文本生成部22、带标签文本修正部23、声音波形生成部24、再现部25。

标签信息抽取部21从由选择内容决定部13决定的选择内容中包含的带标签文本中抽取标签信息。标签信息包括在应用该标签信息的文本的前面配置的开始标签、和在应用该标签信息的文本的后面配置的结束标签。在开始标签及结束标签中记述了要素名称，在开始标签中记述了用要素名称表示的要素的属性值。在要素包括多种属性的情况下，在开始标签中记述了这些属性及每种属性的属性值。作为标签信息的要素，例如可以举出性别(属性值为男性/女性)、情感(作为属性包括喜悦、哀伤、生气、…、和蔼等)、韵律(作为属性包括声音的高低、讲话的快慢等)等。

例如，假设由选择内容决定部13决定的选择内容中包含的带标签文本是<性别＝“女性”><prosody pitch＝“+5％”rate＝“-2％”>早上好</prosody></性别>。在这种情况下，标签信息抽取部21抽取该带标签文本的标签信息<性别＝“女性”><prosody pitch＝“+5％”rate＝“-2％”></prosody></性别>。另外，在上述的例子中，prosody是表示韵律的要素名称，pitch是表示prosody要素中的声音的高低的属性(属性值为+5％)，rate是表示prosody要素中的讲话的快慢的属性(属性值为-2％)。

带标签文本生成部22将标签信息抽取部21抽取的标签信息适用于用户指定的文本，并生成带标签文本。例如，假设用户指定的文本是“你好”，通过标签信息抽取部21抽取了上述的标签信息。在这种情况下，带标签文本生成部22生成如下的带标签文本。

<性别＝“女性”><prosody pitch＝“+5％”rate＝“-2％”>你好</prosody></性别>

带标签文本修正部23根据用户的操作，修正带标签文本生成部22生成的带标签文本。例如，带标签文本修正部23根据用户的操作，修正带标签文本生成部22生成的带标签文本中包含的标签信息的属性值(在上述的例子中是指+5％、-2％等的值)等。

声音波形生成部24使用声音合成辞典50生成与带标签文本生成部22生成的带标签文本对应的合成声音的声音波形。在带标签文本修正部23修正了带标签文本生成部22生成的带标签文本的情况下，声音波形生成部24生成与被修正后的带标签文本对应的合成声音的声音波形。

再现部25按照用户的操作对声音波形生成部24生成合成声音的声音波形进行再现，并作为声音从例如用户终端2的扬声器进行输出。

图4是表示内容登记部30的结构例的框图。内容登记部30如图4所示具有相似度计算部31、分类部32、利用频次更新部33。

相似度计算部31计算新内容与标志内容的相似度，以便将通过内容生成部20生成的新的内容(新内容)与标志内容相关联地登记在内容存储部40中。

标志内容如上所述是被事前登记在内容存储部40中的强调特定的特点的内容。例如，假设能够将表示情感的属性(喜悦、哀伤、生气…和蔼等)的属性值设定为0～100(％)，能够将声音的高低(pitch)的属性值及讲话的快慢(rate)的属性值设定在-10～+10(％)的范围内。在这种情况下，例如按照图5所示将强调了特定的特点的标志内容M1、M2、…、Mk事前登记在内容存储部40中。另外，图5是表示在内容存储部40登记的内容的一例的概念图。

在通过内容生成部20生成了新内容时，相似度计算部31计算新内容与事前登记在内容存储部40中的各个标志内容的相似度。例如，通过计算下述式(1)及式(2)所示的内容间距离D(ci，cj)，能够求出两个内容ci，cj的相似度。

D(ci，cj)＝√A……(1)

A＝{喜悦(ci)-喜悦(cj)}²+{哀伤(ci)-哀伤(cj)}²+{生气(ci)-生气(cj)}²+…+{和蔼(ci)-和蔼(cj)}²+{声音的高低(ci)-声音的高低(cj)}²+{讲话的快慢(ci)-讲话的快慢(cj)}²……(2)

在根据式(1)及式(2)计算出的内容间距离D(ci，cj)越小时，表示两个内容ci，cj越相似。另外，此处把性别的属性值相同的各个内容作为距离计算的对象，但也可以将与性别的属性值相关的项目记入下述式(2)中，计算跨越性别的内容间距离D(ci，cj)。

分类部32根据由相似度计算部31计算出的相似度，将由内容生成部20生成的内容分类。此处的分类是将由内容生成部20生成的内容、与和该内容相似的标志内容(例如，与该内容的内容间距离为规定的阈值以下的标志内容)相关联地登记在内容存储部40中的处理。当存在多个与由内容生成部20生成的内容相似的标志内容的情况下，将该内容与这些多个标志内容中的各个标志内容相关联地登记在内容存储部40中。每当通过内容生成部20生成新的内容时，分类部32进行该内容的分类。由此，对于每个标志内容，将与该标志内容相关联的内容按照例如相似度顺序存储在内容存储部40中。

图6是说明内容存储部40中的内容的存储形式的图。由内容生成部20生成的内容C1、C2、…、Cm如图6所示以被分类成由与各个内容C1、C2、…、Cm相似的标志内容M1、M2、…、Ml代表的类别的状态，被存储在内容存储部40中。并且，各个内容与该内容的利用频次的信息相对应。利用频次表示该内容被用作选择内容的次数。即，每当在内容生成部20生成新的内容并被用作选择内容时，将被用作选择内容的内容的利用频次的值加1(+1)。内容的利用频次成为对用户提示该内容是否是具有人气的内容的指标。

利用频次更新部33在内容生成部20生成的新的内容的登记时，使在生成该内容时被用作选择内容的内容的利用频次的值递增而更新。

下面，关于本实施方式的声音合成装置1在用户终端2显示的UI画面的具体例子，参照图7～图11进行说明。

图7是说明在用户终端2显示的UI画面的画面推移的图。本实施方式的声音合成装置1例如按照图7所示的画面推移，在用户终端2依次显示作为UI画面的标志内容一览画面SC1、关联内容一览画面SC2、内容详情画面SC3及内容生成画面SC4。

图8是表示标志内容一览画面SC1的一例的图。标志内容一览画面SC1是将事前在内容存储部40登记的标志内容的一览提示给用户的UI画面。在该标志内容一览画面SC1中，如图8所示设有“标题”栏101、“性别”栏102、“参数”栏103、性别切换按钮104、上下按钮105、“再现”按钮106、“内容”按钮107及“close”按钮108。

在“标题”栏101显示各个标志内容的名称。在“性别”栏102显示各个标志内容的性别的属性值(男性/女性)。在“参数”栏103显示各个标志内容的情感和韵律的属性及属性值(参数)。另外，图8所示的标志内容一览画面SC1是按照男性/女性的性别提示标志内容的一览的结构，通过操作性别切换按钮104来切换要提示的标志内容的性别。在图8中示出了提示男性的标志内容的一览的状态。

上下按钮105是用于使未图示的光标上下移动，从标志内容的一览中指定任意的标志内容的按钮。

“再现”按钮106是用于对所指定的标志内容中包含的合成声音的声音波形进行再现并输出声音的按钮。当在从所提示的标志内容的一览中指定了任意的标志内容的状态下按下“再现”按钮106时，从用户终端2的扬声器输出所指定的标志内容的合成声音。用户能够利用该“再现”按钮106试听期望的标志内容的合成声音。

“内容”按钮107是用于从标志内容的一览中选择期望的标志内容的按钮。当在从所提示的标志内容的一览中指定了任意的标志内容的状态下按下“内容”按钮107时，在用户终端2显示的UI画面从标志内容一览画面SC1进入关联内容一览画面SC2，并提示与所指定的标志内容相关联的关联内容的一览。

“close”按钮108是用于关闭标志内容一览画面SC1的按钮。在按下该“close”按钮108时，用户终端2中的UI画面的显示结束。

图9是表示关联内容一览画面SC2的一例的图。关联内容一览画面SC2是将与用户使用标志内容一览画面SC1选择的标志内容相关联地登记在内容存储部40中的关联内容的一览提示给用户的UI画面。在该关联内容一览画面SC2中，如图9所示设有“标题”栏201、“距离”栏202、“利用频次”栏203、上下按钮204、“再现”按钮205、“返回”按钮206、“详情”按钮207及“close”按钮208。

在“标题”栏201显示在标志内容一览画面SC1中选择的标志内容及各个关联内容的名称。在“距离”栏202显示各个关联内容与标志内容的内容间距离D(ci，cj)。在“利用频次”栏203显示标志内容及各个关联内容的利用频次。在关联内容一览画面SC2中，如图9所示按照内容间距离D(ci，cj)的值从小到大的顺序一览显示与标志内容相关联的多个关联内容，即，使得与标志内容越相似的关联内容越靠上位。并且，对内容间距离D(ci，cj)的值相同的各个关联内容，以使利用频次的值较大的关联内容处于上位的方式进行一览显示。另外，关联内容的排列顺序不限于图9所示的例子。例如，也可以以使利用频次的值越大的关联内容越靠上位的方式一览显示多个关联内容。

上下按钮204是用于使未图示的光标上下移动，从关联内容的一览中指定任意的关联内容的按钮。

“再现”按钮205是用于对所指定的关联内容中包含的合成声音的声音波形进行再现并输出声音的按钮。当在从所提示的关联内容的一览中指定了任意的关联内容的状态下按下“再现”按钮205时，从用户终端2的扬声器输出所指定的关联内容的合成声音。用户能够利用该“再现”按钮205试听期望的关联内容的合成声音。

“返回”按钮206是用于使在用户终端2显示的UI画面从图9的关联内容一览画面SC2返回到图8的标志内容一览画面SC1的按钮。

“详情”按钮207是用于确认期望的关联内容的详细情况的按钮。当在从所提示的关联内容的一览中指定了任意的关联内容的状态下按下“详情”按钮207时，在用户终端2显示的UI画面从关联内容一览画面SC2进入内容详情画面SC3，并显示所指定的关联内容的详细信息。

“close”按钮208是用于关闭关联内容一览画面SC2的按钮。在按下该“close”按钮208时，用户终端2中的UI画面的显示结束。

图10是表示内容详情画面SC3的一例的图。内容详情画面SC1是将用户使用关联内容一览画面SC2选择的关联内容的详细信息提示给用户的UI画面。在该内容详情画面SC2中，如图10所示设有内容名称栏301、“使用辞典”栏302、“文本”栏303、“标签信息”栏304、“再现”按钮305、“返回”按钮306、“复制”按钮307及“close”按钮308。

在内容名称栏301显示该内容的名称。在“使用辞典”栏302显示在生成该内容中包含的合成声音的声音波形时使用的声音合成辞典50的名称。在“文本”栏302显示该内容中包含的带标签文本的文本部分(文本整体)。在“标签信息”栏304显示在“文本”栏302显示的文本中指定的范围的带标签文本。用户通过在“文本”栏302显示的文本中指定任意的范围，能够在“标签信息”栏304确认该部分的标签信息。

“再现”按钮305是用于对与在“标签信息”栏304显示的带标签文本对应的部分的合成声音的声音波形进行再现并输出声音的按钮。当在用户指定的范围中的带标签文本被显示于“标签信息”栏304的状态下按下“再现”按钮305时，从用户终端2的扬声器输出与该带标签文本对应的部分的合成声音。用户能够利用该“再现”按钮305试听期望的部位的合成声音。

“返回”按钮306是用于使在用户终端2显示的UI画面从图10的内容详情画面SC3返回到图9的关联内容一览画面SC2的按钮。

“复制”按钮307是用于将该内容决定为选择内容的按钮。在按下该“复制”按钮307时，在用户终端2显示的UI画面从内容详情画面SC3进入内容生成画面SC4。

“close”按钮308是用于关闭内容详情画面SC3的按钮。在按下该“close”按钮308时，用户终端2中的UI画面的显示结束。

图11是表示内容生成画面SC4的一例的图。内容生成画面SC4是适用选择内容的标签信息生成新的内容用的UI画面。在该内容生成画面SC4中，如图11所示设有“标题”栏401、“使用辞典”栏402、“文本”栏403、“标签信息”栏404、“适用”按钮405、“再现”按钮406、“编辑”按钮407、“返回”按钮408、“登记”按钮409及“close”按钮410。

“标题”栏401显示使用内容生成画面SC4生成的新的内容的名称。用户通过在该“标题”栏401写入任意的名称，能够对新的内容设定期望的名称。在“使用辞典”栏402显示在生成选择内容中包含的合成声音的声音波形时使用的声音合成辞典50的名称。用户通过变更在该“使用辞典”栏402显示的声音合成辞典50的名称，能够变更在生成新的内容中包含的合成声音的声音波形时使用的声音合成辞典50的名称。在“文本”栏403显示成为声音合成的对象的文本。用户通过在该“文本”栏403写入任意的文本，能够指定成为声音合成的对象的文本。在“标签信息”栏404显示带标签文本，该带标签文本是通过将选择内容中包含的带标签文本的标签信息适用于在“文本”栏403显示的文本中而生成的。

“适用”按钮405是用于生成与在“标签信息”栏404显示的带标签文本对应的合成声音的声音波形的按钮。当在“标签信息”栏404显示带标签文本的状态下按下“适用”按钮405时，根据在“标签信息”栏404显示的带标签文本生成合成声音的声音波形。此时，使用在“使用辞典”栏402显示的声音合成辞典50。

“再现”按钮406是用于对根据在“标签信息”栏404显示的带标签文本生成的合成声音的声音波形进行再现并输出声音的按钮。当在“适用”按钮405被按下后按下“再现”按钮406时，从用户终端2的扬声器输出根据“适用”按钮405的操作而生成的合成声音。用户能够利用该“再现”按钮406试听新生成的内容的合成声音。

“编辑”按钮407是用于修正在“标签信息”栏404显示的带标签文本的按钮。在按下“编辑”按钮407时，能够进行在“标签信息”栏404显示的带标签文本的编辑。用户通过按下该“编辑”按钮407，进行对在“标签信息”栏404显示的带标签文本修正例如标签信息的属性值(在图11的例子中是+5％)等的操作，能够修正新生成的内容的带标签文本。

“返回”按钮408是用于使在用户终端2显示的UI画面从图11的内容生成画面SC4返回到图10的内容详情画面SC3的按钮。

“登记”按钮409是用于将所生成的新的内容登记在内容存储部40中的按钮。在按下“登记”按钮409时，将在“标签信息”栏404显示的带标签文本和根据该带标签文本生成的合成声音的声音波形的组合，作为新的内容登记在内容存储部40中。

“close”按钮410是用于关闭内容生成画面SC4的按钮。在按下该“close”按钮410时，用户终端2中的UI画面的显示结束。

下面，说明声音合成装置1的动作例，声音合成装置1使用户终端2显示图7～图11所示例的UI画面并生成内容进行登记。

首先，参照图12说明通过内容选择部10进行的处理。图12是表示内容选择部10的处理步骤的一例的流程图。

在图12的流程图所示的处理开始时，首先标志内容提示部11将图8示例的标志内容一览画面SC1显示在用户终端2(步骤S101)。另外，在图12的流程图中省略了记载，在将标志内容一览画面SC1显示在用户终端2后，在操作标志内容一览画面SC1的性别切换按钮104时，将要一览显示的标志内容的性别被切换。并且，当在任意定时按下“close”按钮108时，处理结束。

然后，判定是否在指定了在标志内容一览画面SC1中一览显示的任意一个标志内容的状态下按下了“再现”按钮106(步骤S102)。并且，在按下了“再现”按钮106的情况下(步骤S102：是)，再现部14对所指定的标志内容中包含的合成声音的声音波形进行再现，并从用户终端2的扬声器进行声音输出(步骤S103)，然后返回到步骤S102。

另一方面，在未按下“再现”按钮106的情况下(步骤S102：否)，然后判定是否在指定了所一览显示的任意一个标志内容的状态下按下了“内容”按钮107(步骤S104)。并且，在未按下“内容”按钮107的情况下(步骤S104：否)，返回到步骤S102。另一方面，在按下了“内容”按钮107的情况下(步骤S104：是)，关联内容提示部12将图9示例的关联内容一览画面SC2显示在用户终端2(步骤S105)。

另外，在图12的流程图中省略了记载，在将关联内容一览画面SC2显示在用户终端2后，当在任意定时按下“返回”按钮206时，返回到步骤S101，在用户终端2再次显示标志内容一览画面SC1。并且，当在任意定时按下“close”按钮208时，处理结束。

然后，判定是否在指定了在关联内容一览画面SC2中一览显示的任意一个关联内容的状态下按下了“再现”按钮205(步骤S106)。并且，在按下了“再现”按钮205的情况下(步骤S106：是)，再现部14对所指定的关联内容中包含的合成声音的声音波形进行再现，并从用户终端2的扬声器进行声音输出(步骤S107)，然后返回到步骤S106。

另一方面，在未按下“再现”按钮205的情况下(步骤S106：否)，然后判定是否在指定了所一览显示的任意一个关联内容的状态下按下了“详情”按钮207(步骤S108)。并且，在未按下“详情”按钮207的情况下(步骤S108：否)，返回到步骤S106。另一方面，在按下了“详情”按钮207的情况下(步骤S108：是)，选择内容决定部13将图10示例的内容详情画面SC3显示在用户终端2(步骤S109)。

另外，在图12的流程图中省略了记载，在将内容详情画面SC3显示在用户终端2后，当在任意定时按下“返回”按钮306时，返回到步骤S105，在用户终端2再次显示关联内容一览画面SC2。并且，当在任意定时按下“close”按钮308时，处理结束。

然后，判定是否在内容详情画面SC3的“标签信息”栏304显示带标签文本的状态下按下了“再现”按钮305(步骤S110)。并且，在按下“再现”按钮305的情况下(步骤S110：是)，再现部14对与在“标签信息”栏304显示的带标签文本对应的合成声音的声音波形进行再现，并从用户终端2的扬声器进行声音输出(步骤S111)，然后返回到步骤S110。

另一方面，在未按下“再现”按钮305的情况下(步骤S110：否)，接着判定是否在“标签信息”栏304显示带标签文本的状态下按下了“复制”按钮307(步骤S112)。并且，在未按下“复制”按钮307的情况下(步骤S112：否)，返回到步骤S110。另一方面，在按下了“复制”按钮307的情况下(步骤S112：是)，选择内容决定部13将通过内容详情画面SC3显示详情信息的内容决定为选择内容(步骤S113)，将处理转交给内容生成部20，通过内容选择部10进行的一系列的处理结束。

下面，参照图13说明通过内容生成部20进行的处理。图13是表示内容生成部20的处理步骤的一例的流程图。

在图13的流程图所示的处理开始时，首先标签信息抽取部21将图11示例的内容生成画面SC4显示在用户终端2(步骤S201)。用户在该内容生成画面SC4的“文本”栏403写入成为声音合成的对象的文本。此时，标签信息抽取部21从选择内容的带标签文本中抽取标签信息。并且，带标签文本生成部22将标签信息抽取部21抽取的标签信息适用于在“文本”栏403写入的文本，由此生成带标签文本。在内容生成画面SC4的“标签信息”栏404显示带标签文本生成部22生成的带标签文本。

另外，在图13的流程图中省略了记载，当在用户终端2显示内容生成画面SC4后，当在任意定时按下“返回”按钮408时，返回到图12的步骤S109，在用户终端2再次显示内容详情画面SC3。并且，当在任意定时按下“close”按钮410时，处理结束。

然后，判定是否在“标签信息”栏404显示带标签文本的状态下按下了“编辑”按钮407(步骤S202)。并且，在按下了“编辑”按钮407的情况下(步骤S202：是)，带标签文本修正部23受理用户对带标签文本的修正操作，在修正了在“标签信息”栏404显示的带标签文本后(步骤S203)，返回到步骤S202。

另一方面，在未按下“编辑”按钮407的情况下(步骤S202：否)，然后判定是否在“标签信息”栏404显示带标签文本的状态下按下了“适用”按钮405(步骤S204)。并且，在未按下“适用”按钮405的情况下(步骤S204：否)，返回到步骤S202。另一方面，在按下了“适用”按钮405的情况下(步骤S204：是)，声音波形生成部24根据在“标签信息”栏404显示的带标签文本，使用在“使用辞典”栏402显示的声音合成辞典50生成合成声音的声音波形(步骤S205)。

然后，判定是否按下了“再现”按钮406(步骤S206)。并且，在按下了“再现”按钮406的情况下(步骤S206：是)，再现部25对在步骤S205生成的合成声音的声音波形进行再现，并从用户终端2的扬声器进行声音输出(步骤S207)，然后返回到步骤S206。

另一方面，在未按下“再现”按钮406的情况下(步骤S206：否)，然后判定是否按下了“登记”按钮409(步骤S208)。并且，在未按下“登记”按钮409的情况下(步骤S208：否)，返回到步骤S206。另一方面，在按下了“登记”按钮409的情况下(步骤S208：是)，将处理转交给内容登记部30，通过内容生成部20进行的一系列的处理结束。

下面，参照图14说明通过内容登记部30进行的处理。图14是表示内容登记部30的处理步骤的一例的流程图。

在图14的流程图所示的处理开始时，首先由相似度计算部31计算通过内容生成部20生成的新的内容与在内容存储部40登记的各个标志内容之间的内容间距离D(ci，cj)(步骤S301)。

然后，分类部32根据在步骤S301计算出的内容间距离D(ci，cj)，将通过内容生成部20生成的新的内容分类，并与和该内容相似的标志内容相关联地登记在内容存储部40中(步骤S302)。被登记在内容存储部40中的新的内容成为以后生成其它内容时利用的选择内容的候选。

然后，利用频次更新部33更新在内容生成部20生成新的内容时被用作选择内容的内容的利用频次(步骤S303)，通过内容登记部30进行的一系列的处理结束。

如以上举出具体示例详细说明的那样，本实施方式的声音合成装置1按照利用UI画面的用户的操作，从在内容存储部40登记的内容中决定在生成新的内容时利用的选择内容。并且，将所决定的选择内容中包含的带标签文本的标签信息适用于用户指定的文本，并生成新的内容。并且，将所生成的新的内容作为选择内容的候选登记在内容存储部40中。因此，根据本实施方式的声音合成装置1，不需要为生成带标签文本而事前准备多个模板，也不需要为自动生成模板而准备训练数据和正确数据，能够利用过去生成的内容从任意的文本生成带标签文本，因而能够高效地生成带标签文本。

并且，根据本实施方式的声音合成装置1，用户能够一面试听过去生成的内容的合成声音和在适用了期望的标签信息的情况下生成的合成声音，一面选择应该适用的标签信息生成带标签文本，并且能够根据需要修正带标签文本，因而能够有效地得到用户要求的合成声音。

(第2实施方式)

下面，说明第2实施方式。第2实施方式的声音合成装置的内容选择部的结构与第1实施方式不同。下面，将第2实施方式的声音合成装置表述为“声音合成装置1’”，以便与第1实施方式进行区分，将该声音合成装置1’的特征性的内容选择部表述为内容选择部60，以便与第1实施方式进行区分。除此以外的结构与第1实施方式相同，因而下面适当省略与第1实施方式重复的说明，对本实施方式的特征性的内容选择部60进行说明。

图15是表示内容选择部60的结构例的框图。内容选择部60如图15所示具有内容检索部61、检索内容提示部62、选择内容决定部63、再现部64。

内容检索部61从在内容存储部40登记的内容中检索包括适合于所输入的关键词的带标签文本的内容。例如，内容检索部61使在用户终端2显示后述的内容检索画面SC5(参照图17)作为在用户终端2显示的UI画面，从在内容存储部40登记的内容中检索包括适合用户使用该内容检索画面SC5输入的关键词的带标签文本的内容。

检索内容提示部62将由内容检索部61检索的内容即检索内容的一览提示给用户。例如，检索内容提示部62使在作为UI画面而显示于用户终端2的内容检索画面SC5上，显示由内容检索部61检索的检索内容的一览。

选择内容决定部63将从检索内容的一览中选择的检索内容决定为选择内容。例如，选择内容决定部63将用户从在内容检索画面SC5上显示的检索内容的一览中选择的检索内容决定为选择内容。

再现部64按照用户的操作，对检索内容中包含的合成声音的声音波形进行再现，并作为声音从例如用户终端2的扬声器进行输出。例如，再现部64对用户从在内容检索画面SC5上显示的检索内容的一览中指定的检索内容中包含的合成声音的声音波形进行再现，并作为声音从用户终端2的扬声器进行输出。

图16是说明第2实施方式的声音合成装置1’在用户终端2显示的UI画面的画面推移的图。本实施方式的声音合成装置1’例如按照图16所示的画面推移，在用户终端2依次显示作为UI画面的内容检索画面SC5、内容详情画面SC3及内容生成画面SC4。

图17是表示内容检索画面SC5的一例的图。内容检索画面SC5是受理用于检索内容的关键词的输入，并且将检索结果即检索内容的一览提示给用户的UI画面。在该内容检索画面SC5中，如图17所示设有“关键词”输入栏501、“标题”栏502、“利用频次”栏503、“检索”按钮504、上下按钮505、“再现”按钮506、“详情”按钮507及“close”按钮508。

“关键词”输入栏501是用于输入在检索中使用的关键词的区域。用户能够在该“关键词”输入栏501中输入例如与成为声音合成的对象的文本相同的文本等任意文本作为关键词。在“标题”栏502显示作为检索结果而得到的各个检索内容的名称。在“利用频次”栏503显示作为检索结果而得到的各个检索内容的利用频次。

“检索”按钮504是用于使用在“关键词”输入栏501中输入的关键词进行检索的按钮。当在“关键词”输入栏501中输入了关键词的状态下按下“检索”按钮504时，包括适合该关键词的带标签文本的检索内容被从内容存储部40中检索出来，所得到的检索内容的名称及利用频次分别显示在“标题”栏502及“利用频次”栏503中。

上下按钮505是用于使未图示的光标上下移动，从检索内容的一览中指定任意的检索内容的按钮。

“再现”按钮506是用于对所指定的检索内容中包含的合成声音的声音波形进行再现并输出声音的按钮。当在从所提示的检索内容的一览中指定了任意的检索内容的状态下按下“再现”按钮506时，从用户终端2的扬声器输出所指定的检索内容的合成声音。用户能够利用该“再现”按钮506试听期望的检索内容的合成声音。

“详情”按钮507是用于确认期望的检索内容的详细情况的按钮。当在从所提示的检索内容的一览中指定了任意的检索内容的状态下按下“详情”按钮507时，在用户终端2显示的UI画面从内容检索画面SC5进入内容详情画面SC3(参照图10)，并显示所指定的检索内容的详细信息。

“close”按钮508是用于关闭内容检索画面SC5的按钮。在按下该“close”按钮508时，用户终端2中的UI画面的显示结束。

下面，参照图18说明内容选择部60的处理，内容选择部60使在用户终端2显示图17示例的内容检索画面SC5和图10示例的内容详情画面SC3，并决定选择内容。图18是表示内容选择部60的处理步骤的一例的流程图。

在图18的流程图所示的处理开始时，首先内容检索部61将图17示例的内容检索画面SC5显示在用户终端2(步骤S401)。另外，虽然在图18的流程图中省略了记载，在将内容检索画面SC5显示于用户终端2后，当在任意定时按下“close”按钮508时，处理结束。

然后，判定是否在内容检索画面SC5的“关键词”输入栏501中输入关键词的状态下按下了“检索”按钮504(步骤S402)。并且，在未按下“检索”按钮504的情况下(步骤S402：否)，返回到步骤S402反复判定。另一方面，在按下了“检索”按钮504的情况下(步骤S402：是)，内容检索部61从在内容存储部40登记的内容中检索包括适合在“关键词”输入栏501中输入的关键词的带标签文本的检索内容(步骤S403)。并且，内容检索部61将作为检索结果而得到的检索内容的一览显示在内容检索画面SC5上(步骤S404)。

然后，判定是否在指定了在内容检索画面SC5上显示的任意一个检索内容的状态下按下了“再现”按钮506(步骤S405)。并且，在按下了“再现”按钮506的情况下(步骤S405：是)，再现部64对所指定的检索内容中包含的合成声音的声音波形进行再现，并从用户终端2的扬声器进行声音输出(步骤S406)，然后返回到步骤S405。

另一方面，在未按下“再现”按钮506的情况下(步骤S405：否)，然后判定是否在指定了所一览显示的任意一个关联内容的状态下按下了“详情”按钮507(步骤S407)。并且，在未按下“详情”按钮507的情况下(步骤S407：否)，返回到步骤S405。另一方面，在按下了“详情”按钮507的情况下(步骤S407：是)，选择内容决定部63将图10示例的内容详情画面SC3显示在用户终端2(步骤S408)。

另外，虽然在图18的流程图中省略了记载，在将内容详情画面SC3显示在用户终端2后，当在任意定时按下“返回”按钮306时，返回到步骤S401，在用户终端2再次显示内容检索画面SC5。并且，当在任意定时按下“close”按钮308时，处理结束。

然后，判定是否在内容详情画面SC3的“标签信息”栏304显示带标签文本的状态下按下了“再现”按钮305(步骤S409)。并且，在按下了“再现”按钮305的情况下(步骤S409：是)，再现部64对与在“标签信息”栏304显示的带标签文本对应的合成声音的声音波形进行再现，并从用户终端2的扬声器进行声音输出(步骤S410)，然后返回到步骤S409。

另一方面，在未按下“再现”按钮305的情况下(步骤S409：否)，然后判定是否在“标签信息”栏304显示带标签文本的状态下按下了“复制”按钮307(步骤S411)。并且，在未按下“复制”按钮307的情况下(步骤S411：否)，返回到步骤S409。另一方面，在按下了“复制”按钮307的情况下(步骤S411：是)，选择内容决定部63将通过内容详情画面SC3显示详情信息的检索内容决定为选择内容(步骤S412)，将处理转交给内容生成部20，通过内容选择部60进行的一系列的处理结束。

如以上说明的那样，本实施方式的声音合成装置1’按照利用UI画面的用户的操作，从在内容存储部40登记的内容中检索包括与关键词一致的带标签文本的内容，从所得到的检索内容中决定在生成新的内容时利用的选择内容。并且，将所决定的选择内容中包含的带标签文本的标签信息适用于用户指定文本，生成新的内容。并且，将所生成的新的内容作为选择内容的候选登记在内容存储部40中。因此，根据本实施方式的声音合成装置1’，与第1实施方式的声音合成装置1一样能够利用过去生成的内容从任意的文本生成带标签文本，因而能够高效地生成带标签文本。另外，在本实施方式的声音合成装置1’中，能够使用关键词圈定选择内容的候选，因而能够更高效地进行带标签文本的生成。

(补充说明)

以上说明的实施方式的声音合成装置1的各功能性构成要素，例如能够通过使用通用的计算机系统作为基本硬件而执行的程序(软件)来实现。

图19是概略地表示声音合成装置1的主要部分的硬件结构的一例的框图。声音合成装置1的主要部分如图19所示构成为包括CPU等处理器71、RAM等主存储部72、使用了各种存储装置的辅助存储部73、通信接口74、连接这些各个部分的总线75在内的通用的计算机系统。另外，辅助存储部73也可以通过有线或者无线的LAN(Local Area Network：局域网)等与各个部分连接。

例如，处理器71利用主存储部72执行在辅助存储部73等中存储的程序，由此实现声音合成装置1的各功能性构成要素。该程序例如能够以可安装的形式或者可执行的形式的文件记录在计算机可读的记录介质中，作为计算机程序产品进行提供，该记录介质包括CD-ROM(Compact Disc Read Only Memory：光盘只读存储器)、软盘(FD)、CD-R(CompactDisc Recordable：可录光盘)、DVD(Digital Versatile Disc：数字化视频光盘)等。

并且，也可以构成为将该程序存储在与因特网等网络连接的其它计算机中，通过经由网络下载进行提供。并且，也可以构成为经由因特网等网络来提供或者颁发该程序。并且，也可以构成为将该程序预先安装在计算机内部的ROM(辅助存储部73)等中进行提供。

该程序形成为包括声音合成装置1的功能性构成要素(内容选择部10、内容生成部20及内容登记部30)的模块结构，作为实际的硬件，例如由处理器71从上述记录介质读出程序并执行程序，由此将上述的各构成要素读出在主存储部72中，在主存储部72中生成上述的各构成要素。另外，声音合成装置1的功能性构成要素的一部分或者全部也能够使用专用集成电路(ASIC：Application Specific Integrated Circuit)或可现场编程门阵列(FPGA：Field-Programmable Gate Array)等专用的硬件实现。

以上说明了本发明的一些施方式，但该实施方式仅是作为示例而示出的，不能理解为限定本发明的范围。该新的实施方式可以通过其他各种方式来实施，能够在不脱离发明宗旨的范围内进行各种省略、置换、变更。这些实施方式及其变形包含于发明的范围和宗旨中，并且包含于在权利要求书记载的发明及其均等的范围中。

Claims

1.一种声音合成装置，具有：

内容选择部，从被登记于内容存储部的多个内容中决定选择内容，所述内容是包含对成为声音合成的对象的文本附加了控制声音合成用的标签信息的带标签文本的内容；

内容生成部，将所述选择内容中包含的所述带标签文本的所述标签信息适用于所指定的文本，并生成新的所述内容；以及

内容登记部，将所生成的新的所述内容登记在所述内容存储部中，

所述内容登记部按照与在所述内容存储部预先登记的成为标记的所述内容即标志内容的相似度，将所生成的所述内容与所述标志内容相关联地登记在所述内容存储部中，

所述内容选择部具有：

标志内容提示部，对所述标志内容的一览进行提示；

关联内容提示部，对与从所述标志内容的一览中选择的所述标志内容相关联的所述内容即关联内容的一览进行提示；以及

选择内容决定部，将从所述关联内容的一览中选择的所述关联内容决定为所述选择内容。

2.根据权利要求1所述的声音合成装置，

所述关联内容提示部对将多个所述关联内容按照与相对于所述标志内容的相似度对应的排列顺序而排列后的所述关联内容的一览进行提示。

3.根据权利要求1所述的声音合成装置，

所述关联内容提示部对将多个所述关联内容按照与过去被决定为所述选择内容的次数对应的排列顺序而排列后的所述关联内容的一览进行提示。

4.根据权利要求1～3中任意一项所述的声音合成装置，

所述内容选择部还具有第一再现部，该第一再现部对所述标志内容中包含的合成声音的声音波形或者所述关联内容中包含的合成声音的声音波形进行再现。

5.根据权利要求1～3中任意一项所述的声音合成装置，

所述内容包括所述带标签文本和与该带标签文本对应的合成声音的声音波形，

所述内容生成部具有：

标签信息抽取部，从所述选择内容所包含的所述带标签文本中抽取所述标签信息；

带标签文本生成部，将所述标签信息抽取部抽取的所述标签信息适用于所指定的文本，并生成所述带标签文本；以及

声音波形生成部，使用声音合成辞典生成与所述带标签文本生成部生成的所述带标签文本对应的合成声音的声音波形，

所述内容登记部将新的所述内容登记在所述内容存储部中，该新的所述内容包括由所述带标签文本生成部生成的所述带标签文本、和由所述声音波形生成部生成的所述声音波形。

6.根据权利要求5所述的声音合成装置，

所述内容生成部还具有对所述声音波形生成部生成的合成声音的声音波形进行再现的第二再现部。

7.根据权利要求5所述的声音合成装置，

所述内容生成部还具有根据用户的操作修正所述带标签文本生成部生成的所述带标签文本的带标签文本修正部，

在所述带标签文本修正部修正了所述带标签文本的情况下，所述声音波形生成部生成与被修正后的所述带标签文本对应的合成声音的声音波形。

8.根据权利要求1～3及6、7中任意一项所述的声音合成装置，

所述内容选择部具有：

内容检索部，从在所述内容存储部登记的多个所述内容中，检索包含适合所输入的关键词的所述带标签文本的内容；

检索内容提示部，对由所述内容检索部检索的所述内容即检索内容的一览进行提示；以及

第二选择内容决定部，将从所述检索内容的一览中选择的所述检索内容决定为所述选择内容。

9.根据权利要求8所述的声音合成装置，

所述内容选择部还具有对所述检索内容中包含的合成声音的声音波形进行再现的第三再现部。

10.一种由计算机执行的声音合成方法，包括以下步骤：

内容选择工序，从被登记于内容存储部的多个内容中决定选择内容，所述内容是包含对成为声音合成的对象的文本附加了控制声音合成用的标签信息的带标签文本的内容；

内容生成工序，将所述选择内容所包含的所述带标签文本的所述标签信息适用于所指定的文本，并生成新的所述内容；以及

内容登记工序，将所生成的新的所述内容登记在所述内容存储部中，

在所述内容登记工序中，按照与在所述内容存储部预先登记的成为标记的所述内容即标志内容的相似度，将所生成的所述内容与所述标志内容相关联地登记在所述内容存储部中，

在所述内容选择工序中，

对所述标志内容的一览进行提示，

对与从所述标志内容的一览中选择的所述标志内容相关联的所述内容即关联内容的一览进行提示，

将从所述关联内容的一览中选择的所述关联内容决定为所述选择内容。