JP6415929B2

JP6415929B2 - 音声合成装置、音声合成方法およびプログラム

Info

Publication number: JP6415929B2
Application number: JP2014221770A
Authority: JP
Inventors: 薫平野; 鈴木　優; 優鈴木; 博之水谷
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2014-10-30
Filing date: 2014-10-30
Publication date: 2018-10-31
Anticipated expiration: 2034-10-30
Also published as: US10217454B2; CN106688035A; JP2016090664A; CN106688035B; US20170004821A1; WO2016067766A1

Description

本発明の実施形態は、音声合成装置、音声合成方法およびプログラムに関する。

音声合成の分野では、例えば様々な感情表現などを伴う所望の合成音声を得るために有効な方法として、タグ付きテキストに基づいて合成音声の音声波形を生成する方法が知られている。タグ付きテキストは、音声合成の対象となるテキストに対して、マークアップ言語で記述されたタグ情報を付加したものである。タグ情報は、タグで囲まれたテキストに対する音声合成を制御するための情報である。音声合成エンジンは、このタグ情報に基づいて、例えば、音声合成に使用する辞書を選択したり韻律パラメータを調整したりすることにより、所望の合成音声を得ることができる。

タグ付きテキストは、ユーザがエディタを使用してテキストにタグ情報を付加することで生成できるが、この方法ではユーザの作業が煩雑になる。このため、音声合成の対象となるテキストに対して事前に生成されたテンプレートを適用することで、タグ付きテキストを生成するのが一般的である。

しかし、従来の一般的な方法では、様々なタグ情報に対応できるようにするために多数のテンプレートを事前に生成する必要があり、事前の準備に多大な工数を要する。機械学習によりテンプレートを自動生成する技術もあるが、この方法では、機械学習のための訓練データと正解データとを別途用意する必要があり、煩雑である。このため、タグ付きテキストを効率よく生成するための新たな仕組みの構築が望まれている。

特開２００３−２９５８８２号公報特開２００７−２３３９１２号公報

本発明が解決しようとする課題は、タグ付きテキストを効率よく生成することができる音声合成装置、音声合成方法およびプログラムを提供することである。

実施形態の音声合成装置は、コンテンツ選択部と、コンテンツ生成部と、コンテンツ登録部と、を備える。コンテンツ選択部は、音声合成の対象となるテキストに対して音声合成を制御するタグ情報が付加されたタグ付きテキストを含むコンテンツであって、コンテンツ記憶部に登録されている複数の前記コンテンツの中から、選択コンテンツを決定する。コンテンツ生成部は、前記選択コンテンツに含まれる前記タグ付きテキストの前記タグ情報を、指定されたテキストに適用して新たな前記コンテンツを生成する。コンテンツ登録部は、生成された新たな前記コンテンツを前記コンテンツ記憶部に登録する。前記コンテンツ登録部は、前記コンテンツ記憶部に予め登録された目印となる前記コンテンツであるマーカコンテンツとの類似度に応じて、生成された前記コンテンツを前記マーカコンテンツと関連付けて前記コンテンツ記憶部に登録する。前記コンテンツ選択部は、前記マーカコンテンツの一覧を提示するマーカコンテンツ提示部と、前記マーカコンテンツの一覧の中から選択された前記マーカコンテンツに関連付けられた前記コンテンツである関連コンテンツの一覧を提示する関連コンテンツ提示部と、前記関連コンテンツの一覧の中から選択された前記関連コンテンツを、前記選択コンテンツとして決定する第１の選択コンテンツ決定部と、を備える。

図１は、実施形態の音声合成装置の概略構成を示すブロック図である。図２は、コンテンツ選択部の構成例を示すブロック図である。図３は、コンテンツ生成部の構成例を示すブロック図である。図４は、コンテンツ登録部の構成例を示すブロック図である。図５は、コンテンツ記憶部に登録されているコンテンツの一例を概念的に示す図である。図６は、コンテンツ記憶部におけるコンテンツの格納形式を説明する図である。図７は、ユーザ端末に表示させるＵＩ画面の画面遷移を説明する図である。図８は、マーカコンテンツ一覧画面の一例を示す図である。図９は、関連コンテンツ一覧画面の一例を示す図である。図１０は、コンテンツ詳細画面の一例を示す図である。図１１は、コンテンツ生成画面の一例を示す図である。図１２は、コンテンツ選択部による処理手順の一例を示すフローチャートである。図１３は、コンテンツ生成部による処理手順の一例を示すフローチャートである。図１４は、コンテンツ登録部による処理手順の一例を示すフローチャートである。図１５は、第２実施形態のコンテンツ選択部の構成例を示すブロック図である。図１６は、ユーザ端末に表示させるＵＩ画面の画面遷移を説明する図である。図１７は、コンテンツ検索画面の一例を示す図である。図１８は、第２実施形態のコンテンツ選択部による処理手順の一例を示すフローチャートである。図１９は、音声合成装置のハードウェア構成の一例を概略的に示すブロック図である。

以下、実施形態の音声合成装置、音声合成方法およびプログラムを、図面を参照して詳細に説明する。実施形態の音声合成装置は、音声合成の対象となるテキストにタグ情報を付加したタグ付きテキストに基づいて音声合成を行うものであり、特に、タグ付きテキストを効率よく生成する仕組みを持つ。タグ付きテキストと、そのタグ付きテキストに基づいて生成される合成音声の音声波形との組み合わせを、以下では「コンテンツ」と呼ぶ。コンテンツには、タグ付きテキストと合成音声の音声波形のほか、例えば音声合成に使用する音声合成辞書の識別情報など、他の情報が含まれていてもよい。なお、音声合成の方法としては、例えば音声素片結合型の音声合成、ＨＭＭ（隠れマルコフモデル）を用いた音声合成など、公知の方法をいずれも採用できるため、詳細な説明は省略する。

（第１実施形態）
図１は、本実施形態に係る音声合成装置１の概略構成を示すブロック図である。本実施形態の音声合成装置１は、例えば、クライアントとしてネットワークに接続されたユーザ端末２に対してＷｅｂベースのサービスを提供するネットワーク上のサーバとして実現することができる。ユーザ端末２は、ユーザが使用するパーソナルコンピュータ、タブレット端末、スマートフォンなどの情報機器であり、ＣＰＵやメモリなどのコンピュータシステムを構成する各種リソースのほか、表示装置やスピーカ、各種入力デバイスなどのハードウェア、ＯＳ（オペレーションシステム）やＷｅｂブラウザなどの各種ソフトウェアを搭載する。

なお、本実施形態の音声合成装置１は、単体の装置として構成されている必要はなく、複数の装置を連携させたシステムとして構成されていてもよい。また、音声合成装置１は、クラウドシステム上で動作する仮想マシンとして実現されていてもよい。

音声合成装置１は、図１に示すように、コンテンツ選択部１０と、コンテンツ生成部２０と、コンテンツ登録部３０と、コンテンツ記憶部４０と、音声合成辞書５０とを備える。

コンテンツ選択部１０は、ユーザ端末２にＵＩ（ユーザインタフェース）画面を表示させながらこのＵＩ画面を用いたユーザの操作入力を受け付けて、コンテンツ記憶部４０に登録されている複数のコンテンツの中から、ユーザの操作に基づいて選択コンテンツを決定する。つまり、選択コンテンツとは、複数のコンテンツの中からユーザの操作に応じて選択されたコンテンツである。

コンテンツ生成部２０は、ユーザ端末２にＵＩ画面を表示させながらこのＵＩ画面を用いたユーザの操作入力を受け付けて、コンテンツ選択部１０によって決定された選択コンテンツに含まれるタグ付きテキストのタグ情報を、ユーザにより指定されたテキストに適用して新たなコンテンツを生成する。

コンテンツ登録部３０は、コンテンツ生成部２０により生成された新たなコンテンツ（新規コンテンツ）を、コンテンツ記憶部４０に登録する。

コンテンツ記憶部４０は、目印となるコンテンツであるマーカコンテンツと、コンテンツ生成部２０により生成されたコンテンツとを記憶する。マーカコンテンツは、特定の特徴を強調したコンテンツであり、コンテンツ記憶部４０に事前に登録されている。コンテンツ生成部２０により生成されたコンテンツは、コンテンツ登録部３０によって、マーカコンテンツとの類似度に応じて、マーカコンテンツに関連付けてコンテンツ記憶部４０に登録される。

なお、コンテンツ記憶部４０は、音声合成装置１の外部にあってもよい。この場合、コンテンツ登録部３０は、例えばネットワーク経由で音声合成装置１の外部のコンテンツ記憶部４０にアクセスし、コンテンツ生成部２０により生成されたコンテンツをコンテンツ記憶部４０に登録する。また、コンテンツ選択部１０は、例えばネットワーク経由で音声合成装置１の外部のコンテンツ記憶部４０にアクセスし、ユーザ操作に応じて必要なコンテンツをコンテンツ記憶部４０から取得する。

音声合成辞書５０は、コンテンツ生成部２０がタグ付きテキストに基づいて合成音声の音声波形を生成する際に使用する辞書である。音声合成辞書５０は、例えば、生成する合成音声の特徴別に分類されており、タグ付きテキストのタグ情報に基づいて最適な辞書が選択される。なお、音声合成辞書５０は、音声合成装置１の外部にあってもよい。この場合、コンテンツ生成部２０は、例えばネットワーク経由で音声合成装置１の外部の音声合成辞書５０にアクセスし、必要な情報を音声合成辞書５０から取得する。

次に、本実施形態の音声合成装置１を構成する各部の詳細を説明する。

図２は、コンテンツ選択部１０の構成例を示すブロック図である。コンテンツ選択部１０は、図２に示すように、マーカコンテンツ提示部１１と、関連コンテンツ提示部１２と、選択コンテンツ決定部１３と、再生部１４とを備える。

マーカコンテンツ提示部１１は、コンテンツ記憶部４０に登録されているマーカコンテンツの一覧をユーザに提示する。例えば、マーカコンテンツ提示部１１は、ユーザ端末２に表示させるＵＩ画面として、後述のマーカコンテンツ一覧画面ＳＣ１（図８参照）を生成してユーザ端末２に表示させる。

関連コンテンツ提示部１２は、マーカコンテンツの一覧の中からユーザにより選択されたマーカコンテンツに関連付けられたコンテンツである関連コンテンツの一覧をユーザに提示する。例えば、関連コンテンツ提示部１２は、ユーザ端末２に表示させるＵＩ画面として、後述の関連コンテンツ一覧画面ＳＣ２（図９参照）を生成してユーザ端末２に表示させる。

選択コンテンツ決定部１３は、関連コンテンツ一覧の中から選択された関連コンテンツを、選択コンテンツとして決定する。例えば、選択コンテンツ決定部１３は、ユーザ端末２に表示されている関連コンテンツ一覧画面ＳＣ２の中からユーザにより選択された関連コンテンツを、選択コンテンツとして決定する。

再生部１４は、ユーザの操作に応じて、マーカコンテンツに含まれる合成音声の音声波形、または関連コンテンツに含まれる合成音声の音声波形を再生し、例えばユーザ端末２のスピーカから音声として出力させる。例えば、再生部１４は、ユーザ端末２に表示されているマーカコンテンツ一覧画面ＳＣ１の中からユーザにより指定されたマーカコンテンツに含まれる合成音声の音声波形、またはユーザ端末２に表示されている関連コンテンツ一覧画面ＳＣ２の中からユーザにより指定された関連コンテンツに含まれる合成音声の音声波形を再生して、ユーザ端末２のスピーカから音声として出力させる。

図３は、コンテンツ生成部２０の構成例を示すブロック図である。コンテンツ生成部２０は、図３に示すように、タグ情報抽出部２１と、タグ付きテキスト生成部２２と、タグ付きテキスト修正部２３と、音声波形生成部２４と、再生部２５とを備える。

タグ情報抽出部２１は、選択コンテンツ決定部１３により決定された選択コンテンツに含まれるタグ付きテキストから、タグ情報を抽出する。タグ情報は、当該タグ情報が適用されるテキストの前方に配置される開始タグと、当該タグ情報が適用されるテキストの後方に配置される終了タグとを含む。開始タグおよび終了タグには要素名が記述され、開始タグには要素名で表される要素の属性値が記述される。要素が複数の属性を含む場合は、開始タグにそれらの属性および属性ごとの属性値が記述される。タグ情報の要素としては、例えば性別（属性値は男性／女性）、感情（属性として喜び、哀しみ、怒り、・・・、優しさなどを含む）、韻律（属性として声の高さ、話す速さなどを含む）などが挙げられる。

例えば、選択コンテンツ決定部１３により決定された選択コンテンツに含まれるタグ付きテキストが
＜性別＝“女性”＞＜ｐｒｏｓｏｄｙｐｉｔｃｈ＝“＋５％” ｒａｔｅ＝“−２％”＞おはようございます＜／ｐｒｏｓｏｄｙ＞＜／性別＞
であったとする。この場合、タグ情報抽出部２１は、このタグ付きテキストのタグ情報
＜性別＝“女性”＞＜ｐｒｏｓｏｄｙｐｉｔｃｈ＝“＋５％” ｒａｔｅ＝“−２％”＞＜／ｐｒｏｓｏｄｙ＞＜／性別＞
を抽出する。なお、上記の例において、ｐｒｏｓｏｄｙは韻律を表す要素名であり、ｐｉｔｃｈはｐｒｏｓｏｄｙ要素における声の高さを表す属性（属性値は＋５％）であり、ｒａｔｅはｐｒｏｓｏｄｙ要素における発話の速さを表す属性（属性値は−２％）である。

タグ付きテキスト生成部２２は、タグ情報抽出部２１が抽出したタグ情報を、ユーザにより指定されたテキストに適用してタグ付きテキストを生成する。例えば、ユーザにより指定されたテキストが「こんにちは」であり、タグ情報抽出部２１により上記のタグ情報が抽出されたとする。この場合、タグ付きテキスト生成部２２は、
＜性別＝“女性”＞＜ｐｒｏｓｏｄｙｐｉｔｃｈ＝“＋５％” ｒａｔｅ＝“−２％”＞こんにちは＜／ｐｒｏｓｏｄｙ＞＜／性別＞
というタグ付きテキストを生成する。

タグ付きテキスト修正部２３は、タグ付きテキスト生成部２２が生成したタグ付きテキストを、ユーザの操作に基づいて修正する。例えば、タグ付きテキスト修正部２３は、タグ付きテキスト生成部２２が生成したタグ付きテキストに含まれるタグ情報の属性値（上記の例では＋５％、−２％などの値）などを、ユーザの操作に基づいて修正する。

音声波形生成部２４は、音声合成辞書５０を用いて、タグ付きテキスト生成部２２が生成したタグ付きテキストに対応する合成音声の音声波形を生成する。タグ付きテキスト生成部２２が生成したタグ付きテキストをタグ付きテキスト修正部２３が修正した場合、音声波形生成部２４は、修正されたタグ付きテキストに対応する合成音声の音声波形を生成する。

再生部２５は、ユーザの操作に応じて、音声波形生成部２４が生成した合成音声の音声波形を再生し、例えばユーザ端末２のスピーカから音声として出力させる。

図４は、コンテンツ登録部３０の構成例を示すブロック図である。コンテンツ登録部３０は、図４に示すように、類似度算出部３１と、分類部３２と、利用頻度更新部３３とを備える。

類似度算出部３１は、コンテンツ生成部２０により生成された新たなコンテンツ（新規コンテンツ）をマーカコンテンツと関連付けてコンテンツ記憶部４０に登録するために、マーカコンテンツに対する新規コンテンツの類似度を算出する。

マーカコンテンツは、上述したように、コンテンツ記憶部４０に事前に登録されている特定の特徴を強調したコンテンツである。例えば、感情を表す属性（喜び、哀しみ、怒り・・・優しさなど）の属性値が０〜１００（％）で設定可能であり、声の高さ（ｐｉｔｃｈ）の属性値および話す速さ（ｒａｔｅ）の属性値が−１０〜＋１０（％）の範囲で設定可能であるとする。この場合、例えば図５に示すように、特定の特徴を強調したマーカコンテンツＭ１，Ｍ２，・・・，Ｍｋが、コンテンツ記憶部４０に事前に登録される。なお、図５は、コンテンツ記憶部４０に登録されているコンテンツの一例を概念的に示す図である。

類似度算出部３１は、コンテンツ生成部２０によって新規コンテンツが生成されると、コンテンツ記憶部４０に事前に登録されている各マーカコンテンツに対する新規コンテンツの類似度を算出する。２つのコンテンツｃｉ，ｃｊの類似度は、例えば、下記式（１）および式（２）に示されるコンテンツ間距離Ｄ（ｃｉ，ｃｊ）を算出することで求めることができる。
Ｄ（ｃｉ，ｃｊ）＝√Ａ・・・（１）
Ａ＝｛喜び（ｃｉ）−喜び（ｃｊ）｝^２＋｛哀しみ（ｃｉ）−哀しみ（ｃｊ）｝^２＋｛怒り（ｃｉ）−怒り（ｃｊ）｝^２＋・・・＋｛優しさ（ｃｉ）−優しさ（ｃｊ）｝^２＋｛声の高さ（ｃｉ）−声の高さ（ｃｊ）｝^２＋｛話す速さ（ｃｉ）−話す速さ（ｃｊ）｝^２・・・（２）

式（１）および式（２）により算出されるコンテンツ間距離Ｄ（ｃｉ，ｃｊ）が小さいほど、２つのコンテンツｃｉ，ｃｊが似ていることを表す。なお、ここでは性別の属性値が同じコンテンツ同士を距離算出の対象としているが、性別の属性値に関する項を下記式（２）に組み込んで、性別に跨るコンテンツ間距離Ｄ（ｃｉ，ｃｊ）を算出するようにしてもよい。

分類部３２は、類似度算出部３１により算出された類似度に基づいて、コンテンツ生成部２０によって生成されたコンテンツを分類する。ここでの分類は、コンテンツ生成部２０によって生成されたコンテンツを、当該コンテンツに類似するマーカコンテンツ（例えば、当該コンテンツとのコンテンツ間距離が所定の閾値以下のマーカコンテンツ）に関連付けてコンテンツ記憶部４０に登録する処理である。コンテンツ生成部２０によって生成されたコンテンツに類似するマーカコンテンツが複数存在する場合、当該コンテンツはこれら複数のマーカコンテンツのそれぞれに関連付けてコンテンツ記憶部４０に登録される。分類部３２は、コンテンツ生成部２０によって新たなコンテンツが生成されるたびに、そのコンテンツの分類を行う。これにより、コンテンツ記憶部４０には、マーカコンテンツごとに、そのマーカコンテンツに関連付けられたコンテンツが例えば類似度順に格納される。

図６は、コンテンツ記憶部４０におけるコンテンツの格納形式を説明する図である。コンテンツ生成部２０によって生成されたコンテンツＣ１，Ｃ２，・・・，Ｃｍは、図６に示すように、それぞれのコンテンツＣ１，Ｃ２，・・・，Ｃｍに類似するマーカコンテンツＭ１，Ｍ２，・・・，Ｍｋにより代表されるクラスに分類された状態で、コンテンツ記憶部４０に格納される。また、各コンテンツには、そのコンテンツの利用頻度の情報が対応付けられている。利用頻度は、そのコンテンツが選択コンテンツとして利用された回数を表す。つまり、コンテンツ生成部２０が新たなコンテンツを生成する際に選択コンテンツとして利用されるたびに、選択コンテンツとして利用されたコンテンツの利用頻度の値がインクリメント（＋１）される。コンテンツの利用頻度は、そのコンテンツが人気のあるコンテンツであるかどうかをユーザに示す指標となる。

利用頻度更新部３３は、コンテンツ生成部２０が生成した新たなコンテンツの登録時に、そのコンテンツを生成する際に選択コンテンツとして利用したコンテンツの利用頻度の値をインクリメントして更新する。

次に、本実施形態の音声合成装置１がユーザ端末２に表示させるＵＩ画面の具体例について、図７乃至図１１を参照して説明する。

図７は、ユーザ端末２に表示させるＵＩ画面の画面遷移を説明する図である。本実施形態の音声合成装置１は、例えば図７に示す画面遷移に従って、マーカコンテンツ一覧画面ＳＣ１、関連コンテンツ一覧画面ＳＣ２、コンテンツ詳細画面ＳＣ３、およびコンテンツ生成画面ＳＣ４を、ＵＩ画面としてユーザ端末２に順次表示させる。

図８は、マーカコンテンツ一覧画面ＳＣ１の一例を示す図である。マーカコンテンツ一覧画面ＳＣ１は、コンテンツ記憶部４０に事前に登録されているマーカコンテンツの一覧をユーザに提示するＵＩ画面である。このマーカコンテンツ一覧画面ＳＣ１には、図８に示すように、「タイトル」欄１０１、「性別」欄１０２、「パラメータ」欄１０３、性別切り替えボタン１０４、上下ボタン１０５、「再生」ボタン１０６、「コンテンツ」ボタン１０７および「ｃｌｏｓｅ」ボタン１０８が設けられている。

「タイトル」欄１０１には、各マーカコンテンツの名称が表示される。「性別」欄１０２には、各マーカコンテンツの性別の属性値（男性／女性）が表示される。「パラメータ」欄１０３には、各マーカコンテンツの感情や韻律などの属性および属性値（パラメータ）が表示される。なお、図８に示すマーカコンテンツ一覧画面ＳＣ１は、マーカコンテンツの一覧を男性／女性の性別ごとに提示する構成であり、性別切り替えボタン１０４を操作することで、提示するマーカコンテンツの性別を切り替えられるようになっている。図８では、男性のマーカコンテンツの一覧を提示している状態を示している。

上下ボタン１０５は、図示しないカーソルを上下に移動させてマーカコンテンツの一覧の中から任意のマーカコンテンツを指定するためのボタンである。

「再生」ボタン１０６は、指定されたマーカコンテンツに含まれる合成音声の音声波形を再生して音声出力するためのボタンである。提示しているマーカコンテンツの一覧の中から任意のマーカコンテンツが指定されている状態で「再生」ボタン１０６が押されると、指定されたマーカコンテンツの合成音声がユーザ端末２のスピーカから出力される。ユーザは、この「再生」ボタン１０６を利用して、所望のマーカコンテンツの合成音声を試聴することができる。

「コンテンツ」ボタン１０７は、マーカコンテンツの一覧の中から所望のマーカコンテンツを選択するためのボタンである。提示しているマーカコンテンツの一覧の中から任意のマーカコンテンツが指定されている状態で「コンテンツ」ボタン１０７が押されると、ユーザ端末２に表示されるＵＩ画面がマーカコンテンツ一覧画面ＳＣ１から関連コンテンツ一覧画面ＳＣ２に遷移して、指定されたマーカコンテンツに関連付けられた関連コンテンツの一覧が提示される。

「ｃｌｏｓｅ」ボタン１０８は、マーカコンテンツ一覧画面ＳＣ１を閉じるためのボタンである。この「ｃｌｏｓｅ」ボタン１０８が押されると、ユーザ端末２におけるＵＩ画面の表示が終了する。

図９は、関連コンテンツ一覧画面ＳＣ２の一例を示す図である。関連コンテンツ一覧画面ＳＣ２は、マーカコンテンツ一覧画面ＳＣ１を用いてユーザが選択したマーカコンテンツに関連付けてコンテンツ記憶部４０に登録されている関連コンテンツの一覧をユーザに提示するＵＩ画面である。この関連コンテンツ一覧画面ＳＣ２には、図９に示すように、「タイトル」欄２０１、「距離」欄２０２、「利用頻度」欄２０３、上下ボタン２０４、「再生」ボタン２０５、「戻る」ボタン２０６、「詳細」ボタン２０７および「ｃｌｏｓｅ」ボタン２０８が設けられている。

「タイトル」欄２０１には、マーカコンテンツ一覧画面ＳＣ１で選択されたマーカコンテンツおよび各関連コンテンツの名称が表示される。「距離」欄２０２には、各関連コンテンツとマーカコンテンツとのコンテンツ間距離Ｄ（ｃｉ，ｃｊ）が表示される。「利用頻度」欄２０３には、マーカコンテンツおよび各関連コンテンツの利用頻度が表示される。関連コンテンツ一覧画面ＳＣ２では、図９に示すように、マーカコンテンツに関連付けられた複数の関連コンテンツが、コンテンツ間距離Ｄ（ｃｉ，ｃｊ）の値が小さい順、つまり、マーカコンテンツに似ている関連コンテンツほど上位になるように一覧表示される。また、コンテンツ間距離Ｄ（ｃｉ，ｃｊ）の値が同じ関連コンテンツ同士は、利用頻度の値が大きい関連コンテンツが上位になるように一覧表示される。なお、関連コンテンツの並び順は図９に示す例に限らない。例えば、利用頻度の値が大きい関連コンテンツほど上位になるように、複数の関連コンテンツを一覧表示してもよい。

上下ボタン２０４は、図示しないカーソルを上下に移動させて関連コンテンツの一覧の中から任意の関連コンテンツを指定するためのボタンである。

「再生」ボタン２０５は、指定された関連コンテンツに含まれる合成音声の音声波形を再生して音声出力するためのボタンである。提示している関連コンテンツの一覧の中から任意の関連コンテンツが指定されている状態で「再生」ボタン２０５が押されると、指定された関連コンテンツの合成音声がユーザ端末２のスピーカから出力される。ユーザは、この「再生」ボタン２０５を利用して、所望の関連コンテンツの合成音声を試聴することができる。

「戻る」ボタン２０６は、ユーザ端末２に表示するＵＩ画面を、図９の関連コンテンツ一覧画面ＳＣ２から図８のマーカコンテンツ一覧画面ＳＣ１に戻すためのボタンである。

「詳細」ボタン２０７は、所望の関連コンテンツの詳細を確認するためのボタンである。提示している関連コンテンツの一覧の中から任意の関連コンテンツが指定されている状態で「詳細」ボタン２０７が押されると、ユーザ端末２に表示されるＵＩ画面が関連コンテンツ一覧画面ＳＣ２からコンテンツ詳細画面ＳＣ３に遷移して、指定された関連コンテンツの詳細情報が表示される。

「ｃｌｏｓｅ」ボタン２０８は、関連コンテンツ一覧画面ＳＣ２を閉じるためのボタンである。この「ｃｌｏｓｅ」ボタン２０８が押されると、ユーザ端末２におけるＵＩ画面の表示が終了する。

図１０は、コンテンツ詳細画面ＳＣ３の一例を示す図である。コンテンツ詳細画面ＳＣ１は、関連コンテンツ一覧画面ＳＣ２を用いてユーザが選択した関連コンテンツの詳細情報をユーザに提示するＵＩ画面である。このコンテンツ詳細画面ＳＣ２には、図１０に示すように、コンテンツ名称欄３０１、「使用辞書」欄３０２、「テキスト」欄３０３、「タグ情報」欄３０４、「再生」ボタン３０５、「戻る」ボタン３０６、「コピー」ボタン３０７および「ｃｌｏｓｅ」ボタン３０８が設けられている。

コンテンツ名称欄３０１には、当該コンテンツの名称が表示される。「使用辞書」欄３０２には、当該コンテンツに含まれる合成音声の音声波形を生成する際に使用した音声合成辞書５０の名称が表示される。「テキスト」欄３０２には、当該コンテンツに含まれるタグ付きテキストのテキスト部分（テキストの全体）が表示される。「タグ情報」欄３０４には、「テキスト」欄３０２に表示されているテキストの中で指定された範囲のタグ付きテキストが表示される。ユーザは、「テキスト」欄３０２に表示されているテキストの中で任意の範囲を指定することにより、その部分のタグ情報を「タグ情報」欄３０４で確認することができる。

「再生」ボタン３０５は、「タグ情報」欄３０４に表示されているタグ付きテキストに対応する部分の合成音声の音声波形を再生して音声出力するためのボタンである。ユーザにより指定された範囲のタグ付きテキストが「タグ情報」欄３０４に表示されている状態で「再生」ボタン３０５が押されると、そのタグ付きテキストに対応する部分の合成音声がユーザ端末２のスピーカから出力される。ユーザは、この「再生」ボタン３０５を利用して、所望の箇所の合成音声を試聴することができる。

「戻る」ボタン３０６は、ユーザ端末２に表示するＵＩ画面を、図１０のコンテンツ詳細画面ＳＣ３から図９の関連コンテンツ一覧画面ＳＣ２に戻すためのボタンである。

「コピー」ボタン３０７は、当該コンテンツを選択コンテンツとして決定するためのボタンである。この「コピー」ボタン３０７が押されると、ユーザ端末２に表示されるＵＩ画面が、コンテンツ詳細画面ＳＣ３からコンテンツ生成画面ＳＣ４に遷移する。

「ｃｌｏｓｅ」ボタン３０８は、コンテンツ詳細画面ＳＣ３を閉じるためのボタンである。この「ｃｌｏｓｅ」ボタン３０８が押されると、ユーザ端末２におけるＵＩ画面の表示が終了する。

図１１は、コンテンツ生成画面ＳＣ４の一例を示す図である。コンテンツ生成画面ＳＣ４は、選択コンテンツのタグ情報を適用して新たなコンテンツを生成するためのＵＩ画面である。このコンテンツ生成画面ＳＣ４には、図１１に示すように、「タイトル」欄４０１、「使用辞書」欄４０２、「テキスト」欄４０３、「タグ情報」欄４０４、「適用」ボタン４０５、「再生」ボタン４０６、「編集」ボタン４０７、「戻る」ボタン４０８、「登録」ボタン４０９および「ｃｌｏｓｅ」ボタン４１０が設けられている。

「タイトル」欄４０１は、コンテンツ生成画面ＳＣ４を用いて生成される新たなコンテンツの名称が表示される。ユーザは、この「タイトル」欄４０１に任意の名称を書き込むことで、新たなコンテンツに対して所望の名称を設定できる。「使用辞書」欄４０２には、選択コンテンツに含まれる合成音声の音声波形を生成する際に使用した音声合成辞書５０の名称が表示される。ユーザは、この「使用辞書」欄４０２に表示されている音声合成辞書５０の名称を変更することにより、新たなコンテンツに含まれる合成音声の音声波形を生成する際に使用する音声合成辞書５０を変更することができる。「テキスト」欄４０３には、音声合成の対象となるテキストが表示される。ユーザは、この「テキスト」欄４０３に任意のテキストを書き込むことで、音声合成の対象とするテキストを指定できる。「タグ情報」欄４０４には、選択コンテンツに含まれるタグ付きテキストのタグ情報を、「テキスト」欄４０３で表示されるテキストに適用することで生成されるタグ付きテキストが表示される。

「適用」ボタン４０５は、「タグ情報」欄４０４に表示されているタグ付きテキストに対応する合成音声の音声波形を生成するためのボタンである。「タグ情報」欄４０４にタグ付きテキストが表示されている状態で「適用」ボタン４０５が押されると、「タグ情報」欄４０４に表示されているタグ付きテキストに基づいて合成音声の音声波形が生成される。この際、「使用辞書」欄４０２に表示されている音声合成辞書５０が使用される。

「再生」ボタン４０６は、「タグ情報」欄４０４に表示されているタグ付きテキストに基づいて生成された合成音声の音声波形を再生して音声出力するためのボタンである。「適用」ボタン４０５が押された後に「再生」ボタン４０６が押されると、「適用」ボタン４０５の操作により生成された合成音声がユーザ端末２のスピーカから出力される。ユーザは、この「再生」ボタン４０６を利用して、新たに生成するコンテンツの合成音声を試聴することができる。

「編集」ボタン４０７は、「タグ情報」欄４０４に表示されているタグ付きテキストを修正するためのボタンである。「編集」ボタン４０７が押されると、「タグ情報」欄４０４に表示されているタグ付きテキストの編集が可能になる。ユーザは、この「編集」ボタン４０７を押して「タグ情報」欄４０４に表示されているタグ付きテキストに対し、例えばタグ情報の属性値（図１１の例では＋５％）などを修正する操作を行うことで、新たに生成するコンテンツのタグ付きテキストを修正することができる。

「戻る」ボタン４０８は、ユーザ端末２に表示するＵＩ画面を、図１１のコンテンツ生成画面ＳＣ４から図１０のコンテンツ詳細画面ＳＣ３に戻すためのボタンである。

「登録」ボタン４０９は、生成した新たなコンテンツをコンテンツ記憶部４０に登録するためのボタンである。「登録」ボタン４０９が押されると、「タグ情報」欄４０４に表示されているタグ付きテキストと、このタグ付きテキストに基づいて生成された合成音声の音声波形との組み合わせが、新たなコンテンツとしてコンテンツ記憶部４０に登録される。

「ｃｌｏｓｅ」ボタン４１０は、コンテンツ生成画面ＳＣ４を閉じるためのボタンである。この「ｃｌｏｓｅ」ボタン４１０が押されると、ユーザ端末２におけるＵＩ画面の表示が終了する。

次に、図７乃至図１１に例示したＵＩ画面をユーザ端末２に表示させながらコンテンツを生成して登録する音声合成装置１の動作例について説明する。

まず、コンテンツ選択部１０により実施される処理について、図１２を参照して説明する。図１２は、コンテンツ選択部１０による処理手順の一例を示すフローチャートである。

図１２のフローチャートで示す処理が開始されると、まず、マーカコンテンツ提示部１１が、図８に例示したマーカコンテンツ一覧画面ＳＣ１をユーザ端末２に表示させる（ステップＳ１０１）。なお、図１２のフローチャートでは記載を省略しているが、マーカコンテンツ一覧画面ＳＣ１をユーザ端末２に表示させた後、マーカコンテンツ一覧画面ＳＣ１の性別切り替えボタン１０４が操作されると、一覧表示するマーカコンテンツの性別が切り替えられる。また、いずれかのタイミングで「ｃｌｏｓｅ」ボタン１０８が押されると、処理が終了する。

次に、マーカコンテンツ一覧画面ＳＣ１で一覧表示されているマーカコンテンツのいずれかが指定された状態で「再生」ボタン１０６が押されたか否かが判定される（ステップＳ１０２）。そして、「再生」ボタン１０６が押された場合は（ステップＳ１０２：Ｙｅｓ）、再生部１４が、指定されたマーカコンテンツに含まれる合成音声の音声波形を再生して、ユーザ端末２のスピーカから音声出力させた後（ステップＳ１０３）、ステップＳ１０２に戻る。

一方、「再生」ボタン１０６が押されていない場合は（ステップＳ１０２：Ｎｏ）、次に、一覧表示されているマーカコンテンツのいずれかが指定された状態で「コンテンツ」ボタン１０７が押されたか否かが判定される（ステップＳ１０４）。そして、「コンテンツ」ボタン１０７が押されていない場合は（ステップＳ１０４：Ｎｏ）、ステップＳ１０２に戻る。一方、「コンテンツ」ボタン１０７が押された場合は（ステップＳ１０４：Ｙｅｓ）、関連コンテンツ提示部１２が、図９に例示した関連コンテンツ一覧画面ＳＣ２をユーザ端末２に表示させる（ステップＳ１０５）。

なお、図１２のフローチャートでは記載を省略しているが、関連コンテンツ一覧画面ＳＣ２をユーザ端末２に表示させた後、いずれかのタイミングで「戻る」ボタン２０６が押されると、ステップＳ１０１に戻ってユーザ端末２にマーカコンテンツ一覧画面ＳＣ１が再表示される。また、いずれかのタイミングで「ｃｌｏｓｅ」ボタン２０８が押されると、処理が終了する。

次に、関連コンテンツ一覧画面ＳＣ２で一覧表示されている関連コンテンツのいずれかが指定された状態で「再生」ボタン２０５が押されたか否かが判定される（ステップＳ１０６）。そして、「再生」ボタン２０５が押された場合は（ステップＳ１０６：Ｙｅｓ）、再生部１４が、指定された関連コンテンツに含まれる合成音声の音声波形を再生して、ユーザ端末２のスピーカから音声出力させた後（ステップＳ１０７）、ステップＳ１０６に戻る。

一方、「再生」ボタン２０５が押されていない場合は（ステップＳ１０６：Ｎｏ）、次に、一覧表示されている関連コンテンツのいずれかが指定された状態で「詳細」ボタン２０７が押されたか否かが判定される（ステップＳ１０８）。そして、「詳細」ボタン２０７が押されていない場合は（ステップＳ１０８：Ｎｏ）、ステップＳ１０６に戻る。一方、「詳細」ボタン２０７が押された場合は（ステップＳ１０８：Ｙｅｓ）、選択コンテンツ決定部１３が、図１０に例示したコンテンツ詳細画面ＳＣ３をユーザ端末２に表示させる（ステップＳ１０９）。

なお、図１２のフローチャートでは記載を省略しているが、コンテンツ詳細画面ＳＣ３をユーザ端末２に表示させた後、いずれかのタイミングで「戻る」ボタン３０６が押されると、ステップＳ１０５に戻ってユーザ端末２に関連コンテンツ一覧画面ＳＣ２が再表示される。また、いずれかのタイミングで「ｃｌｏｓｅ」ボタン３０８が押されると、処理が終了する。

次に、コンテンツ詳細画面ＳＣ３の「タグ情報」欄３０４にタグ付きテキストが表示されている状態で「再生」ボタン３０５が押されたか否かが判定される（ステップＳ１１０）。そして、「再生」ボタン３０５が押された場合は（ステップＳ１１０：Ｙｅｓ）、再生部１４が、「タグ情報」欄３０４に表示されているタグ付きテキストに対応する合成音声の音声波形を再生して、ユーザ端末２のスピーカから音声出力させた後（ステップＳ１１１）、ステップＳ１１０に戻る。

一方、「再生」ボタン３０５が押されていない場合は（ステップＳ１１０：Ｎｏ）、次に、「タグ情報」欄３０４にタグ付きテキストが表示されている状態で「コピー」ボタン３０７が押されたか否かが判定される（ステップＳ１１２）。そして、「コピー」ボタン３０７が押されていない場合は（ステップＳ１１２：Ｎｏ）、ステップＳ１１０に戻る。一方、「コピー」ボタン３０７が押された場合は（ステップＳ１１２：Ｙｅｓ）、選択コンテンツ決定部１３が、コンテンツ詳細画面ＳＣ３により詳細情報を表示しているコンテンツを選択コンテンツとして決定し（ステップＳ１１３）、コンテンツ生成部２０に処理を受け渡して、コンテンツ選択部１０による一連の処理が終了する。

次に、コンテンツ生成部２０により実施される処理について、図１３を参照して説明する。図１３は、コンテンツ生成部２０による処理手順の一例を示すフローチャートである。

図１３のフローチャートで示す処理が開始されると、まず、タグ情報抽出部２１が、図１１に例示したコンテンツ生成画面ＳＣ４をユーザ端末２に表示させる（ステップＳ２０１）。ユーザは、このコンテンツ生成画面ＳＣ４の「テキスト」欄４０３に音声合成の対象となるテキストを書き込む。このとき、タグ情報抽出部２１は、選択コンテンツのタグ付きテキストからタグ情報を抽出する。また、タグ付きテキスト生成部２２は、「テキスト」欄４０３に書き込まれたテキストに対して、タグ情報抽出部２１が抽出したタグ情報を適用することで、タグ付きテキストを生成する。タグ付きテキスト生成部２２が生成したタグ付きテキストは、コンテンツ生成画面ＳＣ４の「タグ情報」欄４０４に表示される。

なお、図１３のフローチャートでは記載を省略しているが、コンテンツ生成画面ＳＣ４をユーザ端末２に表示させた後、いずれかのタイミングで「戻る」ボタン４０８が押されると、図１２のＳ１０９に戻ってユーザ端末２にコンテンツ詳細画面ＳＣ３が再表示される。また、いずれかのタイミングで「ｃｌｏｓｅ」ボタン４１０が押されると、処理が終了する。

次に、「タグ情報」欄４０４にタグ付きテキストが表示されている状態で「編集」ボタン４０７が押されたか否かが判定される（ステップＳ２０２）。そして、「編集」ボタン４０７が押された場合は（ステップＳ２０２：Ｙｅｓ）、タグ付きテキスト修正部２３が、ユーザによるタグ付きテキストの修正操作を受け付けて、「タグ情報」欄４０４に表示するタグ付きテキストを修正した後（ステップＳ２０３）、ステップＳ２０２に戻る。

一方、「編集」ボタン４０７が押されていない場合は（ステップＳ２０２：Ｎｏ）、次に、「タグ情報」欄４０４にタグ付きテキストが表示されている状態で「適用」ボタン４０５が押されたか否かが判定される（ステップＳ２０４）。そして、「適用」ボタン４０５が押されていない場合は（ステップＳ２０４：Ｎｏ）、ステップＳ２０２に戻る。一方、「適用」ボタン４０５が押された場合は（ステップＳ２０４：Ｙｅｓ）、音声波形生成部２４が、「タグ情報」欄４０４に表示されているタグ付きテキストに基づき、「使用辞書」欄４０２に表示されている音声合成辞書５０を使用して、合成音声の音声波形を生成する（ステップＳ２０５）。

次に、「再生」ボタン４０６が押されたか否かが判定される（ステップＳ２０６）。そして、「再生」ボタン４０６が押された場合は（ステップＳ２０６：Ｙｅｓ）、再生部２５が、ステップＳ２０５で生成された合成音声の音声波形を再生して、ユーザ端末２のスピーカから音声出力させた後（ステップＳ２０７）、ステップＳ２０６に戻る。

一方、「再生」ボタン４０６が押されていない場合は（ステップＳ２０６：Ｎｏ）、次に、「登録」ボタン４０９が押されたか否かが判定される（ステップＳ２０８）。そして、「登録」ボタン４０９が押されていない場合は（ステップＳ２０８：Ｎｏ）、ステップＳ２０６に戻る。一方、「登録」ボタン４０９が押された場合は（ステップＳ２０８：Ｙｅｓ）、コンテンツ登録部３０に処理を受け渡して、コンテンツ生成部２０による一連の処理が終了する。

次に、コンテンツ登録部３０により実施される処理について、図１４を参照して説明する。図１４は、コンテンツ登録部３０による処理手順の一例を示すフローチャートである。

図１４のフローチャートで示す処理が開始されると、まず、類似度算出部３１が、コンテンツ生成部２０により生成された新たなコンテンツとコンテンツ記憶部４０に登録されている各マーカコンテンツとの間のコンテンツ間距離Ｄ（ｃｉ，ｃｊ）を算出する（ステップＳ３０１）。

次に、分類部３２が、ステップＳ３０１で算出されたコンテンツ間距離Ｄ（ｃｉ，ｃｊ）に基づいて、コンテンツ生成部２０により生成された新たなコンテンツを分類し、当該コンテンツに類似するマーカコンテンツに関連付けて、コンテンツ記憶部４０に登録する（ステップＳ３０２）。コンテンツ記憶部４０に登録された新たなコンテンツは、その後、他のコンテンツを生成する際に利用する選択コンテンツの候補となる。

次に、利用頻度更新部３３が、コンテンツ生成部２０が新たなコンテンツを生成する際に選択コンテンツとして利用したコンテンツの利用頻度を更新し（ステップＳ３０３）、コンテンツ登録部３０による一連の処理が終了する。

以上、具体的な例を挙げながら詳細に説明したように、本実施形態の音声合成装置１は、ＵＩ画面を利用したユーザの操作に応じて、コンテンツ記憶部４０に登録されているコンテンツの中から、新たなコンテンツを生成する際に利用する選択コンテンツを決定する。そして、決定した選択コンテンツに含まれるタグ付きテキストのタグ情報を、ユーザにより指定されたテキストに適用して新たなコンテンツを生成する。そして、生成した新たなコンテンツを、選択コンテンツの候補としてコンテンツ記憶部４０に登録する。したがって、本実施形態の音声合成装置１によれば、タグ付きテキストを生成するために事前に多数のテンプレートを用意したり、テンプレートを自動作成するために訓練データや正解データを用意したりする必要がなく、過去に生成したコンテンツを利用して任意のテキストからタグ付きテキストを生成することができるので、タグ付きテキストを効率よく生成することができる。

また、本実施形態の音声合成装置１によれば、ユーザは、過去に生成されたコンテンツの合成音声や所望のタグ情報を適用した場合に生成される合成音声を試聴しながら、適用すべきタグ情報を選択してタグ付きテキストを生成し、また必要に応じてタグ付きテキストを修正できるので、ユーザが求める合成音声を効率よく得ることができる。

（第２実施形態）
次に、第２実施形態について説明する。第２実施形態の音声合成装置は、コンテンツ選択部の構成が第１実施形態とは異なる。以下、第２実施形態の音声合成装置を第１実施形態と区別して「音声合成装置１’」と表記し、この音声合成装置１’に特徴的なコンテンツ選択部を、第１実施形態と区別してコンテンツ選択部６０と表記する。それ以外の構成は第１実施形態と同様であるため、以下では第１実施形態と重複する説明は適宜省略し、本実施形態に特徴的なコンテンツ選択部６０についての説明を行う。

図１５は、コンテンツ選択部６０の構成例を示すブロック図である。コンテンツ選択部６０は、図１５に示すように、コンテンツ検索部６１と、検索コンテンツ提示部６２と、選択コンテンツ決定部６３と、再生部６４とを備える。

コンテンツ検索部６１は、コンテンツ記憶部４０に登録されているコンテンツの中から、入力されたキーワードに適合するタグ付きテキストを含むコンテンツを検索する。例えば、コンテンツ検索部６１は、ユーザ端末２に表示させるＵＩ画面として、後述のコンテンツ検索画面ＳＣ５（図１７参照）をユーザ端末２に表示させ、このコンテンツ検索画面ＳＣ５を用いてユーザが入力したキーワードに適合するタグ付きテキストを含むコンテンツを、コンテンツ記憶部４０に登録されているコンテンツの中から検索する。

検索コンテンツ提示部６２は、コンテンツ検索部６１により検索されたコンテンツである検索コンテンツの一覧をユーザに提示する。例えば、検索コンテンツ提示部６２は、ユーザ端末２にＵＩ画面として表示されているコンテンツ検索画面ＳＣ５上で、コンテンツ検索部６１により検索された検索コンテンツの一覧を表示させる。

選択コンテンツ決定部６３は、検索コンテンツの一覧の中から選択された検索コンテンツを、選択コンテンツとして決定する。例えば、選択コンテンツ決定部６３は、コンテンツ検索画面ＳＣ５上で表示されている検索コンテンツの一覧の中からユーザにより選択された検索コンテンツを、選択コンテンツとして決定する。

再生部６４は、ユーザの操作に応じて、検索コンテンツに含まれる合成音声の音声波形を再生し、例えばユーザ端末２のスピーカから音声として出力させる。例えば、再生部６４は、コンテンツ検索画面ＳＣ５上で表示されている検索コンテンツの一覧の中からユーザにより指定された検索コンテンツに含まれる合成音声の音声波形を再生して、ユーザ端末２のスピーカから音声として出力させる。

図１６は、第２実施形態の音声合成装置１’がユーザ端末２に表示させるＵＩ画面の画面遷移を説明する図である。本実施形態の音声合成装置１’は、例えば図１６に示す画面遷移に従って、コンテンツ検索画面ＳＣ５、コンテンツ詳細画面ＳＣ３、およびコンテンツ生成画面ＳＣ４を、ＵＩ画面としてユーザ端末２に順次表示させる。

図１７は、コンテンツ検索画面ＳＣ５の一例を示す図である。コンテンツ検索画面ＳＣ５は、コンテンツを検索するためのキーワードの入力を受け付けるとともに、検索結果である検索コンテンツの一覧をユーザに提示するＵＩ画面である。このコンテンツ検索画面ＳＣ５には、図１７に示すように、「キーワード」入力欄５０１、「タイトル」欄５０２、「利用頻度」欄５０３、「検索」ボタン５０４、上下ボタン５０５、「再生」ボタン５０６、「詳細」ボタン５０７および「ｃｌｏｓｅ」ボタン５０８が設けられている。

「キーワード」入力欄５０１は、検索に用いるキーワードを入力するためのエリアである。ユーザは、この「キーワード」入力欄５０１に、例えば音声合成の対象となるテキストと同じテキストなど、任意のテキストをキーワードとして入力することができる。「タイトル」欄５０２には、検索結果として得られた各検索コンテンツの名称が表示される。「利用頻度」欄５０３には、検索結果として得られた各検索コンテンツの利用頻度が表示される。

「検索」ボタン５０４は、「キーワード」入力欄５０１に入力されたキーワードを用いて検索を行うためのボタンである。「キーワード」入力欄５０１にキーワードが入力されている状態で「検索ボタン」５０４が押されると、そのキーワードに適合するタグ付きテキストを含む検索コンテンツがコンテンツ記憶部４０から検索され、得られた検索コンテンツの名称および利用頻度が「タイトル」欄５０２および「利用頻度」欄５０３にそれぞれ表示される。

上下ボタン５０５は、図示しないカーソルを上下に移動させて検索コンテンツの一覧の中から任意の検索コンテンツを指定するためのボタンである。

「再生」ボタン５０６は、指定された検索コンテンツに含まれる合成音声の音声波形を再生して音声出力するためのボタンである。提示している検索コンテンツの一覧の中から任意の検索コンテンツが指定されている状態で「再生」ボタン５０６が押されると、指定された検索コンテンツの合成音声がユーザ端末２のスピーカから出力される。ユーザは、この「再生」ボタン５０６を利用して、所望の検索コンテンツの合成音声を試聴することができる。

「詳細」ボタン５０７は、所望の検索コンテンツの詳細を確認するためのボタンである。提示している検索コンテンツの一覧の中から任意の検索コンテンツが指定されている状態で「詳細」ボタン５０７が押されると、ユーザ端末２に表示されるＵＩ画面がコンテンツ検索画面ＳＣ５からコンテンツ詳細画面ＳＣ３（図１０参照）に遷移して、指定された検索コンテンツの詳細情報が表示される。

「ｃｌｏｓｅ」ボタン５０８は、コンテンツ検索画面ＳＣ５を閉じるためのボタンである。この「ｃｌｏｓｅ」ボタン５０８が押されると、ユーザ端末２におけるＵＩ画面の表示が終了する。

次に、図１７に例示したコンテンツ検索画面ＳＣ５および図１０に例示したコンテンツ詳細画面ＳＣ３をユーザ端末２に表示させながら選択コンテンツを決定するコンテンツ選択部６０の処理について、図１８を参照して説明する。図１８は、コンテンツ選択部６０による処理手順の一例を示すフローチャートである。

図１８のフローチャートで示す処理が開始されると、まず、コンテンツ検索部６１が、図１７に例示したコンテンツ検索画面ＳＣ５をユーザ端末２に表示させる（ステップＳ４０１）。なお、図１８のフローチャートでは記載を省略しているが、コンテンツ検索画面ＳＣ５をユーザ端末２に表示させた後、いずれかのタイミングで「ｃｌｏｓｅ」ボタン５０８が押されると、処理が終了する。

次に、コンテンツ検索画面ＳＣ５の「キーワード」入力欄５０１にキーワードが入力された状態で「検索」ボタン５０４が押されたか否かが判定される（ステップＳ４０２）。そして、「検索」ボタン５０４が押されていない場合は（ステップＳ４０２：Ｎｏ）、ステップＳ４０２に戻って判定が繰り返される。一方、「検索」ボタン５０４が押された場合は（ステップＳ４０２：Ｙｅｓ）、コンテンツ検索部６１が、コンテンツ記憶部４０に登録されているコンテンツの中から、「キーワード」入力欄５０１に入力されたキーワードに適合するタグ付きテキストを含む検索コンテンツを検索する（ステップＳ４０３）。そして、コンテンツ検索部６１は、検索結果として得られた検索コンテンツの一覧を、コンテンツ検索画面ＳＣ５上で表示させる（ステップＳ４０４）。

次に、コンテンツ検索画面ＳＣ５上で一覧表示されている検索コンテンツのいずれかが指定された状態で「再生」ボタン５０６が押されたか否かが判定される（ステップＳ４０５）。そして、「再生」ボタン５０６が押された場合は（ステップＳ４０５：Ｙｅｓ）、再生部６４が、指定された検索コンテンツに含まれる合成音声の音声波形を再生して、ユーザ端末２のスピーカから音声出力させた後（ステップＳ４０６）、ステップＳ４０５に戻る。

一方、「再生」ボタン５０６が押されていない場合は（ステップＳ４０５：Ｎｏ）、次に、一覧表示されている関連コンテンツのいずれかが指定された状態で「詳細」ボタン５０７が押されたか否かが判定される（ステップＳ４０７）。そして、「詳細」ボタン５０７が押されていない場合は（ステップＳ４０７：Ｎｏ）、ステップＳ４０５に戻る。一方、「詳細」ボタン５０７が押された場合は（ステップＳ４０７：Ｙｅｓ）、選択コンテンツ決定部６３が、図１０に例示したコンテンツ詳細画面ＳＣ３をユーザ端末２に表示させる（ステップＳ４０８）。

なお、図１８のフローチャートでは記載を省略しているが、コンテンツ詳細画面ＳＣ３をユーザ端末２に表示させた後、いずれかのタイミングで「戻る」ボタン３０６が押されると、ステップＳ４０１に戻ってユーザ端末２にコンテンツ検索画面ＳＣ５が再表示される。また、いずれかのタイミングで「ｃｌｏｓｅ」ボタン３０８が押されると、処理が終了する。

次に、コンテンツ詳細画面ＳＣ３の「タグ情報」欄３０４にタグ付きテキストが表示されている状態で「再生」ボタン３０５が押されたか否かが判定される（ステップＳ４０９）。そして、「再生」ボタン３０５が押された場合は（ステップＳ４０９：Ｙｅｓ）、再生部６４が、「タグ情報」欄３０４に表示されているタグ付きテキストに対応する合成音声の音声波形を再生して、ユーザ端末２のスピーカから音声出力させた後（ステップＳ４１０）、ステップＳ４０９に戻る。

一方、「再生」ボタン３０５が押されていない場合は（ステップＳ４０９：Ｎｏ）、次に、「タグ情報」欄３０４にタグ付きテキストが表示されている状態で「コピー」ボタン３０７が押されたか否かが判定される（ステップＳ４１１）。そして、「コピー」ボタン３０７が押されていない場合は（ステップＳ４１１：Ｎｏ）、ステップＳ４０９に戻る。一方、「コピー」ボタン３０７が押された場合は（ステップＳ４１１：Ｙｅｓ）、選択コンテンツ決定部６３が、コンテンツ詳細画面ＳＣ３により詳細情報を表示している検索コンテンツを選択コンテンツとして決定し（ステップＳ４１２）、コンテンツ生成部２０に処理を受け渡して、コンテンツ選択部６０による一連の処理が終了する。

以上説明したように、本実施形態の音声合成装置１’は、ＵＩ画面を利用したユーザの操作に応じて、コンテンツ記憶部４０に登録されているコンテンツの中からキーワードに合致するタグ付きテキストを含むコンテンツを検索し、得られた検索コンテンツの中から、新たなコンテンツを生成する際に利用する選択コンテンツを決定する。そして、決定した選択コンテンツに含まれるタグ付きテキストのタグ情報を、ユーザにより指定されたテキストに適用して新たなコンテンツを生成する。そして、生成した新たなコンテンツを、選択コンテンツの候補としてコンテンツ記憶部４０に登録する。したがって、本実施形態の音声合成装置１’によれば、第１実施形態の音声合成装置１と同様に、過去に生成したコンテンツを利用して任意のテキストからタグ付きテキストを生成することができるので、タグ付きテキストを効率よく生成することができる。さらに、本実施形態の音声合成装置１’では、キーワードを用いて選択コンテンツの候補を絞り込むことができるので、タグ付きテキストの作成をより効率よく行うことができる。

（補足説明）
以上説明した実施形態の音声合成装置１における各機能的な構成要素は、例えば、汎用のコンピュータシステムを基本ハードウェアとして用いて実行されるプログラム（ソフトウェア）により実現することができる。

図１９は、音声合成装置１の主要部のハードウェア構成の一例を概略的に示すブロック図である。音声合成装置１の主要部は、図１９に示すように、ＣＰＵなどのプロセッサ７１と、ＲＡＭなどの主記憶部７２と、各種の記憶装置を用いた補助記憶部７３と、通信インタフェース７４と、これらの各部を接続するバス７５とを含んだ汎用のコンピュータシステムとして構成される。なお、補助記憶部７３は、有線または無線によるＬＡＮ（Local Area Network）などで各部に接続されてもよい。

音声合成装置１の各機能的な構成要素は、例えば、プロセッサ７１が、主記憶部７２を利用して、補助記憶部７３などに格納されたプログラムを実行することによって実現される。このプログラムは、例えば、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disc）などのコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。

また、このプログラムを、インターネットなどのネットワークに接続された他のコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、このプログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。また、このプログラムを、コンピュータ内部のＲＯＭ（補助記憶部７３）などに予め組み込んで提供するように構成してもよい。

このプログラムは、音声合成装置１の機能的な構成要素（コンテンツ選択部１０、コンテンツ生成部２０、およびコンテンツ登録部３０）を含むモジュール構成となっており、実際のハードウェアとしては、例えば、プロセッサ７１が上記記録媒体からプログラムを読み出して実行することにより、上記の各構成要素が主記憶部７２上にロードされ、上記の各構成要素が主記憶部７２上に生成されるようになっている。なお、音声合成装置１の機能的な構成要素は、その一部または全部を、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field-Programmable Gate Array）などの専用のハードウェアを用いて実現することも可能である。

以上、本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１音声合成装置
２ユーザ端末
１０コンテンツ選択部
１１マーカコンテンツ提示部
１２関連コンテンツ提示部
１３選択コンテンツ決定部
１４再生部
２０コンテンツ生成部
２１タグ情報抽出部
２２タグ付きテキスト生成部
２３タグ付きテキスト修正部
２４音声波形生成部
２５再生部
３０コンテンツ登録部
３１類似度算出部
３２分類部
３３利用頻度更新部
４０コンテンツ記憶部
５０音声合成辞書
６０コンテンツ選択部
６１コンテンツ検索部
６２検索コンテンツ提示部
６３選択コンテンツ決定部
６４再生部

Claims

音声合成の対象となるテキストに対して音声合成を制御するタグ情報が付加されたタグ付きテキストを含むコンテンツであって、コンテンツ記憶部に登録されている複数の前記コンテンツの中から、選択コンテンツを決定するコンテンツ選択部と、
前記選択コンテンツに含まれる前記タグ付きテキストの前記タグ情報を、指定されたテキストに適用して新たな前記コンテンツを生成するコンテンツ生成部と、
生成された新たな前記コンテンツを前記コンテンツ記憶部に登録するコンテンツ登録部と、を備え、
前記コンテンツ登録部は、前記コンテンツ記憶部に予め登録された目印となる前記コンテンツであるマーカコンテンツとの類似度に応じて、生成された前記コンテンツを前記マーカコンテンツと関連付けて前記コンテンツ記憶部に登録し、
前記コンテンツ選択部は、
前記マーカコンテンツの一覧を提示するマーカコンテンツ提示部と、
前記マーカコンテンツの一覧の中から選択された前記マーカコンテンツに関連付けられた前記コンテンツである関連コンテンツの一覧を提示する関連コンテンツ提示部と、
前記関連コンテンツの一覧の中から選択された前記関連コンテンツを、前記選択コンテンツとして決定する第１の選択コンテンツ決定部と、を備える、音声合成装置。
前記関連コンテンツ提示部は、複数の前記関連コンテンツを前記マーカコンテンツに対する類似度に応じた並び順で並べた前記関連コンテンツの一覧を提示する、請求項１に記載の音声合成装置。
前記関連コンテンツ提示部は、複数の前記関連コンテンツを過去に前記選択コンテンツとして決定された回数に応じた並び順で並べた前記関連コンテンツの一覧を提示する、請求項１に記載の音声合成装置。
前記コンテンツ選択部は、
前記マーカコンテンツに含まれる合成音声の音声波形、または前記関連コンテンツに含まれる合成音声の音声波形を再生する第１の再生部をさらに備える、請求項１〜３のいずれか一項に記載の音声合成装置。
前記コンテンツは、前記タグ付きテキストと、当該タグ付きテキストに対応する合成音声の音声波形とを含み、
前記コンテンツ生成部は、
前記選択コンテンツに含まれる前記タグ付きテキストから前記タグ情報を抽出するタグ情報抽出部と、
前記タグ情報抽出部が抽出した前記タグ情報を、指定されたテキストに適用して前記タグ付きテキストを生成するタグ付きテキスト生成部と、
音声合成辞書を用いて、前記タグ付きテキスト生成部が生成した前記タグ付きテキストに対応する合成音声の音声波形を生成する音声波形生成部と、を備え、
前記コンテンツ登録部は、前記タグ付きテキスト生成部により生成された前記タグ付きテキストと、前記音声波形生成部により生成された前記音声波形とを含む新たな前記コンテンツを前記コンテンツ記憶部に登録する、請求項１〜４のいずれか一項に記載の音声合成装置。
前記コンテンツ生成部は、
前記音声波形生成部が生成した合成音声の音声波形を再生する第２の再生部をさらに備える、請求項５に記載の音声合成装置。
前記コンテンツ生成部は、
前記タグ付きテキスト生成部が生成した前記タグ付きテキストを、ユーザの操作に基づいて修正するタグ付きテキスト修正部をさらに備え、
前記音声波形生成部は、前記タグ付きテキスト修正部が前記タグ付きテキストを修正した場合、修正された前記タグ付きテキストに対応する合成音声の音声波形を生成する、請求項５または６に記載の音声合成装置。
前記コンテンツ選択部は、
前記コンテンツ記憶部に登録されている複数の前記コンテンツの中から、入力されたキーワードに適合する前記タグ付きテキストを含むコンテンツを検索するコンテンツ検索部と、
前記コンテンツ検索部により検索された前記コンテンツである検索コンテンツの一覧を提示する検索コンテンツ提示部と、
前記検索コンテンツの一覧の中から選択された前記検索コンテンツを、前記選択コンテンツとして決定する第２の選択コンテンツ決定部と、をさらに備える、請求項１〜７のいずれか一項に記載の音声合成装置。
前記コンテンツ選択部は、
前記検索コンテンツに含まれる合成音声の音声波形を再生する第３の再生部をさらに備える、請求項８に記載の音声合成装置。
コンピュータにより実行される音声合成方法であって、
音声合成の対象となるテキストに対して音声合成を制御するタグ情報が付加されたタグ付きテキストを含むコンテンツであって、コンテンツ記憶部に登録されている複数の前記コンテンツの中から、選択コンテンツを決定するコンテンツ選択工程と、
前記選択コンテンツに含まれる前記タグ付きテキストの前記タグ情報を、指定されたテキストに適用して新たな前記コンテンツを生成するコンテンツ生成工程と、
生成された新たな前記コンテンツを前記コンテンツ記憶部に登録するコンテンツ登録工程と、を含み、
前記コンテンツ登録工程では、前記コンテンツ記憶部に予め登録された目印となる前記コンテンツであるマーカコンテンツとの類似度に応じて、生成された前記コンテンツを前記マーカコンテンツと関連付けて前記コンテンツ記憶部に登録し、
前記コンテンツ選択工程では、
前記マーカコンテンツの一覧を提示し、
前記マーカコンテンツの一覧の中から選択された前記マーカコンテンツに関連付けられた前記コンテンツである関連コンテンツの一覧を提示し、
前記関連コンテンツの一覧の中から選択された前記関連コンテンツを、前記選択コンテンツとして決定する、音声合成方法。
コンピュータに、
音声合成の対象となるテキストに対して音声合成を制御するタグ情報が付加されたタグ付きテキストを含むコンテンツであって、コンテンツ記憶部に登録されている複数の前記コンテンツの中から、選択コンテンツを決定するコンテンツ選択機能と、
前記選択コンテンツに含まれる前記タグ付きテキストの前記タグ情報を、指定されたテキストに適用して新たな前記コンテンツを生成するコンテンツ生成機能と、
生成された新たな前記コンテンツを前記コンテンツ記憶部に登録するコンテンツ登録機能と、を実現させ、
前記コンテンツ登録機能は、前記コンテンツ記憶部に予め登録された目印となる前記コンテンツであるマーカコンテンツとの類似度に応じて、生成された前記コンテンツを前記マーカコンテンツと関連付けて前記コンテンツ記憶部に登録し、
前記コンテンツ選択機能は、
前記マーカコンテンツの一覧を提示し、
前記マーカコンテンツの一覧の中から選択された前記マーカコンテンツに関連付けられた前記コンテンツである関連コンテンツの一覧を提示し、
前記関連コンテンツの一覧の中から選択された前記関連コンテンツを、前記選択コンテンツとして決定する、プログラム。