JP5269668B2

JP5269668B2 - 音声合成装置、プログラム、及び方法

Info

Publication number: JP5269668B2
Application number: JP2009074849A
Authority: JP
Inventors: 伸晃水谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-03-25
Filing date: 2009-03-25
Publication date: 2013-08-21
Anticipated expiration: 2029-03-25
Also published as: US8626510B2; JP2010230699A; US20100250254A1

Description

本発明は、音声合成装置、プログラム、及び方法に関する。

従来から、交通情報や天気概況の音声サービス、銀行の振り込み照会サービス、又はロボット等の擬人化される装置のインタフェースなどに音声合成装置が使用されている。このため、音声合成装置は聞取りやすく、自然な合成音声を提供する必要がある。

このような技術として、例えば特許文献１では、固定情報である定型部と可変情報である非定型部から構成される文の音声合成を行う場合に、定型部に関しては、同文を人間が発声した音声から基本周波数の時間変化パターン（以下、「Ｆ０パターン」と称する）を抽出し蓄積しておく。また、非定型部に関しては、入力が期待される単語あるいは分節などの音節数とアクセント型のすべての組合せのＦ０パターンを蓄積しておく。そして、定型部および非定型部それぞれのＦ０パターンを選択又は生成して接続することにより、文として自然な合成音声を作成する方法が開示されている。

特開平８−６３１８７号公報

しかしながら、上記したような従来の音声合成装置では、単一の文章の合成音声しか生成されないため、合成音の接続に伴う不自然さが目立つ合成音声が生成されてしまう場合がある。

本発明は、上記事情に鑑みてなされたものであり、合成音の接続に伴う不自然さを軽減した合成音声を生成することができる音声合成装置、プログラム、及び方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の一態様にかかる音声合成装置は、他の語句に置換されない定型部分と他の語句に置換される非定型部分とを含む意味的に等価な複数の雛形文章と、前記非定型部分を置換する置換語句とを取得する取得部と、前記雛形文章それぞれに対し、前記非定型部分を前記置換語句で置換して複数の目標文章を生成する文章生成部と、前記目標文章それぞれに対し、前記定型部分の合成音である第１合成音を生成する第１合成音生成部と、前記目標文章それぞれに対し、前記置換語句の合成音である第２合成音を生成する第２合成音生成部と、前記目標文章それぞれに対し、前記第１合成音と前記第２合成音との接続境界の不連続値を演算する演算部と、複数の前記目標文章の中から、前記不連続値が最小となる前記目標文章を選択する選択部と、選択された前記目標文章の前記第１合成音及び前記第２合成音を接続する接続部と、を備えることを特徴とする。

また、本発明の別の態様にかかる音声合成装置は、他の語句に置換されない定型部分と他の語句に置換される非定型部分とを含む雛形文章と、前記非定型部分を置換する置換語句とを取得する取得部と、前記非定型部分を前記置換語句で置換して目標文章を生成する第１文章生成部と、前記目標文章との類似度が閾値を超える代替目標文章を生成する第２文章生成部と、前記目標文章及び前記代替目標文章に対し、前記定型部分の合成音である第１合成音を生成する第１合成音生成部と、前記目標文章及び前記代替目標文章に対し、前記置換語句の合成音である第２合成音を生成する第２合成音生成部と、前記目標文章及び前記代替目標文章に対し、前記第１合成音と前記第２合成音との接続境界の不連続値を演算する演算部と、前記目標文章及び前記代替目標文章の中から、前記不連続値が最小となる前記目標文章又は前記代替目標文章を選択する選択部と、選択された前記目標文章又は前記代替目標文章の前記第１合成音及び前記第２合成音を接続する接続部と、を備えることを特徴とする。

本発明によれば、合成音の接続に伴う不自然さを軽減した合成音声を生成することができるという効果を奏する。

第１の実施の形態の音声合成装置の構成の一例を示すブロック図である。第１の実施の形態の取得部により取得される複数の雛型文章の一例を示す図である。第１の実施の形態の取得部により取得される置換語句の一例を示す図である。第１の実施の形態の文章生成部により生成される複数の目標文章の一例を示す図である。第１の実施の形態の演算部による不連続値の演算手法の一例の説明図である。第１の実施の形態の接続部により各合成音が接続されることで生成される合成音声の一例を示す図である。第１の実施の形態の音声合成装置で行われる音声合成処理の手順の流れの一例を示すフローチャートを示す図である。第２の実施の形態の音声合成装置の構成の一例を示すブロック図である。第２の実施の形態の代替目標文章生成部が用語の語順を入れ替えることにより代替目標文章を生成する例の説明図である。第２の実施の形態の代替目標文章生成部が用語を同義語と入れ換えることにより代替目標文章を生成する例の説明図である。第２の実施の形態の代替目標文章生成部が表現を別表現と入れ替えるにより代替目標文章を生成する例の説明図である。第２の実施の形態の代替目標文章生成部が表現を別表現と入れ替えるにより代替目標文章を生成する例の説明図である。第２の実施の形態の代替目標文章生成部が表現を別表現と入れ替えるにより代替目標文章を生成する例の説明図である。第２の実施の形態の音声合成装置で行われる音声合成処理の手順の流れの一例を示すフローチャートを示す図である。

以下、添付図面を参照しながら、本発明にかかる音声合成装置、プログラム、及び方法の最良な実施の形態を詳細に説明する。

（第１の実施の形態）
第１の実施の形態では、それぞれの文章が類似する複数の雛形文章の非定型部分を置換語句に置換して複数の目標文章を生成し、生成した複数の目標文章の中から定型合成音と規則合成音との接続境界の不連続値が最小となる目標文章を選択し、選択した目標文章の定型合成音と規則合成音とを接続して合成音声を出力する例について説明する。

まず、第１の実施の形態の音声合成装置の構成について説明する。

図１は、第１の実施の形態の音声合成装置１の構成の一例を示すブロック図である。図１に示すように、音声合成装置１は、入力部１０と、出力部２０と、記憶部３０と、取得部４０と、文章生成部４５と、定型合成音生成部５０と、規則合成音生成部５５と、演算部６０と、選択部６５と、接続部７０と、出力制御部７５とを備える。

入力部１０は、音声合成の対象となる文章や語句などの入力を行うものであり、例えば、キーボード、マウス、又はタッチパネルなどの既存の入力装置により実現できる。

出力部２０は、後述する出力制御部７５の指示により、音声合成結果を音声出力するものであり、例えば、スピーカなどの既存の音声出力装置により実現できる。

記憶部３０は、音声合成装置１で行われる各種処理に使用される情報を記憶するものであり、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、メモリカード、光ディスク、又はＲＡＭ（Random Access Memory）などの磁気的、電気的、又は光学的に記憶可能な既存の記憶媒体により実現できる。そして記憶部３０は、音声記憶部３２と、辞書記憶部３４とを含む。なお、音声記憶部３２及び辞書記憶部３４の詳細については後述する。

取得部４０は、他の語句に置換されない定型部分と他の語句に置換される非定型部分とを含み、それぞれの文章が類似する複数の雛形文章と、非定型部分を置換する置換語句とを取得する。具体的には、取得部４０は、入力部１０から入力される複数の雛形文章及び置換語句を取得する。「類似する」とは、複数の雛形文章それぞれが意味的に等価であることを意味するものであり、ユーザが決定したものでもよいし、雛形文章間の類似度が閾値を超えるものでもよい。「語句」とは、１文字でもよいし、１単語でもよく、これらの組合せであってもよい。

図２は、取得部４０により取得される複数の雛型文章の一例を示す図である。図２に示す雛形文章群は、いずれの文章もある地方の今夜の天気情報を伝えることを意図したものであり、意味的に等価である。各雛形文章とも、Ａには特定の地方名（例えば、東京、神奈川県、千葉など）が入り、Ｂには特定の天候状況（例えば、晴れ、曇り、雨など）が入ることを想定している。

なお本実施の形態では、雛型文章中において、記号‘［’及び‘］’で囲まれた部分を非定型部分とし、それ以外の部分を定型部分として説明している。従って、例えば図２に示す雛形文章１０１では、語句１０２、１０３、及び１０４が定型部分となり、Ａ及びＢが非定型部分となる。

図３は、取得部４０により取得される置換語句の一例を示す図である。図３に示す置換語句１１１、１１２は、それぞれ図２に示す雛形文章群の非定型部分であるＡ、Ｂを置換するものである。

図１に戻り、文章生成部４５は、取得部４０により取得された雛形文章それぞれに対し、非定型部分を取得部４０により取得された置換語句で置換して複数の目標文章を生成する。

図４は、文章生成部４５により生成される複数の目標文章の一例を示す図である。図４に示す目標文章群は、図２に示す各雛形文章の非定型部分であるＡ、Ｂをそれぞれ置換語句１１１、１１２で置換して生成されたものである。例えば図４に示す目標文章１２１は、図２に示す雛形文章１０１の非定型部分であるＡ、Ｂをそれぞれ置換語句１１１、１１２で置換して生成されたものである。

図１に戻り、音声記憶部３２には、後述の定型合成音生成部５０が音声合成の際に用いる音声データが記憶されている。なお、「音声データ」とは、予め録音された音声の音声波形や、当該音声を変換した音声パラメータなどである。「音声パラメータ」とは、データ容量を圧縮するために音声生成モデルを用いて音声を数値化したものであり、ホルマント、ＰＡＲＣＯＲ、ＬＳＰ、ＬＰＣ、ケプストラムなどの種類がある。また、音声パラメータは、表音文字ごと、あるいは先行・後続の表音文字などの環境により細分化した単位で記憶されている。

定型合成音生成部５０（第１合成音生成部の一例）は、文章生成部４５により生成された目標文章それぞれに対し、定型部分の合成音である定型合成音（第１合成音の一例）を生成する。具体的には、定型合成音生成部５０は、音声記憶部３２に記憶されている音声データを用いて、文章生成部４５により生成された目標文章それぞれに対し、定型合成音を生成する。

なお、定型合成音の生成には、予め録音された音声を再生する録音編集方式や、録音しておいた音声を変換した音声パラメータから音声を合成する分析合成方式などを用いることができる。分析合成方式としては、例えば、ホルマント合成、ＰＡＲＣＯＲ合成、ＬＳＰ合成、ＬＰＣ合成、ケプストラム合成、又は波形を直接編集する波形編集方式などが挙げられる。そして、分析合成方式では、表音文字などから定型部分の音声パラメータ列を生成し、定型部分の持続時間長、Ｆ０パターン、音声パラメータ列から定型合成音を生成する。

辞書記憶部３４には、後述の規則合成音生成部５５が音声合成の際に用いる辞書データや自然音声から抽出した音声パラメータ列などが記憶されている。なお、「辞書データ」とは、語句の形態素解析や構文解析などの言語解析を行うためのデータや、アクセントやイントネーションの処理に用いられるデータなどである。また辞書記憶部３４には、音声パラメータ列をモデルにより近似したモデルパラメータを記憶しておいてもよい。

規則合成音生成部５５（第２合成音生成部の一例）は、文章生成部４５により生成された目標文章それぞれに対し、置換語句の合成音である規則合成音（第２合成音の一例）を生成する。具体的には、規則合成音生成部５５は、辞書記憶部３４に記憶されている辞書データを参照して、文章生成部４５により生成された目標文章それぞれに対し、規則合成音を生成する。

なお、規則合成音の生成には、辞書データなどの規則を用いて、語句から音声を生成する規則音声合成方式などを用いることができる。規則音声合成方式としては、例えば、自然音声から抽出した音声パラメータ列を読み込む方式、モデルパラメータを音声パラメータ列の時系列に変換し生成する方式、又は語句解析結果からモデルパラメータを規則的に生成し、該モデルパラメータを音声パラメータ列の時系列に変換し生成する方式などを用いてもよい。

演算部６０は、文章生成部４５により生成された目標文章それぞれに対し、定型合成音生成部５０により生成された定型合成音と規則合成音生成部５５により生成された規則合成音との境界の不連続値を演算する。

図５は、演算部６０による不連続値の演算手法の一例の説明図である。図５に示す音声波形群は、図４に示す各目標文章に対して生成された合成音を示しており、演算部６０は、目標文章毎に音声波形の接続境界の不連続値を歪み値εとして演算する。

例えば図５に示す音声波形１３２、１３３、及び１３４は、それぞれ目標文章１２１の定型部分である語句１０２、１０３、及び１０４の定型合成音を示している。同様に、音声波形１４１、及び１４２は、それぞれ目標文章１２１の置換語句１１１、及び１１２の規則合成音を示している。このように、図５に示す例では、目標文章１２１に対して５つの合成音が生成されており、目標文章１２１の接続境界は、接続境界１５１〜１５４の４つとなる。そして、演算部６０は、目標文章１２１の接続境界１５１〜１５４の不連続値を歪み値ε８１として演算する。

なお、図５に示す目標文章１２１のように、接続境界が複数存在する場合には、各接続境界の不連続値のうち最も不連続度合が高いものを歪み値εとしてもよいし、各接続境界の不連続値の加算値や平均値を歪み値εとしてもよい。

図１に戻り、選択部６５は、文章生成部４５により生成された複数の目標文章の中から、演算部６０により演算された不連続値が最小となる目標文章を選択する。具体的には、選択部６５は、数式（１）を用いて、複数の目標文章の不連続値の中から最小の不連続値であるε＿ｂｅｓｔを特定し、このε＿ｂｅｓｔを有する目標文章を選択する。

数式（１）において、「ε＿ｎ」は、複数の目標文章それぞれの歪み値εを示す値であり、例えば図５に示す例では、ε＿ｎ＝｛ε８１．．．ε９０｝となる。つまり、数式（１）では、ε＿ｎの中から最小のεを特定している。

なお、図５に示す例では、ε＿ｂｅｓｔ＝ε８１と仮定し、選択部６５は、図５に示す目標文章の中から、目標文章１２１を選択するものとする。

接続部７０は、選択部６５により選択された目標文章の定型合成音及び規則合成音を接続する。なお、接続部７０は、各合成音の接続境界が滑らかにつながるように、スムージング等の後処理を行うようにしてもよい。

図６は、接続部７０により各合成音が接続されることで生成される合成音声の一例を示す図であり、目標文章１２１の合成音声を示している。図５に示す例では、選択部６５により目標文章１２１が選択されるため、接続部７０は、図６に示すように、音声波形１３２、１４１、１３３、１４２、及び１３４を接続して、目標文章１２１の合成音声を生成する。

出力制御部７５は、接続部７０により接続された合成音声を出力部２０に音声出力させる。具体的には、出力制御部７５は、接続部７０により接続された合成音声をＤ／Ａ変換などによりアナログ信号に変換して出力部２０に音声出力させる。

なお、取得部４０、文章生成部４５、定型合成音生成部５０、規則合成音生成部５５、演算部６０、選択部６５、接続部７０、及び出力制御部７５については、例えば、ＣＰＵ（Central Processing Unit）やＡＳＩＣ（Application Specific Integrated Circuit）などの既存の制御装置により実現できる。

次に、第１の実施の形態の音声合成装置の動作について説明する。

図７は、第１の実施の形態の音声合成装置１で行われる音声合成処理の手順の流れの一例を示すフローチャートである。

ステップＳ１０では、取得部４０は、入力部１０から入力される複数の雛形文章と、置換語句を取得する。

ステップＳ１２では、文章生成部４５は、取得部４０により取得された雛形文章それぞれに対し、取得部４０により取得された非定型部分を置換語句で置換して複数の目標文章を生成する。

ステップＳ１４では、定型合成音生成部５０は、音声記憶部３２に記憶されている音声データを用いて、文章生成部４５により生成された目標文章それぞれに対し、定型合成音を生成する。

ステップＳ１６では、規則合成音生成部５５は、辞書記憶部３４に記憶されている辞書データを参照して、文章生成部４５により生成された目標文章それぞれに対し、規則合成音を生成する。

ステップＳ１８では、演算部６０は、文章生成部４５により生成された目標文章それぞれに対し、定型合成音生成部５０により生成された定型合成音と規則合成音生成部５５により生成された規則合成音との境界の不連続値を演算する。

ステップＳ２０では、選択部６５は、文章生成部４５により生成された複数の目標文章の中から、演算部６０により演算された不連続値が最小となる目標文章を選択する。

ステップＳ２２では、接続部７０は、選択部６５により選択された目標文章の定型合成音及び規則合成音を接続する。

ステップＳ２４では、出力制御部７５は、接続部７０により接続された合成音声を出力部２０に音声出力させる。

このように第１の実施形態では、意味的に等価な複数の雛形文章の非定型部分を置換語句に置換して複数の目標文章を生成し、複数の目標文章の中から定型合成音と規則合成音との接続境界の不連続値が最小となる目標文章を選択し、選択した目標文章の定型合成音と規則合成音とを接続して合成音声を出力する。

従って、第１の実施形態によれば、意味的に等価な複数の目標文章の中から、不連続値が最小の目標文章の合成音声が出力されるため、合成音の接続に伴う不自然さを軽減した合成音声を生成することができる。

（第２の実施の形態）
次に、第２の実施の形態では、単一の雛型文章から目標文章、及び目標文章と意味的に等価な代替目標文章を生成し、生成した目標文章及び代替目標文章の中から定型合成音と規則合成音との接続境界の不連続値が最小となる文章を選択し、選択した文章の定型合成音と規則合成音とを接続して合成音声を出力する例について説明する。

なお、以下では、第１の実施の形態との相違点の説明を主に行い、第１の実施の形態と同様の機能を有する構成要素については、第１の実施の形態と同様の名称・符号を付し、その説明を省略する。

まず、第２の実施の形態の音声合成装置の構成について説明する。

図８は、第２の実施の形態の音声合成装置１００１の構成の一例を示すブロック図である。図８に示す音声合成装置１００１は、取得部１０４０が単一の雛型文章を取得する点で、第１の実施の形態の音声合成装置１と相違する。

また、音声合成装置１００１は、文章生成部４５に代えて目標文章生成部１０４５及び代替目標文章生成部１０４６を備える点で、音声合成装置１と相違する。

また、音声合成装置１００１は、目標文章及び代替目標文章に対して、定型合成音生成部１０５０、規則合成音生成部１０５５、演算部１０６０が、それぞれ定型合成音の生成、規則合成音の生成、不連続値の演算を行う点で、第１の実施の形態の音声合成装置１と相違する。

また、音声合成装置１００１は、選択部１０６５、接続部１０７０が、それぞれ不連続値が最小の目標文章又は代替目標文章の選択、選択された目標文章又は代替目標文章の各合成音の接続を行う点で、第１の実施の形態の音声合成装置１と相違する。

従って、以下では、第１の実施の形態と第２の実施の形態の主要な相違点である目標文章生成部１０４５及び代替目標文章生成部１０４６について説明する。

目標文章生成部１０４５（第１文章生成部の一例）は、取得部１０４０により取得された雛形文章の非定型部分を、取得部１０４０により取得された置換語句で置換して目標文章を生成する。なお、目標文章生成部１０４５は、生成する目標文章が単一である点を除き、第１の実施の形態の文章生成部４５と同様であるため、詳細な説明は省略する。

代替目標文章生成部１０４６（第２文章生成部の一例）は、目標文章生成部１０４５により生成された目標文章との類似度が閾値を超える代替目標文章を生成する。具体的には、代替目標文章生成部１０４６は、雛形文章中の語句の語順の入れ替え、雛形文章中の語句の同義語との入れ換え、及び雛形文章中の表現の別表現との入れ替えの少なくともいずれかを行うとともに、非定型部分を置換語句で置換して、代替目標文章を生成する。

なお、代替目標文章生成部１０４６は、目標文章と代替目標文章との相違度合いを表す編集距離を用いて類似度を演算しており、この類似度が閾値を超える代替目標文章を生成する。具体的には、代替目標文章生成部１０４６は、以下の数式（２）により目標文章と代替目標文章との類似度を演算している。

数式（２）において、類似度Φは０〜１の値をとり、１に近いほど互いの文章の意味が近いこと（等価であること）を表す。編集距離γは、以下の操作を何回行うことにより目標文章から代替目標文章を生成できるかを表したものである。「操作」とは、（１）目標文章のある箇所に語句を挿入する、（２）目標文章のある箇所から語句を削除する、（３）目標文章のある箇所の前後を入れ換えるというものである。

以下では、類似度の閾値を０．３に設定した場合を例にとり、代替目標文章の生成手法を具体的に説明する。

図９は、代替目標文章生成部１０４６が用語の語順を入れ替えることにより代替目標文章を生成する例の説明図である。図９に示す例では、代替目標文章生成部１０４６は、雛形文章１０１に対して言語解析、構文解析などの自然言語処理を行うことにより、語句１０２及び語句１１０５は語句１１０６に係っており、語句１０２と語句１１０５の語順の入れ替えが可能であると判別する。

また、語句１０２と語句１１０５の語順を入れ替え、非定型部分Ａ、Ｂをそれぞれ置換語句１１１、１１２で置換した文章１１２１は、雛形文章１０１の非定型部分Ａ、Ｂをそれぞれ置換語句１１１、１１２で置換した目標文章から、語句１０２と語句１１０５の語順を入れ替えることより生成できると、代替目標文章生成部１０４６は判別する。

このため、文章１１２１と、雛形文章１０１から生成された目標文章とでは、置換距離γ＝１、類似度Φ＝０．５となり、類似度が閾値を超えるため、代替目標文章生成部１０４６は、文章１１２１を代替目標文章として生成する。

図１０は、代替目標文章生成部１０４６が用語を同義語と入れ換えることにより代替目標文章を生成する例の説明図である。図１０に示す例では、代替目標文章生成部１０４６は、同義語が定義された同義語表（図示省略）を参照することにより、雛形文章１２０１の語句１２０２は、同義語１２０３との入れ換え可能であると判別する。なお、同義語表は記憶部３０などに予め記憶しておけば、代替目標文章生成部１０４６は参照できる。

また、語句１２０２を同義語１２０３に入れ替え、非定型部分Ｃ、Ｄをそれぞれ置換語句１２１１、１２１２で置換した文章１２２１は、雛形文章１２０１の非定型部分Ｃ、Ｄをそれぞれ置換語句１２１１、１２１２で置換した目標文章から、語句１２０２を同義語１２０３に入れ替えることより生成できると、代替目標文章生成部１０４６は判別する。

このため、文章１２２１と、雛形文章１２０１から生成された目標文章とでは、置換距離γ＝１、類似度Φ＝０．５となり、類似度が閾値を超えるため、代替目標文章生成部１０４６は、文章１２２１を代替目標文章として生成する。

図１１は、代替目標文章生成部１０４６が表現を別表現と入れ替えることにより代替目標文章を生成する例の説明図である。図１１に示す例では、代替目標文章生成部１０４６は、シソーラス又はフレーザル・シソーラスなどを用いることにより、雛形文章１３０１の表現１３０２は、表現１３０３との入れ換え可能であると判別する。なお、シソーラスなどは記憶部３０などに予め記憶しておけば、代替目標文章生成部１０４６は参照できる。

また、表現１３０２を表現１３０３に入れ替え、非定型部分Ｅを置換語句１３１１で置換した文章１３２１は、雛形文章１３０１の非定型部分Ｅを置換語句１３１１で置換した目標文章から、表現１３０２を表現１３０３に入れ替えることより生成できると、代替目標文章生成部１０４６は判別する。

このため、文章１３２１と、雛形文章１３０１から生成された目標文章とでは、置換距離γ＝１、類似度Φ＝０．５となり、類似度が閾値を超えるため、代替目標文章生成部１０４６は、文章１３２１を代替目標文章として生成する。

図１２は、代替目標文章生成部１０４６が表現を別表現と入れ替えることにより代替目標文章を生成する例の説明図である。図１２に示す例においても、代替目標文章生成部１０４６は、シソーラス又はフレーザル・シソーラスなどを用いることにより、雛形文章１４０１の表現１４０２は、表現１４０３との入れ換え可能であると判別する。なお、表現１４０２及び表現１４０３はいずれも動詞が続く表現である。

また、表現１４０２を表現１４０３に入れ替え、非定型部分Ｆを置換語句１４１１で置換した文章１４２１は、雛形文章１４０１の非定型部分Ｆを置換語句１４１１で置換した目標文章から、表現１４０２を表現１４０３に入れ替えることより生成できると、代替目標文章生成部１０４６は判別する。

このため、文章１４２１と、雛形文章１４０１から生成された目標文章とでは、置換距離γ＝１、類似度Φ＝０．５となり、類似度が閾値を超えるため、代替目標文章生成部１０４６は、文章１４２１を代替目標文章として生成する。

図１３は、代替目標文章生成部１０４６が表現を別表現と入れ替えることにより代替目標文章を生成する例の説明図である。図１３に示す例では、代替目標文章生成部１０４６は、シソーラス又はフレーザル・シソーラスなどを用いることにより、雛形文章１５０１の表現１５０２、１５０３を、それぞれ表現１５０４、表現１５０５に入れ替えることが可能であると判別する。

また、表現１５０２、１５０３を、それぞれ表現１５０４、表現１５０５に入れ替え、非定型部分Ｇ、Ｈをそれぞれ置換語句１５１１、１５１２で置換した文章１５２１は、雛形文章１５０１の非定型部分Ｇ、Ｈをそれぞれ置換語句１５１１、１５１２で置換した目標文章を、表現１５０４、表現１５０５に入れ替えることにより生成できると、代替目標文章生成部１０４６は判別する。

このため、文章１５２１と、雛形文章１５０１から生成された目標文章とでは、置換距離γ＝１、類似度Φ＝０．５となり、類似度が閾値を超えるため、代替目標文章生成部１０４６は、文章１５２１を代替目標文章として生成する。

なお、第２の実施形態では、編集距離を用いて類似度を演算したが、シソーラス及びフレーザル・シソーラスなどでは語句や表現が階層的に分類されているため、この階層構造を利用して類似度を演算するようにしてもよい。この場合、代替目標文章生成部１０４６は、以下の数式（３）により目標文章と代替目文章との類似度を演算できる。

数式（３）において、「Ｌｃ」は階層構造上の共通上位階層の深さであり、「Ｌａ」は目標文章中の語句であり、「Ｌｂ」は目標文章中の語句に対応する代替目標文章中の語句である。階層類似度ξは０〜１の値をとり、１に近いほど同一言語情報に近いことを表す。

また、代替目標文章を作成する手法は、上述した手法以外にも、例えば、乾健太郎，藤田篤，「言い換え技術に関する研究動向」，自然言語処理，Ｖｏｌ．１１，Ｎｏ．５，ｐｐ．１５１−１９８，２００４．１０．などに開示された既存の手法を用いることができる。

以下、定型合成音生成部１０５０、規則合成音生成部１０５５、演算部１０６０が行う処理は、目標文章及び代替目標文章に行う点を除き、それぞれ第１の実施の形態の定型合成音生成部５０、規則合成音生成部５５、演算部６０と同様であるため、詳細な説明は省略する。

また、選択部１０６５、接続部１０７０が行う処理も、目標文章又は代替目標文章に行う点を除き、それぞれ第１の実施の形態の選択部６５、接続部７０と同様であるため、詳細な説明は省略する。

次に、第２の実施の形態の音声合成装置の動作について説明する。

図１４は、第２の実施の形態の音声合成装置１００１で行われる音声合成処理の手順の流れの一例を示すフローチャートである。

ステップＳ１００では、取得部１０４０は、入力部１０から入力される雛形文章と、置換語句を取得する。

ステップＳ１０２では、目標文章生成部１０４５は、取得部１０４０により取得された雛形文章の非定型部分を、取得部１０４０により取得された置換語句で置換して目標文章を生成する。

ステップＳ１０４では、代替目標文章生成部１０４６は、目標文章生成部１０４５により生成された目標文章との類似度が閾値を超える代替目標文章を生成する。

ステップＳ１０６では、定型合成音生成部１０５０は、音声記憶部３２に記憶されている音声データを用いて、目標文章生成部１０４５により生成された目標文章及び代替目標文章生成部１０４６により生成された代替目標文章に対し、定型合成音を生成する。

ステップＳ１０８では、規則合成音生成部１０５５は、辞書記憶部３４に記憶されている辞書データを参照して、目標文章生成部１０４５により生成された目標文章及び代替目標文章生成部１０４６により生成された代替目標文章に対し、規則合成音を生成する。

ステップＳ１１０では、演算部１０６０は、目標文章生成部１０４５により生成された目標文章及び代替目標文章生成部１０４６により生成された代替目標文章に対し、定型合成音生成部１０５０により生成された定型合成音と規則合成音生成部１０５５により生成された規則合成音との境界の不連続値を演算する。

ステップＳ１１２では、選択部１０６５は、目標文章生成部１０４５により生成された目標文章及び代替目標文章生成部１０４６により生成された代替目標文章の中から、演算部１０６０により演算された不連続値が最小となる目標文章又は代替目標文章を選択する。

ステップＳ１１４では、接続部１０７０は、選択部１０６５により選択された目標文章又は代替目標文章の定型合成音及び規則合成音を接続する。

ステップＳ１１６の処理は、図７に示すフローチャートのステップＳ２４の処理と同様であるため、説明を省略する。

このように第２の実施形態では、単一の雛型文章から目標文章、及び目標文章と意味的に等価な代替目標文章を生成し、生成した目標文章及び代替目標文章の中から定型合成音と規則合成音との接続境界の不連続値が最小となる文章を選択し、選択した文章の定型合成音と規則合成音とを接続して合成音声を出力する。

従って第２の実施形態では、意味的に等価な複数の雛形文章を予めユーザが準備しておかなくても目標文章と意味的に等価な代替目標文章が自動的に生成され、目標文章及び代替目標文章の中から、不連続値が最小の目標文章の合成音声が出力される。このため第２の実施形態によれば、開発者等による人手による負荷を抑えつつ、合成音の接続に伴う不自然さを軽減した合成音声を生成することができる。

なお、上記実施の形態の音声合成装置１、１００１は、ＣＰＵなどの制御装置と、ＲＯＭ（Read Only Memory）やＲＡＭなどの記憶装置と、ＨＤＤ、ＳＳＤ、リムーバブルドライブ装置などの外部記憶装置と、スピーカなどの音声出力装置と、キーボードやマウスなどの入力装置を備えており、通常のコンピュータを利用したハードウェア構成となっている。

上記実施の形態の音声合成装置１、１００１で実行される音声合成プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、上記実施の形態の音声合成装置１、１００１で実行される音声合成プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、上記実施の形態の音声合成装置１、１００１で実行される音声合成プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。

また、上記実施の形態の音声合成装置１、１００１で実行される音声合成プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

上記実施の形態の音声合成装置１、１００１で実行される音声合成プログラムは、上述した各部（取得部、文章生成部、定型合成音生成部、規則合成音生成部、演算部、選択部、接続部、出力制御部等）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ（プロセッサ）が上記記憶媒体から音声合成プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、取得部、文章生成部、定型合成音生成部、規則合成音生成部、演算部、選択部、接続部、出力制御部等が主記憶装置上に生成されるようになっている。

（変形例）
なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。

（変形例１）
例えば、上記実施の形態の演算部６０、１０６０は、音響的特徴を表すスペクトルの時間変化が接続境界において不連続であると自然性劣化の原因となることから、スペクトルパラメータに関する不連続度合いを表すスペクトル距離の総和をスペクトル歪みとして考慮して、不連続値を演算してもよい。

（変形例２）
また、上記実施の形態の演算部６０、１０６０は、抑揚特徴を表す基本周波数の時間変化が接続境界において不連続であると自然性劣化の原因となることから、基本周波数に関する不連続度合を表す基本周波数距離の総和を基本周波数歪みとして考慮して、不連続値を演算してもよい。

（変形例３）
また、上記実施の形態の演算部６０、１０６０は、規則音声合成方式では規則作成時の低頻度の共起音韻は高頻度の共起音韻と比べ自然性に劣る場合が多いことから、音韻環境に関する共起確率の逆数を音韻共起歪みとして考慮して、不連続値を演算してもよい。

（変形例４）
また、上記実施の形態の演算部６０、１０６０は、同一の目標文章が頻繁に用いられると自然性に欠けることから、過去に高頻度で用いられた目標文章があまり用いられないよう、演算済みの不連続値である演算済不連続値に選択部６５、１０６５による目標文書の選択頻度に伴う重み付けを行い、この重み付けされた演算済不連続値を考慮して不連続値を演算してもよい。なお、重み付けされた演算済不連続値としては、例えば、目標文書の演算済不連続値に当該目標文書の選択頻度を乗じたものなどが挙げられる。

このようにすると、同一の目標文章の合成音声が連続して出力されるのではなく、意味的に等価な他の目標文章の合成音声が出力されることになるため、ロボット等の擬人化される装置のインタフェースに適した音声合成を実現できる。

（変形例５）
また、上記実施の形態では、入力部１０から入力された雛形文章と置換語句を取得する例について説明したが、雛形文章及び置換語句を予め記憶部３０に記憶しておき、取得部４０、１０４０が記憶部３０から雛形文章及び置換語句を取得するようにしてもよい。

（変形例６）
また第２の実施の形態では、単一の雛型文章から目標文章、及び代替目標文章を生成する例について説明したが、第２の実施の形態においても複数の雛型文章から複数の目標文章、及び複数の代替目標文章を生成するようにしてもよい。

（変形例７）
また第２の実施の形態では、雛型文章中の語句の入れ替え等を行った後に非定型部分を置換して代替目標文章を生成する例について説明したが、雛型文章の非定型部分を置換して目標文章を生成した後に、目標文章の語句の入れ替え等を行って代替目標文章を生成するようにしてもよい。

４０、１０４０取得部
４５文章生成部
５０、１０５０定型合成音生成部
５５、１０５５規則合成音生成部
６０、１０６０演算部
６５、１０６５選択部
７０、１０７０接続部

Claims

他の語句に置換されない定型部分と他の語句に置換される非定型部分とを含む意味的に等価な複数の雛形文章と、前記非定型部分を置換する置換語句とを取得する取得部と、
前記雛形文章それぞれに対し、前記非定型部分を前記置換語句で置換して複数の目標文章を生成する文章生成部と、
前記目標文章それぞれに対し、前記定型部分の合成音である第１合成音を生成する第１合成音生成部と、
前記目標文章それぞれに対し、前記置換語句の合成音である第２合成音を生成する第２合成音生成部と、
前記目標文章それぞれに対し、前記第１合成音と前記第２合成音との接続境界の不連続値を演算する演算部と、
複数の前記目標文章の中から、前記不連続値が最小となる前記目標文章を選択する選択部と、
選択された前記目標文章の前記第１合成音及び前記第２合成音を接続する接続部と、
を備えることを特徴とする音声合成装置。
他の語句に置換されない定型部分と他の語句に置換される非定型部分とを含む雛形文章と、前記非定型部分を置換する置換語句とを取得する取得部と、
前記非定型部分を前記置換語句で置換して目標文章を生成する第１文章生成部と、
前記目標文章との類似度が閾値を超える代替目標文章を生成する第２文章生成部と、
前記目標文章及び前記代替目標文章に対し、前記定型部分の合成音である第１合成音を生成する第１合成音生成部と、
前記目標文章及び前記代替目標文章に対し、前記置換語句の合成音である第２合成音を生成する第２合成音生成部と、
前記目標文章及び前記代替目標文章に対し、前記第１合成音と前記第２合成音との接続境界の不連続値を演算する演算部と、
前記目標文章及び前記代替目標文章の中から、前記不連続値が最小となる前記目標文章又は前記代替目標文章を選択する選択部と、
選択された前記目標文章又は前記代替目標文章の前記第１合成音及び前記第２合成音を接続する接続部と、
を備えることを特徴とする音声合成装置。
前記第２文章生成部は、前記雛形文章中の語句の語順の入れ替え、前記雛形文章中の語句の同義語との入れ換え、及び前記雛形文章中の表現の別表現との入れ替えの少なくともいずれかを行うとともに、前記非定型部分を前記置換語句で置換して、前記代替目標文章を生成することを特徴とする請求項２に記載の音声合成装置。
前記演算部は、前記第１合成音と前記第２合成音との接続境界のスペクトル歪み、基本周波数歪み、音韻共起歪みの少なくともいずれかを考慮して前記不連続値を演算することを特徴とする請求項１乃至請求項３のいずれか１項に記載の音声合成装置。
前記演算部は、演算済みの前記不連続値である演算済不連続値に、前記選択部による前記目標文書の選択頻度に伴う重み付けを行い、重み付けが行われた前記演算済不連続値を考慮して前記不連続値を演算することを特徴とする請求項１乃至請求項４のいずれか１項に記載の音声合成装置。
取得部が、他の語句に置換されない定型部分と他の語句に置換される非定型部分とを含む意味的に等価な複数の雛形文章と、前記非定型部分を置換する置換語句とを取得する取得ステップと、
文章生成部が、前記雛形文章それぞれに対し、前記非定型部分を前記置換語句で置換して複数の目標文章を生成する文章生成ステップと、
第１合成音生成部が、前記目標文章それぞれに対し、前記定型部分の合成音である第１合成音を生成する第１合成音生成ステップと、
第２合成音生成部が、前記目標文章それぞれに対し、前記置換語句の合成音である第２合成音を生成する第２合成音生成ステップと、
演算部が、前記目標文章それぞれに対し、前記第１合成音と前記第２合成音との接続境界の不連続値を演算する演算ステップと、
選択部が、複数の前記目標文章の中から、前記不連続値が最小となる前記目標文章を選択する選択ステップと、
接続部が、選択された前記目標文章の前記第１合成音及び前記第２合成音を接続する接続ステップと、
をコンピュータに実行させるための音声合成プログラム。
取得部が、他の語句に置換されない定型部分と他の語句に置換される非定型部分とを含む雛形文章と、前記非定型部分を置換する置換語句とを取得する取得ステップと、
第１文章生成部が、前記非定型部分を前記置換語句で置換して目標文章を生成する第１文章生成ステップと、
第２文章生成部が、前記目標文章との類似度が閾値を超える代替目標文章を生成する第２文章生成ステップと、
第１合成音生成部が、前記目標文章及び前記代替目標文章に対し、前記定型部分の合成音である第１合成音を生成する第１合成音生成ステップと、
第２合成音生成部が、前記目標文章及び前記代替目標文章に対し、前記置換語句の合成音である第２合成音を生成する第２合成音生成ステップと、
演算部が、前記目標文章及び前記代替目標文章に対し、前記第１合成音と前記第２合成音との接続境界の不連続値を演算する演算ステップと、
選択部が、前記目標文章及び前記代替目標文章の中から、前記不連続値が最小となる前記目標文章又は前記代替目標文章を選択する選択ステップと、
接続部が、選択された前記目標文章又は前記代替目標文章の前記第１合成音及び前記第２合成音を接続する接続ステップと、
をコンピュータに実行させるための音声合成プログラム。
取得部が、他の語句に置換されない定型部分と他の語句に置換される非定型部分とを含む意味的に等価な複数の雛形文章と、前記非定型部分を置換する置換語句とを取得する取得ステップと、
文章生成部が、前記雛形文章それぞれに対し、前記非定型部分を前記置換語句で置換して複数の目標文章を生成する文章生成ステップと、
第１合成音生成部が、前記目標文章それぞれに対し、前記定型部分の合成音である第１合成音を生成する第１合成音生成ステップと、
第２合成音生成部が、前記目標文章それぞれに対し、前記置換語句の合成音である第２合成音を生成する第２合成音生成ステップと、
演算部が、前記目標文章それぞれに対し、前記第１合成音と前記第２合成音との接続境界の不連続値を演算する演算ステップと、
選択部が、複数の前記目標文章の中から、前記不連続値が最小となる前記目標文章を選択する選択ステップと、
接続部が、選択された前記目標文章の前記第１合成音及び前記第２合成音を接続する接続ステップと、
を含むことを特徴とする音声合成方法。
取得部が、他の語句に置換されない定型部分と他の語句に置換される非定型部分とを含む雛形文章と、前記非定型部分を置換する置換語句とを取得する取得ステップと、
第１文章生成部が、前記非定型部分を前記置換語句で置換して目標文章を生成する第１文章生成ステップと、
第２文章生成部が、前記目標文章との類似度が閾値を超える代替目標文章を生成する第２文章生成ステップと、
第１合成音生成部が、前記目標文章及び前記代替目標文章に対し、前記定型部分の合成音である第１合成音を生成する第１合成音生成ステップと、
第２合成音生成部が、前記目標文章及び前記代替目標文章に対し、前記置換語句の合成音である第２合成音を生成する第２合成音生成ステップと、
演算部が、前記目標文章及び前記代替目標文章に対し、前記第１合成音と前記第２合成音との接続境界の不連続値を演算する演算ステップと、
選択部が、前記目標文章及び前記代替目標文章の中から、前記不連続値が最小となる前記目標文章又は前記代替目標文章を選択する選択ステップと、
接続部が、選択された前記目標文章又は前記代替目標文章の前記第１合成音及び前記第２合成音を接続する接続ステップと、
を含むことを特徴とする音声合成方法。