JP5320363B2

JP5320363B2 - 音声編集方法、装置及び音声合成方法

Info

Publication number: JP5320363B2
Application number: JP2010202448A
Authority: JP
Inventors: 剛平林; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-03-26
Filing date: 2010-09-09
Publication date: 2013-10-23
Anticipated expiration: 2030-09-09
Also published as: US20110238420A1; JP2011221486A; US8868422B2

Description

本発明は、音声編集方法、装置及び音声合成方法に関する。

人が発生した音声を、予め単語や文節や句の単位等に分割した「音片」として記憶しておき、これらの音片を読み出して組み合わせることにより、複数の文章を音声として出力する録音編集方式の音声合成装置がある（例えば、特許文献１参照）。

このような音声合成装置では、複数の文章間で同じ音片を用いることにより、出力する文章をすべて記憶する場合に比べて、記憶するデータ量を節約している。

特開平７−２１０１８４号公報

しかしながら、上述したような音声合成装置では、録音した音声を人による手作業で音片に分割するため、利用効率の良い音片を作成することが困難である。

本発明では、上記課題に鑑み、利用効率の良い音片を作成することができる音声編集方法、装置、及び該音片を用いた音声合成方法を提供することを目的とする。

上記課題を解決するために、本発明の一態様に係る音声編集方法は、入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、前記音声情報から規則音声合成を用いて音声波形を生成し、前記音韻情報に基づいて前記音声波形を複数の音片波形に分割し、複数の前記音片波形の中で、波形がそれぞれ一致又は類似する２つ以上の前記音片波形を探索し、探索した２つ以上の音片波形から代表音片波形を選択し、前記代表音片波形を記憶部に記憶する。

また、本発明の一態様に係る音声編集方法は、入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、前記音声情報から規則音声合成を用いて音声波形を生成し、前記音韻情報に基づいて前記音声波形を複数の音片波形に分割し、複数の前記音片波形の中で、対応する前記音韻情報がそれぞれ一致し、かつ、対応する前記韻律情報がそれぞれ一致又は類似する２つ以上の前記音片波形を探索し、探索した２つ以上の前記音片波形から代表音片波形を選択し、前記代表音片波形を記憶部に記憶する。

また、本発明の一態様に係る音声編集方法は、入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、前記音韻情報に基づいて前記音声情報を複数の音片情報に分割し、複数の前記音片情報の中で、前記音韻情報がそれぞれ一致し、かつ、前記韻律情報がそれぞれ一致又は類似する２つ以上の前記音片情報を探索し、探索した２つ以上の前記音片情報を代表する代表音片情報を生成し、前記代表音片情報に対応する代表音片波形を、規則音声合成を用いて生成し、前記代表音片波形を記憶部に記憶する。

本発明により、利用効率の良い音片を作成することができる音声編集方法、装置、及び該音片を用いた音声合成方法を提供することができる。

第１の実施の形態に係る音声編集装置１を表すブロック図。音声波形、韻律情報、音韻情報の説明図。音声編集装置１の編集処理を表すフローチャート。入力部１１に入力されるテキストの例を表す図。音声波形の例を表す図。音声波形を分割する時刻を例示した図。音声波形の分割の例を示す図。音片波形の例を表す図。探索部１４による判定後の音片波形を表す図。音声編集装置１が英文テキストの編集処理を行なう例を表す図。国際音声記号と変形例１の音素文字との対応表。変形例１における音声編集装置１の編集処理を表すフローチャート。変形例２における音声編集装置１の編集処理を表すフローチャート。第２の実施の形態に係る音声編集装置の編集処理を表すフローチャート。第３の実施の形態に係る音声合成装置３を表すブロック図。

以下、本発明の実施の形態について図面を参照して詳細に説明する。

本願明細書と各図において、既出の図に関して前述したものと同様の要素には同一の符号を付して詳細な説明は適宜省略する。

（第１の実施の形態）
第１の実施の形態に係る音声編集装置１は、規則合成方式により、ユーザが入力したテキストから音韻情報、韻律情報、及び音声波形を作成する。音声波形を、音声波形の素片である音片波形に分割する。全ての音片波形の中で、波形が一致又は類似する音片波形を探索して、それらを代表する代表音片波形を選択しておく。このような代表音片波形を、音声を合成して出力する音声合成装置等に用いる。

図１は、音声編集装置１を表すブロック図である。音声編集装置１は、入力部１１と、生成部１２と、分割部１３と、探索部１４とを含む。

入力部１１は、ユーザから一または複数のテキストが入力される。入力部１１は、キーボードや手書きパッド等であってよい。生成部１２は、入力されたテキストの音韻情報、韻律情報、及び音韻情報と韻律情報とに対応する音声波形を、例えば、中央演算処理装置（ＣＰＵ）により生成する。なお、ユーザは、入力部１１で、録音編集方式で再生させたいテキストを入力することができる。

音声波形とは、音声の振幅の時間変化である。音韻情報とは、音声の内容を文字や記号で表したものである。韻律情報とは、音声のリズムやイントネーションを表したものである。複数のテキストが入力された場合、生成部１２は、各々のテキストに対応する音韻情報、韻律情報、及び音声波形を生成する。例えば、生成部１２は、音韻情報、韻律情報に対応する音声素片が格納された格納部（不図示）を用いて、音声波形を生成してもよい。生成部１２はテキストから音声波形を生成する公知の音声合成装置であってもよい。

分割部１３は、音声波形と音韻情報と韻律情報とを用いて、音声波形を特定の時刻で音片波形に分割する。入力部１１に入力されたテキストが複数ある場合、分割部１３は、各々のテキストに対応する音声波形を音片波形に分割する。

探索部１４は、分割部１３で得られた全ての音片波形の中で、波形が一致又は類似する音片波形を探索する。波形が一致又は類似する音片波形が複数存在する場合、探索部１４は、その中から一の音片波形を代表音片波形として選択し、他の音片波形を破棄する。探索部１４は、代表音片波形を記憶部５０に記憶させる。代表音片波形は、波形が一致又は類似する、複数の音片波形の中の１つであればよい。

生成部１２と、分割部１３と、探索部１４とは、中央演算処理装置（ＣＰＵ）及びＣＰＵが用いるメモリにより実現されてよい。

以下、本実施の形態について詳細に説明する。

図２は、音声波形、韻律情報、音韻情報の説明図である。図２では、例として、「東京方面へ向かっている方に」というテキストから生成された音声波形、韻律情報、音韻情報の一部が示されている。音声波形は、音声の振幅の時間変化で表わされる。音韻情報は、音声波形を音素文字で表した音素系列と、アクセントを持つ音素（アクセント音素と呼ぶ）の情報とを含む。図２では、「東京方面へ向かっている方に」の音素系列の一部である、「ｏｈ１ｏ１ｏｍｅＮｅｍｕｋａｔｅ」が示されている。音素「Ｎ」（大文字）は、撥音を表す。そして「１」が付されている音素はアクセントを持つ音素である。すなわち、この音素系列においては、「ｈｏ（ほ）」にアクセントがあることを示している。韻律情報は、音素系列と、音素の継続時間と、音素のＦ０系列と、音素境界時刻とを含む。Ｆ０系列とは、音素の基本周波数の時間変化である。音素境界時刻とは、隣接する２つの音素の境界の時刻である。

図３は、音声編集装置１の処理を表すフローチャートである。入力部１１には、ユーザから一又は複数のテキストが入力される（Ｓ３０１）。

図４は、入力部１１に入力されるテキストの例である。図４に示したように、例えば、入力部１１には、ユーザから「八王子インターへ向かっている方に、渋滞の情報です。」（テキスト１）と、「新潟方面へ向かっている方に、８時現在の渋滞の情報です。」（テキスト２）と、「蒲田方面へ向かっている方に、自然渋滞の情報です。」（テキスト３）という３つのテキストが入力される。

生成部１２は、これら複数のテキストについて形態素解析や構文解析等の言語解析を行ない、テキストの音韻情報を決定し、決定した音韻情報から韻律情報を決定し、音韻情報と韻律情報とから音声波形を生成する（Ｓ３０２）。図５は、音声波形の例を表す図である。音声波形１はテキスト１に対応する。音声波形２はテキスト２に対応する。音声波形３はテキスト３に対応する。図５では、音素系列も記載してある。例えば、生成部１２は、テキスト１を解析して、テキスト１のテキストの音韻情報を決定し、決定した音韻情報から韻律情報を決定し、音韻情報と韻律情報とから音声波形１を生成する。生成部１２は、音声波形を分割部１３に渡す。生成部１２は、音声波形が複数ある場合には、全ての音声波形を分割部１３に渡す。

分割部１３は、音韻情報を用いて、音声波形を特定時刻で区切ることにより、音片波形に分割する（Ｓ３０３）。図６は、音声波形の分割を例示した図である。図６には、「東京方面へ向かっている方に」（図２と同じ）の音声波形と韻律情報が示されている。分割部１３は、音韻情報を用いて、無声破裂音及び「ＰＡＵＳＥ」の開始時刻または終了時刻を検出して、無声破裂音区間およびポーズ区間を求める。分割部１３は、無声破裂音区間とポーズ区間の中で、音声波形の振幅の絶対値が所定閾値未満となる（例えば、０となる）時刻を特定時刻として区切って、音声波形を音片波形に分割するのが望ましい。例えば、当該区間中で、振幅が０となる時刻で最も早い時刻（時刻Ａ）や、最も遅い時刻（時刻Ｂ）等で、音声波形を分割してもよい。

ここで、無声破裂音区間とは、無声破裂音（「ｋ」、「ｔ」、「ｐ」、「ｃｈ」等）である音素に対応する音声波形の区間である。ポーズ区間は、入力部１１に入力されたテキストにおける句読点やピリオド等、無音であることを示す音素文字「ＰＡＵＳＥ」に対応する音声波形の区間である。本実施の形態で区間とは、音声波形における任意の一の時刻から任意の他の時刻までの時間の範囲である。

図７では、音声波形１が複数の音片波形に分割された例が示されている。例えば、分割部１３は、「ｈａｃｈｉｏｏｊｉｉＮｔａａｅｍｕｋａｔｅｉｒｕｋａｔａｎｉＰｊｉｋｏｊｙｕｕｔａｉｎｏｊｙｏｏｈｏｏｄｅｓ」という音声波形１（図６では、音素系列のみで表わしている）を、上述した時刻（無声破裂音区間の時刻Ａ及びポーズ区間の時刻Ｂ）で、「ｈａ」「ｃｈｉｏｏｊｉｉＮｔａａｅｍｕ」「ｋａｔｅｉｒｕｋａｔａｎｉＰ」「ｊｉｋｏｊｙｕｕ」「ｔａｉｎｏｊｙｏｏｈｏｏｄｅｓ」という５つの音片波形に分割する。音素系列における大文字の「Ｐ」は、音素文字「ＰＡＵＳＥ」を表している。

分割部１３は、音声波形２についても同様にし、音声波形２を「ｎｉｉｇａ」「ｔａｈｏｏｍｅＮｅｍｕ」「ｋａｔｅｉｒｕｋａｔａｎｉＰ」「ｈａ」「ｃｈｉｊｉｇｅＮｚａｉｎｏｊｙｕｕ」「ｔａｉｎｏｊｙｏｏｈｏｏｄｅｓ」という６つの音片波形に分割する。分割部１３は、音声波形３についても同様にし、音声波形３を「ｋａｍａ」「ｔａｈｏｏｍｅＮｅｍｕ」「ｋａｔｅｉｒｕｋａｔａｎｉＰ」「ｓｉｚｅＮｊｙｕｕ」「ｔａｉｎｏｊｙｏｏｈｏｏｄｅｓ」という５つの音片波形に分割する。

図８は、音片波形を表す図である。図８では、簡単のため、音片波形を、音片波形に対応する音素系列で示している。図８では、音声波形１と音声波形２と音声波形３の各々から分割された音片波形が存在する。分割部１３は、全ての音片波形を探索部１４に渡す。探索部１４は、すべての音片波形の中から、たとえば順次１つの音片波形を選択して、残りの音片波形と比較して、２つの音片波形の波形が一致又は類似するものであるかどうかを探索することを、すべての組み合わせについて繰り返す（Ｓ３０４）。波形が一致するとは、比較する音片波形において、音声波形の各時刻における振幅の値が一致することである。波形が類似するとは、比較する音片波形において、音片波形の各時刻における振幅の値の差が所定の範囲内となることである。

ステップＳ３０４における判定がＮＯの場合、探索部１４は当該音片波形をそのまま残して、後述するステップＳ３０６に遷移する。ステップＳ３０４における判定がＹＥＳの場合、探索部１４は、波形が一致又は類似する少なくとも２つの音片波形から、一の音片波形を選択し、他の音片波形を破棄する。（Ｓ３０５）。選択された音片波形を代表音片波形と呼ぶ。

代表音片波形は、波形が一致又は類似する少なくとも２つの音片波形の中から、ランダムに一の音片波形を選択したものとしてもよい。

例えば、図８の例において、探索部１４は、音声波形１から分割された「ｈａ」の音片波形１０１に対して、波形が一致又は類似する音片波形があるか否かを判定する。そして、音声波形２から分割されてできた「ｈａ」の音片波形１０６が、音片波形１０１に対して、波形が一致又は類似する音片波形であると判定したとする。同様に、探索部１４は、他の音片波形についても、波形が一致又は類似する音片波形があるか否かを判定する。

そして、音声波形１から分割された「ｋａｔｅｉｒｕｋａｔａｎｉＰ」の音片波形１０２と、音声波形２から分割された「ｋａｔｅｉｒｕｋａｔａｎｉＰ」の音片波形１０５と、音声波形３から分割された「ｋａｔｅｉｒｕｋａｔａｎｉＰ」の音片波形１０９とが、波形が一致又は類似する音片波形であると判定したとする。

音声波形１から分割された「ｔａｉｎｏｊｙｏｈｏｏｄｅｓ」の音片波形１０３と、音声波形が一致又は類似する他の音片波形が存在しなかった音片波形２から分割された「ｔａｉｎｏｊｙｏｈｏｏｄｅｓ」の音片波形１０７と、音声波形が一致又は類似する他の音片波形が存在しなかった音片波形３から分割された「ｔａｉｎｏｊｙｏｈｏｏｄｅｓ」の音片波形１１０とが、波形が一致又は類似する音片波形であると判定したとする。

音声波形が一致又は類似する他の音片波形が存在しなかった音片波形２から分割された「ｔａｈｏｏｍｅＮｅｍｕ」の音片波形１０４と、音声波形３から分割された「ｔａｈｏｏｍｅＮｅｍｕ」の音片波形１０８とが、波形が一致又は類似する音片波形であると判定したとする。

探索部１４は、音片波形１０１と音片波形１０６の第１の代表音片波形として音片波形１０１を選択する。同様にして、探索部１４は、音片波形１０２と音片波形１０５と音片波形１０９の第２の代表音片波形として音片波形１０２を選択する。音片波形１０３と音片波形１０７と音片波形１１０の第３の代表音片波形として音片波形１０３を選択する。

探索部１４は、波形が一致又は類似する少なくとも２つの音片波形のうちで、代表音片波形に選択しなかった音片波形を破棄する。例えば、探索部１４は、第１の代表音片波形に選択しなかった音片波形１０６を破棄する。第２の代表音片波形に選択しなかった音片波形１０５と音片波形１０９とを破棄する。第３の代表音片波形に選択しなかった音片波形１０７と音片波形１１０とを破棄する。

図９は、探索部１４による判定後の音片波形を表す図である。探索部１４による判定の終了後、探索部１４には、代表音片波形と、波形が一致又は類似する他の音片波形が存在しなかった音片波形とが残る。図９の例では、代表音片波形として、音片波形１０１と音片波形１０２と音片波形１０３と音片波形１０４が残る。波形が一致又は類似する他の音片波形が存在しなかった音片波形として、音声波形１から分割された、「ｃｈｉｏｏｊｉｉＮｔａａｅｍｕ」の音片波形と「ｊｉｋｏｊｙｕｕ」の音片波形とが残る。音声波形２から分割された、「ｎｉｉｇａ」の音片波形と、「ｃｈｉｊｉｇｅＮｚａｉｎｏｊｙｕｕ」の音片波形とが残る。音声波形３から分割された、「ｋａｍａ」の音片波形と、「ｓｉｚｅＮｊｙｕｕ」の音片波形とが残る。探索部１４は、残った音片波形を記憶部５０に記憶させ（Ｓ３０６）、処理を終了する。このとき、記憶させる音片波形に対応する音韻情報や韻律情報も記憶部５０に記憶させてもよい。この場合、分割部１３は、分割された音片波形に対応するように、音韻情報、韻律情報も分割しておく。

本実施の形態により、利用効率の良い音片を作成することができる。記憶する音片の総データ量を容易に削減できる。また、全ての音片の中から、波形等の特徴が一致又は類似する音片を探索するため、音質の劣化を抑えられる。

なお、本実施の形態では、日本語の処理について説明したがこれに限定されない。例えば、英語の場合も同様の処理を行なうことができる。

図１０は、音声編集装置１が英文テキストの処理を行なう例を表す図である。例えば、図３のフローチャートにおけるステップＳ３０１で、入力部１１にユーザから「Ｔｕｒｎｒｉｇｈｔａｔｔｈｅｎｅｘｔｅｘｉｔ, ｔｈｅｎｉｍｍｅｄｉａｔｅｌｙｌｅｆｔ.」（テキスト４）というテキストと、「Ｔｕｒｎｌｅｆｔａｔｔｈｅｎｅｘｔｉｎｔｅｒｓｅｃｔｉｏｎ.」（テキスト５）というテキストと、「Ｔｕｒｎｒｉｇｈｔａｔｔｈｅｉｎｔｅｒｓｅｃｔｉｏｎ, ｔｈｅｎｉｍｍｅｄｉａｔｅｌｙｒｉｇｈｔａｇａｉｎ.」（テキスト６）というテキストが入力されたとする。

ステップＳ３０２で、生成部１２は、テキスト４に対応する音声波形４と、テキスト５に対応する音声波形５と、テキスト６に対応する音声波形６とを生成する。音声波形４〜音声波形６における文字は、音素を表している。図１１は、国際音声記号と本例の音素文字との対応表である。該文字は図１１に示した国際音声記号と対応している。

ステップＳ３０３で、分割部１３は、上述したように、音声波形を特定の時刻で音片波形に分割する。例えば、分割部１３は、音声波形４（図１０では、音素系列のみで表わしている）を、「ｔ３ＲＮｒａＩ」「ｔＡ」「ｔｃＤ＠ｎＥ」「ｋｓ」「ｔＥ」「ｋｓＩｔＰ」「ｋｓＩｔＰ」「ＤＥＮＩｍＩｄＩ＠」「ｔｃｌＩｌＥｆｔ」という８つの音片波形に分割する。音素系列における大文字の「Ｐ」は、音素文字「ＰＡＵＳＥ」を表している。

分割部１３は、音声波形２についても同様にし、音声波形２を「ｔ３ＲＮｌＥｆ」「ｔＡ」「ｔｃＤ＠ｎＥ」「ｋｓ」「ｔＩｎ」「ｋｓ＠ｎ」「ｋｓＩｔＰ」「ＤＥＮＩｍＩｄＩ＠」「ｔｃｌＩｌＥｆｔ」という７つの音片波形に分割する。分割部１３は、音声波形３についても同様にし、音声波形３を「ｔ３ＲＮｒａＩ」「ｔＡ」「ｔｃＤ＠Ｉｎ」「ｔ３ＲｓＥ」「ｋＳ＠ｎＰ」「ＤＥｎＩｍｉｄｉ＠」「ｔｃｌｉｒａＩ」「ｔ＠ｇＥｎ」という８つの音片波形に分割する。

ステップＳ３０４で、探索部１４は、全ての音片波形の中で、波形が一致又は類似する音片波形を探索する。例えば、探索部１４は、音声波形４から分割された音片波形２０１と、音声波形６から分割された音片波形２１１とが、波形が一致又は類似する音片波形であると判定したとする。音声波形４から分割された音片波形２０２と、音声波形５から分割された音片波形２０６と、音声波形６から分割された音片波形２１２とが、波形が一致又は類似する音片波形であると判定したとする。音声波形４から分割された音片波形２０３と、音声波形５から分割された音片波形２０７とが、波形が一致又は類似する音片波形であると判定したとする。

音声波形４から分割された音片波形２０４と、音声波形５から分割された音片波形２０８とが、波形が一致又は類似する音片波形であると判定したとする。音声波形４から分割された音片波形２０５と、音声波形６から分割された音片波形２１５とが、波形が一致又は類似する音片波形であると判定したとする。音声波形５から分割された音片波形２０９と、音声波形６から分割された音片波形２１３とが、波形が一致又は類似する音片波形であると判定したとする。音声波形５から分割された音片波形２１０と、音声波形６から分割された音片波形２１４とが、波形が一致又は類似する音片波形であると判定したとする。

ステップＳ３０５で、探索部１４は、波形が一致又は類似する少なくとも２つの音片波形から、一の音片波形を選択し、他の音片波形を破棄する。例えば、探索部１４は、音片波形２０１と音片波形２１１の第４の代表音片波形として音片波形２０１を選択する。同様にして、探索部１４は、音片波形２０２と音片波形２０６と音片波形２１２の第５の代表音片波形として音片波形２０２を選択する。音片波形２０３と音片波形２０７の第６の代表音片波形として音片波形２０３を選択する。音片波形２０４と音片波形２０８の第７の代表音片波形として音片波形２０４を選択する。音片波形２０５と音片波形２１５の第８の代表音片波形として音片波形２０５を選択する。音片波形２０９と音片波形２１３の第９の代表音片波形として音片波形２０９を選択する。音片波形２１０と音片波形２１４の第１０の代表音片波形として音片波形２１０を選択する。

探索部１４は、波形が一致又は類似する少なくとも２つの音片波形のうちで、代表音片波形に選択しなかった音片波形を破棄する。例えば、探索部１４は、第４の代表音片波形に選択しなかった音片波形２１１を破棄する。第５の代表音片波形に選択しなかった音片波形２０６と音片波形２１２とを破棄する。第６の代表音片波形に選択しなかった音片波形２０７を破棄する。第７の代表音片波形に選択しなかった音片波形２０８を破棄する。第８の代表音片波形に選択しなかった音片波形２１５を破棄する。第９の代表音片波形に選択しなかった音片波形２１３を破棄する。第１０の代表音片波形に選択しなかった音片波形２１４を破棄する。

ステップＳ３０６で、探索部１４は、破棄せずに残った音片波形を記憶部５０に記憶させ、処理を終了する。

このように、本実施の形態では、英語の場合も同様の処理を行なうことができる。

本実施の形態において、探索部１４は、代表音片波形を音片波形の中から選択したが、これに限られない。全ての音片波形の中に、波形が類似する少なくとも２つの音片波形がある場合、探索部１４は、少なくとも２つの音片波形を基にして新たな代表音片波形を作成してもよい。例えば、探索部１４は、各々の音片波形の韻律情報のうち、継続時間及び基本周波数系列を、各々重み付け平均した音片波形を新たに生成してもよい。すなわち、探索部１４は、一致又は類似する音片波形の韻律情報に対し、各々の継続時間及び基本周波数の値を重み付け平均した平均韻律情報を求め、この平均韻律情報から規則音声合成方式等の音声合成手段によって、音片波形を再合成することで代表音片波形を生成してもよい。

（変形例１）
本実施の形態で、探索部１４は、波形が一致又は類似する音片波形を探索したが、本例において、探索部１４は、韻律情報が一致又は類似する音片波形を探索する。

図１２は、本例における音声編集装置１の処理を表すフローチャートである。本例では、図３におけるステップＳ３０４がステップＳ３０４Ａに置換されている。探索部１４は、全ての音片波形の中に、韻律情報が一致又は類似する音片波形があるか否かを判定する（Ｓ３０４Ａ）。韻律情報が一致するとは、比較する音片波形の音素系列と、各音素の継続時間と、各音素のＦ０系列とが全て一致することである。韻律情報が類似するとは、比較する音片波形の音素系列は同じであり、対応する各音素の継続時間が所定の誤差以内であり、対応する各音素のＦ０系列の平均が所定の誤差以内であることである。

上述した、「波形が一致又は類似する」という条件を条件１とし、「韻律情報が一致又は類似する」という条件を条件２とする。条件１が満たされれば、条件２も満たされるが、逆は成立しない。

すなわち、探索部１４は条件２を用いて判定することにより、条件１を用いて判定する場合に比べて、記憶部５０に記憶させる音片の総データ量を削減することができる。

（変形例２）
本変形例において、探索部１４は、音韻情報が一致する音片波形を探索する。

図１３は、本例における音声編集装置１の処理を表すフローチャートである。本例では、図３におけるステップＳ３０４がステップＳ３０４Ｂに置換されている。探索部１４は、全ての音片波形の中に、音韻情報が一致する音片波形があるか否かを判定する（Ｓ３０４Ｂ）。音韻情報が一致するとは、比較する音片波形の音素系列と、アクセント音素が一致することである。

上述した、「音韻情報が一致する」という条件を条件３とする。条件２が満たされれば、条件３も満たされるが、逆は成立しない。

すなわち、探索部１４は条件３を用いて判定することにより、条件１又は条件２を用いて判定する場合に比べて、記憶部５０に記憶させる音片の総データ量を削減することができる。

なお、音韻情報は、音素系列やアクセント音素以外にも、例えばアクセント句境界の情報を含んでいてもよい。アクセント句境界とは、隣接する、一のアクセントを有する句の境界を表す。条件３に、アクセント句境界が一致するという条件を含めてもよい。

（変形例３）
上述した変形例では、生成部１２が生成した音声波形を分割部１３が音片波形に分割したが、これに限定されない。例えば以下のようにしてもよい。

生成部１２は、入力されたテキストから、テキストを音素で表した音素系列の情報を含む音韻情報と、各々の音素の継続時間の情報及び基本周波数の時間変化の情報を含む韻律情報とを生成する。分割部１３は、音素系列と、継続時間に基づいて、韻律情報を韻律情報の素片である音片情報に分割する。例えば、無声破裂音やポーズ音素の中間の時刻で分割してもよい。探索部１４は、分割されてできた複数の音片情報の中で、少なくとも音素系列と継続時間と基本周波数の時間変化のいずれかが一致又は類似する、少なくとも２つの前記音片情報を探索する。探索部１４は、前記音片情報を代表する代表音片情報に対応する波形である音片波形を生成する。すなわち、探索部１４は、代表音片情報に含まれる音韻情報と韻律情報に基づいて、規則音声合成方式などの音声合成方法によって、合成音声波形を生成することで、対応する音片波形を生成する。探索部１４は、音片波形を記憶部５０に記憶する。

（第２の実施の形態）
第２の実施の形態に係る音声編集装置（不図示）は、最も厳しい条件（条件１）を用いて、特徴が一致又は類似する音片波形を探索する。探索後に残った音片波形のデータ量の合計が所定値以下となれば、音片波形を記憶部５０に記憶させる。所定の所定値以下とならなければ、次に厳しい条件（条件２）を用いて特徴が一致又は類似する音片波形を探索する。これを繰り返し、記憶部５０に記憶させる音片波形のデータ量を制限する。本実施の形態では、探索部１４の処理が第１の実施の形態と異なる。

図１４は、本実施の形態に係る音声編集装置の処理を表すフローチャートである。ステップＳ３０１〜ステップＳ３０３とステップＳ３０５とステップＳ３０６については、第１の実施の形態の場合と同様である。以下説明する。

分割部１３から全ての音片波形を受け取った後、探索部１４は、条件ｎ（ｎ＝１，２，・・・，Ｎ）（本実施の形態では、Ｎ＝３である）の初期値をｎ＝１とする（Ｓ１０００）。探索部１４は、条件ｎを満たす音片波形があるか否かを判定する（Ｓ１００１）。第１の実施の形態の場合と同様に、条件ｎは、条件ｎを満たせば、条件（ｎ＋１）以降の条件も満たされるものとする。

ステップＳ１００１における判定がＹＥＳの場合、探索部１４は、ステップＳ３０５の処理を行ない、残った音片波形のデータ量の合計が所定量以下であるか否かを判定する（Ｓ１００２）。ステップＳ１００１における判定がＮＯの場合、探索部１４は、ステップＳ３０５の処理を行なわず、ステップＳ１００２に遷移する。

ステップＳ１００２における判定がＹＥＳの場合、探索部１４は、破棄せずに残った音片波形を記憶部５０に記憶させ（Ｓ３０６）、処理を終了する。ステップＳ１００２における判定がＮＯの場合、探索部１４は、ｎ＝Ｎであるか否かを判定する（Ｓ１００３）。

ステップＳ１００３における判定がＹＥＳの場合、探索部１４は、残った音片波形を記憶部５０に記憶させ（Ｓ３０６）、処理を終了する。ステップＳ１００３における判定がＹＥＳの場合、探索部１４は、ｎに１を足し（Ｓ１００４）、ステップＳ１００１に遷移する。

本実施の形態により、記憶部５０に記憶させる音片波形のデータ量を段階的に制限することができる。

（第３の実施の形態）
第３の実施の形態に係る音声合成装置３は、上述した実施の形態において、記憶部５０に記憶された音片波形を用いて、音声を合成する音声合成装置である。

図１５は、音声合成装置３の構成を表すブロック図である。音声合成装置３は、記憶部５０と、入力部３１と、合成部３２と、出力部３３とを備える。記憶部５０は、上述した実施の形態で生成した音片波形及びその音韻情報を記憶している。入力部３１には、ユーザからテキストが入力される。合成部３２は、テキストの発音データを生成する。発音データとは、テキストの音韻情報のデータ列を含む。合成部３２は、発音データと、記憶部５０にある音韻情報とを照らし合わせ、発音データに対応する音片波形を組み合わせて音声波形を合成する。出力部３３は、音声波形を音声に変換して出力する。合成部３２は、中央演算処理装置（ＣＰＵ）及びＣＰＵが用いるメモリにより実現されてよい。

本実施の形態により、利用効率の良い音片を用いた音声合成装置を提供することができる。

１音声編集装置
３音声合成装置
１１、３１入力部
１２生成部
１３分割部
１４探索部
３２合成部
３３出力部
５０記憶部

Claims

入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、
前記音声情報から規則音声合成を用いて音声波形を生成し、
前記音韻情報に基づいて前記音声波形を複数の音片波形に分割し、
複数の前記音片波形の中で、波形がそれぞれ一致又は類似する２つ以上の前記音片波形を探索し、
探索した２つ以上の音片波形から代表音片波形を選択し、
前記代表音片波形を記憶部に記憶する、
音声編集方法。
入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、
前記音声情報から規則音声合成を用いて音声波形を生成し、
前記音韻情報に基づいて前記音声波形を複数の音片波形に分割し、
複数の前記音片波形の中で、対応する前記音韻情報がそれぞれ一致し、かつ、対応する前記韻律情報がそれぞれ一致又は類似する２つ以上の前記音片波形を探索し、
探索した２つ以上の前記音片波形から代表音片波形を選択し、
前記代表音片波形を記憶部に記憶する、
音声編集方法。
前記音片波形に分割する際には、
前記音韻情報により、無声音区間またはポーズ区間と判定され、かつ前記音声波形の振幅の絶対値が所定の閾値未満となる時刻で、前記音声情報を複数の前記音片波形に分割する、請求項１または請求項２記載の音声編集方法。
入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、
前記音韻情報に基づいて前記音声情報を複数の音片情報に分割し、
複数の前記音片情報の中で、前記音韻情報がそれぞれ一致し、かつ、前記韻律情報がそれぞれ一致又は類似する２つ以上の前記音片情報を探索し、
探索した２つ以上の前記音片情報を代表する代表音片情報を生成し、
前記代表音片情報に対応する代表音片波形を、規則音声合成を用いて生成し、
前記代表音片波形を記憶部に記憶する、
音声編集方法。
前記代表音片情報を生成する際には、
探索した２つ以上の前記音片情報の前記韻律情報を平均化することにより前記代表音片情報の前記韻律情報を生成する、
請求項４記載の音声編集方法。
入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、前記音声情報から規則音声合成を用いて音声波形を生成する生成部と、
前記音韻情報に基づいて前記音声波形を複数の音片波形に分割する分割部と、
複数の前記音片波形の中で、波形がそれぞれ一致又は類似する２つ以上の前記音片波形を探索し、探索した２つ以上の音片波形から代表音片波形を選択し、前記代表音片波形を記憶部に記憶する探索部と
を備える、音声編集装置。
入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、前記音声情報から規則音声合成を用いて音声波形を生成する生成部と、
前記音韻情報に基づいて前記音声波形を複数の音片波形に分割する分割部と、
複数の前記音片波形の中で、対応する前記音韻情報がそれぞれ一致し、かつ、対応する前記韻律情報がそれぞれ一致又は類似する２つ以上の前記音片波形を探索し、探索した２つ以上の前記音片波形から代表音片波形を選択し、前記代表音片波形を記憶部に記憶する探索部と
を備える、音声編集装置。
入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成する生成部と、
前記音韻情報に基づいて前記音声情報を複数の音片情報に分割する分割部と、
複数の前記音片情報の中で、前記音韻情報がそれぞれ一致し、かつ、前記韻律情報がそれぞれ一致又は類似する２つ以上の前記音片情報を探索し、探索した２つ以上の前記音片情報を代表する代表音片情報を生成し、前記代表音片情報に対応する代表音片波形を、規則音声合成を用いて生成し、前記代表音片波形を記憶部に記憶する探索部と
を備える、音声編集装置。