JP5434587B2

JP5434587B2 - 音声合成装置及び方法とプログラム

Info

Publication number: JP5434587B2
Application number: JP2009500164A
Authority: JP
Inventors: 正徳加藤; 玲史近藤; 康行三井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-02-20
Filing date: 2008-02-15
Publication date: 2014-03-05
Anticipated expiration: 2028-02-15
Also published as: WO2008102710A1; CN101617359A; US8630857B2; CN101617359B; JPWO2008102710A1; US20100076768A1

Description

（関連出願）本願は、先の日本特許出願２００７−０３９６２２号（２００７年２月２０日出願）の優先権を主張するものであり、前記先の出願の全記載内容は、本書に引用をもって繰込み記載されているものとみなされる。
本発明は、音声合成技術に関し、特に、テキストから音声を合成するための音声合成装置及び方法とプログラムに関する。

従来から、テキスト文を解析し、その文が示す音声情報から規則合成により合成音声を生成する音声合成装置が種々開発されてきた。

図９は、一般的な規則合成型の音声合成装置の一例の構成を示す図である。このような構成を有する音声合成装置の構成と動作の詳細については、例えば非特許文献１〜３及び特許文献１と２の記載が参照される。

図９を参照すると、この音声合成装置は、言語処理部１０、韻律生成部１１、素片選択部１６、音声素片情報記憶部１５、韻律制御部１８、波形接続部１９を有する。

音声素片情報記憶部１５は、音声合成単位に分割された元音声波形（以下、「音声素片」という）を記憶する音声素片記憶部１５２と、各音声素片の属性情報が記憶された付属情報記憶部１５１を有する。

ここで、元音声波形とは、合成音声の生成に利用するために予め収集された自然音声波形のことである。

音声素片の属性情報とは、各音声素片が発声された音素環境や、ピッチ周波数、振幅、継続時間情報等の音韻情報と韻律情報のことである。

図９の音声合成装置では、音声合成単位には、音素、ＣＶ、ＣＶＣ、ＶＣＶ（ただし、Ｖは母音、Ｃは子音）などが用いられることが多い。音声素片の長さや合成単位の詳細については、非特許文献１と３に記述されている。

言語処理部１０は、入力されたテキスト文に対して形態素解析や構文解析、読み付け等の分析を行い、音素記号などの「読み」を表す記号列と、形態素の品詞、活用、アクセント型などを言語処理結果として、韻律生成部１１と素片選択部１６に出力する。

韻律生成部１１は、言語処理部１０から出力された言語処理結果を基に、合成音声の韻律情報（ピッチ、時間長、パワーなどに関する情報）を生成し、生成した韻律情報を素片選択部１６と韻律制御部１８に出力する。

素片選択部１６は、言語処理結果と生成された韻律情報に関して適合度が高い音声素片を、音声素片情報記憶部１５に記憶されている音声素片の中から選択し、選択した音声素片の付属情報と併せて韻律制御部１８に出力する。

韻律制御部１８は、選択された音声素片から、韻律生成部１１で生成した韻律を有する波形を生成し、波形接続部１９に出力する。

波形接続部１９は、韻律制御部１８から出力された音声素片を接続し、合成音声として出力する。

素片選択部１６は、入力された言語処理結果と韻律情報から、目標合成音声の特徴を表す情報（「目標素片環境」という）を所定の合成単位ごとに求める。

目標素片環境に含まれる情報には、
該当・先行・後続の各音素名、
ストレスの有無、
アクセント核からの距離、
合成単位の代表点・始点・終点におけるピッチ周波数やパワー、
単位の継続時間長
が挙げられる。

次に、目標素片環境が与えられると、素片選択部１６は、音声素片情報記憶部１５の中から、目標素片環境により指定される特定の情報（主に該当音素）に合致する音声素片を複数選択する。選択された音声素片は、合成に用いる音声素片の候補となる。

素片選択部１６は、選択された候補素片に対して、合成に用いる音声素片としての適切度を示す指標である「コスト」を計算する。高音質な合成音声を生成することを目標としているため、コストが小さい、即ち適切度が高いと、合成音の音質は高くなる。従って、コストは、合成音声の音質の劣化度を推定するための指標であると言える。

素片選択部１６で計算されるコストには、単位コストと接続コストがある。

単位コストは、候補素片を目標素片環境のもとで用いることで生じる推定音質劣化度を表すもので、候補素片の素片環境と目標素片環境との類似度を基に算出される。

一方、接続コストは、接続する音声素片間の素片環境が不連続であることによって生じる推定音質劣化度を表すもので、隣接候補素片同士の素片環境の親和度を基に算出される。

単位コスト及び接続コストの計算方法は、これまで各種提案されている。

一般に、単位コストの計算には、目標素片環境に含まれる情報が用いられる。

接続コストには、素片の接続境界におけるピッチ周波数、ケプストラム、パワー、及びこれらのΔ量（単位時間あたりの変化量）が用いられる。

素片選択部１６は、接続コストと単位コストを素片ごとに計算したのちに、接続コストと単位コストの両者が最小となる音声素片を各合成単位に対して一意に求める。

コスト最小化により求めた素片は、候補素片の中から音声の合成に最も適した素片として選択されたことから、「最適素片」と呼ばれる。

素片選択部１６は、全合成単位を対象に、それぞれの最適素片を求めると、最終的に、最適素片の系列（最適素片系列）を素片選択結果として、韻律制御部１８に出力する。

素片選択部１６では、上記のように、単位コストが小さい音声素片が選択される、すなわち目標韻律（目標素片環境に含まれる韻律情報）に近い韻律を有する音声素片が選択されることになるが、目標韻律と同等の韻律を有する音声素片が選択されることは希である。

従って、一般的には、素片選択後に、韻律制御部１８において、音声素片波形に処理を加えて、音声素片の韻律が目標韻律に一致するように補正する。

音声素片の韻律を補正する代表的な方法としては、非特許文献４に記載されているＰＳＯＬＡ（pitch-synchronous-overlap-add）方式が挙げられる。

但し、韻律の補正処理は、合成音声の低下を招く要因となる。特に、ピッチ周波数の変更が音質低下に与える影響は大きく、変更量が大きければ音質低下度も大きくなる。

このような問題に対して、できるだけ少ない韻律変更量で合成する方式の開発が行われている。例えば、非特許文献５と６のように、膨大な量の音声素片を準備して、音声素片の韻律の補正を全く行わない方式が提案されている。

このような方式では、素片の量が膨大なので、ある入力テキストに対しては、目標韻律との類似度が十分高い音声素片が選択され、韻律を補正しなくても、自然な韻律を有する合成音声が生成される。

しかし、常に自然な韻律を有する合成音声を生成することは難しく、膨大な記憶容量を要求されるなどの問題もある。

他には、非特許文献７では、ピッチ周波数の変更量に上限値を設定したり、様々なピッチ周波数を有する素片を収録するなどのアプローチが取られている。

特開２００５−９１５５１号公報特開２００６−８４８５４号公報 Huang, Acero, Hon: "Spoken Language Processing", Prentice Hall, pp. 689-836, 2001. 石川: "音声合成のための韻律制御の基礎", 電子情報通信学会技術研究報告, Vol. 100, No. 392, pp. 27-34, 2000. 阿部: "音声合成のための合成単位の基礎", 電子情報通信学会技術研究報告, Vol. 100, No. 392, pp. 35-42, 2000. Moulines, Charapentier: "Pitch-Synchronous Waveform Processing Techniques For Text-To-Speech Synthesis Using Diphones", Speech Communication 9, pp.453-467, 1990. Segi, Takagi, Ito: "A CONCATENATIVE SPEECH SYNTHESIS METHOD USING CONTEXT DEPENDENT PHONEME SEQUENCES WITH VARIABLE LENGTH AS SEARCH UNITS", Proceedings of 5th ISCA Speech Synthesis Workshop, pp. 115-120, 2004 Kawai, Toda, Ni, Tsuzaki, Tokuda: "XIMERA: A NEW TTS FROM ATR BASED ON CORPUS-BASED TECHNOLOGIES", Proceedings of 5th ISCA Speech Synthesis Workshop, pp. 179-184, 2004 小山、吉岡、高橋、中村: "ピッチ変更幅を抑えたＶＣＶ波形素片生成機構をもつ高品質波形規則合成方式",電子情報通信学会論文誌, D-II, Vol.J83-D-II, No.11, pp.2264-2275, 2000

なお、上記特許文献１、２、非特許文献１乃至７の全開示内容はその引用をもって本書に繰込み記載する。以下に本発明による関連技術の分析を与える。
上記した非特許文献７等に記載された音声合成装置は、下記記載の問題点を有している。

合成音声の音質が不均一になりやすい、ということである。

非特許文献７のように、韻律制御を行うことで、合成音声の韻律の自然性向上を目指す方式では、韻律制御に伴う音質劣化を低減するため、目標韻律との類似度が高い韻律を有する音声素片、即ち要求される韻律変更量が少ない音声素片を選択する方針が取られてきた。このため、同一文内（最適素片系列内）に、ある音声素片の韻律は目標韻律との類似度が高く、別の音声素片の韻律は目標韻律との類似度が低いなどの状態、即ち、韻律類似度が異なる音声素片が混在するという状態が生じていた。

この状況について、韻律情報を基本周波数に限定して図１０を用いて説明する。なお、図１０は、上記問題点を説明するために、本発明者等が作成したものである。

図１０（ａ）は、目標素片環境と候補素片のピッチパタン（基本周波数の概形）の例を示した図である。図１０（ａ）において、太い実線が目標ピッチパタン、ｕ１からｕ７の細い実線が各候補素片のピッチパタン、Ｔ１からＴ５が合成単位の境界時刻を表す。

関連技術では、各合成単位区間で目標ピッチパタンに最も近い候補素片、図１０（ａ）の例では、ｕ１，ｕ２，ｕ３，ｕ４，ｕ５が最適素片系列に選択される。

図１０（ｂ）には、ｕ１からｕ５が選択されたときの韻律変更量（ここでは、基本周波数の変更量）を各合成単位区間ごとに示してある。

目標ピッチパタンと候補素片ピッチパタンとの差分が韻律変更量となるので、図１０（ｂ）のようになる。図１０（ｂ）に示す通り、Ｔ０からＴ５までを通して韻律変更量が不揃いになっていることが分かる。

このように同一文内で韻律変更量が不揃いになると、合成音声の音質の不均一感（ある部分は高音質だが、ある部分が低音質）がもたらされることになる。

この音質の不均一性が、合成音声の総合的な印象を損ねる原因となっている。特に、音質の不均一性が大きいと、常に同等の音質で低音質である場合よりも、合成音声に対する印象は悪くなる。
したがって、本発明は、上記課題に鑑みて創案されたものであって、その主たる目的は、合成音声の音質の不均一感を解消する装置、方法、プログラムを提供することにある。

本発明の第一のアスペクトに係る音声合成装置は、目標素片環境に適した素片を候補素片の中から選択する素片選択部を有する音声合成装置であって、前記素片選択部は、前記候補素片の韻律変更量を基に定めた選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を、前記選択の対象から除外する。本発明において、前記素片選択部は、前記目標素片環境と前記候補素片の韻律情報を基に、各候補素片の韻律変更量を計算する韻律変更量計算部と、前記韻律変更量を基に、選択基準を計算する選択基準計算部と、前記韻律変更量と前記選択基準とを基に、選択候補の絞り込みを行う候補選択部と、前記絞り込まれた候補素片の中から、最適素片を検索する最適素片検索部と、を備える。

上記の第一の発明によれば、候補素片の韻律変更量を計算し、該韻律変更量から求めた選択基準を基に、選択基準と韻律変動量との大小関係が予め定められた所定の関係にある（例えば相対的に韻律変更量が特に小さい）音声素片を候補から外すことで、選択される可能性が高い音声素片の韻律変更量の分散を小さくする。その結果、韻律変更量が均一化されるので、韻律制御による音質低下度を均一化し、音質の不均一感を解消することが可能になる。

本発明の第二のアスペクトに係る音声合成装置は、目標素片環境に適した素片を候補素片の中から選択する素片選択部を有する音声合成装置であって、
前記素片選択部は、前記目標素片環境と前記候補素片の素片環境を基に、最適素片を検索する最適素片検索部と、
前記目標素片環境と前記候補素片の韻律情報を基に、各候補素片の韻律変更量を計算する韻律変更量計算部と、
前記韻律変更量を基に選択基準を計算する選択基準計算部と、
前記最適素片の中に前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片が存在した場合には、最適素片検索の再実行が必要であると判定する判定部と、
を有し、前記判定部は、最適素片検索の再実行が必要であると判定した場合、前記最適素片検索部が最適素片の再検索を実行する。

本発明において、前記韻律変更量計算部は、前記最適素片のみを対象に韻律変更量を計算する。

本発明において、前記最適素片検索部は、前記選択基準を満足しない素片を候補から外して、最適素片の再検索を実行する。

本発明の第三のアスペクトに係る音声合成装置は、目標素片環境に適した素片を候補素片の中から選択する素片選択部を有する音声合成装置であって、
前記素片選択部は、前記目標素片環境と前記候補素片の韻律情報を基に、各候補素片の韻律変更量を計算する韻律変更量計算部と、
前記韻律変更量から選択基準を計算する選択基準計算部と、
前記目標素片環境と前記候補素片の素片環境を基に、各候補素片の単位コストを計算する単位コスト計算部と、
前記単位コストを基に候補素片の中から最適素片を検索する最適素片検索部と、
を有し、
前記単位コスト計算部は、
前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片の単位コストに対してペナルティを付与する。

本発明において、前記単位コスト計算部は、
前記韻律変更量と前記選択基準の相対関係に応じて前記ペナルティを決定する。

本発明において、前記選択基準計算部は、前記韻律変更量の平均値を基に選択基準を定める。

本発明において、前記選択基準計算部は、前記韻律変更量を時間方向に平滑化した値を基に選択基準を定める。

本発明に係る方法は、目標素片環境に適した素片を候補素片の中から選択する段階を有する音声合成方法であって、
前記素片を選択する段階は、
候補素片の韻律変更量を基に定めた選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を選択対象から除外する。

本発明の別のアスペクトに係る方法は、目標素片環境に適した素片を候補素片の中から選択する段階を有する音声合成方法であって、
前記素片を選択する段階は、
前記目標素片環境と前記候補素片の韻律情報を基に各候補素片の韻律変更量を計算する段階と、
前記韻律変更量を基に選択基準を計算する段階と、
前記韻律変更量と前記選択基準を基に選択候補の絞り込みを行う段階と、
前記絞り込まれた候補素片の中から最適素片を検索する段階と、
を有し、
前記選択候補の絞込みを行う段階は、前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を、最適素片の検索対象から除外する。

本発明において、前記選択基準を計算する段階は、
目標素片環境と候補素片の素片環境を基に各候補素片のコストを計算する段階を有し、
前記コストに基づいて選択基準を計算する。

本発明の他のアスペクトに係る方法は、目標素片環境に適した素片を候補素片の中から選択する素片選択部を有する音声合成方法であって、
前記素片を選択する段階は、
前記目標素片環境と前記候補素片の素片環境を基に、最適素片を検索する段階と、
前記目標素片環境と前記候補素片の韻律情報を基に、各候補素片の韻律変更量を計算する段階と、
前記韻律変更量を基に選択基準を計算する段階と、
前記最適素片の中に前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片が存在した場合には、最適素片検索の再実行が必要であると判定する段階と、
を有し、
前記判定する段階が最適素片検索の再実行が必要であると判定した場合、前記最適素片を検索する段階が最適素片の再検索を実行する。

本発明において、前記韻律変更量を計算する段階は、
前記最適素片のみを対象に韻律変更量を計算する。
本発明において、前記最適素片を検索する段階は、
前記選択基準を満足しない素片を候補から外して、最適素片の再検索を実行する。

本発明の他のアスペクトに係る方法は、目標素片環境に適した素片を候補素片の中から選択する段階を有する音声合成方法であって、
前記素片を選択する段階は、
前記目標素片環境と前記候補素片の韻律情報を基に、各候補素片の韻律変更量を計算する段階と、
前記韻律変更量から選択基準を計算する段階と、
前記目標素片環境と前記候補素片の素片環境を基に、各候補素片の単位コストを計算する段階と、
前記単位コストを基に候補素片の中から最適素片を検索する段階と、
を有し、
前記単位コストを計算する段階が、前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片の単位コストに対してペナルティを付与する。

本発明において、前記単位コストを計算する段階は、前記韻律変更量と前記選択基準の相対関係に応じて前記ペナルティを決定する。

本発明において、前記選択基準を計算する段階は、前記韻律変更量の平均値を基に選択基準を定める。

本発明において、前記選択基準を計算する段階は、前記韻律変更量を時間方向に平滑化した値を基に選択基準を定める。

本発明の他のアスペクトに係るコンピュータ・プログラムは、
音声合成装置を構成するコンピュータに、目標素片環境に適した素片を候補素片の中から選択する処理を実行させるプログラムであって、
前記素片を選択する処理は、
候補素片の韻律変更量を基に定めた選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を選択対象から除外する処理、
を含む。

本発明の他のアスペクトに係るコンピュータ・プログラムは、
音声合成装置を構成するコンピュータに、目標素片環境に適した素片を候補素片の中から選択する処理を実行させるプログラムであって、
前記素片を選択する処理は、
前記目標素片環境と前記候補素片の韻律情報を基に各候補素片の韻律変更量を計算する処理と、
前記韻律変更量を基に選択基準を計算する処理と、
前記韻律変更量と前記選択基準を基に選択候補の絞り込みを行う処理と、
前記絞り込まれた候補素片の中から最適素片を検索する処理と、
を含み、
前記選択候補の絞り込みを行う処理は、前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を、最適素片の検索対象から除外する処理を含む。

本発明に係るコンピュータ・プログラムにおいて、前記選択基準を計算する処理が、
目標素片環境と候補素片の素片環境を基に各候補素片のコストを計算する処理を含み、
前記コストに基づいて選択基準を計算する処理を含む。

本発明の他のアスペクトに係るコンピュータ・プログラムは、
音声合成装置を構成するコンピュータに、目標素片環境に適した素片を候補素片の中から選択する処理を実行させるプログラムであって、
前記素片を選択する処理は、
前記目標素片環境と前記候補素片の素片環境を基に、最適素片を検索する処理と、
前記目標素片環境と前記候補素片の韻律情報を基に、各候補素片の韻律変更量を計算する処理と、
前記韻律変更量を基に選択基準を計算する処理と、
前記最適素片の中に前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片が存在した場合には、最適素片検索の再実行が必要であると判定する処理と、を含み、
前記判定する処理は、最適素片検索の再実行が必要であると判定した場合、前記最適素片を検索する処理が最適素片の再検索を実行する処理を含む。

本発明に係るコンピュータ・プログラムにおいて、前記韻律変更量を計算する処理は、
前記最適素片のみを対象に韻律変更量を計算する処理を含む。

本発明に係るコンピュータ・プログラムにおいて、前記最適素片を検索する処理は、
前記選択基準を満足しない素片を候補から外して、最適素片の再検索を実行する処理を含む。

本発明の他のアスペクトに係るコンピュータ・プログラムは、
音声合成装置を構成するコンピュータに、目標素片環境に適した素片を候補素片の中から選択する処理を実行させるプログラムであって、
前記素片を選択する処理は、
前記目標素片環境と前記候補素片の韻律情報を基に、各候補素片の韻律変更量を計算する処理と、
前記韻律変更量から選択基準を計算する処理と、
前記目標素片環境と前記候補素片の素片環境を基に、各候補素片の単位コストを計算する処理と、
前記単位コストを基に候補素片の中から最適素片を検索する処理と、
を含み、
前記単位コストを計算する処理が、前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片の単位コストに対してペナルティを付与する処理を含む。

本発明に係るコンピュータ・プログラムにおいて、前記単位コストを計算する処理は、
前記韻律変更量と前記選択基準の相対関係に応じて前記ペナルティを決定する処理を含む。

本発明に係るコンピュータ・プログラムにおいて、前記選択基準を計算する処理が、
前記韻律変更量の平均値を基に選択基準を定める処理を含む。

本発明に係るコンピュータ・プログラムにおいて、前記選択基準を計算する処理が、
前記韻律変更量を時間方向に平滑化した値を基に選択基準を定める処理を含む。

本発明によれば、素片選択部において韻律変更量が均一になるように、音声素片が選択されるため、韻律制御による音質低下度が均一化され、音質の不均一感が解消される。

本発明の実施例１の構成を示す図である。本発明の実施例１の動作を説明するための流れ図である。本発明の第２の実施例の構成を示す図である。本発明の第２の実施例の動作を説明するための流れ図である。本発明の第３の実施例の構成を示す図である。本発明の第３の実施例の動作を説明するための流れ図である。図５に示す単位コスト補正部で用いられる非線形関数の図である。図５に示す単位コスト補正部で用いられる非線形関数の図である。一般的な音声合成装置の一構成例を示すブロック図である。関連技術の問題点と解決案を説明するための図である。

符号の説明

１０言語処理部
１１韻律生成部
１２単位コスト計算部
１３接続コスト計算部
１４最適素片検索部
１５音声素片情報記憶部
１５１付属情報記憶部
１５２音声素片記憶部
１６、１６１、１６２、１６３素片選択部
１７波形生成部
１８韻律制御部
１９波形接続部
２０、３１韻律変更量計算部
２１、３２選択基準計算部
２２、３０候補選択部
３３判定部
４０単位コスト補正部

本発明の原理を説明する。本発明は、韻律変更量が均一になるように、音声素片の選択が行われるようにしたものである。すなわち、候補素片の韻律変更量を計算し、該韻律変更量から求めた選択基準を基に、相対的に、韻律変更量が、特に小さい音声素片を、候補から外すことで、選択される可能性が高い音声素片の韻律変更量の分散を小さくしている。これにより、韻律変更量の均一化が図られることになり、韻律制御による音質低下度を均一化し、音質の不均一感を解消することが可能になる。例えば図１０（ａ）に示した例に本発明を適用した場合、Ｔ１〜Ｔ２の区間では、ｕ２の代わりにｕ６が、Ｔ３〜Ｔ４の区間では、ｕ４の代わりに、ｕ７が選択されるため、図１０（ｃ）に示すように、韻律変更量が均一化される。以下実施例に即して説明する。

＜実施例１＞
図１は、本発明の第１の実施例の構成を示す図である。図２は、本発明の第１の実施例の動作を説明するための流れ図である。

図１を参照すると、本発明の第１の実施例は、関連技術の構成を示した図９とは、素片選択部が相違している。すなわち、図９の素片選択部１６は、図１の素片選択部１６１で置き換えられている。本発明の第１の実施例において、これ以外の構成は、図９と同一である。以下では、相違点を中心に説明し、重複を回避するため、同一部分の説明は適宜省略する。

図１を参照すると、本実施例において、素片選択部１６１は、単位コスト計算部１２、接続コスト計算部１３、最適素片検索部１４、韻律変更量計算部２０、選択基準計算部２１、候補選択部２２を有する。

単位コスト計算部１２は、言語処理部１０から供給された言語処理結果と、韻律生成部１１から供給された韻律情報とから、目標素片環境を、合成単位ごとに生成する（図２のステップＡ１）。

本実施例では、目標素片環境は、
該当・先行・後続の各音素名、
アクセント核からの距離、
合成単位の代表点におけるピッチ周波数とパワー、
単位の継続時間長
で構成されるものと仮定する。

次に、単位コスト計算部１２は、音声素片情報記憶部１５から目標素片環境により指定される特定の情報に合致する音声素片を、候補素片として複数選択する（図２のステップＡ２）。候補素片を選択する際に用いる情報としては、該当素片が代表的であるが、先行音素及び後続音素に関する情報を用いて候補を絞り込む方法も有効である。

そして、単位コスト計算部１２は、音声素片情報記憶部１５から供給される候補素片の素片環境と目標素片環境を基に、各候補素片の単位コストを計算し、韻律変更量計算部２０と候補選択部２２へ出力する（ステップＡ３）。

韻律変更量計算部２０は、韻律生成部１１から供給された韻律情報と、単位コスト計算部１２から供給された各候補素片の単位コストと、音声素片情報記憶部１５から供給された各候補素片の属性情報を基に、各候補素片の韻律変更量を計算し、選択基準計算部２１と候補選択部２２へ伝達する（ステップＡ４）。

韻律変更量は、韻律制御部１８における音声素片の韻律の変更量として定義されるが、実際にはピッチ周波数と継続時間長とパワーの変更量を基に計算される。

なお、パワーの変更は音質に与える影響が少ないことから、本実施例では、パワーの変更量を取り扱わないが、ピッチ周波数や継続時間長と同様に扱うことが可能である。

ピッチ周波数の変更量をΔf、継続時間長の変更量をΔtとすると、韻律変更量Δpは下記式（１）の重みつき和で定義される。

但し、αとβは重み係数である。

ピッチ周波数の方が音質に与える影響が大きいことから、α＞βとすることが多い。

式（１）は、ピッチ周波数や継続時間長などの変更量が、差分で定義される場合に有効である。

この他にも、ΔfとΔtの対数を重み加算した下記のような式（２）で求める方法も有効である。

式（２）は、ピッチ周波数などの変更量が差分ではなく比率で定義される場合に特に有効である。

継続時間長の変更量の計算には、変更前と後の時間長の比や差を基に計算される。

変更前と変更後の継続時間長をそれぞれt及びTとすると、継続時間長の変更量は、比を元に計算した場合は、次式（３）又は（４）で定義される。

tとTの差分を用いた場合には、Δtは例えば次式（５）又は（６）の距離空間として定義される。

ピッチ周波数の変更量も、継続時間長と同様に、変更前と後のピッチ周波数の比率や差分を基に計算される。

但し、継続時間長の場合と異なり、ピッチ周波数は各単位の例えば始点・中点・終点の３点で値が異なることが多いため、複数箇所の値を使って計算した方が、ピッチ周波数の変更量を精度良く計算できる。

N点のピッチ周波数を使ってピッチ周波数の変更量を計算する場合、ピッチ周波数の変更量Δfは次式（７）又は（８）で与えられる。

但し、f_kとF_kは、それぞれ変更前と変更後のピッチ周波数、W_kは重み係数を表す。

式（７）は比率、式（８）は差分をそれぞれ変更量に用いたときの定義である。

式（７）では、比（f_k/F_k）をk=0〜N-1まで乗算した値をΔfとしている。比を元に計算する場合は、対数を使っても良い。すなわち、（７）式において、f_k/F_kはlog(f_k/F_k)で置き換えられる。

始点・中点・終点を使う場合は、N=3となる。

Nが大きいほどピッチ周波数の変更量を精度良く計算できるが、変更量の計算に必要な計算量は多くなる。

各点におけるピッチ周波数の傾きを利用すると、単純にNの値を大きくした場合に比べて少ない計算量で精度良く計算することが可能になる。

以上の定義で与えられた韻律変更量を、単位コストを計算するときに得られる中間値で近似できる場合もある。近似精度を犠牲にしても演算量を削減したい場合には、韻律変更量を計算せずに、単位コストやその計算途中の値で代用する方法も有効である。

選択基準計算部２１では、最終的に最適素片として選択される可能性が高い、即ち単位コストが低い候補素片の韻律変更量を用いて選択基準を計算する。

従って、韻律変更量計算部２０においても、単位コストが低い候補素片のみを対象に韻律変更量を計算すれば、全候補素片を対象とする場合よりも韻律変更量の計算量を削減できる。

選択基準計算部２１は、韻律変更量計算部２０から供給される各候補素片の韻律変更量を基に、候補素片の絞り込みを行うために必要な候補選択基準を計算し、候補選択部２２に供給する（ステップＡ５）。

候補選択部２２の主な目的は、最終的に最適素片（「最適音声素片」ともいう）として選択される可能性が高い候補素片の中から、韻律変更量が、他に比べて、著しく小さい素片を候補から除外することである。

従って、基本的には、各合成単位における優良候補素片(単位コストが低い素片)の韻律変更量を、主な分析対象として分析を行い、選択基準を算出する。

選択基準値は、全合成単位に共通の値とする場合と、合成単位毎に逐次算出された値とする場合が考えられる。また、アクセント句や呼気段落といったある特定の範囲で共通の値とする場合もあり得る。

選択基準の基本的な算出手順は、次のとおりである。

先ず、合成単位ごとに、分析対象を選別し、代表値を求める。

次に、各合成単位の代表値を使って、基準値を計算する。

分析対象を選別せずに代表値を求める方法や、代表値を求めずに、基準値を計算する方法も有効である。

本実施例において用いられる、分析対象の選別、代表値の計算、そして選択基準値の計算について、それぞれ更に詳しく説明する。

＜分析対象の選別＞
選択基準値の算出時に使用する韻律変更量の対象を選別する方法、つまり分析対象を選別する方法は複数存在する。

最も簡単かつ有効な方法は、各合成単位の最良候補素片(単位コストが最も低い素片)の韻律変更量を分析対象とする方法である。

この場合、分析対象は各合成単位に対して１つとなるため、この方法は、同時に、代表値を求める方法ともなっている。

分析対象を各合成単位に対して複数用意する場合には、
・単位コストを基準に分析対象を選別する方法、即ち、単位コストが所定の値を下回る候補素片の韻律変更量を分析対象とする方法や、
・各合成単位において単位コストが低い方からＮ個(優良上位Ｎ個)を分析対象とする方法も有効である。

当然、すべての候補素片の韻律変更量を分析対象としても良い。

＜代表値の計算＞
選択基準を計算する上で必要な各合成単位の代表値を求める方法も、同様に複数存在する。

最も良く用いられる代表値としては、
分析対象の平均値や、中央値、最良値
などの統計量である。

分析対象から、直接、代表値を計算するのではなく、単位コストに応じて定まる重みで重み付けされた分析対象で、代表値を計算する方法も有効である。すなわち、単位コストが低い素片の韻律変更量に大きな重みを与えることにより、選択基準を計算する上で単位コストが低い素片の影響を大きくする。この単位コストに応じた重み付けは、代表値だけでなく、複数の分析対象から選択基準を計算する上でも有効な方法である。

＜選択基準値の計算＞
選択基準値の代表的な算出方法としては、
・平均値を計算する方法と、
・時間方向に平滑化する方法
が挙げられる。

平均値を用いる場合には、基本的には各合成単位の代表値の平均値を選択基準として算出する。

全合成単位に共通の選択基準を求める場合には、全ての合成単位の代表値を、
アクセント句毎に選択基準を求める場合には、各アクセント句を構成する合成単位の代表値を、
それぞれ用いて算出する。

また、代表値ではなく、全ての分析対象の平均値を計算する方法もありうる。

平滑化を用いる場合には、基本的には合成単位毎に選択基準が算出される。時間方向に平滑化された値を計算するので、各合成単位に対して分析対象が複数存在する場合には、各合成単位の代表値を先ず求め、その代表値を時間方向に平滑化する方法が用いられる。

代表的な平滑化手法としては、
・移動平均や、
・一次リーク積分
などがあげられる。

ここで、合成単位がK個で構成される区間(アクセント句、呼気段落など)において、i番目の合成単位の代表値(例えば最良候補素片の韻律変更量)Δq(i)とし、一次リーク積分で平滑化して選択基準が得られると仮定した場合、i番目の合成単位の選択基準L(i)は次式（９）で与えられる。

但し、
γは、0＜γ＜1を満たす時定数であり、
L(-1)=0とする。

候補選択部２２は、
選択基準計算部２１から供給される選択基準値と、
韻律変更量計算部２０から供給される候補素片の韻律変更量と、
単位コスト計算部１２から供給された各候補素片情報と、
その単位コストと、
を基に、候補素片の絞込みを行い、再選択された候補素片の情報とその単位コストを接続コスト計算部１３に伝達する（ステップＡ６）。

基本的には、候補選択部２２において、単位コストが低い候補素片の中から、選択基準を元に、韻律変更量が他に比べて小さい素片が、最適素片の候補から除外される。

最も簡単な方法としては、韻律変更量が選択基準を大きく下回る素片を除外対象とする方法である。

すなわち、i番目の合成単位において、
選択基準をL(i)、
j番目の候補素片の韻律変更量をΔp(i,j)
としたときに、次式（１０）又は（１１）で得られる値ηが、閾値θを下回る場合には、その素片は選択候補から除外される。

但し、W₁,W₂は定数(正の実数)である。

韻律変更量Δp(i,j)が差分を基に定義されている場合は、式（１０）が有効であり、比率を基に定義されている場合には、式（１１）が有効である。

この他にも、選択基準と韻律変更量の比率を基にηを計算する方法なども有効である。

接続コスト計算部１３は、候補選択部２２から供給された候補素片情報と音声素片情報記憶部１５から供給される各音声素片の属性情報を基に、各候補素片の接続コストを計算し、各候補素片の単位コストと接続コストを最適素片検索部１４へ伝達する（ステップＡ７）。

候補選択部２２からは候補素片情報と共に、各素片の単位コストが供給されるが、接続コストの計算には利用しない。

最適素片検索部１４は、接続コスト計算部１３から供給された候補素片情報と、単位コスト、及び接続コストをもとに、単位コストと接続コストの重みつき和が最小となる音声素片系列（最適素片系列）が求められ、韻律制御部１８に伝達される（ステップＡ８）。

最適素片系列は、全ての音声素片の組合せについて、単位コストと接続コストの重みつき和を計算することで探索しても良いが、動的計画法を用いることで効率的に探索することが可能である。

本実施例において、
候補選択部２２における選択基準が予め決まっている場合や、
音声合成装置の外部から入力される場合、すなわち韻律変更量からの算出が不要である場合、
には、選択基準計算部２１は不要となる。この場合、選択基準の計算に必要な演算量を削減できる。

本実施例の音声合成装置によれば、候補素片の韻律変更量を計算し、その韻律変更量から求めた選択基準を基に、相対的に韻律変更量が特に小さい音声素片を、候補から外すことで、選択される可能性が高い音声素片の韻律変更量の分散が小さくなる。

その結果、韻律変更量が均一化されるので、韻律制御による音質低下度を均一化し、音質の不均一感を解消することが可能になる。

＜実施例２＞
図３は、本発明の第２の実施例の構成を示す図である。図４は、本発明の第２の実施例の動作を説明するための流れ図である。前記実施例１の構成を示した図１と、図３を比較すると、本実施例は、図１と以下の点が相違している。
（A）候補選択部２２が候補選択部３０に置き換えられている。
（B）韻律変更量計算部２０が韻律変更量計算部３１に置き換えられている。
（C）判定部３３を新たに備えている。
（D）選択基準計算部２１の代わりに、選択基準計算部３２を備えている。
（E）図１では、接続コスト計算部１３は、候補選択部２２と最適素片検索部１４の間に配置されているが、図３では、接続コスト計算部１３は、単位コスト計算部１２と候補選択部３０との間に配置されており、単位コスト計算部１２からの情報（候補素片の情報と、音声素片情報記憶部からの各音声素片の属性情報）を基に、接続コストを計算する。候補選択部３０は、接続コスト計算部１３からの出力と、判定部３３の判定結果を基に、候補を絞り込む。
（F）また、図１では、最適素片検索部１４は接続コスト計算部１３に接続され、その出力は、波形生成部１７の韻律制御部１８に接続されているが、図３では、最適素片検索部１４は候補選択部３０に接続され、その出力は、判定部３３と韻律変更量計算部３１に接続されている。

これ以外は、図１の前記実施例１と同一である。以下、これらの相違点を中心に詳細な動作を説明する。

韻律変更量計算部３１は、
最適素片検索部１４から出力された最適素片と、
韻律生成部１１から供給された韻律情報と、
音声素片情報記憶部１５から供給された各最適素片の属性情報と、
を基に、各候補素片の韻律変更量を計算し、選択基準計算部３２と判定部３３へ伝達する（ステップＢ１）。

本実施例において、韻律変更量計算部３１は、候補素片ではなく、最適素片のみを韻律変更量計算の対象にしている点が、前記実施例１の韻律変更量計算部２０と相違している。

韻律変更量の計算方法は、前記実施例１の韻律変更量計算部２０で用いられた方法と全く同様の方法が用いられる。

選択基準計算部３２は、韻律変更量計算部３１から供給される各素片の韻律変更量を基に、韻律変更量が著しく小さい素片の存在を判別するために必要な選択基準値を計算し、判定部３３に供給する（ステップＢ２）。

判定部３３は、最適素片の中で、韻律変更量が他に比べて著しく小さい素片が存在するか否かを判定する。

前記実施例１の選択基準計算部２１との相違点は、選択基準値の算出時に使用する韻律変更量の対象が、最適素片に一意に決定されている点である。

その他の選択基準の算出方法などは、前記実施例１の選択基準計算部２１で用いられた方法と全く同様である。

なお、本実施例では、選択基準の計算に、候補素片の中から選ばれた、最適素片の韻律変更量を用いたが、前記実施例１と同様に、候補素片の韻律変更量を用いても良い。この場合、選択基準計算部３２は、最適素片ではなく、候補素片の韻律変更量を計算することになる。

判定部３３は、
最適素片検索部１４から供給された最適素片と、
韻律変更量計算部３１から供給された各素片の韻律変更量と、
選択基準計算部３２から供給された選択基準と、
を基に、
韻律変更量が他に比べて著しく小さい素片が存在するか否かを判定する（ステップＢ３）。

そして、判定部３３は、韻律変更量が他に比べて著しく小さい素片が存在すると判断された場合に、韻律変更量が著しく小さい素片を候補選択部３０へ伝達する。判定部３３は、韻律変更量が他に比べて著しく小さい素片が存在しないと判断した場合には、最適素片を韻律制御部１８に伝達する。

但し、選択基準をクリアする(存在しないと判断される)最適素片が最適素片検索部１４から供給される保証は無いので、再検索回数に上限を設定する必要がある。

従って、再検索回数を記録しておき、再検索回数が所定の上限値を上回った場合には、最適素片を韻律制御部１８に伝達する（ステップＢ４）。

判定方法は、前記実施例１の候補選択部２２において、素片を選択候補から除外する方法と同様である。即ち、韻律変更量が判定基準を大きく下回る素片が存在すれば、韻律変更量が著しく小さい素片が存在すると判断する。

候補選択部３０は、接続コスト計算部１３から供給された候補素片の中から、判定部３３から供給された素片を候補から除外し、除外されなかった候補素片とそれらの単位コスト及び接続コストを最適素片検索部１４に伝達する（ステップＢ５）。

判定部３３からの供給が無い場合、即ち、判定部３３が動作する前は、除外すべき素片が存在しないので、接続コスト計算部１３の出力をそのまま最適素片検索部１４に伝達する。

本実施例によれば、最適素片の選択後に、韻律変更量が他と比べて著しく小さい素片を検出し、検出された素片を候補から除外して再検索を行う。

従って、もし少ない再検索回数で終了できれば、韻律変更量計算の対象となる素片の数が実施例１と比較して少なくなる。即ち、実施例１よりも少ない演算量で、韻律変更量が他と比べて小さい素片を排除することが可能になる。

＜実施例３＞
図５は、本発明の第３の実施例の構成を示す図である。図６は、本発明の第３の実施例の動作を説明するための流れ図である。前記実施例１の構成を示した図１と、図５とを比較すると、図１の候補選択部２２が単位コスト補正部４０に置き換えられている。これ以外の構成は、図１と同一である。

単位コスト補正部４０は、
選択基準計算部２１から供給される選択基準と、
韻律変更量計算部２０から供給される候補素片の韻律変更量と、
単位コスト計算部１２から供給された各候補素片情報と、
その単位コストと、
を基に、韻律変更量が他の素片と比較して小さい候補素片の単位コストを補正し、候補素片とその単位コストを接続コスト計算部１３に伝達する（ステップＣ１）。

実施例１の候補選択部２２との主な相違点は、候補素片から完全に排除するのではなく、候補素片として残したまま単位コストに「ペナルティ」と呼ばれる値を加算し、最適素片検索部１４において、最適素片として選択され難くしている点である。

前記実施例１では、候補選択部２２における閾値θの値やηの計算式を適切に設定することが困難な場合には、適切に候補素片を除外することが出来ない。

特に、閾値θに十分近いが、除外基準を満たさない韻律変更量を有する候補素片が存在すると、最適素片として選択され、韻律変更量の均一化に悪影響を及ぼす可能性がある。

各素片の韻律変更量と選択基準値の差分又は比率の大きさに応じてペナルティを追加すれば、実施例１では、閾値θに十分近いが除外基準を満たさない韻律変更量を有する候補素片も、本実施例では、最適素片に選ばれなくなることが期待できる。

ペナルティの計算方法としては、各素片の韻律変更量と選択基準値との差分を計算し、図７に示すような非線形の関数を用いて、その差分が大きければペナルティも大きくなるという方法が有効である。

すなわち、
ある素片の補正前単位コストをC(i,j)、
韻律変更量をΔp(i,j)、
選択基準をL(i)とすると、
補正後の単位コスト

は次式（１２）で与えられる。

但し、g(・)は、図７に示した非線形関数で、xを入力とした場合、関数値g(x)は次式（１３）で与えられる。

但し、a₁、a₂、b₁は正の実数であり、

を満たす。

xが大きくなればg(x)が小さくならない（非減少）ことが、上式（１２）の非線形関数g(x)に求められる条件である。式（１３）の他にも、この条件をみたすような線形関数や高次多項式、重みつき加算を含む任意の関数を用いることが可能である。

式（１２）を用いた方法では、韻律変更量が差分を基に定義されている場合に有効であるが、韻律変更量が比率を基に定義されている場合は、各素片の韻律変更量と選択基準値との比率を基に計算する方法が有効である。

比率を用いた場合、
ある素片の補正前単位コストをC(i,j)、
韻律変更量をΔp(i,j)、
選択基準をL(i)
とすると、補正後の単位コスト

は次式（１５）で与えられる。

但し、h(・)は、図８に示した非線形関数で、xを入力とした場合、関数値h(x)は次式（１６）で与えられる。

但しa₃,a₄,b₂は正の実数であり、

を満たす。

h(x)にはg(x)と同様の条件が要求される。

式（１２）ではペナルティを和で与えていたが、式（１５）ではペナルティを積で与えている。このため、関数h(x)の下限値は1.0となっている。

本実施例によれば、各素片の韻律変更量と選択基準値との差分をもとに計算したペナルティを、単位コストに加算することにより、最適素片検索部１４において最適素片に選択されにくくしている。

このため、実施例１では、閾値θに十分近いが除外基準を満たさない韻律変更量を有し、そのため最適素片列に選択されていた候補素片も、本実施例では、最適素片には選択されなくなる。

その結果、韻律変更量の均一化が促進され、音質の不均一感が改善する。

また、最適素片の選択候補から完全に除外されるわけではないので、実施例１では除外対象となっていた素片が、他の選択基準次第では選択されるようになる。

その結果、完全に除外される場合と比較して音質が改善する可能性がある。

なお、本発明の全開示（請求の範囲を含む）の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

Claims

目標素片環境に適した素片を候補素片の中から選択する素片選択部を有する音声合成装置であって、
前記素片選択部は、
前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算し、前記候補素片の前記韻律変更量を基に定めた選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を、前記選択の対象から除外する、制御を行う、ことを特徴とする音声合成装置。
前記素片選択部は、
前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算する韻律変更量計算部と、
前記韻律変更量を基に、選択基準を計算する選択基準計算部と、
前記韻律変更量と前記選択基準とを基に、選択候補の絞り込みを行う候補選択部と、
前記絞り込まれた候補素片の中から、最適素片を検索する最適素片検索部と、
を有し、
前記候補選択部は、前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を選択候補から外し、前記最適素片検索部での最適素片の検索対象から除外する、ことを特徴とする請求項１記載の音声合成装置。
前記選択基準計算部は、
前記目標素片環境と前記候補素片の素片環境とを基に、各候補素片のコストを計算するコスト計算部を有し、
前記コストに基づいて前記選択基準を計算する、ことを特徴とする請求項２に記載の音声合成装置。
前記素片選択部は、
前記目標素片環境と前記候補素片の素片環境とを基に、最適素片を検索する最適素片検索部と、
前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算する韻律変更量計算部と、
前記韻律変更量を基に、選択基準を計算する選択基準計算部と、
前記最適素片の中に、前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片が存在した場合には、最適素片の検索の再実行が必要であると判定する判定部と、
を有し、
前記判定部が最適素片の検索の再実行が必要であると判定した場合には、前記最適素片検索部が、最適素片の再検索を実行する、ことを特徴とする請求項１記載の音声合成装置。
前記韻律変更量計算部は、
前記最適素片のみを対象に韻律変更量を計算する、ことを特徴とする請求項４に記載の音声合成装置。
前記最適素片検索部は、
前記選択基準を満足しない素片を候補から外して、最適素片の再検索を実行する、ことを特徴とする請求項４又は５に記載の音声合成装置。
前記素片選択部は、
前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算する韻律変更量計算部と、
前記韻律変更量から、選択基準を計算する選択基準計算部と、
前記目標素片環境と前記候補素片の素片環境とを基に、各候補素片の単位コストを計算する単位コスト計算部と、
前記単位コストを基に、前記候補素片の中から最適素片を検索する最適素片検索部と、
を有し、
前記単位コスト計算部は、
前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片の単位コストに対してペナルティを付与する、ことを特徴とする請求項１記載の音声合成装置。
前記単位コスト計算部は、
前記韻律変更量と前記選択基準との相対関係に応じて、前記ペナルティを決定する、ことを特徴とする請求項７に記載の音声合成装置。
前記選択基準計算部は、
前記韻律変更量の平均値を基に前記選択基準を定める、ことを特徴とする請求項２〜８のいずれか一に記載の音声合成装置。
前記選択基準計算部は、
前記韻律変更量を時間方向に平滑化した値を基に前記選択基準を定める、ことを特徴とする請求項２〜８のいずれか一に記載の音声合成装置。
目標素片環境に適した素片を候補素片の中から選択する段階を有する音声合成方法であって、
前記素片を選択する段階は、
前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算し、前記候補素片の前記韻律変更量を基に定めた選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を、前記選択の対象から除外する、制御を行う、ことを特徴とする音声合成方法。
前記素片を選択する段階は、
前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算する段階と、
前記韻律変更量を基に、選択基準を計算する段階と、
前記韻律変更量と前記選択基準を基に、選択候補の絞り込みを行う段階と、
前記絞り込まれた候補素片の中から、最適素片を検索する段階と、
を有し、
前記選択候補の絞込みを行う段階は、
前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を選択候補から外す、ことを特徴とする請求項１１記載の音声合成方法。
前記選択基準を計算する段階は、
前記目標素片環境と前記候補素片の素片環境とを基に、各候補素片のコストを計算する段階を有し、
前記コストに基づいて前記選択基準を計算する、ことを特徴とする請求項１２に記載の音声合成方法。
前記素片を選択する段階は、
前記目標素片環境と前記候補素片の素片環境とを基に、最適素片を検索する段階と、
前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算する段階と、
前記韻律変更量を基に選択基準を計算する段階と、
前記最適素片の中に前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片が存在した場合には、最適素片検索の再実行が必要であると判定する段階と、
を有し、
前記判定する段階が最適素片検索の再実行が必要であると判定した場合には、前記最適素片を検索する段階が、最適素片の再検索を実行する、ことを特徴とする請求項１１記載の音声合成方法。
前記韻律変更量を計算する段階は、
前記最適素片のみを対象に韻律変更量を計算する、ことを特徴とする請求項１４に記載の音声合成方法。
前記最適素片を検索する段階は、
前記選択基準を満足しない素片を候補から外して、最適素片の再検索を実行する、ことを特徴とする請求項１４又は１５に記載の音声合成方法。
前記素片を選択する段階は、
前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算する段階と、
前記韻律変更量から選択基準を計算する段階と、
前記目標素片環境と前記候補素片の素片環境とを基に、各候補素片の単位コストを計算する段階と、
前記単位コストを基に前記候補素片の中から最適素片を検索する段階と、
を有し、
前記単位コストを計算する段階は、
前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片の単位コストに対してペナルティを付与する、ことを特徴とする請求項１１記載の音声合成方法。
前記単位コストを計算する段階は、
前記韻律変更量と前記選択基準の相対関係に応じて前記ペナルティを決定する、ことを特徴とする請求項１７に記載の音声合成方法。
前記選択基準を計算する段階は、
前記韻律変更量の平均値を基に前記選択基準を定める、ことを特徴とする請求項１２〜１８のいずれか一に記載の音声合成方法。
前記選択基準を計算する段階は、
前記韻律変更量を時間方向に平滑化した値を基に前記選択基準を定める、ことを特徴とする請求項１２〜１８のいずれか一に記載の音声合成方法。
音声合成装置を構成するコンピュータに、
目標素片環境に適した素片を候補素片の中から選択する処理を実行させるプログラムであって、
前記素片を選択する処理は、
前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算し、前記候補素片の前記韻律変更量を基に定めた選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を、前記選択の対象から除外する、制御を行う処理を含む、ことを特徴とするプログラム。
前記素片を選択する処理は、
前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算する処理と、
前記韻律変更量を基に、選択基準を計算する処理と、
前記韻律変更量と前記選択基準とを基に、選択候補の絞り込みを行う処理と、
前記絞り込まれた候補素片の中から、最適素片を検索する処理と、
を含み、
前記選択候補の絞り込みを行う処理は、
前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を選択候補から外す処理を含む、ことを特徴とする請求項２１記載のプログラム。
前記選択基準を計算する処理が、
目標素片環境と候補素片の素片環境を基に各候補素片のコストを計算する処理を含み、
前記コストに基づいて前記選択基準を計算する処理を含む、ことを特徴とする請求項２２に記載のプログラム。
前記素片を選択する処理は、
前記目標素片環境と前記候補素片の素片環境とを基に、最適素片を検索する処理と、
前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算する処理と、
前記韻律変更量を基に選択基準を計算する処理と、
前記最適素片の中に前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片が存在した場合には、最適素片検索の再実行が必要であると判定する処理と、
を含み、
前記判定する処理は、最適素片検索の再実行が必要であると判定した場合、前記最適素片を検索する処理が最適素片の再検索を実行する処理を含む、ことを特徴とする請求項２１記載のプログラム。
前記韻律変更量を計算する処理が、
前記最適素片のみを対象に韻律変更量を計算する処理を含む、ことを特徴とする請求項２４に記載のプログラム。
前記最適素片を検索する処理が、
前記選択基準を満足しない素片を候補から外して、最適素片の再検索を実行する処理を含む、ことを特徴とする請求項２４又は２５に記載のプログラム。
前記素片を選択する処理は、
前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算する処理と、
前記韻律変更量から、選択基準を計算する処理と、
前記目標素片環境と前記候補素片の素片環境とを基に、各候補素片の単位コストを計算する処理と、
前記単位コストを基に候補素片の中から最適素片を検索する処理と、
を含み、
前記単位コストを計算する処理が、前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片の単位コストに対してペナルティを付与する処理を含む、
ことを特徴とする請求項２１記載のプログラム。
前記単位コストを計算する処理が、
前記韻律変更量と前記選択基準の相対関係に応じて前記ペナルティを決定する処理を含む、ことを特徴とする請求項２７に記載のプログラム。
前記選択基準を計算する処理が、
前記韻律変更量の平均値を基に前記選択基準を定める処理を含む、ことを特徴とする請求項２２〜２８のいずれか一に記載のプログラム。
前記選択基準を計算する処理が、
前記韻律変更量を時間方向に平滑化した値を基に前記選択基準を定める処理を含む、ことを特徴とする請求項２２〜２８のいずれか一に記載のプログラム。
請求項２１〜３０のいずれか一に記載のプログラムを記録した記録媒体。
請求項２記載の音声合成装置において、
前記候補選択部で用いる選択基準を予め決めておくか、前記音声合成装置の外部から入力される構成とされ、前記選択基準計算部で前記韻律変更量を基に選択基準を計算することを要しなくしてなる、音声合成装置。
請求項１、２、４、７のいずれか一に記載の音声合成装置において、
前記選択基準と前記韻律変更量の大小関係に関する前記予め定められた所定の関係は、前記韻律変更量が前記選択基準よりも小である、ことを特徴とする音声合成装置。
請求項１１、１２、１４、１７のいずれか一に記載の音声合成方法において、
前記選択基準と前記韻律変更量の大小関係に関する前記予め定められた所定の関係は、前記韻律変更量が前記選択基準よりも小である、ことを特徴とする音声合成方法。
請求項２１、２２、２４、２７のいずれか一に記載のプログラムにおいて、
前記選択基準と前記韻律変更量の大小関係に関する前記予め定められた所定の関係は、前記韻律変更量が前記選択基準よりも小である、ことを特徴とするプログラム。
請求項１記載の音声合成装置において、前記素片選択部に加え、
テキスト文からその読みを表す記号列と、形態素の品詞、活用、アクセント情報を含む言語処理結果を生成する言語処理部と、
前記言語処理結果を基に生成された合成音声の韻律情報を生成する韻律生成部と、
前記素片選択部で選択された音声素片から、前記韻律生成部で生成した韻律を有する波形を生成する韻律制御部と、
前記韻律制御部から出力された音声素片を接続し、合成音声として出力する波形接続部と、
合成単位に分割された音声素片と、各音声素片の属性情報を記憶した音声素片情報記憶部と、
をさらに備え、
前記素片選択部は、
前記言語処理部で生成された前記言語処理結果と、前記韻律生成部で生成された韻律情報と、を受け取り、前記目標素片環境を、合成単位ごとに生成し、前記音声素片情報記憶部から、前記目標素片環境によって指定される情報に合致する音声素片を候補素片として複数選択し、前記候補素片の素片環境と前記目標素片環境と、を基に、各候補素片の単位コストを計算する単位コスト計算部と、
前記韻律情報と複数の候補素片の前記単位コストと、前記音声素片情報記憶部からの各音声素片の属性情報と、を基に、前記候補素片の韻律変更量を計算する韻律変更量計算部と、
前記各候補素片の韻律変更量を基に、候補素片の絞り込みを行うために必要な候補の選択基準を計算する選択基準計算部と、
前記選択基準計算部からの前記選択基準と、前記韻律変更量計算部からの前記韻律変更量と、前記単位コスト計算部からの各候補素片の情報と前記単位コストと、を基に、候補素片の絞込みを行い、その際、前記単位コストが相対的に低い候補素片の中から、前記選択基準を元に、前記韻律変更量が他に比べて小さい素片を候補から除外し、該絞込みで選択された候補素片の情報とその単位コストを出力する候補選択部と、
前記各候補素片の情報と、前記音声素片情報記憶部からの各音声素片の属性情報とを基に、前記各候補素片の接続コストを計算する接続コスト計算部と、
前記候補素片の情報と前記単位コスト及び前記接続コストを基に、前記単位コストと前記接続コストに関する目的関数を最適化する音声素片系列である最適素片系列を求め、前記韻律制御部に供する最適素片検索部と、
を備えている、ことを特徴とする音声合成装置。
請求項１記載の音声合成装置において、前記素片選択部に加え、
テキスト文からその読みを表す記号列と、形態素の品詞、活用、アクセント情報を含む言語処理結果を生成する言語処理部と、
前記言語処理結果を基に生成された合成音声の韻律情報を生成する韻律生成部と、
前記素片選択部で選択された音声素片から、前記韻律生成部で生成した韻律を有する波形を生成する韻律制御部と、
前記韻律制御部から出力された音声素片を接続し、合成音声として出力する波形接続部と、
合成単位に分割された音声素片と、各音声素片の属性情報を記憶した音声素片情報記憶部と、
をさらに備え、
前記素片選択部は、
前記言語処理部で生成された前記言語処理結果と、前記韻律生成部で生成された前記韻律情報と、を受け取り、前記目標素片環境を、合成単位ごとに生成し、前記音声素片情報記憶部から、前記目標素片環境によって指定される情報に合致する音声素片を候補素片として複数選択し、前記候補素片の素片環境と前記目標素片環境とを基に、各候補素片の単位コストを計算する単位コスト計算部と、
前記各候補素片の情報と、前記音声素片情報記憶部からの各音声素片の属性情報を基に、前記各候補素片の接続コストを計算する接続コスト計算部と、
前記各候補素片の情報と前記単位コストと前記接続コストを基に、候補素片の絞込みを行い、該絞込みで選択された候補素片の情報とその単位コストを出力する候補選択部と、
前記候補素片の情報と、前記単位コスト、及び前記接続コストを基に、前記単位コストと前記接続コストに関する目的関数を最適化する音声素片系列である最適素片系列を求め、前記韻律制御部に供する最適素片検索部と、
前記最適素片検索部から出力された最適素片系列の各素片と、前記韻律生成部からの韻律情報と、前記音声素片情報記憶部からの前記最適素片系列の各素片の属性情報と、を基に、該最適素片系列の各素片の韻律変更量を計算する韻律変更量計算部と、
前記韻律変更量計算部からの前記最適素片系列の各素片の韻律変更量を基に、韻律変更量が他と比べて著しく小さい素片の存在を判別するために必要な選択基準を計算する選択基準計算部と、
前記最適素片検索部からの前記最適素片系列の各素片と、前記韻律変更量計算部からの前記最適素片系列の各素片の韻律変更量と、前記選択基準計算部から供給された選択基準と、を基に、韻律変更量が他に比べて著しく小さい素片が存在するか否かを判定し、
韻律変更量が他に比べて著しく小さい素片が存在すると判定された場合に、前記韻律変更量が著しく小さい素片を前記候補選択部へ供給して、前記候補選択部からの候補素片の再検索を行い、韻律変更量が他に比べて著しく小さい素片が存在しないと判定された場合、又は、前記再検索の回数が上限を上回った場合に、前記最適素片系列の各素片を前記韻律制御部に供給する制御を行う判定部と、
を備え、
前記候補選択部は、前記接続コスト計算部から供給された前記候補素片の中から、前記判定部から供給された素片を候補から除外し、除外されなかった候補素片と該候補素片の単位コスト及び接続コストを前記最適素片検索部に供給する、ことを特徴とする請求項１記載の音声合成装置。
請求項１記載の音声合成装置において、前記素片選択部に加え、
テキスト文からその読みを表す記号列と、形態素の品詞、活用、アクセント情報を含む言語処理結果を生成する言語処理部と、
前記言語処理結果を基に生成された合成音声の韻律情報を生成する韻律生成部と、
前記素片選択部で選択された音声素片から、前記韻律生成部で生成した韻律を有する波形を生成する韻律制御部と、
前記韻律制御部から出力された音声素片を接続し、合成音声として出力する波形接続部と、
合成単位に分割された音声素片と、各音声素片の属性情報を記憶した音声素片情報記憶部と、
をさらに備え、
前記素片選択部は、
前記言語処理部で生成された前記言語処理結果と、前記韻律生成部で生成された前記韻律情報を受け取り、前記目標素片環境を、合成単位ごとに生成し、前記音声素片情報記憶部から、前記目標素片環境によって指定される情報に合致する音声素片を候補素片として複数選択し、前記候補素片の素片環境と前記目標素片環境を基に、各候補素片の単位コストを計算する単位コスト計算部と、
前記韻律情報と、複数の前記候補素片の各々の前記単位コストと、前記音声素片情報記憶部からの各音声素片の属性情報と、を基に、前記候補素片の韻律変更量を計算する韻律変更量計算部と、
前記各候補素片の韻律変更量を基に、候補素片の絞り込みを行うために必要な候補の選択基準を計算する選択基準計算部と、
前記選択基準計算部からの前記選択基準と、前記韻律変更量計算部から供給される候補素片の前記韻律変更量と、前記単位コスト計算部から供給された各候補素片の情報と前記単位コストと、を基に、前記韻律変更量が他の素片と比較して小さい候補素片の単位コストを補正し、候補素片と単位コストを出力する単位コスト補正部と、
前記各候補素片の情報と、前記音声素片情報記憶部からの各音声素片の前記属性情報と、を基に、各候補素片の接続コストを計算する接続コスト計算部と、
前記候補素片の情報と、前記単位コスト、及び前記接続コストを基に、前記単位コストと前記接続コストに関する目的関数を最適化する音声素片系列である最適素片系列を求め、前記韻律制御部に供する最適素片検索部と、
を備えている、ことを特徴とする請求項１記載の音声合成装置。
前記素片を選択する段階は、
（A）テキスト文から生成された読みを表す記号列と、形態素の品詞、活用、アクセント情報を含む言語処理結果と、前記言語処理結果を基に生成された合成音声の韻律情報と、から、目標素片環境を合成単位ごとに生成し、
（B）合成単位に分割された音声素片と、各音声素片の属性情報を記憶した音声素片情報記憶部から、前記目標素片環境により指定される情報に合致する音声素片を、候補素片として複数選択し、
（C）前記候補素片の素片環境と前記目標素片環境を基に、各候補素片の単位コストを計算し、
（D）前記韻律情報と、複数の候補素片の各々の前記単位コストと、前記音声素片情報記憶部からの各音声素片の属性情報を基に、前記候補素片の韻律変更量を計算し、
（E）前記各候補素片の韻律変更量を基に、候補素片の絞り込みを行うために必要な候補の選択基準を計算し、
（F）前記選択基準と、候補素片の前記韻律変更量と、各候補素片の情報と前記単位コストと、を基に、候補素片の絞込みを行い、その際、前記単位コストが相対的に低い候補素片の中から、前記選択基準を元に、韻律変更量が他に比べて小さい素片を、候補から除外し、該絞込みで選択された候補素片の情報とその単位コストを出力し、
（G）候補素片の情報と、前記音声素片情報記憶部からの前記各音声素片の属性情報を基に、各候補素片の接続コストを計算し、
（H）前記候補素片の情報と、前記単位コスト、及び前記接続コストを基に、前記単位コストと前記接続コストに関する目的関数を最適化する音声素片系列である最適素片系列を求め、韻律制御に供する、
上記各段階を含む、ことを特徴とする請求項１１記載の音声合成方法。
前記素片を選択する段階は、
（A）テキスト文から生成された読みを表す記号列と、形態素の品詞、活用、アクセント情報を含む言語処理結果と、前記言語処理結果を基に生成された合成音声の韻律情報から、目標素片環境を、合成単位ごとに生成し、
（B）合成単位に分割された音声素片と、各音声素片の属性情報を記憶した音声素片情報記憶部から、前記目標素片環境により指定される情報に合致する音声素片を、候補素片として複数選択し、
（C）前記候補素片の素片環境と前記目標素片環境を基に、各候補素片の単位コストを計算し、
（D）前記候補素片の情報と、前記音声素片情報記憶部からの各音声素片の属性情報を基に、各候補素片の接続コストを計算し、
（E）候補選択段階として、各候補素片の情報と単位コストと接続コストを基に、候補素片の絞込みを行い、該絞込みで選択された候補素片の情報とその単位コストを出力し、
（F）最適素片検索段階として、前記候補素片の情報と、単位コスト、及び接続コストを基に、前記単位コストと前記接続コストに関する目的関数を最適化する音声素片系列である最適素片系列を求め、韻律制御に供し、
（H）前記最適素片系列の各素片と、前記韻律情報と、前記音声素片情報記憶部からの前記最適素片系列の各素片の属性情報と、を基に、該最適素片系列の各素片の韻律変更量を計算し、
（I）前記最適素片系列の各素片の韻律変更量を基に、韻律変更量が他と比べて著しく小さい素片の存在を判別するために必要な選択基準を計算し、
（J）判定段階として、前記最適素片系列の各素片と、前記最適素片系列の各素片の前記韻律変更量と、前記選択基準と、を基に、韻律変更量が他に比べて著しく小さい素片が存在するか否かを判定し、韻律変更量が他に比べて著しく小さい素片が存在すると判定された場合には、韻律変更量が著しく小さい素片を、前記（E）の候補選択段階へ供給して、候補素片の再検索を行い、
韻律変更量が他に比べて著しく小さい素片が存在しないと判定された場合、又は、前記再検索の回数が上限を上回った場合に、前記最適素片系列の各素片を前記韻律制御に供給し、
前記(E)の候補選択段階では、候補素片の中から、前記判定段階より供給された素片を候補から除外し、除外されなかった候補素片と該候補素片の単位コスト及び接続コストを、前記(F)の最適素片検索段階に供給する、
上記各段階を含む、ことを特徴とする請求項１１記載の音声合成方法。
前記素片を選択する段階は、
（A）テキスト文から生成された読みを表す記号列と、形態素の品詞、活用、アクセント情報を含む言語処理結果と、前記言語処理結果を基に生成された合成音声の韻律情報と、から、目標素片環境を合成単位ごとに生成し、
（B）合成単位に分割された音声素片と、各音声素片の属性情報を記憶した音声素片情報記憶部から、前記目標素片環境により指定される情報に合致する音声素片を、候補素片として複数選択し、
（C）前記候補素片の素片環境と前記目標素片環境を基に、各候補素片の単位コストを計算し、
（D）前記韻律情報と、複数の候補素片の各々の前記単位コストと、前記音声素片情報記憶部からの各音声素片の属性情報を基に、前記候補素片の韻律変更量を計算し、
（E）各候補素片の韻律変更量を基に、候補素片の絞り込みを行うために必要な候補の選択基準を計算し、
（F）前記選択基準と、各候補素片の前記韻律変更量と候補素片の情報と前記単位コストと、を基に、韻律変更量が他の素片と比較して小さい候補素片の単位コストを補正し、候補素片と単位コストを出力し、
（G）候補素片の情報と、前記音声素片情報記憶部からの各音声素片の属性情報を基に、各候補素片の接続コストを計算し、
（H）前記候補素片の情報と、前記単位コスト、及び前記接続コストを基に、前記単位コストと前記接続コストに関する目的関数を最適化する音声素片系列である最適素片系列を求め、韻律制御に供する、
上記各段階を含む、ことを特徴とする請求項１１記載の音声合成方法。