JP5434587B2 - 音声合成装置及び方法とプログラム - Google Patents

音声合成装置及び方法とプログラム Download PDF

Info

Publication number
JP5434587B2
JP5434587B2 JP2009500164A JP2009500164A JP5434587B2 JP 5434587 B2 JP5434587 B2 JP 5434587B2 JP 2009500164 A JP2009500164 A JP 2009500164A JP 2009500164 A JP2009500164 A JP 2009500164A JP 5434587 B2 JP5434587 B2 JP 5434587B2
Authority
JP
Japan
Prior art keywords
unit
segment
candidate
change amount
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009500164A
Other languages
English (en)
Other versions
JPWO2008102710A1 (ja
Inventor
正徳 加藤
玲史 近藤
康行 三井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009500164A priority Critical patent/JP5434587B2/ja
Publication of JPWO2008102710A1 publication Critical patent/JPWO2008102710A1/ja
Application granted granted Critical
Publication of JP5434587B2 publication Critical patent/JP5434587B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Processing Or Creating Images (AREA)

Description

(関連出願)本願は、先の日本特許出願2007−039622号(2007年2月20日出願)の優先権を主張するものであり、前記先の出願の全記載内容は、本書に引用をもって繰込み記載されているものとみなされる。
本発明は、音声合成技術に関し、特に、テキストから音声を合成するための音声合成装置及び方法とプログラムに関する。
従来から、テキスト文を解析し、その文が示す音声情報から規則合成により合成音声を生成する音声合成装置が種々開発されてきた。
図9は、一般的な規則合成型の音声合成装置の一例の構成を示す図である。このような構成を有する音声合成装置の構成と動作の詳細については、例えば非特許文献1〜3及び特許文献1と2の記載が参照される。
図9を参照すると、この音声合成装置は、言語処理部10、韻律生成部11、素片選択部16、音声素片情報記憶部15、韻律制御部18、波形接続部19を有する。
音声素片情報記憶部15は、音声合成単位に分割された元音声波形(以下、「音声素片」という)を記憶する音声素片記憶部152と、各音声素片の属性情報が記憶された付属情報記憶部151を有する。
ここで、元音声波形とは、合成音声の生成に利用するために予め収集された自然音声波形のことである。
音声素片の属性情報とは、各音声素片が発声された音素環境や、ピッチ周波数、振幅、継続時間情報等の音韻情報と韻律情報のことである。
図9の音声合成装置では、音声合成単位には、音素、CV、CVC、VCV(ただし、Vは母音、Cは子音)などが用いられることが多い。音声素片の長さや合成単位の詳細については、非特許文献1と3に記述されている。
言語処理部10は、入力されたテキスト文に対して形態素解析や構文解析、読み付け等の分析を行い、音素記号などの「読み」を表す記号列と、形態素の品詞、活用、アクセント型などを言語処理結果として、韻律生成部11と素片選択部16に出力する。
韻律生成部11は、言語処理部10から出力された言語処理結果を基に、合成音声の韻律情報(ピッチ、時間長、パワーなどに関する情報)を生成し、生成した韻律情報を素片選択部16と韻律制御部18に出力する。
素片選択部16は、言語処理結果と生成された韻律情報に関して適合度が高い音声素片を、音声素片情報記憶部15に記憶されている音声素片の中から選択し、選択した音声素片の付属情報と併せて韻律制御部18に出力する。
韻律制御部18は、選択された音声素片から、韻律生成部11で生成した韻律を有する波形を生成し、波形接続部19に出力する。
波形接続部19は、韻律制御部18から出力された音声素片を接続し、合成音声として出力する。
素片選択部16は、入力された言語処理結果と韻律情報から、目標合成音声の特徴を表す情報(「目標素片環境」という)を所定の合成単位ごとに求める。
目標素片環境に含まれる情報には、
該当・先行・後続の各音素名、
ストレスの有無、
アクセント核からの距離、
合成単位の代表点・始点・終点におけるピッチ周波数やパワー、
単位の継続時間長
が挙げられる。
次に、目標素片環境が与えられると、素片選択部16は、音声素片情報記憶部15の中から、目標素片環境により指定される特定の情報(主に該当音素)に合致する音声素片を複数選択する。選択された音声素片は、合成に用いる音声素片の候補となる。
素片選択部16は、選択された候補素片に対して、合成に用いる音声素片としての適切度を示す指標である「コスト」を計算する。高音質な合成音声を生成することを目標としているため、コストが小さい、即ち適切度が高いと、合成音の音質は高くなる。従って、コストは、合成音声の音質の劣化度を推定するための指標であると言える。
素片選択部16で計算されるコストには、単位コストと接続コストがある。
単位コストは、候補素片を目標素片環境のもとで用いることで生じる推定音質劣化度を表すもので、候補素片の素片環境と目標素片環境との類似度を基に算出される。
一方、接続コストは、接続する音声素片間の素片環境が不連続であることによって生じる推定音質劣化度を表すもので、隣接候補素片同士の素片環境の親和度を基に算出される。
単位コスト及び接続コストの計算方法は、これまで各種提案されている。
一般に、単位コストの計算には、目標素片環境に含まれる情報が用いられる。
接続コストには、素片の接続境界におけるピッチ周波数、ケプストラム、パワー、及びこれらのΔ量(単位時間あたりの変化量)が用いられる。
素片選択部16は、接続コストと単位コストを素片ごとに計算したのちに、接続コストと単位コストの両者が最小となる音声素片を各合成単位に対して一意に求める。
コスト最小化により求めた素片は、候補素片の中から音声の合成に最も適した素片として選択されたことから、「最適素片」と呼ばれる。
素片選択部16は、全合成単位を対象に、それぞれの最適素片を求めると、最終的に、最適素片の系列(最適素片系列)を素片選択結果として、韻律制御部18に出力する。
素片選択部16では、上記のように、単位コストが小さい音声素片が選択される、すなわち目標韻律(目標素片環境に含まれる韻律情報)に近い韻律を有する音声素片が選択されることになるが、目標韻律と同等の韻律を有する音声素片が選択されることは希である。
従って、一般的には、素片選択後に、韻律制御部18において、音声素片波形に処理を加えて、音声素片の韻律が目標韻律に一致するように補正する。
音声素片の韻律を補正する代表的な方法としては、非特許文献4に記載されているPSOLA(pitch-synchronous-overlap-add)方式が挙げられる。
但し、韻律の補正処理は、合成音声の低下を招く要因となる。特に、ピッチ周波数の変更が音質低下に与える影響は大きく、変更量が大きければ音質低下度も大きくなる。
このような問題に対して、できるだけ少ない韻律変更量で合成する方式の開発が行われている。例えば、非特許文献5と6のように、膨大な量の音声素片を準備して、音声素片の韻律の補正を全く行わない方式が提案されている。
このような方式では、素片の量が膨大なので、ある入力テキストに対しては、目標韻律との類似度が十分高い音声素片が選択され、韻律を補正しなくても、自然な韻律を有する合成音声が生成される。
しかし、常に自然な韻律を有する合成音声を生成することは難しく、膨大な記憶容量を要求されるなどの問題もある。
他には、非特許文献7では、ピッチ周波数の変更量に上限値を設定したり、様々なピッチ周波数を有する素片を収録するなどのアプローチが取られている。
特開2005−91551号公報 特開2006−84854号公報 Huang, Acero, Hon: "Spoken Language Processing", Prentice Hall, pp. 689-836, 2001. 石川: "音声合成のための韻律制御の基礎", 電子情報通信学会技術研究報告, Vol. 100, No. 392, pp. 27-34, 2000. 阿部: "音声合成のための合成単位の基礎", 電子情報通信学会技術研究報告, Vol. 100, No. 392, pp. 35-42, 2000. Moulines, Charapentier: "Pitch-Synchronous Waveform Processing Techniques For Text-To-Speech Synthesis Using Diphones", Speech Communication 9, pp.453-467, 1990. Segi, Takagi, Ito: "A CONCATENATIVE SPEECH SYNTHESIS METHOD USING CONTEXT DEPENDENT PHONEME SEQUENCES WITH VARIABLE LENGTH AS SEARCH UNITS", Proceedings of 5th ISCA Speech Synthesis Workshop, pp. 115-120, 2004 Kawai, Toda, Ni, Tsuzaki, Tokuda: "XIMERA: A NEW TTS FROM ATR BASED ON CORPUS-BASED TECHNOLOGIES", Proceedings of 5th ISCA Speech Synthesis Workshop, pp. 179-184, 2004 小山、吉岡、高橋、中村: "ピッチ変更幅を抑えたVCV波形素片生成機構をもつ高品質波形規則合成方式",電子情報通信学会論文誌, D-II, Vol.J83-D-II, No.11, pp.2264-2275, 2000
なお、上記特許文献1、2、非特許文献1乃至7の全開示内容はその引用をもって本書に繰込み記載する。以下に本発明による関連技術の分析を与える。
上記した非特許文献7等に記載された音声合成装置は、下記記載の問題点を有している。
合成音声の音質が不均一になりやすい、ということである。
非特許文献7のように、韻律制御を行うことで、合成音声の韻律の自然性向上を目指す方式では、韻律制御に伴う音質劣化を低減するため、目標韻律との類似度が高い韻律を有する音声素片、即ち要求される韻律変更量が少ない音声素片を選択する方針が取られてきた。このため、同一文内(最適素片系列内)に、ある音声素片の韻律は目標韻律との類似度が高く、別の音声素片の韻律は目標韻律との類似度が低いなどの状態、即ち、韻律類似度が異なる音声素片が混在するという状態が生じていた。
この状況について、韻律情報を基本周波数に限定して図10を用いて説明する。なお、図10は、上記問題点を説明するために、本発明者等が作成したものである。
図10(a)は、目標素片環境と候補素片のピッチパタン(基本周波数の概形)の例を示した図である。図10(a)において、太い実線が目標ピッチパタン、u1からu7の細い実線が各候補素片のピッチパタン、T1からT5が合成単位の境界時刻を表す。
関連技術では、各合成単位区間で目標ピッチパタンに最も近い候補素片、図10(a)の例では、u1,u2,u3,u4,u5が最適素片系列に選択される。
図10(b)には、u1からu5が選択されたときの韻律変更量(ここでは、基本周波数の変更量)を各合成単位区間ごとに示してある。
目標ピッチパタンと候補素片ピッチパタンとの差分が韻律変更量となるので、図10(b)のようになる。図10(b)に示す通り、T0からT5までを通して韻律変更量が不揃いになっていることが分かる。
このように同一文内で韻律変更量が不揃いになると、合成音声の音質の不均一感(ある部分は高音質だが、ある部分が低音質)がもたらされることになる。
この音質の不均一性が、合成音声の総合的な印象を損ねる原因となっている。特に、音質の不均一性が大きいと、常に同等の音質で低音質である場合よりも、合成音声に対する印象は悪くなる。
したがって、本発明は、上記課題に鑑みて創案されたものであって、その主たる目的は、合成音声の音質の不均一感を解消する装置、方法、プログラムを提供することにある。
本発明の第一のアスペクトに係る音声合成装置は、目標素片環境に適した素片を候補素片の中から選択する素片選択部を有する音声合成装置であって、前記素片選択部は、前記候補素片の韻律変更量を基に定めた選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を、前記選択の対象から除外する。本発明において、前記素片選択部は、前記目標素片環境と前記候補素片の韻律情報を基に、各候補素片の韻律変更量を計算する韻律変更量計算部と、前記韻律変更量を基に、選択基準を計算する選択基準計算部と、前記韻律変更量と前記選択基準とを基に、選択候補の絞り込みを行う候補選択部と、前記絞り込まれた候補素片の中から、最適素片を検索する最適素片検索部と、を備える。
上記の第一の発明によれば、候補素片の韻律変更量を計算し、該韻律変更量から求めた選択基準を基に、選択基準と韻律変動量との大小関係が予め定められた所定の関係にある(例えば相対的に韻律変更量が特に小さい)音声素片を候補から外すことで、選択される可能性が高い音声素片の韻律変更量の分散を小さくする。その結果、韻律変更量が均一化されるので、韻律制御による音質低下度を均一化し、音質の不均一感を解消することが可能になる。
本発明の第二のアスペクトに係る音声合成装置は、目標素片環境に適した素片を候補素片の中から選択する素片選択部を有する音声合成装置であって、
前記素片選択部は、前記目標素片環境と前記候補素片の素片環境を基に、最適素片を検索する最適素片検索部と、
前記目標素片環境と前記候補素片の韻律情報を基に、各候補素片の韻律変更量を計算する韻律変更量計算部と、
前記韻律変更量を基に選択基準を計算する選択基準計算部と、
前記最適素片の中に前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片が存在した場合には、最適素片検索の再実行が必要であると判定する判定部と、
を有し、前記判定部は、最適素片検索の再実行が必要であると判定した場合、前記最適素片検索部が最適素片の再検索を実行する。
本発明において、前記韻律変更量計算部は、前記最適素片のみを対象に韻律変更量を計算する。
本発明において、前記最適素片検索部は、前記選択基準を満足しない素片を候補から外して、最適素片の再検索を実行する。
本発明の第三のアスペクトに係る音声合成装置は、目標素片環境に適した素片を候補素片の中から選択する素片選択部を有する音声合成装置であって、
前記素片選択部は、前記目標素片環境と前記候補素片の韻律情報を基に、各候補素片の韻律変更量を計算する韻律変更量計算部と、
前記韻律変更量から選択基準を計算する選択基準計算部と、
前記目標素片環境と前記候補素片の素片環境を基に、各候補素片の単位コストを計算する単位コスト計算部と、
前記単位コストを基に候補素片の中から最適素片を検索する最適素片検索部と、
を有し、
前記単位コスト計算部は、
前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片の単位コストに対してペナルティを付与する。
本発明において、前記単位コスト計算部は、
前記韻律変更量と前記選択基準の相対関係に応じて前記ペナルティを決定する。
本発明において、前記選択基準計算部は、前記韻律変更量の平均値を基に選択基準を定める。
本発明において、前記選択基準計算部は、前記韻律変更量を時間方向に平滑化した値を基に選択基準を定める。
本発明に係る方法は、目標素片環境に適した素片を候補素片の中から選択する段階を有する音声合成方法であって、
前記素片を選択する段階は、
候補素片の韻律変更量を基に定めた選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を選択対象から除外する。
本発明の別のアスペクトに係る方法は、目標素片環境に適した素片を候補素片の中から選択する段階を有する音声合成方法であって、
前記素片を選択する段階は、
前記目標素片環境と前記候補素片の韻律情報を基に各候補素片の韻律変更量を計算する段階と、
前記韻律変更量を基に選択基準を計算する段階と、
前記韻律変更量と前記選択基準を基に選択候補の絞り込みを行う段階と、
前記絞り込まれた候補素片の中から最適素片を検索する段階と、
を有し、
前記選択候補の絞込みを行う段階は、前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を、最適素片の検索対象から除外する。
本発明において、前記選択基準を計算する段階は、
目標素片環境と候補素片の素片環境を基に各候補素片のコストを計算する段階を有し、
前記コストに基づいて選択基準を計算する。
本発明の他のアスペクトに係る方法は、目標素片環境に適した素片を候補素片の中から選択する素片選択部を有する音声合成方法であって、
前記素片を選択する段階は、
前記目標素片環境と前記候補素片の素片環境を基に、最適素片を検索する段階と、
前記目標素片環境と前記候補素片の韻律情報を基に、各候補素片の韻律変更量を計算する段階と、
前記韻律変更量を基に選択基準を計算する段階と、
前記最適素片の中に前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片が存在した場合には、最適素片検索の再実行が必要であると判定する段階と、
を有し、
前記判定する段階が最適素片検索の再実行が必要であると判定した場合、前記最適素片を検索する段階が最適素片の再検索を実行する。
本発明において、前記韻律変更量を計算する段階は、
前記最適素片のみを対象に韻律変更量を計算する。
本発明において、前記最適素片を検索する段階は、
前記選択基準を満足しない素片を候補から外して、最適素片の再検索を実行する。
本発明の他のアスペクトに係る方法は、目標素片環境に適した素片を候補素片の中から選択する段階を有する音声合成方法であって、
前記素片を選択する段階は、
前記目標素片環境と前記候補素片の韻律情報を基に、各候補素片の韻律変更量を計算する段階と、
前記韻律変更量から選択基準を計算する段階と、
前記目標素片環境と前記候補素片の素片環境を基に、各候補素片の単位コストを計算する段階と、
前記単位コストを基に候補素片の中から最適素片を検索する段階と、
を有し、
前記単位コストを計算する段階が、前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片の単位コストに対してペナルティを付与する。
本発明において、前記単位コストを計算する段階は、前記韻律変更量と前記選択基準の相対関係に応じて前記ペナルティを決定する。
本発明において、前記選択基準を計算する段階は、前記韻律変更量の平均値を基に選択基準を定める。
本発明において、前記選択基準を計算する段階は、前記韻律変更量を時間方向に平滑化した値を基に選択基準を定める。
本発明の他のアスペクトに係るコンピュータ・プログラムは、
音声合成装置を構成するコンピュータに、目標素片環境に適した素片を候補素片の中から選択する処理を実行させるプログラムであって、
前記素片を選択する処理は、
候補素片の韻律変更量を基に定めた選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を選択対象から除外する処理、
を含む。
本発明の他のアスペクトに係るコンピュータ・プログラムは、
音声合成装置を構成するコンピュータに、目標素片環境に適した素片を候補素片の中から選択する処理を実行させるプログラムであって、
前記素片を選択する処理は、
前記目標素片環境と前記候補素片の韻律情報を基に各候補素片の韻律変更量を計算する処理と、
前記韻律変更量を基に選択基準を計算する処理と、
前記韻律変更量と前記選択基準を基に選択候補の絞り込みを行う処理と、
前記絞り込まれた候補素片の中から最適素片を検索する処理と、
を含み、
前記選択候補の絞り込みを行う処理は、前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を、最適素片の検索対象から除外する処理を含む。
本発明に係るコンピュータ・プログラムにおいて、前記選択基準を計算する処理が、
目標素片環境と候補素片の素片環境を基に各候補素片のコストを計算する処理を含み、
前記コストに基づいて選択基準を計算する処理を含む。
本発明の他のアスペクトに係るコンピュータ・プログラムは、
音声合成装置を構成するコンピュータに、目標素片環境に適した素片を候補素片の中から選択する処理を実行させるプログラムであって、
前記素片を選択する処理は、
前記目標素片環境と前記候補素片の素片環境を基に、最適素片を検索する処理と、
前記目標素片環境と前記候補素片の韻律情報を基に、各候補素片の韻律変更量を計算する処理と、
前記韻律変更量を基に選択基準を計算する処理と、
前記最適素片の中に前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片が存在した場合には、最適素片検索の再実行が必要であると判定する処理と、を含み、
前記判定する処理は、最適素片検索の再実行が必要であると判定した場合、前記最適素片を検索する処理が最適素片の再検索を実行する処理を含む。
本発明に係るコンピュータ・プログラムにおいて、前記韻律変更量を計算する処理は、
前記最適素片のみを対象に韻律変更量を計算する処理を含む。
本発明に係るコンピュータ・プログラムにおいて、前記最適素片を検索する処理は、
前記選択基準を満足しない素片を候補から外して、最適素片の再検索を実行する処理を含む。
本発明の他のアスペクトに係るコンピュータ・プログラムは、
音声合成装置を構成するコンピュータに、目標素片環境に適した素片を候補素片の中から選択する処理を実行させるプログラムであって、
前記素片を選択する処理は、
前記目標素片環境と前記候補素片の韻律情報を基に、各候補素片の韻律変更量を計算する処理と、
前記韻律変更量から選択基準を計算する処理と、
前記目標素片環境と前記候補素片の素片環境を基に、各候補素片の単位コストを計算する処理と、
前記単位コストを基に候補素片の中から最適素片を検索する処理と、
を含み、
前記単位コストを計算する処理が、前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片の単位コストに対してペナルティを付与する処理を含む。
本発明に係るコンピュータ・プログラムにおいて、前記単位コストを計算する処理は、
前記韻律変更量と前記選択基準の相対関係に応じて前記ペナルティを決定する処理を含む。
本発明に係るコンピュータ・プログラムにおいて、前記選択基準を計算する処理が、
前記韻律変更量の平均値を基に選択基準を定める処理を含む。
本発明に係るコンピュータ・プログラムにおいて、前記選択基準を計算する処理が、
前記韻律変更量を時間方向に平滑化した値を基に選択基準を定める処理を含む。
本発明によれば、素片選択部において韻律変更量が均一になるように、音声素片が選択されるため、韻律制御による音質低下度が均一化され、音質の不均一感が解消される。
本発明の実施例1の構成を示す図である。 本発明の実施例1の動作を説明するための流れ図である。 本発明の第2の実施例の構成を示す図である。 本発明の第2の実施例の動作を説明するための流れ図である。 本発明の第3の実施例の構成を示す図である。 本発明の第3の実施例の動作を説明するための流れ図である。 図5に示す単位コスト補正部で用いられる非線形関数の図である。 図5に示す単位コスト補正部で用いられる非線形関数の図である。 一般的な音声合成装置の一構成例を示すブロック図である。 関連技術の問題点と解決案を説明するための図である。
符号の説明
10 言語処理部
11 韻律生成部
12 単位コスト計算部
13 接続コスト計算部
14 最適素片検索部
15 音声素片情報記憶部
151 付属情報記憶部
152 音声素片記憶部
16、161、162、163 素片選択部
17 波形生成部
18 韻律制御部
19 波形接続部
20、31 韻律変更量計算部
21、32 選択基準計算部
22、30 候補選択部
33 判定部
40 単位コスト補正部
本発明の原理を説明する。本発明は、韻律変更量が均一になるように、音声素片の選択が行われるようにしたものである。すなわち、候補素片の韻律変更量を計算し、該韻律変更量から求めた選択基準を基に、相対的に、韻律変更量が、特に小さい音声素片を、候補から外すことで、選択される可能性が高い音声素片の韻律変更量の分散を小さくしている。これにより、韻律変更量の均一化が図られることになり、韻律制御による音質低下度を均一化し、音質の不均一感を解消することが可能になる。例えば図10(a)に示した例に本発明を適用した場合、T1〜T2の区間では、u2の代わりにu6が、T3〜T4の区間では、u4の代わりに、u7が選択されるため、図10(c)に示すように、韻律変更量が均一化される。以下実施例に即して説明する。
<実施例1>
図1は、本発明の第1の実施例の構成を示す図である。図2は、本発明の第1の実施例の動作を説明するための流れ図である。
図1を参照すると、本発明の第1の実施例は、関連技術の構成を示した図9とは、素片選択部が相違している。すなわち、図9の素片選択部16は、図1の素片選択部161で置き換えられている。本発明の第1の実施例において、これ以外の構成は、図9と同一である。以下では、相違点を中心に説明し、重複を回避するため、同一部分の説明は適宜省略する。
図1を参照すると、本実施例において、素片選択部161は、単位コスト計算部12、接続コスト計算部13、最適素片検索部14、韻律変更量計算部20、選択基準計算部21、候補選択部22を有する。
単位コスト計算部12は、言語処理部10から供給された言語処理結果と、韻律生成部11から供給された韻律情報とから、目標素片環境を、合成単位ごとに生成する(図2のステップA1)。
本実施例では、目標素片環境は、
該当・先行・後続の各音素名、
アクセント核からの距離、
合成単位の代表点におけるピッチ周波数とパワー、
単位の継続時間長
で構成されるものと仮定する。
次に、単位コスト計算部12は、音声素片情報記憶部15から目標素片環境により指定される特定の情報に合致する音声素片を、候補素片として複数選択する(図2のステップA2)。候補素片を選択する際に用いる情報としては、該当素片が代表的であるが、先行音素及び後続音素に関する情報を用いて候補を絞り込む方法も有効である。
そして、単位コスト計算部12は、音声素片情報記憶部15から供給される候補素片の素片環境と目標素片環境を基に、各候補素片の単位コストを計算し、韻律変更量計算部20と候補選択部22へ出力する(ステップA3)。
韻律変更量計算部20は、韻律生成部11から供給された韻律情報と、単位コスト計算部12から供給された各候補素片の単位コストと、音声素片情報記憶部15から供給された各候補素片の属性情報を基に、各候補素片の韻律変更量を計算し、選択基準計算部21と候補選択部22へ伝達する(ステップA4)。
韻律変更量は、韻律制御部18における音声素片の韻律の変更量として定義されるが、実際にはピッチ周波数と継続時間長とパワーの変更量を基に計算される。
なお、パワーの変更は音質に与える影響が少ないことから、本実施例では、パワーの変更量を取り扱わないが、ピッチ周波数や継続時間長と同様に扱うことが可能である。
ピッチ周波数の変更量をΔf、継続時間長の変更量をΔtとすると、韻律変更量Δpは下記式(1)の重みつき和で定義される。
Figure 0005434587
但し、αとβは重み係数である。
ピッチ周波数の方が音質に与える影響が大きいことから、α>βとすることが多い。
式(1)は、ピッチ周波数や継続時間長などの変更量が、差分で定義される場合に有効である。
この他にも、ΔfとΔtの対数を重み加算した下記のような式(2)で求める方法も有効である。
Figure 0005434587
式(2)は、ピッチ周波数などの変更量が差分ではなく比率で定義される場合に特に有効である。
継続時間長の変更量の計算には、変更前と後の時間長の比や差を基に計算される。
変更前と変更後の継続時間長をそれぞれt及びTとすると、継続時間長の変更量は、比を元に計算した場合は、次式(3)又は(4)で定義される。
Figure 0005434587

Figure 0005434587
tとTの差分を用いた場合には、Δtは例えば次式(5)又は(6)の距離空間として定義される。
Figure 0005434587

Figure 0005434587
ピッチ周波数の変更量も、継続時間長と同様に、変更前と後のピッチ周波数の比率や差分を基に計算される。
但し、継続時間長の場合と異なり、ピッチ周波数は各単位の例えば始点・中点・終点の3点で値が異なることが多いため、複数箇所の値を使って計算した方が、ピッチ周波数の変更量を精度良く計算できる。
N点のピッチ周波数を使ってピッチ周波数の変更量を計算する場合、ピッチ周波数の変更量Δfは次式(7)又は(8)で与えられる。
Figure 0005434587

Figure 0005434587
但し、fkとFkは、それぞれ変更前と変更後のピッチ周波数、Wkは重み係数を表す。
式(7)は比率、式(8)は差分をそれぞれ変更量に用いたときの定義である。
式(7)では、比(fk/Fk)をk=0〜N-1まで乗算した値をΔfとしている。比を元に計算する場合は、対数を使っても良い。すなわち、(7)式において、fk/Fkはlog(fk/Fk)で置き換えられる。
始点・中点・終点を使う場合は、N=3となる。
Nが大きいほどピッチ周波数の変更量を精度良く計算できるが、変更量の計算に必要な計算量は多くなる。
各点におけるピッチ周波数の傾きを利用すると、単純にNの値を大きくした場合に比べて少ない計算量で精度良く計算することが可能になる。
以上の定義で与えられた韻律変更量を、単位コストを計算するときに得られる中間値で近似できる場合もある。近似精度を犠牲にしても演算量を削減したい場合には、韻律変更量を計算せずに、単位コストやその計算途中の値で代用する方法も有効である。
選択基準計算部21では、最終的に最適素片として選択される可能性が高い、即ち単位コストが低い候補素片の韻律変更量を用いて選択基準を計算する。
従って、韻律変更量計算部20においても、単位コストが低い候補素片のみを対象に韻律変更量を計算すれば、全候補素片を対象とする場合よりも韻律変更量の計算量を削減できる。
選択基準計算部21は、韻律変更量計算部20から供給される各候補素片の韻律変更量を基に、候補素片の絞り込みを行うために必要な候補選択基準を計算し、候補選択部22に供給する(ステップA5)。
候補選択部22の主な目的は、最終的に最適素片(「最適音声素片」ともいう)として選択される可能性が高い候補素片の中から、韻律変更量が、他に比べて、著しく小さい素片を候補から除外することである。
従って、基本的には、各合成単位における優良候補素片(単位コストが低い素片)の韻律変更量を、主な分析対象として分析を行い、選択基準を算出する。
選択基準値は、全合成単位に共通の値とする場合と、合成単位毎に逐次算出された値とする場合が考えられる。また、アクセント句や呼気段落といったある特定の範囲で共通の値とする場合もあり得る。
選択基準の基本的な算出手順は、次のとおりである。
先ず、合成単位ごとに、分析対象を選別し、代表値を求める。
次に、各合成単位の代表値を使って、基準値を計算する。
分析対象を選別せずに代表値を求める方法や、代表値を求めずに、基準値を計算する方法も有効である。
本実施例において用いられる、分析対象の選別、代表値の計算、そして選択基準値の計算について、それぞれ更に詳しく説明する。
<分析対象の選別>
選択基準値の算出時に使用する韻律変更量の対象を選別する方法、つまり分析対象を選別する方法は複数存在する。
最も簡単かつ有効な方法は、各合成単位の最良候補素片(単位コストが最も低い素片)の韻律変更量を分析対象とする方法である。
この場合、分析対象は各合成単位に対して1つとなるため、この方法は、同時に、代表値を求める方法ともなっている。
分析対象を各合成単位に対して複数用意する場合には、
・単位コストを基準に分析対象を選別する方法、即ち、単位コストが所定の値を下回る候補素片の韻律変更量を分析対象とする方法や、
・各合成単位において単位コストが低い方からN個(優良上位N個)を分析対象とする方法も有効である。
当然、すべての候補素片の韻律変更量を分析対象としても良い。
<代表値の計算>
選択基準を計算する上で必要な各合成単位の代表値を求める方法も、同様に複数存在する。
最も良く用いられる代表値としては、
分析対象の平均値や、中央値、最良値
などの統計量である。
分析対象から、直接、代表値を計算するのではなく、単位コストに応じて定まる重みで重み付けされた分析対象で、代表値を計算する方法も有効である。すなわち、単位コストが低い素片の韻律変更量に大きな重みを与えることにより、選択基準を計算する上で単位コストが低い素片の影響を大きくする。この単位コストに応じた重み付けは、代表値だけでなく、複数の分析対象から選択基準を計算する上でも有効な方法である。
<選択基準値の計算>
選択基準値の代表的な算出方法としては、
・平均値を計算する方法と、
・時間方向に平滑化する方法
が挙げられる。
平均値を用いる場合には、基本的には各合成単位の代表値の平均値を選択基準として算出する。
全合成単位に共通の選択基準を求める場合には、全ての合成単位の代表値を、
アクセント句毎に選択基準を求める場合には、各アクセント句を構成する合成単位の代表値を、
それぞれ用いて算出する。
また、代表値ではなく、全ての分析対象の平均値を計算する方法もありうる。
平滑化を用いる場合には、基本的には合成単位毎に選択基準が算出される。時間方向に平滑化された値を計算するので、各合成単位に対して分析対象が複数存在する場合には、各合成単位の代表値を先ず求め、その代表値を時間方向に平滑化する方法が用いられる。
代表的な平滑化手法としては、
・移動平均や、
・一次リーク積分
などがあげられる。
ここで、合成単位がK個で構成される区間(アクセント句、呼気段落など)において、i番目の合成単位の代表値(例えば最良候補素片の韻律変更量)Δq(i)とし、一次リーク積分で平滑化して選択基準が得られると仮定した場合、i番目の合成単位の選択基準L(i)は次式(9)で与えられる。
Figure 0005434587
但し、
γは、0<γ<1を満たす時定数であり、
L(-1)=0とする。
候補選択部22は、
選択基準計算部21から供給される選択基準値と、
韻律変更量計算部20から供給される候補素片の韻律変更量と、
単位コスト計算部12から供給された各候補素片情報と、
その単位コストと、
を基に、候補素片の絞込みを行い、再選択された候補素片の情報とその単位コストを接続コスト計算部13に伝達する(ステップA6)。
基本的には、候補選択部22において、単位コストが低い候補素片の中から、選択基準を元に、韻律変更量が他に比べて小さい素片が、最適素片の候補から除外される。
最も簡単な方法としては、韻律変更量が選択基準を大きく下回る素片を除外対象とする方法である。
すなわち、i番目の合成単位において、
選択基準をL(i)、
j番目の候補素片の韻律変更量をΔp(i,j)
としたときに、次式(10)又は(11)で得られる値ηが、閾値θを下回る場合には、その素片は選択候補から除外される。
Figure 0005434587

Figure 0005434587
但し、W1,W2は定数(正の実数)である。
韻律変更量Δp(i,j)が差分を基に定義されている場合は、式(10)が有効であり、比率を基に定義されている場合には、式(11)が有効である。
この他にも、選択基準と韻律変更量の比率を基にηを計算する方法なども有効である。
接続コスト計算部13は、候補選択部22から供給された候補素片情報と音声素片情報記憶部15から供給される各音声素片の属性情報を基に、各候補素片の接続コストを計算し、各候補素片の単位コストと接続コストを最適素片検索部14へ伝達する(ステップA7)。
候補選択部22からは候補素片情報と共に、各素片の単位コストが供給されるが、接続コストの計算には利用しない。
最適素片検索部14は、接続コスト計算部13から供給された候補素片情報と、単位コスト、及び接続コストをもとに、単位コストと接続コストの重みつき和が最小となる音声素片系列(最適素片系列)が求められ、韻律制御部18に伝達される(ステップA8)。
最適素片系列は、全ての音声素片の組合せについて、単位コストと接続コストの重みつき和を計算することで探索しても良いが、動的計画法を用いることで効率的に探索することが可能である。
本実施例において、
候補選択部22における選択基準が予め決まっている場合や、
音声合成装置の外部から入力される場合、すなわち韻律変更量からの算出が不要である場合、
には、選択基準計算部21は不要となる。この場合、選択基準の計算に必要な演算量を削減できる。
本実施例の音声合成装置によれば、候補素片の韻律変更量を計算し、その韻律変更量から求めた選択基準を基に、相対的に韻律変更量が特に小さい音声素片を、候補から外すことで、選択される可能性が高い音声素片の韻律変更量の分散が小さくなる。
その結果、韻律変更量が均一化されるので、韻律制御による音質低下度を均一化し、音質の不均一感を解消することが可能になる。
<実施例2>
図3は、本発明の第2の実施例の構成を示す図である。図4は、本発明の第2の実施例の動作を説明するための流れ図である。前記実施例1の構成を示した図1と、図3を比較すると、本実施例は、図1と以下の点が相違している。
(A)候補選択部22が候補選択部30に置き換えられている。
(B)韻律変更量計算部20が韻律変更量計算部31に置き換えられている。
(C)判定部33を新たに備えている。
(D)選択基準計算部21の代わりに、選択基準計算部32を備えている。
(E)図1では、接続コスト計算部13は、候補選択部22と最適素片検索部14の間に配置されているが、図3では、接続コスト計算部13は、単位コスト計算部12と候補選択部30との間に配置されており、単位コスト計算部12からの情報(候補素片の情報と、音声素片情報記憶部からの各音声素片の属性情報)を基に、接続コストを計算する。候補選択部30は、接続コスト計算部13からの出力と、判定部33の判定結果を基に、候補を絞り込む。
(F)また、図1では、最適素片検索部14は接続コスト計算部13に接続され、その出力は、波形生成部17の韻律制御部18に接続されているが、図3では、最適素片検索部14は候補選択部30に接続され、その出力は、判定部33と韻律変更量計算部31に接続されている。
これ以外は、図1の前記実施例1と同一である。以下、これらの相違点を中心に詳細な動作を説明する。
韻律変更量計算部31は、
最適素片検索部14から出力された最適素片と、
韻律生成部11から供給された韻律情報と、
音声素片情報記憶部15から供給された各最適素片の属性情報と、
を基に、各候補素片の韻律変更量を計算し、選択基準計算部32と判定部33へ伝達する(ステップB1)。
本実施例において、韻律変更量計算部31は、候補素片ではなく、最適素片のみを韻律変更量計算の対象にしている点が、前記実施例1の韻律変更量計算部20と相違している。
韻律変更量の計算方法は、前記実施例1の韻律変更量計算部20で用いられた方法と全く同様の方法が用いられる。
選択基準計算部32は、韻律変更量計算部31から供給される各素片の韻律変更量を基に、韻律変更量が著しく小さい素片の存在を判別するために必要な選択基準値を計算し、判定部33に供給する(ステップB2)。
判定部33は、最適素片の中で、韻律変更量が他に比べて著しく小さい素片が存在するか否かを判定する。
前記実施例1の選択基準計算部21との相違点は、選択基準値の算出時に使用する韻律変更量の対象が、最適素片に一意に決定されている点である。
その他の選択基準の算出方法などは、前記実施例1の選択基準計算部21で用いられた方法と全く同様である。
なお、本実施例では、選択基準の計算に、候補素片の中から選ばれた、最適素片の韻律変更量を用いたが、前記実施例1と同様に、候補素片の韻律変更量を用いても良い。この場合、選択基準計算部32は、最適素片ではなく、候補素片の韻律変更量を計算することになる。
判定部33は、
最適素片検索部14から供給された最適素片と、
韻律変更量計算部31から供給された各素片の韻律変更量と、
選択基準計算部32から供給された選択基準と、
を基に、
韻律変更量が他に比べて著しく小さい素片が存在するか否かを判定する(ステップB3)。
そして、判定部33は、韻律変更量が他に比べて著しく小さい素片が存在すると判断された場合に、韻律変更量が著しく小さい素片を候補選択部30へ伝達する。判定部33は、韻律変更量が他に比べて著しく小さい素片が存在しないと判断した場合には、最適素片を韻律制御部18に伝達する。
但し、選択基準をクリアする(存在しないと判断される)最適素片が最適素片検索部14から供給される保証は無いので、再検索回数に上限を設定する必要がある。
従って、再検索回数を記録しておき、再検索回数が所定の上限値を上回った場合には、最適素片を韻律制御部18に伝達する(ステップB4)。
判定方法は、前記実施例1の候補選択部22において、素片を選択候補から除外する方法と同様である。即ち、韻律変更量が判定基準を大きく下回る素片が存在すれば、韻律変更量が著しく小さい素片が存在すると判断する。
候補選択部30は、接続コスト計算部13から供給された候補素片の中から、判定部33から供給された素片を候補から除外し、除外されなかった候補素片とそれらの単位コスト及び接続コストを最適素片検索部14に伝達する(ステップB5)。
判定部33からの供給が無い場合、即ち、判定部33が動作する前は、除外すべき素片が存在しないので、接続コスト計算部13の出力をそのまま最適素片検索部14に伝達する。
本実施例によれば、最適素片の選択後に、韻律変更量が他と比べて著しく小さい素片を検出し、検出された素片を候補から除外して再検索を行う。
従って、もし少ない再検索回数で終了できれば、韻律変更量計算の対象となる素片の数が実施例1と比較して少なくなる。即ち、実施例1よりも少ない演算量で、韻律変更量が他と比べて小さい素片を排除することが可能になる。
<実施例3>
図5は、本発明の第3の実施例の構成を示す図である。図6は、本発明の第3の実施例の動作を説明するための流れ図である。前記実施例1の構成を示した図1と、図5とを比較すると、図1の候補選択部22が単位コスト補正部40に置き換えられている。これ以外の構成は、図1と同一である。
単位コスト補正部40は、
選択基準計算部21から供給される選択基準と、
韻律変更量計算部20から供給される候補素片の韻律変更量と、
単位コスト計算部12から供給された各候補素片情報と、
その単位コストと、
を基に、韻律変更量が他の素片と比較して小さい候補素片の単位コストを補正し、候補素片とその単位コストを接続コスト計算部13に伝達する(ステップC1)。
実施例1の候補選択部22との主な相違点は、候補素片から完全に排除するのではなく、候補素片として残したまま単位コストに「ペナルティ」と呼ばれる値を加算し、最適素片検索部14において、最適素片として選択され難くしている点である。
前記実施例1では、候補選択部22における閾値θの値やηの計算式を適切に設定することが困難な場合には、適切に候補素片を除外することが出来ない。
特に、閾値θに十分近いが、除外基準を満たさない韻律変更量を有する候補素片が存在すると、最適素片として選択され、韻律変更量の均一化に悪影響を及ぼす可能性がある。
各素片の韻律変更量と選択基準値の差分又は比率の大きさに応じてペナルティを追加すれば、実施例1では、閾値θに十分近いが除外基準を満たさない韻律変更量を有する候補素片も、本実施例では、最適素片に選ばれなくなることが期待できる。
ペナルティの計算方法としては、各素片の韻律変更量と選択基準値との差分を計算し、図7に示すような非線形の関数を用いて、その差分が大きければペナルティも大きくなるという方法が有効である。
すなわち、
ある素片の補正前単位コストをC(i,j)、
韻律変更量をΔp(i,j)、
選択基準をL(i)とすると、
補正後の単位コスト
Figure 0005434587
は次式(12)で与えられる。
Figure 0005434587
但し、g(・)は、図7に示した非線形関数で、xを入力とした場合、関数値g(x)は次式(13)で与えられる。
Figure 0005434587
但し、a1、a2、b1は正の実数であり、
Figure 0005434587
を満たす。
xが大きくなればg(x)が小さくならない(非減少)ことが、上式(12)の非線形関数g(x)に求められる条件である。式(13)の他にも、この条件をみたすような線形関数や高次多項式、重みつき加算を含む任意の関数を用いることが可能である。
式(12)を用いた方法では、韻律変更量が差分を基に定義されている場合に有効であるが、韻律変更量が比率を基に定義されている場合は、各素片の韻律変更量と選択基準値との比率を基に計算する方法が有効である。
比率を用いた場合、
ある素片の補正前単位コストをC(i,j)、
韻律変更量をΔp(i,j)、
選択基準をL(i)
とすると、補正後の単位コスト
Figure 0005434587
は次式(15)で与えられる。
Figure 0005434587
但し、h(・)は、図8に示した非線形関数で、xを入力とした場合、関数値h(x)は次式(16)で与えられる。
Figure 0005434587
但しa3,a4,b2は正の実数であり、
Figure 0005434587
を満たす。
h(x)にはg(x)と同様の条件が要求される。
式(12)ではペナルティを和で与えていたが、式(15)ではペナルティを積で与えている。このため、関数h(x)の下限値は1.0となっている。
本実施例によれば、各素片の韻律変更量と選択基準値との差分をもとに計算したペナルティを、単位コストに加算することにより、最適素片検索部14において最適素片に選択されにくくしている。
このため、実施例1では、閾値θに十分近いが除外基準を満たさない韻律変更量を有し、そのため最適素片列に選択されていた候補素片も、本実施例では、最適素片には選択されなくなる。
その結果、韻律変更量の均一化が促進され、音質の不均一感が改善する。
また、最適素片の選択候補から完全に除外されるわけではないので、実施例1では除外対象となっていた素片が、他の選択基準次第では選択されるようになる。
その結果、完全に除外される場合と比較して音質が改善する可能性がある。
なお、本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

Claims (41)

  1. 目標素片環境に適した素片を候補素片の中から選択する素片選択部を有する音声合成装置であって、
    前記素片選択部は、
    前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算し、前記候補素片の前記韻律変更量を基に定めた選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を、前記選択の対象から除外する、制御を行う、ことを特徴とする音声合成装置。
  2. 前記素片選択部は、
    前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算する韻律変更量計算部と、
    前記韻律変更量を基に、選択基準を計算する選択基準計算部と、
    前記韻律変更量と前記選択基準とを基に、選択候補の絞り込みを行う候補選択部と、
    前記絞り込まれた候補素片の中から、最適素片を検索する最適素片検索部と、
    を有し、
    前記候補選択部は、前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を選択候補から外し、前記最適素片検索部での最適素片の検索対象から除外する、ことを特徴とする請求項1記載の音声合成装置。
  3. 前記選択基準計算部は、
    前記目標素片環境と前記候補素片の素片環境とを基に、各候補素片のコストを計算するコスト計算部を有し、
    前記コストに基づいて前記選択基準を計算する、ことを特徴とする請求項2に記載の音声合成装置。
  4. 前記素片選択部は、
    前記目標素片環境と前記候補素片の素片環境とを基に、最適素片を検索する最適素片検索部と、
    前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算する韻律変更量計算部と、
    前記韻律変更量を基に、選択基準を計算する選択基準計算部と、
    前記最適素片の中に、前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片が存在した場合には、最適素片の検索の再実行が必要であると判定する判定部と、
    を有し、
    前記判定部が最適素片の検索の再実行が必要であると判定した場合には、前記最適素片検索部が、最適素片の再検索を実行する、ことを特徴とする請求項1記載の音声合成装置。
  5. 前記韻律変更量計算部は、
    前記最適素片のみを対象に韻律変更量を計算する、ことを特徴とする請求項4に記載の音声合成装置。
  6. 前記最適素片検索部は、
    前記選択基準を満足しない素片を候補から外して、最適素片の再検索を実行する、ことを特徴とする請求項4又は5に記載の音声合成装置。
  7. 前記素片選択部は、
    前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算する韻律変更量計算部と、
    前記韻律変更量から、選択基準を計算する選択基準計算部と、
    前記目標素片環境と前記候補素片の素片環境とを基に、各候補素片の単位コストを計算する単位コスト計算部と、
    前記単位コストを基に、前記候補素片の中から最適素片を検索する最適素片検索部と、
    を有し、
    前記単位コスト計算部は、
    前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片の単位コストに対してペナルティを付与する、ことを特徴とする請求項1記載の音声合成装置。
  8. 前記単位コスト計算部は、
    前記韻律変更量と前記選択基準との相対関係に応じて、前記ペナルティを決定する、ことを特徴とする請求項7に記載の音声合成装置。
  9. 前記選択基準計算部は、
    前記韻律変更量の平均値を基に前記選択基準を定める、ことを特徴とする請求項2〜8のいずれか一に記載の音声合成装置。
  10. 前記選択基準計算部は、
    前記韻律変更量を時間方向に平滑化した値を基に前記選択基準を定める、ことを特徴とする請求項2〜8のいずれか一に記載の音声合成装置。
  11. 目標素片環境に適した素片を候補素片の中から選択する段階を有する音声合成方法であって、
    前記素片を選択する段階は、
    前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算し、前記候補素片の前記韻律変更量を基に定めた選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を、前記選択の対象から除外する、制御を行う、ことを特徴とする音声合成方法。
  12. 前記素片を選択する段階は、
    前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算する段階と、
    前記韻律変更量を基に、選択基準を計算する段階と、
    前記韻律変更量と前記選択基準を基に、選択候補の絞り込みを行う段階と、
    前記絞り込まれた候補素片の中から、最適素片を検索する段階と、
    を有し、
    前記選択候補の絞込みを行う段階は、
    前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を選択候補から外す、ことを特徴とする請求項11記載の音声合成方法。
  13. 前記選択基準を計算する段階は、
    前記目標素片環境と前記候補素片の素片環境とを基に、各候補素片のコストを計算する段階を有し、
    前記コストに基づいて前記選択基準を計算する、ことを特徴とする請求項12に記載の音声合成方法。
  14. 前記素片を選択する段階は、
    前記目標素片環境と前記候補素片の素片環境とを基に、最適素片を検索する段階と、
    前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算する段階と、
    前記韻律変更量を基に選択基準を計算する段階と、
    前記最適素片の中に前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片が存在した場合には、最適素片検索の再実行が必要であると判定する段階と、
    を有し、
    前記判定する段階が最適素片検索の再実行が必要であると判定した場合には、前記最適素片を検索する段階が、最適素片の再検索を実行する、ことを特徴とする請求項11記載の音声合成方法。
  15. 前記韻律変更量を計算する段階は、
    前記最適素片のみを対象に韻律変更量を計算する、ことを特徴とする請求項14に記載の音声合成方法。
  16. 前記最適素片を検索する段階は、
    前記選択基準を満足しない素片を候補から外して、最適素片の再検索を実行する、ことを特徴とする請求項14又は15に記載の音声合成方法。
  17. 前記素片を選択する段階は、
    前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算する段階と、
    前記韻律変更量から選択基準を計算する段階と、
    前記目標素片環境と前記候補素片の素片環境とを基に、各候補素片の単位コストを計算する段階と、
    前記単位コストを基に前記候補素片の中から最適素片を検索する段階と、
    を有し、
    前記単位コストを計算する段階は、
    前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片の単位コストに対してペナルティを付与する、ことを特徴とする請求項11記載の音声合成方法。
  18. 前記単位コストを計算する段階は、
    前記韻律変更量と前記選択基準の相対関係に応じて前記ペナルティを決定する、ことを特徴とする請求項17に記載の音声合成方法。
  19. 前記選択基準を計算する段階は、
    前記韻律変更量の平均値を基に前記選択基準を定める、ことを特徴とする請求項12〜18のいずれか一に記載の音声合成方法。
  20. 前記選択基準を計算する段階は、
    前記韻律変更量を時間方向に平滑化した値を基に前記選択基準を定める、ことを特徴とする請求項12〜18のいずれか一に記載の音声合成方法。
  21. 音声合成装置を構成するコンピュータに、
    目標素片環境に適した素片を候補素片の中から選択する処理を実行させるプログラムであって、
    前記素片を選択する処理は、
    前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算し、前記候補素片の前記韻律変更量を基に定めた選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を、前記選択の対象から除外する、制御を行う処理を含む、ことを特徴とするプログラム。
  22. 前記素片を選択する処理は、
    前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算する処理と、
    前記韻律変更量を基に、選択基準を計算する処理と、
    前記韻律変更量と前記選択基準とを基に、選択候補の絞り込みを行う処理と、
    前記絞り込まれた候補素片の中から、最適素片を検索する処理と、
    を含み、
    前記選択候補の絞り込みを行う処理は、
    前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片を選択候補から外す処理を含む、ことを特徴とする請求項21記載のプログラム。
  23. 前記選択基準を計算する処理が、
    目標素片環境と候補素片の素片環境を基に各候補素片のコストを計算する処理を含み、
    前記コストに基づいて前記選択基準を計算する処理を含む、ことを特徴とする請求項22に記載のプログラム。
  24. 前記素片を選択する処理は、
    前記目標素片環境と前記候補素片の素片環境とを基に、最適素片を検索する処理と、
    前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算する処理と、
    前記韻律変更量を基に選択基準を計算する処理と、
    前記最適素片の中に前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片が存在した場合には、最適素片検索の再実行が必要であると判定する処理と、
    を含み、
    前記判定する処理は、最適素片検索の再実行が必要であると判定した場合、前記最適素片を検索する処理が最適素片の再検索を実行する処理を含む、ことを特徴とする請求項21記載のプログラム。
  25. 前記韻律変更量を計算する処理が、
    前記最適素片のみを対象に韻律変更量を計算する処理を含む、ことを特徴とする請求項24に記載のプログラム。
  26. 前記最適素片を検索する処理が、
    前記選択基準を満足しない素片を候補から外して、最適素片の再検索を実行する処理を含む、ことを特徴とする請求項24又は25に記載のプログラム。
  27. 前記素片を選択する処理は、
    前記目標素片環境と前記候補素片の韻律情報とを基に、各候補素片の韻律変更量を計算する処理と、
    前記韻律変更量から、選択基準を計算する処理と、
    前記目標素片環境と前記候補素片の素片環境とを基に、各候補素片の単位コストを計算する処理と、
    前記単位コストを基に候補素片の中から最適素片を検索する処理と、
    を含み、
    前記単位コストを計算する処理が、前記選択基準との大小関係が予め定められた所定の関係にある韻律変更量を有する素片の単位コストに対してペナルティを付与する処理を含む、
    ことを特徴とする請求項21記載のプログラム。
  28. 前記単位コストを計算する処理が、
    前記韻律変更量と前記選択基準の相対関係に応じて前記ペナルティを決定する処理を含む、ことを特徴とする請求項27に記載のプログラム。
  29. 前記選択基準を計算する処理が、
    前記韻律変更量の平均値を基に前記選択基準を定める処理を含む、ことを特徴とする請求項22〜28のいずれか一に記載のプログラム。
  30. 前記選択基準を計算する処理が、
    前記韻律変更量を時間方向に平滑化した値を基に前記選択基準を定める処理を含む、ことを特徴とする請求項22〜28のいずれか一に記載のプログラム。
  31. 請求項21〜30のいずれか一に記載のプログラムを記録した記録媒体。
  32. 請求項2記載の音声合成装置において、
    前記候補選択部で用いる選択基準を予め決めておくか、前記音声合成装置の外部から入力される構成とされ、前記選択基準計算部で前記韻律変更量を基に選択基準を計算することを要しなくしてなる、音声合成装置。
  33. 請求項1、2、4、7のいずれか一に記載の音声合成装置において、
    前記選択基準と前記韻律変更量の大小関係に関する前記予め定められた所定の関係は、前記韻律変更量が前記選択基準よりも小である、ことを特徴とする音声合成装置。
  34. 請求項11、12、14、17のいずれか一に記載の音声合成方法において、
    前記選択基準と前記韻律変更量の大小関係に関する前記予め定められた所定の関係は、前記韻律変更量が前記選択基準よりも小である、ことを特徴とする音声合成方法。
  35. 請求項21、22、24、27のいずれか一に記載のプログラムにおいて、
    前記選択基準と前記韻律変更量の大小関係に関する前記予め定められた所定の関係は、前記韻律変更量が前記選択基準よりも小である、ことを特徴とするプログラム。
  36. 請求項1記載の音声合成装置において、前記素片選択部に加え、
    テキスト文からその読みを表す記号列と、形態素の品詞、活用、アクセント情報を含む言語処理結果を生成する言語処理部と、
    前記言語処理結果を基に生成された合成音声の韻律情報を生成する韻律生成部と、
    前記素片選択部で選択された音声素片から、前記韻律生成部で生成した韻律を有する波形を生成する韻律制御部と、
    前記韻律制御部から出力された音声素片を接続し、合成音声として出力する波形接続部と、
    合成単位に分割された音声素片と、各音声素片の属性情報を記憶した音声素片情報記憶部と、
    をさらに備え、
    前記素片選択部は、
    前記言語処理部で生成された前記言語処理結果と、前記韻律生成部で生成された韻律情報と、を受け取り、前記目標素片環境を、合成単位ごとに生成し、前記音声素片情報記憶部から、前記目標素片環境によって指定される情報に合致する音声素片を候補素片として複数選択し、前記候補素片の素片環境と前記目標素片環境と、を基に、各候補素片の単位コストを計算する単位コスト計算部と、
    前記韻律情報と複数の候補素片の前記単位コストと、前記音声素片情報記憶部からの各音声素片の属性情報と、を基に、前記候補素片の韻律変更量を計算する韻律変更量計算部と、
    前記各候補素片の韻律変更量を基に、候補素片の絞り込みを行うために必要な候補の選択基準を計算する選択基準計算部と、
    前記選択基準計算部からの前記選択基準と、前記韻律変更量計算部からの前記韻律変更量と、前記単位コスト計算部からの各候補素片の情報と前記単位コストと、を基に、候補素片の絞込みを行い、その際、前記単位コストが相対的に低い候補素片の中から、前記選択基準を元に、前記韻律変更量が他に比べて小さい素片を候補から除外し、該絞込みで選択された候補素片の情報とその単位コストを出力する候補選択部と、
    前記各候補素片の情報と、前記音声素片情報記憶部からの各音声素片の属性情報とを基に、前記各候補素片の接続コストを計算する接続コスト計算部と、
    前記候補素片の情報と前記単位コスト及び前記接続コストを基に、前記単位コストと前記接続コストに関する目的関数を最適化する音声素片系列である最適素片系列を求め、前記韻律制御部に供する最適素片検索部と、
    を備えている、ことを特徴とする音声合成装置。
  37. 請求項1記載の音声合成装置において、前記素片選択部に加え、
    テキスト文からその読みを表す記号列と、形態素の品詞、活用、アクセント情報を含む言語処理結果を生成する言語処理部と、
    前記言語処理結果を基に生成された合成音声の韻律情報を生成する韻律生成部と、
    前記素片選択部で選択された音声素片から、前記韻律生成部で生成した韻律を有する波形を生成する韻律制御部と、
    前記韻律制御部から出力された音声素片を接続し、合成音声として出力する波形接続部と、
    合成単位に分割された音声素片と、各音声素片の属性情報を記憶した音声素片情報記憶部と、
    をさらに備え、
    前記素片選択部は、
    前記言語処理部で生成された前記言語処理結果と、前記韻律生成部で生成された前記韻律情報と、を受け取り、前記目標素片環境を、合成単位ごとに生成し、前記音声素片情報記憶部から、前記目標素片環境によって指定される情報に合致する音声素片を候補素片として複数選択し、前記候補素片の素片環境と前記目標素片環境とを基に、各候補素片の単位コストを計算する単位コスト計算部と、
    前記各候補素片の情報と、前記音声素片情報記憶部からの各音声素片の属性情報を基に、前記各候補素片の接続コストを計算する接続コスト計算部と、
    前記各候補素片の情報と前記単位コストと前記接続コストを基に、候補素片の絞込みを行い、該絞込みで選択された候補素片の情報とその単位コストを出力する候補選択部と、
    前記候補素片の情報と、前記単位コスト、及び前記接続コストを基に、前記単位コストと前記接続コストに関する目的関数を最適化する音声素片系列である最適素片系列を求め、前記韻律制御部に供する最適素片検索部と、
    前記最適素片検索部から出力された最適素片系列の各素片と、前記韻律生成部からの韻律情報と、前記音声素片情報記憶部からの前記最適素片系列の各素片の属性情報と、を基に、該最適素片系列の各素片の韻律変更量を計算する韻律変更量計算部と、
    前記韻律変更量計算部からの前記最適素片系列の各素片の韻律変更量を基に、韻律変更量が他と比べて著しく小さい素片の存在を判別するために必要な選択基準を計算する選択基準計算部と、
    前記最適素片検索部からの前記最適素片系列の各素片と、前記韻律変更量計算部からの前記最適素片系列の各素片の韻律変更量と、前記選択基準計算部から供給された選択基準と、を基に、韻律変更量が他に比べて著しく小さい素片が存在するか否かを判定し、
    韻律変更量が他に比べて著しく小さい素片が存在すると判定された場合に、前記韻律変更量が著しく小さい素片を前記候補選択部へ供給して、前記候補選択部からの候補素片の再検索を行い、韻律変更量が他に比べて著しく小さい素片が存在しないと判定された場合、又は、前記再検索回数が上限を上回った場合に、前記最適素片系列の各素片を前記韻律制御部に供給する制御を行う判定部と、
    を備え、
    前記候補選択部は、前記接続コスト計算部から供給された前記候補素片の中から、前記判定部から供給された素片を候補から除外し、除外されなかった候補素片と該候補素片の単位コスト及び接続コストを前記最適素片検索部に供給する、ことを特徴とする請求項1記載の音声合成装置。
  38. 請求項1記載の音声合成装置において、前記素片選択部に加え、
    テキスト文からその読みを表す記号列と、形態素の品詞、活用、アクセント情報を含む言語処理結果を生成する言語処理部と、
    前記言語処理結果を基に生成された合成音声の韻律情報を生成する韻律生成部と、
    前記素片選択部で選択された音声素片から、前記韻律生成部で生成した韻律を有する波形を生成する韻律制御部と、
    前記韻律制御部から出力された音声素片を接続し、合成音声として出力する波形接続部と、
    合成単位に分割された音声素片と、各音声素片の属性情報を記憶した音声素片情報記憶部と、
    をさらに備え、
    前記素片選択部は、
    前記言語処理部で生成された前記言語処理結果と、前記韻律生成部で生成された前記韻律情報を受け取り、前記目標素片環境を、合成単位ごとに生成し、前記音声素片情報記憶部から、前記目標素片環境によって指定される情報に合致する音声素片を候補素片として複数選択し、前記候補素片の素片環境と前記目標素片環境を基に、各候補素片の単位コストを計算する単位コスト計算部と、
    前記韻律情報と、複数の前記候補素片の各々の前記単位コストと、前記音声素片情報記憶部からの各音声素片の属性情報と、を基に、前記候補素片の韻律変更量を計算する韻律変更量計算部と、
    前記各候補素片の韻律変更量を基に、候補素片の絞り込みを行うために必要な候補の選択基準を計算する選択基準計算部と、
    前記選択基準計算部からの前記選択基準と、前記韻律変更量計算部から供給される候補素片の前記韻律変更量と、前記単位コスト計算部から供給された各候補素片の情報と前記単位コストと、を基に、前記韻律変更量が他の素片と比較して小さい候補素片の単位コストを補正し、候補素片と単位コストを出力する単位コスト補正部と、
    前記各候補素片の情報と、前記音声素片情報記憶部からの各音声素片の前記属性情報と、を基に、各候補素片の接続コストを計算する接続コスト計算部と、
    前記候補素片の情報と、前記単位コスト、及び前記接続コストを基に、前記単位コストと前記接続コストに関する目的関数を最適化する音声素片系列である最適素片系列を求め、前記韻律制御部に供する最適素片検索部と、
    を備えている、ことを特徴とする請求項1記載の音声合成装置。
  39. 前記素片を選択する段階は、
    (A)テキスト文から生成された読みを表す記号列と、形態素の品詞、活用、アクセント情報を含む言語処理結果と、前記言語処理結果を基に生成された合成音声の韻律情報と、から、目標素片環境を合成単位ごとに生成し、
    (B)合成単位に分割された音声素片と、各音声素片の属性情報を記憶した音声素片情報記憶部から、前記目標素片環境により指定される情報に合致する音声素片を、候補素片として複数選択し、
    (C)前記候補素片の素片環境と前記目標素片環境を基に、各候補素片の単位コストを計算し、
    (D)前記韻律情報と、複数の候補素片の各々の前記単位コストと、前記音声素片情報記憶部からの各音声素片の属性情報を基に、前記候補素片の韻律変更量を計算し、
    (E)前記各候補素片の韻律変更量を基に、候補素片の絞り込みを行うために必要な候補の選択基準を計算し、
    (F)前記選択基準と、候補素片の前記韻律変更量と、各候補素片の情報と前記単位コストと、を基に、候補素片の絞込みを行い、その際、前記単位コストが相対的に低い候補素片の中から、前記選択基準を元に、韻律変更量が他に比べて小さい素片を、候補から除外し、該絞込みで選択された候補素片の情報とその単位コストを出力し、
    (G)候補素片の情報と、前記音声素片情報記憶部からの前記各音声素片の属性情報を基に、各候補素片の接続コストを計算し、
    (H)前記候補素片の情報と、前記単位コスト、及び前記接続コストを基に、前記単位コストと前記接続コストに関する目的関数を最適化する音声素片系列である最適素片系列を求め、韻律制御に供する、
    上記各段階を含む、ことを特徴とする請求項11記載の音声合成方法。
  40. 前記素片を選択する段階は、
    (A)テキスト文から生成された読みを表す記号列と、形態素の品詞、活用、アクセント情報を含む言語処理結果と、前記言語処理結果を基に生成された合成音声の韻律情報から、目標素片環境を、合成単位ごとに生成し、
    (B)合成単位に分割された音声素片と、各音声素片の属性情報を記憶した音声素片情報記憶部から、前記目標素片環境により指定される情報に合致する音声素片を、候補素片として複数選択し、
    (C)前記候補素片の素片環境と前記目標素片環境を基に、各候補素片の単位コストを計算し、
    (D)前記候補素片の情報と、前記音声素片情報記憶部からの各音声素片の属性情報を基に、各候補素片の接続コストを計算し、
    (E)候補選択段階として、各候補素片の情報と単位コストと接続コストを基に、候補素片の絞込みを行い、該絞込みで選択された候補素片の情報とその単位コストを出力し、
    (F)最適素片検索段階として、前記候補素片の情報と、単位コスト、及び接続コストを基に、前記単位コストと前記接続コストに関する目的関数を最適化する音声素片系列である最適素片系列を求め、韻律制御に供し、
    (H)前記最適素片系列の各素片と、前記韻律情報と、前記音声素片情報記憶部からの前記最適素片系列の各素片の属性情報と、を基に、該最適素片系列の各素片の韻律変更量を計算し、
    (I)前記最適素片系列の各素片の韻律変更量を基に、韻律変更量が他と比べて著しく小さい素片の存在を判別するために必要な選択基準を計算し、
    (J)判定段階として、前記最適素片系列の各素片と、前記最適素片系列の各素片の前記韻律変更量と、前記選択基準と、を基に、韻律変更量が他に比べて著しく小さい素片が存在するか否かを判定し、韻律変更量が他に比べて著しく小さい素片が存在すると判定された場合には、韻律変更量が著しく小さい素片を、前記(E)の候補選択段階へ供給して、候補素片の再検索を行い、
    韻律変更量が他に比べて著しく小さい素片が存在しないと判定された場合、又は、前記再検索回数が上限を上回った場合に、前記最適素片系列の各素片を前記韻律制に供給し、
    前記(E)の候補選択段階では、候補素片の中から、前記判定段階より供給された素片を候補から除外し、除外されなかった候補素片と該候補素片の単位コスト及び接続コストを、前記(F)の最適素片検索段階に供給する、
    上記各段階を含む、ことを特徴とする請求項11記載の音声合成方法。
  41. 前記素片を選択する段階は、
    (A)テキスト文から生成された読みを表す記号列と、形態素の品詞、活用、アクセント情報を含む言語処理結果と、前記言語処理結果を基に生成された合成音声の韻律情報と、から、目標素片環境を合成単位ごとに生成し、
    (B)合成単位に分割された音声素片と、各音声素片の属性情報を記憶した音声素片情報記憶部から、前記目標素片環境により指定される情報に合致する音声素片を、候補素片として複数選択し、
    (C)前記候補素片の素片環境と前記目標素片環境を基に、各候補素片の単位コストを計算し、
    (D)前記韻律情報と、複数の候補素片の各々の前記単位コストと、前記音声素片情報記憶部からの各音声素片の属性情報を基に、前記候補素片の韻律変更量を計算し、
    (E)各候補素片の韻律変更量を基に、候補素片の絞り込みを行うために必要な候補の選択基準を計算し、
    (F)前記選択基準と、各候補素片の前記韻律変更量と候補素片の情報と前記単位コストと、を基に、韻律変更量が他の素片と比較して小さい候補素片の単位コストを補正し、候補素片と単位コストを出力し、
    (G)候補素片の情報と、前記音声素片情報記憶部からの各音声素片の属性情報を基に、各候補素片の接続コストを計算し、
    (H)前記候補素片の情報と、前記単位コスト、及び前記接続コストを基に、前記単位コストと前記接続コストに関する目的関数を最適化する音声素片系列である最適素片系列を求め、韻律制御に供する、
    上記各段階を含む、ことを特徴とする請求項11記載の音声合成方法。
JP2009500164A 2007-02-20 2008-02-15 音声合成装置及び方法とプログラム Expired - Fee Related JP5434587B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009500164A JP5434587B2 (ja) 2007-02-20 2008-02-15 音声合成装置及び方法とプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007039622 2007-02-20
JP2007039622 2007-02-20
JP2009500164A JP5434587B2 (ja) 2007-02-20 2008-02-15 音声合成装置及び方法とプログラム
PCT/JP2008/052574 WO2008102710A1 (ja) 2007-02-20 2008-02-15 音声合成装置及び方法とプログラム

Publications (2)

Publication Number Publication Date
JPWO2008102710A1 JPWO2008102710A1 (ja) 2010-05-27
JP5434587B2 true JP5434587B2 (ja) 2014-03-05

Family

ID=39709987

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009500164A Expired - Fee Related JP5434587B2 (ja) 2007-02-20 2008-02-15 音声合成装置及び方法とプログラム

Country Status (4)

Country Link
US (1) US8630857B2 (ja)
JP (1) JP5434587B2 (ja)
CN (1) CN101617359B (ja)
WO (1) WO2008102710A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5177135B2 (ja) * 2007-05-08 2013-04-03 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
JP5198200B2 (ja) * 2008-09-25 2013-05-15 株式会社東芝 音声合成装置及び方法
US9761219B2 (en) * 2009-04-21 2017-09-12 Creative Technology Ltd System and method for distributed text-to-speech synthesis and intelligibility
JP2011180368A (ja) * 2010-03-01 2011-09-15 Fujitsu Ltd 合成音声修正装置および合成音声修正方法
JP5123347B2 (ja) * 2010-03-31 2013-01-23 株式会社東芝 音声合成装置
JP5366919B2 (ja) * 2010-12-07 2013-12-11 日本電信電話株式会社 音声合成方法、装置、及びプログラム
JP6221301B2 (ja) * 2013-03-28 2017-11-01 富士通株式会社 音声処理装置、音声処理システムおよび音声処理方法
JP6520108B2 (ja) * 2014-12-22 2019-05-29 カシオ計算機株式会社 音声合成装置、方法、およびプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08263095A (ja) * 1995-03-20 1996-10-11 N T T Data Tsushin Kk 音声素片選択方法および音声合成装置
JP2001092482A (ja) * 1999-03-25 2001-04-06 Matsushita Electric Ind Co Ltd 音声合成システム、および音声合成方法
JP2004109535A (ja) * 2002-09-19 2004-04-08 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
JP2004139033A (ja) * 2002-09-25 2004-05-13 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
JP2004347653A (ja) * 2003-05-20 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JP2004354644A (ja) * 2003-05-28 2004-12-16 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JP2005164749A (ja) * 2003-11-28 2005-06-23 Toshiba Corp 音声合成方法、音声合成装置および音声合成プログラム
JP2005292433A (ja) * 2004-03-31 2005-10-20 Toshiba Corp 音声合成装置、音声合成方法および音声合成プログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6823309B1 (en) * 1999-03-25 2004-11-23 Matsushita Electric Industrial Co., Ltd. Speech synthesizing system and method for modifying prosody based on match to database
JP3728172B2 (ja) * 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
AU2001290882A1 (en) * 2000-09-15 2002-03-26 Lernout And Hauspie Speech Products N.V. Fast waveform synchronization for concatenation and time-scale modification of speech
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification
TW556150B (en) * 2002-04-10 2003-10-01 Ind Tech Res Inst Method of speech segment selection for concatenative synthesis based on prosody-aligned distortion distance measure
JP4004376B2 (ja) * 2002-10-02 2007-11-07 日本電信電話株式会社 音声合成装置、音声合成プログラム
JP3854593B2 (ja) 2003-09-16 2006-12-06 株式会社国際電気通信基礎技術研究所 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム
DE602005026778D1 (de) * 2004-01-16 2011-04-21 Scansoft Inc Corpus-gestützte sprachsynthese auf der basis von segmentrekombination
JP4328698B2 (ja) * 2004-09-15 2009-09-09 キヤノン株式会社 素片セット作成方法および装置
JP2006084854A (ja) * 2004-09-16 2006-03-30 Toshiba Corp 音声合成装置、音声合成方法および音声合成プログラム
US20080177548A1 (en) * 2005-05-31 2008-07-24 Canon Kabushiki Kaisha Speech Synthesis Method and Apparatus
JP4425192B2 (ja) * 2005-07-19 2010-03-03 日本電信電話株式会社 音声合成方法、装置、プログラム、および記録媒体
JP5177135B2 (ja) * 2007-05-08 2013-04-03 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08263095A (ja) * 1995-03-20 1996-10-11 N T T Data Tsushin Kk 音声素片選択方法および音声合成装置
JP2001092482A (ja) * 1999-03-25 2001-04-06 Matsushita Electric Ind Co Ltd 音声合成システム、および音声合成方法
JP2004109535A (ja) * 2002-09-19 2004-04-08 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
JP2004139033A (ja) * 2002-09-25 2004-05-13 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
JP2004347653A (ja) * 2003-05-20 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JP2004354644A (ja) * 2003-05-28 2004-12-16 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JP2005164749A (ja) * 2003-11-28 2005-06-23 Toshiba Corp 音声合成方法、音声合成装置および音声合成プログラム
JP2005292433A (ja) * 2004-03-31 2005-10-20 Toshiba Corp 音声合成装置、音声合成方法および音声合成プログラム

Also Published As

Publication number Publication date
WO2008102710A1 (ja) 2008-08-28
CN101617359A (zh) 2009-12-30
US8630857B2 (en) 2014-01-14
CN101617359B (zh) 2012-01-18
JPWO2008102710A1 (ja) 2010-05-27
US20100076768A1 (en) 2010-03-25

Similar Documents

Publication Publication Date Title
JP5434587B2 (ja) 音声合成装置及び方法とプログラム
US8321208B2 (en) Speech processing and speech synthesis using a linear combination of bases at peak frequencies for spectral envelope information
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
CN101131818A (zh) 语音合成装置与方法
JP2010230699A (ja) 音声合成装置、プログラム、及び方法
JP2006309162A (ja) ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
US9805711B2 (en) Sound synthesis device, sound synthesis method and storage medium
JP4639932B2 (ja) 音声合成装置
JP5512597B2 (ja) 音声合成装置とその方法とプログラム
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5177135B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2016065900A (ja) 音声合成装置、方法、およびプログラム
JP4170819B2 (ja) 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JP5446873B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP4034751B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP5158567B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5020759B2 (ja) 種々の音声合成装置のための素片データベース生成装置、方法及びプログラム
JP4167084B2 (ja) 音声合成方法及び装置、並びに音声合成プログラム
JP5020763B2 (ja) 音声合成のための決定木を生成する装置、方法及びプログラム
JP2007079019A (ja) 音声合成方法,音声合成装置,およびコンピュータプログラム
Rojc et al. Gradient-descent based unit-selection optimization algorithm used for corpus-based text-to-speech synthesis
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131015

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131125

R150 Certificate of patent or registration of utility model

Ref document number: 5434587

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees