JP5975033B2 - 音声合成装置、音声合成方法および音声合成プログラム - Google Patents

音声合成装置、音声合成方法および音声合成プログラム Download PDF

Info

Publication number
JP5975033B2
JP5975033B2 JP2013523778A JP2013523778A JP5975033B2 JP 5975033 B2 JP5975033 B2 JP 5975033B2 JP 2013523778 A JP2013523778 A JP 2013523778A JP 2013523778 A JP2013523778 A JP 2013523778A JP 5975033 B2 JP5975033 B2 JP 5975033B2
Authority
JP
Japan
Prior art keywords
pose
length
replacement
text
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013523778A
Other languages
English (en)
Other versions
JPWO2013008385A1 (ja
Inventor
康行 三井
康行 三井
玲史 近藤
玲史 近藤
正徳 加藤
正徳 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2013008385A1 publication Critical patent/JPWO2013008385A1/ja
Application granted granted Critical
Publication of JP5975033B2 publication Critical patent/JP5975033B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、統計的手法を用いてテキストから合成された音声のポーズ長を変更する音声合成装置、音声合成方法および音声合成プログラムに関する。
近年、統計的手法を用いた音声合成方法が注目されている。統計的手法を用いた音声合成では、一般的にポーズ継続時間長(以下、ポーズ長と記す。)も学習対象であり、このポーズ長は、韻律モデルから生成される。ポーズ長も話者に依存して顕在化する特徴である。そのため、学習によりポーズ時間長を生成することで、一般的に、合成音声の自然性を高めることができる。
統計データを用いてポーズ長を決定する装置の一例が特許文献1に記載されている。特許文献1に記載された規則音声合成装置は、話者ごとにポーズ長の統計量(平均、標準偏差)を算出し、ポーズ前後の呼気段落のモーラ数や係り受けの距離に基づく重み係数を用いてポーズ長の予測値を算出する。
特開2003−84787号公報
一方、学習データの偏り度合いによっては、不適切なポーズが生成される場合がある。すなわち、このようなデータを用いた場合、合成音声に含まれるポーズ長が期待通りにならないことある。例えば、学習データのドメイン(どのような場面を想定して発声された内容であるか)と、生成される合成音のタスク(どのような場面で使うか)とが異なる場合や、学習データに複数のドメインが混在する場合、このような問題が顕著に現れる。
合成音声に不適切なポーズ長が含まれると、内容の理解の妨げになってしまう。そのため、合成音声に含まれるポーズ長を、聞き手にとって聞きやすい長さに設定できることが好ましい。
統計的手法を用いて音声合成を行う場合、大量の学習データを準備しておけば、任意のテキストについて適切なポーズ長の合成音声を生成することは可能である。しかし、準備できる学習データの量は限られており、全てのパタンを想定した学習データを準備することは現実的でない。さらに、大量の学習データを用いて学習したとしても、確率論的な統計的手法を用いている以上、必ずしも利用者が求めているポーズ長の合成音声が生成されるとは限らない。
また、特許文献1に記載された規則音声合成装置は、学習データに基づいて算出される予測値を用いてポーズ長を決定する。しかし、特許文献1に記載された規則音声合成装置では、入力テキストに基づいて統計モデルから生成された任意の箇所のポーズ長を期待通りのポーズ長に切り替えることは困難である。ポーズ長を切り替えるための学習データを準備することも考えられるが、上述の通り、期待通りの結果を得るためには非常に大量の学習データが必要になってしまい、現実的ではない。したがって、特許文献1に記載された規則音声合成装置を用いても、聞き手が内容を理解しやすい適切な長さのポーズが挿入された音声を合成できるとは言い難い。
そこで、本発明は、学習データ量を抑えながら、聞き手が内容を理解しやすい適切な長さのポーズが挿入された音声を入力テキストから合成できる音声合成装置、音声合成方法および音声合成プログラムを提供することを目的とする。
本発明による音声合成装置は、音声合成の対象とするテキストの解析結果と、テキストに含まれる要素のまとまりごとに定められる判定条件とに基づいて、音声合成の対象とするテキストに含まれる要素のまとまりの内容を判定し、要素の内容を示す情報としてその各要素に付加される情報である付加情報を、その要素のまとまりを構成する要素ごとに決定する付加情報決定手段と、付加情報ごとにポーズの置換方法を規定したルールであるポーズ置換ルールに基づいて、音声合成の対象とするテキストに含まれる要素の中から、ポーズ長を置換する対象である置換対象を決定する置換対象決定手段と、統計モデルに基づいてテキストから生成された少なくともポーズ位置およびポーズ長を示す情報を含むポーズ情報のうち、置換対象決定手段が決定した置換対象の位置に対応する各ポーズ位置のポーズ長を置換するポーズ長置換手段とを備えたことを特徴とする。
本発明による音声合成方法は、音声合成の対象とするテキストの解析結果と、テキストに含まれる要素のまとまりごとに定められる判定条件とに基づいて、音声合成の対象とするテキストに含まれる要素のまとまりの内容を判定し、要素の内容を示す情報としてその各要素に付加される情報である付加情報を、その要素のまとまりを構成する要素ごとに決定し、前記付加情報ごとにポーズの置換方法を規定したルールであるポーズ置換ルールに基づいて、音声合成の対象とするテキストに含まれる要素の中から、ポーズ長を置換する対象である置換対象を決定し、統計モデルに基づいてテキストから生成された少なくともポーズ位置およびポーズ長を示す情報を含むポーズ情報のうち、テキストに含まれる要素の中から決定された置換対象の位置に対応する各ポーズ位置のポーズ長を置換することを特徴とする。
本発明による音声合成プログラムは、コンピュータに、音声合成の対象とするテキストの解析結果と、テキストに含まれる要素のまとまりごとに定められる判定条件とに基づいて、音声合成の対象とするテキストに含まれる要素のまとまりの内容を判定し、要素の内容を示す情報としてその各要素に付加される情報である付加情報を、その要素のまとまりを構成する要素ごとに決定する付加情報決定処理、前記付加情報ごとにポーズの置換方法を規定したルールであるポーズ置換ルールに基づいて、音声合成の対象とするテキストに含まれる要素の中から、ポーズ長を置換する対象である置換対象を決定する置換対象決定処理、および、統計モデルに基づいてテキストから生成された少なくともポーズ位置およびポーズ長を示す情報を含むポーズ情報のうち、置換対象決定処理で決定された置換対象の位置に対応する各ポーズ位置のポーズ長を置換するポーズ長置換処理を実行させることを特徴とする。
本発明によれば、学習データ量を抑えながら、聞き手が内容を理解しやすい適切な長さのポーズが挿入された音声を入力テキストから合成できる。
本発明による音声合成装置の第1の実施形態の構成例を示すブロック図である。 テキスト解析結果と付加情報との関係の例を示す説明図である。 ポーズ置換ルールの例を示す説明図である。 ポーズ長を決定した結果の例を示す説明図である。 第1の実施形態の音声合成装置の動作例を示すフローチャートである。 本発明による音声合成装置の第2の実施形態の構成例を示すブロック図である。 第2の実施形態の音声合成装置の動作例を示すフローチャートである。 本発明による音声合成装置の第3の実施形態の構成例を示すブロック図である。 ポーズ長指定部31の構成例を示すブロック図である。 第3の実施形態の音声合成装置の動作例を示すフローチャートである。 付加情報およびポーズ長の例を示す説明図である。 本発明による音声合成装置の最小構成の例を示すブロック図である。
以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
図1は、本発明による音声合成装置の第1の実施形態の構成例を示すブロック図である。本実施形態における音声合成装置は、テキスト解析部11と、付加情報判定部12と、置換対象ポーズ判定部13と、ポーズ長決定部14と、ポーズ置換部15と、状態継続長生成部16と、ピッチパタン生成部17と、波形生成部18と、韻律モデル記憶部19と、音素素片データベース(以下、音素素片DBと記す。)記憶部20とを備えている。
テキスト解析部11は、入力テキスト21に対して、例えば形態素解析等のテキスト解析処理を行う。また、テキスト解析部11は、テキスト解析結果に対して、アクセント位置やアクセント句区切りなど、音声合成に必要な付加的情報を付与したり、変更を加えたりする処理を行う。ただし、テキスト解析部11が行う言語解析処理は、上記内容に限定されない。テキスト解析部11は、他にも、入力テキスト21に含まれる文字の読みを解析する処理などを行う。
そして、テキスト解析部11は、テキスト解析結果に基づいて、漢字や数字の読み、アクセントを表す情報(例えば、アクセント位置やアクセント区切りなど)、ポーズ位置などを含む発音情報22を作成し、状態継続長生成部16に出力する。また、テキスト解析部11は、テキスト解析結果に基づいて、品詞の種類や、読み、動詞や形容詞等の活用形、係り受け情報などを含む情報を付加情報判定部12に出力する。なお、テキスト解析部11は、発音情報22や入力テキスト21そのものの情報を付加情報判定部12に出力してもよい。
韻律モデル記憶部19は、統計的手法で生成された韻律モデルを記憶する。韻律モデル記憶部19は、例えば、隠れマルコフモデル(Hidden Markov Model:HMM)により生成された韻律モデルを記憶する。
状態継続長生成部16は、テキスト解析部11によるテキスト解析結果および韻律モデル記憶部19に記憶された韻律モデルに基づいて、各音素の状態継続長を計算する。
ピッチパタン生成部17は、状態継続長生成部16による計算結果および韻律モデルに基づいてピッチパタンを生成する。そして、ピッチパタン生成部17は、状態継続長生成部16および自身の処理結果に基づいて、少なくとも入力テキスト21中のポーズ位置およびポーズ長を示す情報を含むポーズ長情報24をポーズ置換部15に入力する。
なお、ポーズ長情報24には、ポーズ位置およびポーズ長を示す情報が含まれていればよい。ポーズ長情報24は、例えば、韻律以外の情報を含んでいてもよい。そのため、ポーズ長情報24は、統計モデルに基づいて入力テキスト21から生成された少なくともポーズ位置およびポーズ長を示す情報であると言える。
また、ピッチパタン生成部17は、合成音声の声の高さやテンポを指定する韻律情報25を波形生成部18に出力する。韻律情報25には、例えば、基本周波数のパタンや、各音素の継続時間長を示す情報が含まれる。
付加情報判定部12は、テキスト解析部11が入力したテキスト解析結果と、予め定めておいた判定条件に基づいて、テキストに含まれる要素の内容を示す情報を判定して、そのテキストの各要素に付加する情報(以下、付加情報と記す。)を決定する。ここで、テキストに含まれる要素とは、テキストを構成する任意の単位を意味する。テキストに含まれる要素として、例えば、形態素、音素、音節、単語、文節、アクセント句、呼気段落、文全体などが挙げられる。また、テキストに含まれる要素の内容を示す情報の例として、(単独)数字、電話番号、住所、氏名、固有名詞などが挙げられる。このテキストに含まれる要素の内容を示す情報を、付加情報23としてもよい。
また、入力テキスト21やテキスト解析結果から判定できる内容であれば、判定条件には、任意の条件を設定可能である。例えば、判定条件を、各要素単位で定めておいてもよく、要素のまとまりごとに定めておいてもよい。また、入力テキスト21の一部から判定可能な内容を判定条件として定めておいてもよい。
図2は、テキスト解析結果と付加情報との関係の例を示す説明図である。図2(A)に示す例では、入力テキスト21に文字列「012−345−6789」が含まれ、各文字が「数詞」または「記号(ハイフン)」と解析されたテキスト解析結果が付加情報判定部12に入力されたことを示す。
ここで、判定条件として「ハイフンで区切られる10桁程度の数詞の羅列は電話番号と判定する」や、「0から始まる10桁程度の数詞の羅列は電話番号と判定する」が定められているとする。この場合、付加情報判定部12は、入力テキスト21またはテキスト解析結果から、「012−345−6789」を電話番号と判定する。そして、付加情報判定部12は、電話番号を構成する文字ごとに付加情報を決定する。この場合、電話番号を構成する各文字についての判定条件を予め定めておけばよい。図2(B)は、付加情報の判定結果例を示す。なお、単独数字を判断する場合、「ポーズに挟まれた数詞を単独数字と判断する」ことを示す判定条件を定めておけばよい。
他にも、付加情報判定部12は、文段落のモーラ長や呼気段落のモーラ長などで表される長さ情報や、文頭段落または呼気段落の先頭からの距離(すなわち、モーラ数)などで表される位置情報、単語の羅列であるか否かを示す情報などをテキスト解析結果から抽出してもよい。そして、付加情報判定部12は、抽出したこれらの情報を判定条件とマッチングさせて、付加情報を決定してもよい。
なお、本実施形態では、付加情報判定部12がテキストの各要素に付加する付加情報を決定する場合を例に説明した。ただし、ユーザ等が付加情報を手動で付加するようにしてもよい。また、入力テキスト21が予め付加情報を含むようにしてもよい。この場合、付加情報判定部12は、付加情報を決定する必要はないため、音声合成装置は、付加情報判定部12を備えていなくてもよい。
置換対象ポーズ判定部13は、ポーズ長を置換する対象を判定する。具体的には、置換対象ポーズ判定部13は、ポーズ長を置換する対象ごとにポーズの置換方法を規定したルール(以下、ポーズ置換ルールと記す。)に基づいて、ポーズ長を置換する対象を判定する。本実施形態の説明では、ポーズ置換ルールが付加情報ごとに定められているものとする。この場合、置換対象ポーズ判定部13は、ポーズ置換ルールに規定された付加情報をポーズ長を置換する対象の付加情報と判定する。ここで、ポーズ長を置換する対象とは、その対象の前または後の少なくとも一方にポーズが挿入されるもの、または、対象自身の中にポーズを含むものを意味する。前者の例として、数字などの文字が挙げられる。後者の例として、電話番号や、文または呼気段落全体などが挙げられる。
図3は、ポーズ置換ルールの例を示す説明図である。図3に示す例では、ポーズ置換ルールが、付加情報とその付加情報が付加された要素の直前直後の置換ポーズ長とを対応づけたルールであることを示す。図3に例示するポーズ置換ルールは、付加情報に「電話番号(先頭)」が含まれている場合、その付加情報が付された要素の直前のポーズ長を「中」程度の長さに置き換え、その要素の直後のポーズ長を「短」程度の長さに置き換えることを意味している。ポーズの置換え位置は、処理対象の直前または直後のいずれか一方であってもよく、処理対象の直前および直後の両方であってもよい。
ポーズ長決定部14は、置換対象ポーズ判定部13が判定したポーズ長を置換する処理の対象ごとに、置換後のポーズ長を決定する。具体的には、ポーズ長決定部14は、上述するポーズ置換ルールに基づいて、処理対象ごとに置換するポーズのポーズ長を決定する。なお、ポーズ長決定部14は、処理対象の直前または直後のいずれか一方のポーズ長を決定してもよく、処理対象の直前および直後の両方のポーズ長を決定してもよい。ポーズ長を決定する対象は、ポーズ置換ルールに基づいて判断される。なお、本実施形態では、ポーズ長決定部14は、付加情報が付加された要素の直前または直後のうちの少なくとも一方のポーズ長を決定する。
なお、判定条件間で齟齬が生じた場合の処理については、利用者が任意に定めておけばよい。この場合の処理として、例えば、先の条件を優先する、後の条件を優先する、ポーズが長い(または、短い)方を優先するなどが考えられる。
図4は、ポーズ長を決定した結果の例を示す説明図である。図4に例示するポーズ長は、図2に例示する付加情報をもとにポーズ長決定部14が処理対象(ここでは、電話番号を構成する各数字)の直後のポーズ長をそれぞれ決定したことを示す。
ポーズ置換部15は、入力されたポーズ長情報24のうち、置換対象ポーズ判定部13が決定した置換対象の位置に対応する各ポーズ位置のポーズ長を置換する。本実施形態では、ポーズ置換部15は、入力されたポーズ長情報24のうち、置換対象ポーズ判定部13が決定した置換対象の位置に対応する各ポーズ位置のポーズ長をポーズ長決定部14が決定したポーズ長に置換する。
なお、本発明において、「ポーズ長を置換する」とは、元のポーズ長を新しいポーズ長で置換することを意味するだけでなく、元のポーズ長に所定の演算(例えば、加減算、一定の割合を乗じる、など)を行うことでポーズ長を変更することも意味する。
音素素片DB記憶部20は、音声を作成する単位(素片)ごとの属性を記憶する。属性には、各音素の波形や、母音/子音を示す情報、有声/無声を示す情報などが含まれる。以下、この属性が示す情報のことを素片情報と記す。
波形生成部18は、ピッチパタン生成部17から入力された韻律情報25、ポーズ置換部15がポーズ長を置換したポーズ長情報24、および、音素素片DB記憶部20に記憶された素片情報に基づいて、音声波形を生成する。言い換えると、波形生成部18は、これらの情報に基づいて合成音声26を生成する。
テキスト解析部11と、付加情報判定部12と、置換対象ポーズ判定部13と、ポーズ長決定部14と、ポーズ置換部15と、状態継続長生成部16と、ピッチパタン生成部17と、波形生成部18とは、プログラム(音声合成プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、音声合成装置の記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、テキスト解析部11、付加情報判定部12、置換対象ポーズ判定部13、ポーズ長決定部14、ポーズ置換部15、状態継続長生成部16、ピッチパタン生成部17、及び波形生成部18として動作してもよい。
また、テキスト解析部11と、付加情報判定部12と、置換対象ポーズ判定部13と、ポーズ長決定部14と、ポーズ置換部15と、状態継続長生成部16と、ピッチパタン生成部17と、波形生成部18とは、それぞれが専用のハードウェアで実現されていてもよい。また、韻律モデル記憶部19、及び音素素片DB記憶部20は、例えば、磁気ディスク等により実現される。
次に、本実施形態における音声合成装置の動作を説明する。図5は、本実施形態の音声合成装置の動作例を示すフローチャートである。まず、テキスト解析部11は、入力テキスト21のテキスト解析を行う(ステップS11)。状態継続長生成部16は、テキスト解析を行った結果生成された発音情報22と韻律モデルとに基づいて、状態継続長を算出する(ステップS12)。そして、ピッチパタン生成部17は、韻律モデルと状態継続長とからピッチパタンを生成し(ステップS13)、ポーズ長情報24をポーズ置換部15に入力する。
一方、付加情報判定部12は、テキスト解析部11による入力テキスト21のテキスト解析結果と、予め定めておいた判定条件とに基づいて、テキストの各要素に付加する付加情報の判定処理を行う(ステップS14)。置換対象ポーズ判定部13は、決定された付加情報23とポーズ置換ルールとに基づいて、ポーズ長を置換する処理対象を判定する(ステップS15)。そして、ポーズ長決定部14は、置換対象ポーズ判定部13が判定した処理対象ごとに置換するポーズ長を決定する(ステップS16)。
ポーズ置換部15は、入力されたポーズ長情報24のうち、置換対象ポーズ判定部13が判定した処理対象のポーズ位置に対応するポーズ長をポーズ長決定部14が決定したポーズ長に置換する(ステップS17)。そして、波形生成部18は、韻律情報25、ポーズ長が置換されたポーズ長情報24、および音素素片DB記憶部20に記憶された素片情報に基づいて、合成音声26を生成する(ステップS18)。
以上のように、本実施形態によれば、置換対象ポーズ判定部13が、ポーズ置換ルールに基づいて、入力テキスト21に含まれる要素の中から置換対象を決定する。そして、ポーズ置換部15が、ポーズ長情報24に含まれる情報のうち、置換対象ポーズ判定部13が決定した置換対象の位置に対応する各ポーズ位置のポーズ長を置換する。具体的には、置換対象ポーズ判定部13が、付加情報ごとにポーズの置換方法を規定したポーズ置換ルールに基づいて、入力テキスト21に含まれる要素の中から置換対象を決定する。
よって、学習データ量を抑えながら、聞き手が内容を理解しやすい適切な長さのポーズが挿入された音声を入力テキストから合成できる。その結果、利用者にとって期待通りの長さのポーズが挿入された合成音が生成される。
例えば、ニュースが読み上げられるような場合、統計モデルによって生成されるポーズ継続時間長が好適なポーズ長と言える。このような場合には、各ポーズ長を置換する必要がない場合が多い。一方、例えば、自動音声応答(Interactive Voice Response:IVR)システムでは、意図的にポーズ長を変えた方が聞き手にとって内容が理解しやすくなる場合が多い。
例えば、数字や商品名の直後のポーズを長くすることで、内容の確認が容易になる。また、音声に電話番号が含まれる場合、電話番号の各数字間には適度な長さのポーズが含まれることが望ましい。数字間のポーズが短すぎると聞き取りが困難になり、数字間のポーズが長すぎると電話番号として認識することが困難になるからである。本実施形態による音声合成装置は、このような場面に適用可能である。
実施形態2.
図6は、本発明による音声合成装置の第2の実施形態の構成例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本実施形態における音声合成装置は、テキスト解析部11と、置換対象ポーズ判定部13aと、ポーズ長決定部14と、ポーズ置換部15と、状態継続長生成部16と、ピッチパタン生成部17と、波形生成部18と、韻律モデル記憶部19と、音素素片DB記憶部20とを備えている。すなわち、本実施形態における音声合成装置は、付加情報判定部12を備えていない点において、第1の実施形態における音声合成装置と異なる。
第1の実施形態では、ポーズ置換ルールが付加情報ごとに定められている場合について説明した。本実施形態では、ポーズ置換ルールとして、文または呼気全体におけるポーズの置換方法が規定されている場合について説明する。
置換対象ポーズ判定部13aは、文または呼気全体をポーズ長の置換対象としたポーズ置換ルールに基づいて、ポーズ長を置換する処理の対象を決定する。例えば、ポーズ置換ルールが、「文または呼気段落の長さがNモーラ以上の場合、文全体のポーズ長を2割短くする」と規定されているとする。この場合、置換対象ポーズ判定部13aは、文または呼気段落の長さがNモーラ以上か否かを判定する。この条件を満たす場合、置換対象ポーズ判定部13aは、ポーズ長を置換する処理対象を文全体と決定する。
ポーズ長決定部14は、ポーズ置換ルールに基づいて、文または呼気段落に含まれるポーズごとに置換するポーズ長を決定する。上記例の場合、ポーズ長決定部14は、文全体に含まれるポーズごとにポーズ長を2割短くする演算を行う。
そして、ポーズ置換部15は、文全体に含まれる各ポーズのポーズ長をポーズ長決定部14が算出したポーズ長で置き換える。なお、この場合、ポーズ長決定部14が行う演算処理をポーズ置換部15が行ってもよい。具体的には、ポーズ置換部15が、ポーズ長情報24に含まれるポーズ長を2割短くする処理を行ってもよい。
なお、テキスト解析部11と、置換対象ポーズ判定部13aと、ポーズ長決定部14と、ポーズ置換部15と、状態継続長生成部16と、ピッチパタン生成部17と、波形生成部18とは、プログラム(音声合成プログラム)に従って動作するコンピュータのCPUによって実現される。
次に、本実施形態における音声合成装置の動作を説明する。図7は、本実施形態の音声合成装置の動作例を示すフローチャートである。テキスト解析部11が入力テキスト21のテキスト解析を行い、状態継続長生成部16が状態継続長を算出し、ピッチパタン生成部17がピッチパタンを生成するステップS11〜ステップS13の処理は、図5に例示する処理と同様である。
一方、置換対象ポーズ判定部13aは、ポーズ置換ルールに基づいてポーズ長を置換する処理対象を判定する(ステップS19)。すなわち、本実施形態では、付加情報を用いない点において図5に例示するステップS14〜ステップS15の処理と異なる。
以降、ポーズ長決定部14が処理対象ごとに置換するポーズ長を決定し、ポーズ置換部15によって置換されたポーズ長に基づいて波形生成部18が合成音声26を生成するステップS16〜ステップS18の処理は、図5に例示する処理と同様である。
以上のように、本実施形態でも、置換対象ポーズ判定部13aが、ポーズ置換ルールに基づいて、入力テキスト21に含まれる要素の中から置換対象を決定する。そして、ポーズ置換部15が、ポーズ長情報24に含まれる情報のうち、置換対象ポーズ判定部13aが決定した置換対象の位置に対応する各ポーズ位置のポーズ長を置換する。また、本実施形態では、置換対象ポーズ判定部13aが、文または呼気全体を置換対象としたポーズ置換ルールに基づいて、入力テキスト21に含まれる要素の中から置換対象を決定する。よって、第1の実施形態と同様に、学習データ量を抑えながら、聞き手が内容を理解しやすい適切な長さのポーズが挿入された音声を入力テキストから合成できる。
実施形態3.
図8は、本発明による音声合成装置の第3の実施形態の構成例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本実施形態における音声合成装置は、テキスト解析部11と、付加情報判定部12と、置換対象ポーズ判定部13と、ポーズ長指定部31と、ポーズ置換部15と、状態継続長生成部16と、ピッチパタン生成部17と、波形生成部18と、韻律モデル記憶部19と、音素素片DB記憶部20とを備えている。すなわち、本実施形態における音声合成装置は、ポーズ長決定部14の代わりにポーズ長指定部31を備えている点において、第1の実施形態における音声合成装置と異なる。
図9は、ポーズ長指定部31の構成例を示すブロック図である。ポーズ長指定部31は、ポーズ位置表示部32と、ポーズ長入力部33とを含む。ポーズ位置表示部32は、置換対象ポーズ判定部13が判定した処理対象のポーズをポーズ長情報24から特定する。そして、ポーズ位置表示部32は、特定したポーズの位置およびそのポーズの長さをユーザ等が識別できるように表示する。ポーズ位置表示部32は、例えば、入力テキスト21とともに、その入力テキスト21内の処理対象のポーズ位置に予め定めた記号や図形などを表示してもよい。また、ポーズ位置表示部32は、ポーズ位置に韻律モデルにより算出されたポーズ長を表示するようにしてもよい。ただし、ポーズ位置およびポーズ長の表示方法は、上記方法に限定されない。ポーズ位置表示部32は、例えばディスプレイやタッチパネル等により実現される。
ポーズ長入力部33は、ポーズ位置表示部32に識別可能に表示されたポーズのうち、変更するポーズに対するポーズ長の入力をユーザから受け付ける。そして、ポーズ長入力部33は、変更を受け付けたポーズ長をポーズ置換部15に入力する。以降、ポーズ置換部15は、対象とするポーズのポーズ長をポーズ長入力部33に入力された変更後のポーズ長に置換する。なお、ポーズ長入力部33は、例えば、タッチパネルやキーボード等により実現される。
次に、本実施形態における音声合成装置の動作を説明する。図10は、本実施形態の音声合成装置の動作例を示すフローチャートである。テキスト解析部11が入力テキスト21のテキスト解析を行ってから、置換対象ポーズ判定部13がポーズ長を置換する処理対象を判定するステップS11〜ステップS15の処理は、図5に例示する処理と同様である。
ポーズ位置表示部32は、置換対象ポーズ判定部13が判定した処理対象のポーズ位置をポーズ長情報24から特定する。そして、ポーズ位置表示部32は、特定したポーズ位置およびポーズ長を表示する(ステップS20)。ポーズ長入力部33は、変更するポーズ長の入力をユーザから受け付け(ステップS21)、入力されたポーズ長をポーズ置換部15に入力する。
以降、ポーズ置換部15が、入力されたポーズ長でポーズ長を置換し、置換されたポーズ長に基づいて波形生成部18が合成音声26を生成するステップS17〜ステップS18の処理は、図5に例示する処理と同様である。
以上のように、本実施形態によれば、ポーズ位置表示部32が、置換対象ポーズ判定部13が置換対象と決定した位置に対応するポーズをポーズ情報から特定し、特定したポーズのポーズ位置およびそのポーズの長さを識別可能に表示する。また、ポーズ長入力部33は、ポーズ位置表示部32に識別可能に表示されたポーズに対して変更後のポーズ長の入力を受け付ける。そして、ポーズ置換部15が、ポーズ長情報24のポーズ長をポーズ長入力部33に入力された変更後のポーズ長に置換する。よって、第1の実施形態および第2の実施形態の効果に加え、内容を理解しやすい適切な長さのポーズが挿入された音声を聞き手の感覚に応じて合成できる。
以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。本実施例では、「お客さまの電話番号は、0123456789、よろしければ、1、間違っている場合は、2、を押してください。」と記載された入力テキスト21がテキスト解析部11に入力されるものとする。図11は、付加情報およびポーズ長の例を示す説明図である。
付加情報判定部12は、テキスト解析部11によるテキスト解析結果および判定条件に基づいて、付加情報を決定する。本実施例では、「電話番号」または「数字」を付加情報として入力テキスト21の要素に付加するものとする。処理結果の例を図11(A)に示す。
置換対象ポーズ判定部13は、ポーズ長の置換処理を行う対象の付加情報を判定する。本実施例では、置換対象ポーズ判定部13は、「電話番号」および「数字」を対象にポーズの置換処理を行うと決定する。なお、どの付加情報を置換処理の対象とするか否かは、ポーズ置換ルールに予め定められている。
ポーズ長決定部14は、置換対象ポーズ判定部13が判定したポーズ長の置換処理を行う対象ごとに、置換後のポーズ長を決定する。本実施例では、ポーズ置換ルールには、数字の直前は中程度のポーズ長に置き換え、数字の直後は長めのポーズ長に置き換え、電話番号の数字間は短めのポーズ長に置き換えるルールが規定されているものとする。さらに、ポーズ置換ルールには、市外局番等の境界は中程度のポーズ長に置き換えるとルールが規定されているものとする。処理結果の例を図11(B)に示す。
ポーズ置換部15は、図9(B)に例示する「直後のポーズ長」に相当する長さでポーズ長情報24の各ポーズ長を置換する。そして、波形生成部18は、ポーズ長置換後のポーズ長情報24と、韻律情報25と、素片情報に基づいて、合成音声26を生成する。
次に、本発明の最小構成例を説明する。図12は、本発明による音声合成装置の最小構成の例を示すブロック図である。本発明による音声合成装置80は、ポーズ長を置換する対象である置換対象(例えば、付加情報、文/呼気段落)ごとにポーズの置換方法を規定したルールであるポーズ置換ルールに基づいて、音声合成の対象とするテキスト(例えば、入力テキスト21)に含まれる要素(例えば、数字、電話番号など)の中から置換対象を決定する置換対象決定手段81(例えば、置換対象ポーズ判定部13)と、統計モデルに基づいてテキストから生成された少なくともポーズ位置およびポーズ長を示す情報を含むポーズ情報(例えば、ポーズ長情報24)のうち、置換対象決定手段81が決定した置換対象の位置に対応する各ポーズ位置のポーズ長を置換するポーズ長置換手段82(例えば、ポーズ置換部15)とを備えている。
そのような構成により、学習データ量を抑えながら、聞き手が内容を理解しやすい適切な長さのポーズが挿入された音声を入力テキストから合成できる。
また、置換対象決定手段81は、音声合成の対象とするテキストに含まれる要素の内容を示す情報として各要素に付加される情報である付加情報(例えば、数字、電話番号など)ごとにポーズの置換方法を規定したポーズ置換ルールに基づいて、テキストに含まれる要素の中から置換対象を決定してもよい。
また、音声合成装置80は、音声合成の対象とするテキストの解析結果と予め定めておいた判定条件とに基づいて、そのテキストに含まれる要素の内容を示す情報を判定し、テキストの各要素に付加する付加情報を決定する付加情報決定手段(例えば、付加情報判定部12)を備えていてもよい。
また、置換対象決定手段81は、文または呼気全体を置換対象としたポーズ置換ルールに基づいて、音声合成の対象とするテキストに含まれる要素の中から置換対象を決定してもよい。
また、音声合成装置80は、置換対象ごとにポーズ長を規定したルール(例えば、ポーズ置換ルール)に基づいて、ポーズ長を決定するポーズ長決定手段(例えば、ポーズ長決定部14)を備えていてもよい。そして、ポーズ長置換手段82は、ポーズ情報のうち、置換対象決定手段81が決定した置換対象の位置に対応する各ポーズ位置のポーズ長をポーズ長決定手段が決定したポーズ長に置換してもよい。
また、音声合成装置80は、置換対象決定手段81が置換対象と決定した位置に対応するポーズをポーズ情報から特定し、特定したポーズのポーズ位置およびそのポーズの長さを識別可能に表示するポーズ表示手段(例えば、ポーズ位置表示部32)と、ポーズ表示手段に識別可能に表示されたポーズに対して変更後のポーズ長の入力を受け付ける入力手段(例えば、ポーズ長入力部33)とを備えていてもよい。そして、ポーズ長置換手段82は、ポーズ情報のポーズ長を入力手段に入力された変更後のポーズ長に置換してもよい。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2011年7月11日に出願された日本特許出願2011−152850を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、統計的手法を用いてテキストから合成された音声のポーズ長を変更する音声合成装置に好適に適用される。
11 テキスト解析部
12 付加情報判定部
13,13a 置換対象ポーズ判定部
14 ポーズ長決定部
15 ポーズ置換部
16 状態継続長生成部
17 ピッチパタン生成部
18 波形生成部
19 韻律モデル記憶部
20 音素素片データベース記憶部
31 ポーズ長指定部
32 ポーズ位置表示部
33 ポーズ長入力部

Claims (5)

  1. 音声合成の対象とするテキストの解析結果と、テキストに含まれる要素のまとまりごとに定められる判定条件とに基づいて、前記音声合成の対象とするテキストに含まれる要素のまとまりの内容を判定し、前記要素の内容を示す情報として当該各要素に付加される情報である付加情報を、当該要素のまとまりを構成する要素ごとに決定する付加情報決定手段と、
    前記付加情報ごとにポーズの置換方法を規定したルールであるポーズ置換ルールに基づいて、音声合成の対象とするテキストに含まれる要素の中から、ポーズ長を置換する対象である置換対象を決定する置換対象決定手段と、
    統計モデルに基づいて前記テキストから生成された少なくともポーズ位置およびポーズ長を示す情報を含むポーズ情報のうち、前記置換対象決定手段が決定した置換対象の位置に対応する各ポーズ位置のポーズ長を置換するポーズ長置換手段とを備えた
    ことを特徴とする音声合成装置。
  2. 置換対象ごとにポーズ長を規定したルールに基づいて、ポーズ長を決定するポーズ長決定手段を備え、
    ポーズ長置換手段は、ポーズ情報のうち、置換対象決定手段が決定した置換対象の位置に対応する各ポーズ位置のポーズ長を前記ポーズ長決定手段が決定したポーズ長に置換する
    請求項記載の音声合成装置。
  3. 置換対象決定手段が置換対象と決定した位置に対応するポーズをポーズ情報から特定し、特定したポーズのポーズ位置および当該ポーズの長さを識別可能に表示するポーズ表示手段と、
    前記ポーズ表示手段に識別可能に表示されたポーズに対して変更後のポーズ長の入力を受け付ける入力手段とを備え、
    ポーズ長置換手段は、ポーズ情報のポーズ長を前記入力手段に入力された変更後のポーズ長に置換する
    請求項1または請求項2に記載の音声合成装置。
  4. 音声合成の対象とするテキストの解析結果と、テキストに含まれる要素のまとまりごとに定められる判定条件とに基づいて、前記音声合成の対象とするテキストに含まれる要素のまとまりの内容を判定し、
    前記要素の内容を示す情報として当該各要素に付加される情報である付加情報を、当該要素のまとまりを構成する要素ごとに決定し、
    前記付加情報ごとにポーズの置換方法を規定したルールであるポーズ置換ルールに基づいて、音声合成の対象とするテキストに含まれる要素の中から、ポーズ長を置換する対象である置換対象を決定し、
    統計モデルに基づいて前記テキストから生成された少なくともポーズ位置およびポーズ長を示す情報を含むポーズ情報のうち、前記テキストに含まれる要素の中から決定された置換対象の位置に対応する各ポーズ位置のポーズ長を置換する
    ことを特徴とする音声合成方法。
  5. コンピュータに、
    音声合成の対象とするテキストの解析結果と、テキストに含まれる要素のまとまりごとに定められる判定条件とに基づいて、前記音声合成の対象とするテキストに含まれる要素のまとまりの内容を判定し、前記要素の内容を示す情報として当該各要素に付加される情報である付加情報を、当該要素のまとまりを構成する要素ごとに決定する付加情報決定処理、
    前記付加情報ごとにポーズの置換方法を規定したルールであるポーズ置換ルールに基づいて、音声合成の対象とするテキストに含まれる要素の中から、ポーズ長を置換する対象である置換対象を決定する置換対象決定処理、および、
    統計モデルに基づいて前記テキストから生成された少なくともポーズ位置およびポーズ長を示す情報を含むポーズ情報のうち、前記置換対象決定処理で決定された置換対象の位置に対応する各ポーズ位置のポーズ長を置換するポーズ長置換処理
    を実行させるための音声合成プログラム。
JP2013523778A 2011-07-11 2012-06-08 音声合成装置、音声合成方法および音声合成プログラム Active JP5975033B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011152850 2011-07-11
JP2011152850 2011-07-11
PCT/JP2012/003761 WO2013008385A1 (ja) 2011-07-11 2012-06-08 音声合成装置、音声合成方法および音声合成プログラム

Publications (2)

Publication Number Publication Date
JPWO2013008385A1 JPWO2013008385A1 (ja) 2015-02-23
JP5975033B2 true JP5975033B2 (ja) 2016-08-23

Family

ID=47505696

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013523778A Active JP5975033B2 (ja) 2011-07-11 2012-06-08 音声合成装置、音声合成方法および音声合成プログラム

Country Status (2)

Country Link
JP (1) JP5975033B2 (ja)
WO (1) WO2013008385A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7088796B2 (ja) * 2018-09-19 2022-06-21 日本放送協会 音声合成に用いる統計モデルを学習する学習装置及びプログラム
CN115116427B (zh) * 2022-06-22 2023-11-14 马上消费金融股份有限公司 标注方法、语音合成方法、训练方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03225400A (ja) * 1990-01-31 1991-10-04 Nec Corp ポーズ長決定方式
JP3518340B2 (ja) * 1998-06-03 2004-04-12 日本電信電話株式会社 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体
JP4584511B2 (ja) * 2001-09-10 2010-11-24 Okiセミコンダクタ株式会社 規則音声合成装置
JP4551066B2 (ja) * 2003-07-14 2010-09-22 ブラザー工業株式会社 音声合成装置、音声合成方法及び音声合成プログラム
JP4308627B2 (ja) * 2003-11-14 2009-08-05 日本電信電話株式会社 テキスト解析方法、テキスト解析装置、テキスト解析プログラム、このプログラムを記録した記録媒体

Also Published As

Publication number Publication date
WO2013008385A1 (ja) 2013-01-17
JPWO2013008385A1 (ja) 2015-02-23

Similar Documents

Publication Publication Date Title
US7809572B2 (en) Voice quality change portion locating apparatus
US8015011B2 (en) Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases
US7010489B1 (en) Method for guiding text-to-speech output timing using speech recognition markers
JP2001282279A (ja) 音声情報処理方法及び装置及び記憶媒体
JP5198046B2 (ja) 音声処理装置及びそのプログラム
JP2008268477A (ja) 韻律調整可能な音声合成装置
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
WO2009107441A1 (ja) 音声合成装置、テキスト生成装置およびその方法並びにプログラム
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JPWO2016103652A1 (ja) 音声処理装置、音声処理方法、およびプログラム
JP5079718B2 (ja) 外国語学習支援システム、及びプログラム
JP5975033B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2007086309A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
JP2010117528A (ja) 声質変化判定装置、声質変化判定方法、声質変化判定プログラム
JP2003186489A (ja) 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
Zine et al. Towards a high-quality lemma-based text to speech system for the Arabic language
Ni et al. Quantitative and structural modeling of voice fundamental frequency contours of speech in Mandarin
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP4841339B2 (ja) 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム
JP6197523B2 (ja) 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
JP4736524B2 (ja) 音声合成装置及び音声合成プログラム
JP4751230B2 (ja) 韻律素片辞書作成方法、並びに音声合成装置及びプログラム
JP6340839B2 (ja) 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム
JP2003202886A (ja) テキスト入力処理装置及び方法並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151124

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160704

R150 Certificate of patent (=grant) or registration of utility model

Ref document number: 5975033

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150