JP6472342B2 - 音声合成装置、音声合成方法、およびプログラム - Google Patents

音声合成装置、音声合成方法、およびプログラム Download PDF

Info

Publication number
JP6472342B2
JP6472342B2 JP2015129987A JP2015129987A JP6472342B2 JP 6472342 B2 JP6472342 B2 JP 6472342B2 JP 2015129987 A JP2015129987 A JP 2015129987A JP 2015129987 A JP2015129987 A JP 2015129987A JP 6472342 B2 JP6472342 B2 JP 6472342B2
Authority
JP
Japan
Prior art keywords
voiced
pattern
unvoiced
phoneme
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015129987A
Other languages
English (en)
Other versions
JP2017015821A (ja
Inventor
宮崎 昇
昇 宮崎
勇祐 井島
勇祐 井島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015129987A priority Critical patent/JP6472342B2/ja
Publication of JP2017015821A publication Critical patent/JP2017015821A/ja
Application granted granted Critical
Publication of JP6472342B2 publication Critical patent/JP6472342B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)

Description

この発明は音声合成技術に関し、特に、隠れマルコフモデル(HMM: Hidden Markov Model)に基づく音声合成において韻律パタンを生成する技術に関する。
近年、主流となっている音声合成方式として、HMM音声合成方式が提案されている(例えば、非特許文献1参照)。HMM音声合成方式は学習ステージと合成ステージとに分けられる。音声合成用HMMは、学習用音声データベースから抽出された特徴量を対象に、構文コンテキストを伴う音素を3つや5つの状態で表現するモデルを持つ。各状態は韻律特徴量とスペクトル特徴量を結合した結合特徴量に対応するパラメータを持つ。ここで、韻律特徴量には音声の基本周波数(F0)と、有声音であるか無声音であるかを示すパラメータ(有声無声パラメータ)と、その状態の継続長とが含まれる。なお、特別の断りがない限り、これ以降「音素」と記した場合「構文コンテキストを伴う音素」を意味するものとし、「音素列」は「構文コンテキストを伴う音素の系列」を意味するものとする。
図1に学習ステージの処理の流れを示す。音声データ記憶部11には学習に用いる音声信号を蓄積した学習用音声データベースが記憶されている。特徴量抽出部12は学習用音声データベースから各音素に含まれる各状態の結合特徴量を抽出して特徴量記憶部13へ蓄積する。パラメータ学習部14は結合特徴量の平均値や分散値などの統計量を学習データ全体に対する最尤推定により機械的に学習し、音声合成用HMMのモデルパラメータを生成する。音声合成用HMMのモデルパラメータはパラメータ記憶部15へ記憶される。
図2に合成ステージの処理の流れを示す。合成ステージでは、合成対象とする音素列が入力され、合成対象音素列に対応する合成音声が出力される。パラメータ記憶部15には学習ステージで生成された音声合成用HMMのモデルパラメータが記憶されている。結合パタン生成部21は合成対象音素列に基づいて各状態の結合特徴量を抽出し、合成対象のスペクトルパタンとF0パタンとが結合されたF0・スペクトル結合パタンと、合成フレームごとの有声無声パラメータからなる有声無声パタンとを出力する。有声無声判定部221は各合成フレームにおける有声無声パラメータが閾値以上の値である場合には該当合成フレームの音声が有声音であるとみなして有声音声波形生成部222へ処理を受け渡し、有声無声パラメータが閾値未満の値である場合には該当合成フレームの音声が無声音であるとみなして無声音声波形生成部223へ処理を受け渡す。有声音声波形生成部222は結合パタンに含まれるF0パタンを抽出し、同じ結合パタンに含まれるスペクトルパタンと合わせて有声音であることを前提とした音声波形生成処理を行う。無声音声波形生成部223は、結合パタンに含まれるF0値を用いず、同じ結合パタンに含まれるスペクトルパタンに対して無声音であることを前提とした音声波形生成処理を行う。
学習ステージにおいて韻律特徴量とスペクトル特徴量とを連結した結合特徴量を用いて学習を行う際、音声データベースのF0値を自動抽出する際の誤りなどの要因により、無声音素と連接する有声音素において境界近くに位置する状態の有声無声パラメータが閾値よりも低い値に学習されたり、有声音素と連接する無声音素において境界近くに位置する状態の有声無声パラメータが閾値よりも大きい値に学習されたりすることがある。また、学習データによっては、音素間の境界近くでなくても、有声音素に含まれる状態の一部の有声無声パラメータが閾値よりも小さい値に学習されることがある。
このような場合、合成ステージにおいて音声波形生成を行う際、有声音素区間内の合成フレームで無声音を前提とした音声波形生成が行われたり、無声音素区間内の合成フレームで有声音を前提とした音声波形生成が行われたりすることがある。このような音素の有声/無声の種別と有声無声パラメータの値との不整合は学習データに依存する。そのため、ある学習データから学習した音声合成用HMMでは不整合が多く発生するが、別の学習データから学習した音声合成用HMMでは不整合があまり発生しないことがある。
従来のHMM音声合成方式では、上記のように有声音素区間中に無声区間が現れたり、逆に無声音素区間中に有声区間が現れたりしたとしても、音声波形生成処理において問題が起きることはない。有声無声パラメータが閾値以上であるような状態ではスペクトル特徴量も有声音に相当するものとなっており、有声無声パラメータが閾値以下であるような状態ではスペクトル特徴量も無声音に相当するものとなっており、有声/無声の判断とスペクトル特徴量の特性が一致しているからである。
益子貴史,徳田恵一,宮崎昇,小林隆夫,"多空間確率分布HMMによるピッチパターン生成", 信学論(D-II), vol.J83-D-II, no.7, pp.1600-1609, July 2000
ここで、異なる学習用音声データベースから学習された、異なる音声合成用HMMを利用する場面を考える。例えば、男性の沈んだ口調の音声から学習されたHMM1と、女性の明るい声色の音声から学習されたHMM2とがあるものとし、異なるHMMの韻律特徴量とスペクトル特徴量を組み合わせて、男性の沈んだ口調に対応する韻律パタンであり、女性の明るい声色に対応するスペクトルパタンの合成音声を作成することが考えられる。このような用途は、同じ声色を保ちながら様々な口調による合成音声を作成する場合に必要となる。このような場合、HMM1を用いて生成された韻律パタンにおいては有声音素区間の合成フレームに無声区間が現れる一方、HMM2から生成された同じ合成フレームのスペクトルパタンは有声音に相当するものとなる可能性がある。このように、有声/無声の判断とスペクトルパタンの特性との間にミスマッチが起きるような場合、後段の音声波形生成処理において、有声/無声の判断に従っても、スペクトルパタンの特性に従っても、いずれにしても音声波形生成処理が想定しない状況となり、合成音声に大きなノイズが発生するなどの品質劣化を引き起こす場合がある。
この発明の目的は、有声/無声の判断とスペクトル特徴量の特性との間にミスマッチが起きないよう、有声/無声の判断とスペクトル特徴量の特性との間の整合を取ることによって合成音声の品質が劣化しない音声合成技術を提供することである。
上記の課題を解決するために、この発明の音声合成装置は、スペクトル特徴量とF0特徴量と有声無声パラメータと状態継続長とを含む複数の状態で各音素を表現した音声合成用モデルのパラメータを記憶するパラメータ記憶部と、合成対象音素列に基づいてF0特徴量と有声無声パラメータと状態継続長とを抽出し、合成対象音素列に対応するF0パタンと有声無声パタンと音素継続長とを含む韻律パタンを生成する韻律パタン生成部と、合成対象音素列の各音素の有声無声の種別と当該音素に対応する韻律パタンに含まれる有声無声パタンとが一致するように、韻律パタンに含まれるF0パタンと有声無声パタンと音素継続長との少なくともいずれか一つを補正した修正韻律パタンを生成する韻律パタン補正部と、合成対象音素列に基づいてスペクトル特徴量を抽出し、修正韻律パタンに含まれる音素継続長を用いて合成対象音素列に対応するスペクトルパタンを生成するスペクトルパタン生成部と、合成対象音素列の各音素の有声無声の種別に基づいて、修正韻律パタンとスペクトルパタンとを用いて合成対象音素列に対応する音声波形を生成する音声波形生成部と、を含む。
この発明によれば、有声/無声の判断とスペクトル特徴量の特性との間にミスマッチが起きないよう、有声/無声の判断とスペクトル特徴量の特性との間の整合を取るため、合成音声の品質が劣化しない。
図1は、従来技術の学習ステージの処理手続きを例示する図である。 図2は、従来技術の合成ステージの処理手続きを例示する図である。 図3は、実施形態の音声合成装置の機能構成を例示する図である。 図4は、F0値補間処理の処理内容を例示する図である。 図5は、F0値補間処理の処理内容を例示する図である。 図6は、音素継続長補正処理の処理内容を例示する図である。 図7は、ポーズ句境界F0値補間処理の処理内容を例示する図である。 図8は、韻律特徴量のデータ構造を例示する図である。 図9は、補正前の韻律パタンを例示する図である。 図10は、F0値補間処理後の韻律パタンを例示する図である。 図11は、音素継続長補正処理後の韻律パタンを例示する図である。 図12は、ポーズ句境界F0値補間処理後の韻律パタンを例示する図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
実施形態の音声合成装置は、図3に示すように、パラメータ記憶部15、韻律パタン生成部23、韻律パタン補正部24、スペクトルパタン生成部25、および音声波形生成部22を含む。音声波形生成部22は、有声無声判定部224、有声音声波形生成部222、および無声音声波形生成部223を含む。この音声合成装置が後述する各ステップの処理を行うことにより実施形態の音声合成方法が実現される。
音声合成装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声合成装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声合成装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、音声合成装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
パラメータ記憶部15は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
パラメータ記憶部15には、スペクトル特徴量とF0特徴量と有声無声パラメータと状態継続長とを含む複数の状態で各音素を表現した音声合成用モデルのパラメータが記憶されている。この音声合成用モデルのパラメータは、従来技術の学習ステージと同様に生成されたものである。
韻律パタン生成部23は、合成対象音素列を入力とし、合成対象音素列に含まれる各音素に対応するF0特徴量と有声無声パラメータと状態継続長とをパラメータ記憶部15から抽出し、合成対象音素列に対応するF0パタンと有声無声パタンと音素継続長とを含む韻律パタンを生成する。生成した韻律パタンは韻律パタン補正部24へ送られる。
韻律パタン補正部24は、合成対象音素列の各音素の有声無声の種別と、その音素に対応する韻律パタンに含まれる有声無声パタンとが一致するか否かを検証し、一致しない場合には、その音素の有声無声の種別とその音素に対応する韻律パタンに含まれる有声無声パタンとが一致するように、韻律パタンに含まれるF0パタンと有声無声パタンと音素継続長との少なくともいずれか一つを補正して、修正韻律パタンを生成する。韻律パタン補正部24は、例えば、F0値補間処理、音素継続長補正処理、およびポーズ境界F0値補間処理の3つの処理を任意に組み合わせることにより韻律パタンの補正を行う。生成した修正韻律パタンは有声無声判定部224へ送られる。
F0値補間処理は、合成対象音素列の各音素の有声無声の種別上有声音素とみなされる区間において、有声無声パタンとして有声区間に挟まれた無声区間が現れた場合、その無声区間も有声区間であるものとみなし、その区間のF0値は両側のF0値で補間することで得られるものを代用する。図4を参照して、F0値補間処理の処理内容を具体的に説明する。図4では、縦軸が基本周波数であり、横軸が時間軸であり、点線の縦線は音素の境界を表し、太線は欄外の音素列に対応するF0パタンを示している。音素には構文コンテキストが付与されているが、説明を簡略化するため構文コンテキストは省いて表示する。F0パタンが存在する区間は、有声無声パラメータが閾値以上であり、有声区間とみなされ、F0値が存在する区間である。F0パタンが途切れている区間は、有声無声パラメータが閾値未満であり、無声区間とみなされ、F0値が存在しない区間である。図4において、A1で示す無声区間は音素/a/が母音であるため音素種別上有声音素であって、A2, A3で示す有声区間に挟まれているため、A2, A3で示す区間のF0値によりA1で示す区間のF0値を補間している。このとき、A1で示す区間の有声無声パラメータは閾値以上の値に更新し、有声区間とみなされるようにする。
また、F0値補間処理は、有声音素が連接する境界部分において無声区間が存在する場合、その無声区間は有声区間であるものとみなし、その区間のF0値は両側のF0値で補間することで得られるものを代用する。図5を参照して、F0値補間処理の処理内容を具体的に説明する。図5において、B1で示す無声区間は、B2, B3で示す有声音素区間の境界に位置するため、B4, B5で示す有声区間のF0値によりB1で示す区間のF0値を補間している。このとき、B1で示す区間の有声無声パラメータは閾値以上の値に更新し、有声区間とみなされるようにする。
音素継続長補正処理は、無声音素が連接する有声音素において、境界に位置する状態の有声無声パラメータが閾値以下である場合は、有声無声パラメータが閾値以下である状態が無声音素区間になるよう、その有声音素の音素継続長を短くし、連接する無声音素の継続長を長くする処理を行う。図6を参照して、音素継続長補正処理の処理内容を具体的に説明する。図6において、C1で示す無声区間は、有声音素において無声音素と連接する境界に位置するため、C2で示すように、有声音素区間の音素継続長を短くし、無声音素区間の音素継続長を長くしている。
ポーズ境界F0値補間処理は、ポーズが連接する有声音素において、ポーズとの境界に位置する状態の有声無声パラメータが閾値以下である場合は、有声無声パラメータが閾値以下であるような状態を有声区間とみなし、その区間のF0値は有声区間からの補外処理で得られるものを代用する。図7を参照して、ポーズ境界F0値補間処理の処理内容を具体的に説明する。D1で示す無声区間は、有声音素区間においてD2で示すポーズ区間と連接する境界に位置するため、D3で示す有声区間のF0値によりD1で示す区間のF0値を補外している。
図8〜12を参照して、韻律パタン補正部24の処理による韻律パタンの変化を具体的に説明する。ここでは、「アキャ」に相当する音素列「a K y a」を合成対象音素列とする場合を例として説明する。
図8はパラメータ記憶部15に記憶された音声合成用モデルのモデルパラメータの例である。ここでは、一番目の音素/a/と二番目の音素/K/に対応するF0統計量と有声無声パラメータとの例を示す。ここでは、有声無声判定部221における有声無声パラメータの閾値を0.5とし、有声無声パラメータが0.5以上である場合に該当フレームを有声音とみなし、0.5未満である場合に該当フレームを無声音とみなすものとする。図8の例では、/a/は有声音素であるにもかかわらず、/a/の第一状態(/a/状態1)と第四状態(/a/状態4)との有声無声パラメータが閾値を下回っている。また、/K/は無声音素であるにもかかわらず、/K/の第一状態(/K/状態1)の有声無声パラメータが閾値を上回っている。このように、音素の有声/無声の種別とその音素に対応する有声無声パラメータとにミスマッチが生じていることがわかる。
図9は韻律パタン生成部23により生成された韻律パタンの例である。各状態の継続長が、その状態に対応する合成フレーム数として決定され、その継続長区間における基本周波数(F0)のパタンが生成されている。一般に、無声音区間におけるF0の値は意味がなく、HMMのパラメータとして学習される値も不安定であるため、有声無声パラメータの値が低い状態では、生成されるF0パタンも無意味なパタンになることが多い。図9の例では、/a/の5つの状態の分析フレーム数は総計で30となるため、/a/の音素継続長は30フレームとなる。また、/K/の5つの状態の分析フレーム数は総計で34となるため、/K/の音素継続長は34フレームとなる。
図10は韻律パタン補正部24がF0値補間処理を行うことにより生成された修正韻律パタンの例である。有声音素/a/の有声区間である第三状態(/a/状態3)と第五状態(/a/状態5)に挟まれた第四状態(/a/状態4)が無声区間であるため、F0値補間処理の対象となる。/a/の第三状態(/a/状態3)のF0パタンと第五状態(/a/状態5)のF0パタンとを補間して得られるF0パタンが第四状態(/a/状態4)におけるF0パタンとなっている。該当区間は音声波形生成処理において有声音声とみなして処理を行うこととなるため、有声無声パラメータの値を1.0に書き換えている。
図11は韻律パタン補正部24が音素継続長補正処理を行うことにより生成された修正韻律パタンの例である。補正前の音素継続長は/a/が30フレーム、/K/が34フレームであった。/K/は無声音であるにもかかわらず、/K/の第一状態(/K/状態1)は有声無声パラメータが閾値を上回っているため、有声区間である。そのため、/K/の第一状態(/K/状態1)は/a/の一部となるように音素継続長を補正する。この結果、補正された後の音素継続長は/a/が33フレーム、/K/が31フレームとなる。
図12は韻律パタン補正部24がポーズ句境界F0値補正処理を行うことにより生成された修正韻律パタンの例である。/a/の第一状態(/a/状態1)は有声無声パラメータが閾値未満であるが、合成対象音素列に先行する無音区間と隣接しているため、ポーズ句境界F0値補正処理の対象となる。/a/の第二状態(/a/状態2)のF0パタンの値を補外して得られるF0パタンが第一状態(/a/状態1)におけるF0パタンとなっている。該当区間は音声波形生成処理において有声音声とみなして処理を行うこととなるため、有声無声パラメータの値を1.0に書き換えている。
以上の結果、有声音素/a/に相当する区間においては有声無声パラメータが必ず閾値以上となり、無声音素/K/に相当する区間においては有声無声パラメータが必ず閾値未満となった状態で音声波形生成を行うこととなる。
スペクトルパタン生成部25は、合成対象音素列に基づいてスペクトル特徴量をパラメータ記憶部15から抽出し、修正韻律パタンに含まれる音素継続長を用いて合成対象音素列に対応するスペクトルパタンを生成する。生成したスペクトルパタンは有声無声判定部224へ送られる。
音声波形生成部22は、修正韻律パタンとスペクトルパタンを用いて合成対象音素列に対応する合成音声の生成を行う。有声無声判定部224は、修正韻律パタンにおける有声音素区間においては有声音声波形生成部222へ処理を受け渡し、修正韻律パタンにおける無声音素区間においては無声音声波形生成部223へ処理を受け渡す。有声音声波形生成部222は、修正韻律パタンに含まれるF0特徴量を抽出し、スペクトルパタンに含まれるスペクトル特徴量と合わせて有声音であることを前提とした音声波形生成処理を行う。無声音声波形生成部223は、修正韻律パタンに含まれるF0特徴量を用いず、スペクトルパタンに含まれるスペクトル特徴量に対して無声音であることを前提とした音声波形生成処理を行う。
このように構成することにより、この発明の音声合成装置では、有声/無声パラメータが閾値以上であるか否かによって定まるF0特徴量の有無と、音声波形生成部22において有声音声波形生成部222が処理を行うか、無声音声波形生成部223が処理を行うかの関係が一致する。そのため、音声波形生成処理において合成音声に異音が生じる問題を解決することができる。したがって、合成音声の品質が向上する。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
11 音声データ記憶部
12 特徴量抽出部
13 特徴量記憶部
14 パラメータ学習部
15 パラメータ記憶部
21 結合パタン生成部
22 音声波形生成部
221、224 有声無声判定部
222 有声音声波形生成部
223 無声音声波形生成部
23 韻律パタン生成部
24 韻律パタン補正部
25 スペクトルパタン生成部

Claims (5)

  1. スペクトル特徴量とF0特徴量と有声無声パラメータと状態継続長とを含む複数の状態で各音素を表現した音声合成用モデルのパラメータを記憶するパラメータ記憶部と、
    合成対象音素列に基づいて上記F0特徴量と上記有声無声パラメータと上記状態継続長とを抽出し、上記合成対象音素列に対応するF0パタンと有声無声パタンと音素継続長とを含む韻律パタンを生成する韻律パタン生成部と、
    合成対象音素列の各音素の有声無声の種別と当該音素に対応する上記韻律パタンに含まれる有声無声パタンとが一致するように、上記韻律パタンに含まれるF0パタンおよび有声無声パタンを補正した修正韻律パタンを生成する韻律パタン補正部と、
    合成対象音素列に基づいて上記スペクトル特徴量を抽出し、上記修正韻律パタンに含まれる音素継続長を用いて上記合成対象音素列に対応するスペクトルパタンを生成するスペクトルパタン生成部と、
    合成対象音素列の各音素の有声無声の種別に基づいて、上記修正韻律パタンと上記スペクトルパタンとを用いて上記合成対象音素列に対応する音声波形を生成する音声波形生成部と、
    を含む音声合成装置。
  2. 請求項1に記載の音声合成装置であって、
    無声区間は上記韻律パタンにおいて上記有声無声パラメータが無声音であることを示す部分であり、有声区間は上記韻律パタンにおいて上記有声無声パラメータが有声音であることを示す部分であり、
    上記韻律パタン補正部は、有声である音素に含まれる有声区間に挟まれた無声区間もしくは有声である音素が連接する境界に位置する無声区間において、当該無声区間の両端に位置する有声区間のF0特徴量を用いて当該無声区間のF0特徴量を補間するものである、
    音声合成装置。
  3. 請求項1または2に記載の音声合成装置であって、
    無声区間は上記韻律パタンにおいて上記有声無声パラメータが無声音であることを示す部分であり、有声区間は上記韻律パタンにおいて上記有声無声パラメータが有声音であることを示す部分であり、
    上記韻律パタン補正部は、有声である音素においてポーズである音素と連接する境界に無声区間が位置するとき、当該有声である音素に含まれる有声区間のF0特徴量を用いて当該無声区間のF0特徴量を補外するものである、
    音声合成装置。
  4. パラメータ記憶部に、スペクトル特徴量とF0特徴量と有声無声パラメータと状態継続長とを含む複数の状態で各音素を表現した音声合成用モデルのパラメータが記憶されており、
    韻律パタン生成部が、合成対象音素列に基づいて上記F0特徴量と上記有声無声パラメータと上記状態継続長とを抽出し、上記合成対象音素列に対応するF0パタンと有声無声パタンと音素継続長とを含む韻律パタンを生成する韻律パタン生成ステップと、
    韻律パタン補正部が、合成対象音素列の各音素の有声無声の種別と当該音素に対応する上記韻律パタンに含まれる有声無声パタンとが一致するように、上記韻律パタンに含まれるF0パタンおよび有声無声パタンを補正した修正韻律パタンを生成する韻律パタン補正ステップと、
    スペクトルパタン生成部が、合成対象音素列に基づいて上記スペクトル特徴量を抽出し、上記修正韻律パタンに含まれる音素継続長を用いて上記合成対象音素列に対応するスペクトルパタンを生成するスペクトルパタン生成ステップと、
    音声波形生成部が、合成対象音素列の各音素の有声無声の種別に基づいて、上記修正韻律パタンと上記スペクトルパタンとを用いて上記合成対象音素列に対応する音声波形を生成する音声波形生成ステップと、
    を含む音声合成方法。
  5. 請求項1からのいずれかに記載の音声合成装置としてコンピュータを機能させるためのプログラム。
JP2015129987A 2015-06-29 2015-06-29 音声合成装置、音声合成方法、およびプログラム Active JP6472342B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015129987A JP6472342B2 (ja) 2015-06-29 2015-06-29 音声合成装置、音声合成方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015129987A JP6472342B2 (ja) 2015-06-29 2015-06-29 音声合成装置、音声合成方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2017015821A JP2017015821A (ja) 2017-01-19
JP6472342B2 true JP6472342B2 (ja) 2019-02-20

Family

ID=57830593

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015129987A Active JP6472342B2 (ja) 2015-06-29 2015-06-29 音声合成装置、音声合成方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6472342B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785823B (zh) * 2019-01-22 2021-04-02 中财颐和科技发展(北京)有限公司 语音合成方法及系统
CN113838453B (zh) * 2021-08-17 2022-06-28 北京百度网讯科技有限公司 语音处理方法、装置、设备和计算机存储介质
CN113838452B (zh) 2021-08-17 2022-08-23 北京百度网讯科技有限公司 语音合成方法、装置、设备和计算机存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3728172B2 (ja) * 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
JP2003122380A (ja) * 2001-10-09 2003-04-25 Canon Inc ピッチマーク付与装置およびその処理方法ならびに記憶媒体
JP5979146B2 (ja) * 2011-07-11 2016-08-24 日本電気株式会社 音声合成装置、音声合成方法および音声合成プログラム

Also Published As

Publication number Publication date
JP2017015821A (ja) 2017-01-19

Similar Documents

Publication Publication Date Title
JP6293912B2 (ja) 音声合成装置、音声合成方法およびプログラム
CN113470615B (zh) 跨讲话者风格转移语音合成
KR100845428B1 (ko) 휴대용 단말기의 음성 인식 시스템
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
US20090083036A1 (en) Unnatural prosody detection in speech synthesis
JP5300975B2 (ja) 音声合成装置、方法およびプログラム
JP5242782B2 (ja) 音声認識方法
JP2011028230A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP6472342B2 (ja) 音声合成装置、音声合成方法、およびプログラム
JP2012113087A (ja) 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
KR102072627B1 (ko) 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법
JP4822829B2 (ja) 音声認識装置および方法
JP6580911B2 (ja) 音声合成システムならびにその予測モデル学習方法および装置
JP6542823B2 (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
CN113948062B (zh) 数据转换方法及计算机存储介质
JP5268731B2 (ja) 音声合成装置、方法およびプログラム
CN111048065B (zh) 文本纠错数据生成方法及相关装置
JP2007163667A (ja) 音声合成装置および音声合成プログラム
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP5054632B2 (ja) 音声合成装置及び音声合成プログラム
JP2010230913A (ja) 音声処理装置、音声処理方法、及び、音声処理プログラム
JP2007011027A (ja) 音声認識方法及び音声認識装置
JP6163454B2 (ja) 音声合成装置、その方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180710

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190122

R150 Certificate of patent or registration of utility model

Ref document number: 6472342

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150