JP2016065900A - 音声合成装置、方法、およびプログラム - Google Patents

音声合成装置、方法、およびプログラム Download PDF

Info

Publication number
JP2016065900A
JP2016065900A JP2014193112A JP2014193112A JP2016065900A JP 2016065900 A JP2016065900 A JP 2016065900A JP 2014193112 A JP2014193112 A JP 2014193112A JP 2014193112 A JP2014193112 A JP 2014193112A JP 2016065900 A JP2016065900 A JP 2016065900A
Authority
JP
Japan
Prior art keywords
segment
prosody
data
speech
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014193112A
Other languages
English (en)
Other versions
JP2016065900A5 (ja
Inventor
井手 博康
Hiroyasu Ide
博康 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2014193112A priority Critical patent/JP2016065900A/ja
Publication of JP2016065900A publication Critical patent/JP2016065900A/ja
Publication of JP2016065900A5 publication Critical patent/JP2016065900A5/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】入力テキストデータと素片データとで韻律がずれていても、合成音声の音質劣化を防止する音声合成装置を提供する。【解決手段】韻律倍率変更部203は、入力テキストから抽出された音素及び目標韻律が対応付けられたセグメントデータの列の全体にわたり目標韻律を移動させる。素片選定部205および評価部206は、音素及び韻律が対応付けられた音声素片の集合である音声コーパスから、音素および韻律に関して計算されるコストが最良になるように、コスト算出用韻律データを含むセグメントデータの列に対応する音声素片の列を選定する。最良コスト判定部は、韻律倍率変更部における目標韻律の移動の倍率を制御しながら素片選定部に音声素片の列を選定させ、選定時のコストが移動の倍率が制御された中でさらに最良となるときの音声素片の列を決定する。波形合成部107は、決定された音声素片の列に含まれる各音声素片を接続して合成音声を出力する。【選択図】図2

Description

本発明は、音声コーパスからの音声素片の選択によって音声合成を行う技術に関する。
入力テキストデータから生成される合成目標に対して、電子化された大規模な言語・音声データである音声コーパスを参照することにより音声素片を選択し、当該音声素片を接続することにより合成音声を出力する音声合成技術が知られている(例えば非特許文献1〜3に記載の技術)。
このような音声合成技術において、音声コーパスから合成目標に最も適合する音声素片列を選択するための手法として従来、次のような技術が知られている(例えば非特許文献3に記載の技術)。まず、入力テキストデータから抽出される音素セグメントごとに、その音素と同じ音素を有する音声素片のデータ(以下、「素片データ」と記載する)が、素片候補データとして音声コーパスから抽出される。次に、DP(Dynamic Programming:動的計画法)アルゴリズムによって、入力テキストデータ全体に渡ってコストが最小となる最良の素片候補データの組(最良の素片データ列)が決定される。コストとしては、入力テキストデータと音声コーパス内の各素片データ間の音素列および韻律の差異、素片候補データである隣接する素片データ間のスペクトラム包絡などの音響パラメータ(特徴量ベクトルデータ)の不連続性などが用いられる。
入力テキストデータに対応する音素列は、例えば入力テキストデータに対して形態素解析処理を実行することで得られる。
入力テキストデータに対応する韻律(以下これを「目標韻律」と記載する)は、音素ごとの声帯の基本周波数であるピッチの高さ、持続時間長、および強度(振幅)であり、入力テキストデータから得られる言語情報をもとに、実際の音声データに基づく統計的なモデルを用いて生成される(例えば非特許文献4に記載の技術)。言語情報は、例えば入力テキストデータに対して形態素解析処理を実行することで得られる。
"CHATR:自然音声波形接続型任意音声合成システム"、電子情報通信学会信学技法、SP96-7. "大規模コーパスを用いた音声合成システムXIMERA"、電子情報通信学会論文誌D Vol.J89-D No.12 pp.2688-2698. 河井 恒、"知識ベース 3-4 コーパスベース音声合成"、[online]、ver.1/2011.1.7、電子情報通信学会、[平成25年12月25日検索]、インターネット<URL:http://27.34.144.197/files/02/02gun_07hen_03.pdf#page=6> 匂坂 芳典、"知識ベース 3-7 韻律の生成"、[online]、ver.1/2011.1.7、電子情報通信学会、[平成25年12月25日検索]、インターネット<URL:http://27.34.144.197/files/02/02gun_07hen_03.pdf#page=13>
前述したように、音声コーパスから入力テキストデータの合成目標に最も適合する音声素片列を選択するためには、入力テキストデータと音声コーパス内の各素片データ間の音素および韻律の差異が評価コストとして用いられる。
ここで、入力テキストデータから音素を抽出するための例えば形態素解析処理では形態素辞書が用いられ、各音素セグメントごとの目標韻律を抽出するための処理では実際の音声データに基づく統計的なモデルである韻律辞書が用いられる。一方、音声コーパス中の素片データの作成時における音素および韻律(以下これを「素片韻律」と記載する)の抽出にも、それぞれ同様の辞書が用いられる。
音声コーパスは予め作成され、入力テキストデータの解析はユーザによる入力テキストデータの入力時点で行われるため、一般的に両者の辞書の作成においては異なる話者の音声データが使用される場合が多い。
音声データにおける話者の個人性は、音声のスペクトラム包絡及び韻律に現れる特徴に依存する。
従って、入力テキストデータと音声コーパス内の素片データとで音素を抽出するための形態素辞書の話者が異なっても、抽出される音素の精度は、それほど大きな影響は受けない。
一方、入力テキストデータと音声コーパス内の素片データとで韻律を抽出するための韻律辞書の作成に用いられる音声データの話者が異なると、それぞれで抽出される韻律の特徴が異なることになる。韻律の特徴は、イントネーションやアクセント,声の高さ,話速,音韻継続長などの違いとなって現れる。
そして、入力テキストデータから抽出される目標韻律の特徴と音声コーパス内の各素片データの作成時に抽出される素片韻律の特徴がずれた状態で韻律に関するコスト計算が行われると、誤った音声素片が選択される確率が高くなり、合成音声の音質が劣化する。具体的には、コストの都合等によって十分な量の素片データを音声コーパスに搭載できない場合に、波形データベースから目標とする基本周波数をもった素片が見つかれば高音質で音声を合成できるが、見つからなかった場合には合成音声の音質が劣化する。
このような場合に、信号処理により素片データの基本周波数を、目標とする基本周波数に変更して接続する技術が考えられる。しかし、基本周波数の変更は、その変更幅が大きいと劣化が大きくなり,合成音声の品質が劣化してしまう課題があった。
本発明は、入力テキストデータと音声コーパス内の素片データとで韻律がずれていても、音声コーパスから選択された音声素片に基づく合成音声の音質劣化を防止することを目的とする。
態様の一例では、入力テキストデータから音素及び目標韻律が対応付けられたセグメントデータの列を抽出するセグメントデータ列抽出手段と、前記目標韻律を、予め設定された範囲内でかつ予め設定された間隔で順次移動させる目標韻律移動手段と、前記目標韻律移動手段により目標韻律が移動される毎に、音素及び韻律が対応付けられた素片の集合である音声コーパスから、前記抽出されたセグメントデータの列に対応する素片の列であって、音素および韻律に関するコストが最良となる素片の列を選定する素片列選択手段と、前記素片選定手段により、前記目標韻律が移動される毎に選定された素片列のうち、前記コストが最良となる音声素片の列を決定する素片列決定手段と、当該決定された素片の列に基づいて合成音声を出力する波形合成手段と、を備える。
本発明によれば、入力テキストデータと音声コーパス内の素片データとで韻律がずれていても、音声コーパスから選択された音声素片に基づく合成音声の音質劣化を防止することが可能となる。
本発明による音声合成装置の実施形態のブロック図である。 波形選択部のブロック図である。 音声合成装置をソフトウェア処理として実現できるコンピュータのハードウェア構成例を示す図である。 音声合成処理の例を示すフローチャートである。
以下、本発明を実施するための形態について図面を参照しながら詳細に説明する。図1は、本発明による音声合成装置100の実施形態のブロック図であり、テキスト入力部101、形態素解析部102、韻律予測部103、韻律辞書104、波形選択部105、音声辞書106、および波形合成部107を備える。
テキスト入力部101は、入力テキストデータを入力する。
形態素解析部102は、テキスト入力部101が入力した入力テキストデータに対して形態素解析処理を実行することにより、入力テキストデータに対応する音素列を抽出する。入力テキストデータは、音素列中の音素ごとにセグメント分けされ、各音素を示す音素データが、そのセグメント分けにより得られる合成目標を構成する各セグメントデータに登録される。
韻律予測部103は、形態素解析部102で得られる言語情報をもとに、実際の音声データに基づく韻律に関する統計的なモデルを記憶した韻律辞書104を参照することにより、合成目標の音素列中の音素ごとに、声帯の基本周波数であるピッチの高さ、持続時間長、および強度(振幅)によって表される韻律を予測する。この結果、韻律予測部103は、音素セグメントごとに、韻律情報である目標韻律データを生成し、合成目標を構成する上記セグメントデータに登録する。
すなわち、形態素解析部102および韻律予測部103は、セグメントデータ列抽出手段として動作する。そして、入力テキストデータから合成目標として生成されるセグメントデータの列において、各セグメントデータは、音素データと目標韻律データを含む。
波形選択部105はまず、形態素解析部102および韻律予測部103から入力するセグメントデータの列の全体にわたり目標韻律データを移動させる目標韻律移動手段として動作する。
次に、波形選択部105は、音素及び韻律が対応付けられた音声素片の集合である音声コーパスが登録されている音声辞書106から、音素および韻律に関して計算されるコストが最良になるように、上記移動後の目標韻律を含むセグメントデータの列に対応する音声素片の列を選択する音声素片列選択手段として動作する。具体的には、波形選択部105は、上記移動後の目標韻律データと音素データを含むセグメントデータごとに、素片評価のコスト条件を満たす素片候補データを音声辞書106中の音声コーパスからリストアップする。そして、波形選択部105は、セグメントデータごとに、接続評価のコスト条件を満たす最良の素片候補データを、リストアップした素片候補データから選択し、最終的に、セグメントデータの列の全体にわたる音声素片の列を選定する。
次に、波形選択部105は、上述の目標韻律の移動量を制御しながら音声素片の列を選定させ、その選定時のコストが移動量が制御された中でさらに最良となるときの音声素片の列を決定する音声素片列決定手段として動作する。
波形合成部107は、波形選択部105が決定した音声素片の列に含まれる各音声素片を接続することにより合成音声を出力する。
以上のようにし、本実施形態では、音声素片の韻律を目標韻律に合わせるのではなく、目標韻律を全体的に移動させて音声素片の韻律に合わせてコスト評価を行い、最良の音声素片の列として合成音声の生成に用いる。これにより、選定された音声素片の列は信号処理等によって改変されることはないため、合成音声の音質を高めることが可能となる。
図2は、図1の波形選択部105の詳細な構成を示すブロック図である。波形選択部105は、図1の韻律予測部103から出力された目標韻律データ201、韻律入力部202、韻律倍率変更部203、およびコスト算出用韻律データ204を備える。また、波形選択部105は、素片選定部205および評価部206を備える。素片選定部205は、素片リストアップ部205aとそこから出力された素片候補データ207、および音声素片列選定部205bを備える。評価部206は、素片評価部206a、接続評価部206b、および最良コスト判定部206cを備える。
図2で、韻律入力部202は、図1の韻律予測部103が出力した目標韻律データ201を入力する。
韻律倍率変更部203は、セグメントデータの列の全体にわたり目標韻律データ201の基本周波数を、所定の範囲(例えば、0.5倍から2倍の範囲)内で、所定の間隔で移動(例えば0.1倍ずつ変更させた倍率を基本周波数に乗算)させ、セグメントデータごとのコスト算出用韻律データ204を生成する。
次に、素片選定部205において、素片リストアップ部205aは、コスト算出用韻律データ204を含むセグメントデータごとに(以下これを「処理対象セグメントデータ」と記載する)、その処理対象セグメントデータに含まれる音素と一致する音素を有する1つ以上の素片データを、音声辞書106中の音声コーパス内の素片データから選択し、素片候補データ207(以下これを「処理対象素片候補データ207」と記載する)として出力する。
評価部206内の素片評価部206aは、処理対象素片候補データ207ごとに、その音素を処理対象セグメントデータの音素と比較することによって、処理対象素片候補データ207の音素に関するコストを評価する。具体的には、素片評価部206aは、処理対象セグメントデータの音素とその処理対象セグメントデータの前後のセグメントデータの音素とから構成される音素列と、処理対象素片候補データ207の音素とその処理対象素片候補データ207の前後の素片データの音素とから構成される音素列とを比較することにより、音素列コストを算出する。この音素列コストは、音素列の不一致度を示す。隣接するセグメントデータ間の音素列と隣接する素片データ間の音素列の一致度が高いほど音素列コストが低くなるように、音素列コストが算出される。前後の音素列が一致する素片データを選択したほうが、自然な合成音声が得られるからである。
また、素片評価部206aは、処理対象素片候補データ207ごとに、その素片韻律データを、処理対象セグメントデータのコスト算出用韻律データ204と比較することにより、処理対象素片候補データ207の韻律に関するコストを評価する。具体的には、素片評価部206aは、処理対象セグメントデータのコスト算出用韻律データ204と処理対象素片候補データ207の素片韻律データとの差に基づいて、韻律コストを算出する。韻律コストは、コスト算出用韻律データ204と処理対象素片候補データ207の距離を示す。
そして、素片評価部206aは、音素列コストと韻律コストとの重み付け和のコスト値を、現在の処理対象素片候補データ207に対応する素片コストとして算出する。
素片リストアップ部205aは、素片評価部206aが評価した素片コストが低い順に、素片候補データ207を並び替えて、処理対象セグメントデータとリンクさせて出力する。
素片選定部205内の音声素片列選定部205bは、図1の韻律予測部103から入力するセグメントデータ列の先頭から2番目のセグメント(処理対象セグメントデータ)から順に、以下の処理を順次実行する。
まず、音声素片列選定部205bは、処理対象セグメントデータに対応する素片候補データ207のグループから1つの素片候補データ207(処理対象素片候補データ207)を選択する。
音声素片列選定部205bは、処理対象素片候補データ207と、処理対象セグメントデータの前方(時間的に1つ手前)のセグメントデータ(以下これを「前方セグメントデータ」と記載する)の各素片候補データ207(以下これを「前方素片候補データ207」と記載する)との間で、以下のコスト値を計算する。音声素片列選定部205bは、前方素片候補データ207に至るまでの最良の経路に対するコスト値として確定しているトータルコストと、前方素片候補データ207と処理対象素片候補データ207との間の接続コストとの、重み付き和のコスト値を計算する。
上述の接続コストは、評価部206内の接続評価部206bが計算する。接続評価部206bは、処理対象素片候補データ207と前方素片候補データ207との間の音素接続点での各素片データの音響パラメータ(特徴量ベクトルデータ)の不連続性の大きさを、接続コストとして算出する。より具体的には、接続評価部206bは例えば、上記両者間の各素片データの各特徴量ベクトルデータの組によって算出される各素片データの各スペクトル包絡の距離(例えばメルケプストラムのユークリッド距離)を、接続コストとして算出する。
音声素片列選定部205bは、前方素片候補データ207で確定しているトータルコストと、前方素片候補データ207と処理対象素片候補データ207との間の接続コストとの、重み付き和のコスト値が、最も小さい前方素片候補データ207を、処理対象素片候補データ207に対する最良の前方素片候補データ207として記憶する。同時に、音声素片列選定部205bは、そのときの重み付き和のコスト値を、処理対象素片候補データ207に対する確定したトータルコストとして記憶する。
音声素片列選定部205bは、処理対象セグメントデータ内の全ての素片候補データ207のうち、上述のトータルコストが最小となる素片候補データ207を記憶する。
その後、音声素片列選定部205bは、処理対象セグメントデータを1つ後方(時間的に1つ後ろ)に進める。
音声素片列選定部205bは、最後のセグメントデータまで処理が終わったら、まず、最後のセグメントデータでトータルコストが最小の素片候補データ207を選択し、その後、最後のセグメントデータから先頭のセグメントデータに向かって順次、選択した素片候補データ207に記憶されている最良の前方素片候補データ207を選択してゆく。音声素片列選定部205bは、このようにして順次選択した素片候補データ207の列を、音声素片の列として選定する。
次に、評価部206内の最良コスト判定部206cは、音声素片列選定部205bが今回音声素片の列を選定したときの、素片評価部206aおよび接続評価部206bにおける総合コストが、韻律倍率変更部203でいままで変更された倍率に対応する中で最良のコストであるか否かを判定する。総合コストが最良のコストであれば、音声素片列選定部205bが今回選定した音声素片の列を、最良の音声素片の列として記憶する。その後、最良コスト判定部206cは、韻律倍率変更部203に対してさらに別の倍率を指示して動作を実行させ、その結果得られるコスト算出用韻律データ204を用いて素片選定部205および評価部206に対して音声素片の列の選定動作を繰り返し実行させる。
このようにして、入力テキストデータから生成される目標韻律データ201の韻律遷移を、音声辞書106内の音声コーパスの韻律遷移に合わせることが可能となって、入力テキストデータと素片データとで全体的な韻律がずれていても(言い換えれば例えば話者が異なっても)、素片データを正しく選択して質の良い合成音声を出力することが可能となる。
図3は、図1の音声合成装置100をソフトウェア処理として実現できるコンピュータのハードウェア構成例を示す図である。図3に示されるコンピュータは、CPU301、ROM(リードオンリーメモリ:読出し専用メモリ)302、RAM(ランダムアクセスメモリ)303、入力装置304、出力装置305、外部記憶装置306、可搬記録媒体410が挿入される可搬記録媒体駆動装置307、及び通信インタフェース308を有し、これらがバス309によって相互に接続された構成を有する。同図に示される構成は上記システムを実現できるコンピュータの一例であり、そのようなコンピュータはこの構成に限定されるものではない。
ROM302は、コンピュータを制御する音声合成プログラムを含む各プログラムを記憶するメモリである。RAM303は、各プログラムの実行時に、ROM302に記憶されているプログラム又はデータを一時的に格納するメモリである。
外部記憶装置306は、例えばSSD(ソリッドステートドライブ)記憶装置またはハードディスク記憶装置であり、入力テキストデータや合成音声データの保存に用いられる。
CPU301は、各プログラムを、ROM302からRAM303に読み出して実行することにより、当該コンピュータ全体の制御を行う。
入力装置304は、ユーザによるキーボードやマウス等による入力操作を検出し、その検出結果をCPU301に通知する。また、入力装置304は、図1のテキスト入力部101の機能を実行して入力テキストデータを外部から入力し、RAM303または外部記憶装置306に記憶させる。
出力装置305は、CPU301の制御によって送られてくるデータを表示装置や印刷装置に出力する。また、出力装置305は、図1の波形合成部107が外部記憶装置306またはRAM303に出力した合成音声データを、音声として放音する。
可搬記録媒体駆動装置307は、光ディスクやSDRAM、コンパクトフラッシュ等の可搬記録媒体410を収容するもので、外部記憶装置306の補助の役割を有する。
通信インターフェース308は、例えばLAN(ローカルエリアネットワーク)又はWAN(ワイドエリアネットワーク)の通信回線を接続するための装置である。
本実施形態によるシステムは、図1および図2の各処理部の機能を搭載した音声合成プログラムを、ROM302からRAM303に読み出してCPU301が実行することで実現される。そのプログラムは、例えば外部記憶装置306や可搬記録媒体410に記録して配布してもよく、或いはネットワーク接続装置308によりネットワークから取得できるようにしてもよい。
図4は、図1および図2の構成に対応する音声合成装置の機能を、図3のハードウェア構成例を有するコンピュータのCPU301が、ソフトウェアプログラムの処理により実現する場合の、音声合成処理の例を示すフローチャートである。以下に説明する処理はすべてCPU301が実行する処理である。
まず、CPU301は、入力テキストから目標韻律付き音素列を生成する(ステップS401)。この処理は、前述した図1のテキスト入力部101、形態素解析部102、韻律予測部103、および韻律辞書104の機能に対応する。
次に、CPU301は、倍率変更用のRAM303上の変数iの値を0に設定する(ステップS402)。
次に、CPU301は、RAM303上の定数a、定数b、および定数cとして、例えばa=0.5、b=2.0、c=0.1を設定する。その上で、CPU301は、図2のコスト算出用韻律データ204を、図2の目標韻律データ201の(a+i×c)倍に設定する(ステップS403)。最初はi=0であるため、倍率はa=0.5倍となる。後述するステップS410でiが+1ずつインクリメントされるごとに、倍率は0.1倍ずつアップされる。上限は、ステップS411の判定により1.9倍である。ステップS402、S403、S410、およびS411の処理は、図2の韻律倍率変更部203の機能に対応する。
次に、CPU301は、コスト算出用韻律データ204を含む処理対象セグメントデータごとに、それに含まれる音素と一致する音素を有する1つ以上の素片データを、例えば外部記憶装置306に記憶される音声辞書106中の音声コーパス内の素片データから選択して処理対象素片候補データ207(図2参照)として抽出し、RAM303に記憶させる(ステップS404)。
次に、CPU301は、処理対象素片候補データ207ごとに、処理対象セグメントデータの音素とその前後のセグメントデータの音素とから構成される音素列と、処理対象素片候補データ207の音素とその前後の素片データの音素とから構成される音素列とを比較することにより、音素列コストを算出する(ステップS405)。
次に、CPU301は、処理対象セグメントデータのコスト算出用韻律データ204と処理対象素片候補データ207の素片韻律データとの差に基づいて、韻律コストを算出する(ステップS406)。
次に、CPU301は、音素列コストと韻律コストとの重み付け和のコスト値を、現在の処理対象素片候補データ207に対応する素片コストとして算出する。そして、CPU301は、素片コストが低い順に、処理対象素片候補データ207を並び替えて、処理対象セグメントデータとリンクさせてRAM303に記憶させる(ステップS407)。
以上のステップS404からS407の処理は、図2の素片リストアップ部207aおよび素片評価部208aの機能に対応する。
次に、CPU301は、図2の音声素片列選定部205bおよび接続評価部208bの説明で前述したようにして、接続コストに基づいて最良の音声素片の列を選定する(ステップS408)。
次に、CPU301は、ステップS407とS408で算出された素片コストと接続コストの総合コストが、これまで算出された音声素片の列の中で最良のコストであるか否かを判定する(ステップ409)。なお、この判定のために、CPU301は、ステップS407とS408で算出された素片コストと接続コストの総合コストを、毎回RAM303に記憶させておく。この処理は、図2の最良コスト判定部206cの機能に対応する。
ステップS409の判定がYESならば、ステップS408で今回選定した音声素片の列を、合成音声のための候補としてRAM303に記憶する(ステップS410)。
その後、CPU301は、変数iの値を+1インクリメントし(ステップS411)、倍率値(a+i×c)の値が定数bよりも小さければ、ステップS403の韻律倍率変更の処理に戻り、セグメントデータ全体にわたる目標韻律データ201が(a+i×c)倍されてコスト算出用韻律データ204とされ、上記と同様の処理が繰り返し実行される。
以上の繰返し動作の結果、ステップS412の判定がNOになると、最終的にRAM303に記憶されている音声素片の列で、合成音声が生成され出力される(ステップS413)。この処理は、図1または図2の波形合成部107の機能に対応する。
以上のようにして、本実施形態によれば、目標韻律の基本周波数列がある定められた範囲内(例えば0.5倍から2.0倍未満の間)の定められた間隔(例えば0.1倍づつ)で、0.5倍、0.6倍、0.7倍、・・・、1.8倍、1.9倍というように全体的に移動させられ、そのそれぞれについてコスト関数に基づき,最良の音声素片の列が選定される。そして、それらの中からさらに最良の並びの音声素片の列を使い、合成音声が生成される。
以上の音声合成処理によって、入力テキストデータから生成される目標韻律データ201の韻律遷移を、音声辞書106内の音声コーパスの韻律遷移に合わせることが可能となり、入力テキストデータと素片データとで韻律がずれていても、素片データを正しく選択して音声辞書106の音声コーパスの話者に合わせた、質の良い合成音声を出力することが可能となる。これにより、音声合成において、小さい音声コーパスを使う場合でも、音質の劣化を抑えることが可能となり、音声合成装置のコストダウンが可能となる。
以上の実施形態に関して、更に以下の付記を開示する。
(付記1)
入力テキストデータから音素及び目標韻律が対応付けられたセグメントデータの列を抽出するセグメントデータ列抽出手段と、
前記目標韻律を、予め設定された範囲内でかつ予め設定された間隔で順次移動させる目標韻律移動手段と、
前記目標韻律移動手段により目標韻律が移動される毎に、音素及び韻律が対応付けられた素片の集合である音声コーパスから、前記抽出されたセグメントデータの列に対応する素片の列であって、音素および韻律に関するコストが最良となる素片の列を選定する素片列選択手段と、
前記素片選定手段により、前記目標韻律が移動される毎に選定された素片列のうち、前記コストが最良となる音声素片の列を決定する素片列決定手段と、
当該決定された素片の列に基づいて合成音声を出力する波形合成手段と、
を備える音声合成装置。
(付記2)
前記目標韻律移動手段は、前記目標韻律に含まれる基本周波数を、予め設定された範囲内で予め設定された間隔で順次移動させる、付記1に記載の音声合成装置。
(付記3)
前記素片列選択手段は、
前記音声コーパスから、前記抽出されたセグメントデータに含まれる音素と一致する音素を有する素片全てを選択する素片選択手段と、
前記選択された素片毎に、当該素片に対応付けられた音素及び韻律に基づいた素片コストを算出する素片コスト算出手段と、
前記選択された素片夫々を、前記抽出されたセグメントデータに対応して並べて素片列を生成した場合の接続コストを算出する接続コスト算出手段と、
前記算出された音素列コスト、韻律コスト及び接続コストを含む総合コストが最良となる素片列を生成する素片列生成手段と、
を有する、付記1又は2に記載の音声合成装置。
(付記4)
前記素片コスト算出手段は、
前記選択された素片毎に、当該素片及びその前後の素片夫々に対応付けられた音素からなる音素列と、前記抽出されたセグメントデータに含まれる音素とその前後の音素とからなる音素列とを比較して音素列コストを算出する音素列コスト算出手段と、
前記選択された素片毎に、当該選択された素片に対応付けられた韻律と前記目標韻律との差に基づく韻律コストを算出する韻律コスト算出手段と、
を有する付記3に記載の音声合成装置。
(付記5)
音声合成装置が、
入力テキストデータから音素及び目標韻律が対応付けられたセグメントデータの列を抽出し、
前記目標韻律を、予め設定された範囲内でかつ予め設定された間隔で順次移動させ、
前記目標韻律が移動される毎に、音素及び韻律が対応付けられた素片の集合である音声コーパスから、前記抽出されたセグメントデータの列に対応する素片の列であって、音素および韻律に関するコストが最良となる素片の列を選定し、
前記目標韻律が移動される毎に選定された素片列のうち、前記コストが最良となる音声素片の列を決定し、
当該決定された素片の列に基づいて合成音声を出力する、音声合成方法。
(付記6)
音声合成装置として用いられるコンピュータに、
入力テキストデータから音素及び目標韻律が対応付けられたセグメントデータの列を抽出するステップと、
前記目標韻律を、予め設定された範囲内でかつ予め設定された間隔で順次移動させるステップと、
前記目標韻律が移動される毎に、音素及び韻律が対応付けられた素片の集合である音声コーパスから、前記抽出されたセグメントデータの列に対応する素片の列であって、音素および韻律に関するコストが最良となる素片の列を選定するステップと、
前記目標韻律が移動される毎に選定された素片列のうち、前記コストが最良となる音声素片の列を決定するステップと、
当該決定された素片の列に基づいて合成音声を出力するステップと、
を実行させるプログラム。
100 音声合成装置
101 テキスト入力部
102 形態素解析部
103 韻律予測部
104 韻律辞書
105 波形選択部
106 音声辞書
107 波形合成部
201 目標韻律データ
202 韻律入力部
203 韻律倍率変更部
204 コスト算出用韻律データ
205 素片選定部
205a 素片リストアップ部
205b 音声素片列選定部
206 評価部
206a 素片評価部
206b 接続評価部
206c 最良コスト判定部
207 素片候補データ
301 倍率変更前の目標韻律のピッチ周波数
302 倍率変更後の目標韻律のピッチ周波数
401 CPU
402 ROM(リードオンリーメモリ)
403 RAM(ランダムアクセスメモリ)
404 入力装置
405 出力装置
406 外部記憶装置
407 可搬記録媒体駆動装置
408 通信インタフェース
409 バス
410 可搬記録媒体

Claims (6)

  1. 入力テキストデータから音素及び目標韻律が対応付けられたセグメントデータの列を抽出するセグメントデータ列抽出手段と、
    前記目標韻律を、予め設定された範囲内でかつ予め設定された間隔で順次移動させる目標韻律移動手段と、
    前記目標韻律移動手段により目標韻律が移動される毎に、音素及び韻律が対応付けられた素片の集合である音声コーパスから、前記抽出されたセグメントデータの列に対応する素片の列であって、音素および韻律に関するコストが最良となる素片の列を選定する素片列選択手段と、
    前記素片選定手段により、前記目標韻律が移動される毎に選定された素片列のうち、前記コストが最良となる音声素片の列を決定する素片列決定手段と、
    当該決定された素片の列に基づいて合成音声を出力する波形合成手段と、
    を備える音声合成装置。
  2. 前記目標韻律移動手段は、前記目標韻律に含まれる基本周波数を、予め設定された範囲内で予め設定された間隔で順次移動させる、請求項1に記載の音声合成装置。
  3. 前記素片列選択手段は、
    前記音声コーパスから、前記抽出されたセグメントデータに含まれる音素と一致する音素を有する素片全てを選択する素片選択手段と、
    前記選択された素片毎に、当該素片に対応付けられた音素及び韻律に基づいた素片コストを算出する素片コスト算出手段と、
    前記選択された素片夫々を、前記抽出されたセグメントデータに対応して並べて素片列を生成した場合の接続コストを算出する接続コスト算出手段と、
    前記算出された音素列コスト、韻律コスト及び接続コストを含む総合コストが最良となる素片列を生成する素片列生成手段と、
    を有する、請求項1又は2に記載の音声合成装置。
  4. 前記素片コスト算出手段は、
    前記選択された素片毎に、当該素片及びその前後の素片夫々に対応付けられた音素からなる音素列と、前記抽出されたセグメントデータに含まれる音素とその前後の音素とからなる音素列とを比較して音素列コストを算出する音素列コスト算出手段と、
    前記選択された素片毎に、当該選択された素片に対応付けられた韻律と前記目標韻律との差に基づく韻律コストを算出する韻律コスト算出手段と、
    を有する請求項3に記載の音声合成装置。
  5. 音声合成装置が、
    入力テキストデータから音素及び目標韻律が対応付けられたセグメントデータの列を抽出し、
    前記目標韻律を、予め設定された範囲内でかつ予め設定された間隔で順次移動させ、
    前記目標韻律が移動される毎に、音素及び韻律が対応付けられた素片の集合である音声コーパスから、前記抽出されたセグメントデータの列に対応する素片の列であって、音素および韻律に関するコストが最良となる素片の列を選定し、
    前記目標韻律が移動される毎に選定された素片列のうち、前記コストが最良となる音声素片の列を決定し、
    当該決定された素片の列に基づいて合成音声を出力する、音声合成方法。
  6. 音声合成装置として用いられるコンピュータに、
    入力テキストデータから音素及び目標韻律が対応付けられたセグメントデータの列を抽出するステップと、
    前記目標韻律を、予め設定された範囲内でかつ予め設定された間隔で順次移動させるステップと、
    前記目標韻律が移動される毎に、音素及び韻律が対応付けられた素片の集合である音声コーパスから、前記抽出されたセグメントデータの列に対応する素片の列であって、音素および韻律に関するコストが最良となる素片の列を選定するステップと、
    前記目標韻律が移動される毎に選定された素片列のうち、前記コストが最良となる音声素片の列を決定するステップと、
    当該決定された素片の列に基づいて合成音声を出力するステップと、
    を実行させるプログラム。
JP2014193112A 2014-09-22 2014-09-22 音声合成装置、方法、およびプログラム Pending JP2016065900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014193112A JP2016065900A (ja) 2014-09-22 2014-09-22 音声合成装置、方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014193112A JP2016065900A (ja) 2014-09-22 2014-09-22 音声合成装置、方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2016065900A true JP2016065900A (ja) 2016-04-28
JP2016065900A5 JP2016065900A5 (ja) 2017-11-09

Family

ID=55804135

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014193112A Pending JP2016065900A (ja) 2014-09-22 2014-09-22 音声合成装置、方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2016065900A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110415716A (zh) * 2019-07-05 2019-11-05 深圳前海达闼云端智能科技有限公司 音频混合方法、装置、存储介质及电子设备
CN112420017A (zh) * 2020-11-13 2021-02-26 北京沃东天骏信息技术有限公司 语音合成方法及装置
CN113345417A (zh) * 2021-05-31 2021-09-03 平安科技(深圳)有限公司 语音合成方法、装置、设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005091747A (ja) * 2003-09-17 2005-04-07 Mitsubishi Electric Corp 音声合成装置
WO2012160767A1 (ja) * 2011-05-25 2012-11-29 日本電気株式会社 素片情報生成装置、音声合成装置、音声合成方法および音声合成プログラム
JP2012237925A (ja) * 2011-05-13 2012-12-06 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置とその方法とプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005091747A (ja) * 2003-09-17 2005-04-07 Mitsubishi Electric Corp 音声合成装置
JP2012237925A (ja) * 2011-05-13 2012-12-06 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置とその方法とプログラム
WO2012160767A1 (ja) * 2011-05-25 2012-11-29 日本電気株式会社 素片情報生成装置、音声合成装置、音声合成方法および音声合成プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110415716A (zh) * 2019-07-05 2019-11-05 深圳前海达闼云端智能科技有限公司 音频混合方法、装置、存储介质及电子设备
CN112420017A (zh) * 2020-11-13 2021-02-26 北京沃东天骏信息技术有限公司 语音合成方法及装置
CN113345417A (zh) * 2021-05-31 2021-09-03 平安科技(深圳)有限公司 语音合成方法、装置、设备以及存储介质
CN113345417B (zh) * 2021-05-31 2024-03-01 平安科技(深圳)有限公司 语音合成方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
EP3588490B1 (en) Speech conversion method, computer device, and storage medium
CN101828218B (zh) 通过多形式段的生成和连接进行的合成
JP3913770B2 (ja) 音声合成装置および方法
US11741942B2 (en) Text-to-speech synthesis system and method
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
US9978359B1 (en) Iterative text-to-speech with user feedback
CN101131818A (zh) 语音合成装置与方法
JP5434587B2 (ja) 音声合成装置及び方法とプログラム
JP2016065900A (ja) 音声合成装置、方法、およびプログラム
KR20180078252A (ko) 성문 펄스 모델 기반 매개 변수식 음성 합성 시스템의 여기 신호 형성 방법
JP6520108B2 (ja) 音声合成装置、方法、およびプログラム
JP3450237B2 (ja) 音声合成装置および方法
JP4829605B2 (ja) 音声合成装置および音声合成プログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP6400526B2 (ja) 音声合成装置、その方法、およびプログラム
JP6902759B2 (ja) 音響モデル学習装置、音声合成装置、方法およびプログラム
JP6519096B2 (ja) 音声合成装置、方法、およびプログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP6519097B2 (ja) 音声合成装置、方法、およびプログラム
JP2004233774A (ja) 音声合成方法及び装置、並びに音声合成プログラム
JPH1185193A (ja) 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置
KR20010076625A (ko) 합성 데이터베이스 경량화를 위한 불필요한 합성단위 제거방법
JP2005091551A (ja) 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム
CN116884385A (zh) 语音合成方法、装置及计算机可读存储介质
JP2017062346A (ja) 音合成装置、方法、およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170921

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170921

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180925

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20181122

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190326