JP5754141B2 - 音声合成装置および音声合成プログラム - Google Patents

音声合成装置および音声合成プログラム Download PDF

Info

Publication number
JP5754141B2
JP5754141B2 JP2011004728A JP2011004728A JP5754141B2 JP 5754141 B2 JP5754141 B2 JP 5754141B2 JP 2011004728 A JP2011004728 A JP 2011004728A JP 2011004728 A JP2011004728 A JP 2011004728A JP 5754141 B2 JP5754141 B2 JP 5754141B2
Authority
JP
Japan
Prior art keywords
information
mora
input
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011004728A
Other languages
English (en)
Other versions
JP2012145802A (ja
Inventor
野田 拓也
拓也 野田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011004728A priority Critical patent/JP5754141B2/ja
Publication of JP2012145802A publication Critical patent/JP2012145802A/ja
Application granted granted Critical
Publication of JP5754141B2 publication Critical patent/JP5754141B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は,テキストデータを合成音声に変換して出力する音声合成技術に関する。より詳しくは,韻律の修正機能を含む音声合成技術に関する。
テキストデータを合成音声に変換して読み上げる音声合成技術では,しばしば,合成音声のアクセント,抑揚や各音の長さなどに不自然さが生じ,合成音声品質を劣化させる要因となる。そのため,音声合成時に韻律(アクセント,モーラ長,抑揚など)を修正する処理が行われている。
「抑揚」とは,声の高さの時間的変化である。「アクセント」は,発音時のモーラが高い音から低い音に変わることを示し,低い音に変わる直前の高い音で発音するモーラに,アクセントが設定される。アクセントは,抑揚に含まれる。
「モーラ」とは,1音素(母音/撥音/促音など)または2音素(子音+母音)単位で構成される1音である。「音素」は,モーラを構成する最小単位であって,子音,母音,撥音,促音などを指す。
図20は,モーラと音素との関係を説明するための図である。
図20に示すように,「かなしい」という語は,「か」,「な」,「し」,「い」という4モーラで構成されている。「かなしい」の先頭モーラ「か」は,子音‘K’と母音‘A’の2つの音素で構成される。また,語尾のモーラ「い」は,母音‘I’の音素のみで構成されている。以下の説明において,「モーラ」は広義に解釈し,「音素」の意味を含むものとする。
音声合成の際の韻律修正において,ユーザ自身で修正可能なようにGUI等を備える修正機能が提供されている。
韻律の中のアクセント修正に関する従来技術として,与えられたテキストデータに対して,ユーザ自らが想定するアクセントで文字列を発音した音声情報を得て,取得した音声情報からアクセント抽出する処理が知られている。
また,韻律全体を修正する従来技術として,あらかじめ用意された音声(合成音声)と入力した音声から,それぞれ音響特徴量を抽出し,音響特徴量をマッチングして,ピッチを修正する処理などが知られている。
特開2008−185911号公報 特開平7−140996号公報
図21および図22は,従来技術による問題を説明するための図である。
従来技術では,アクセント修正に際し,ユーザ発声の音声を得てモーラ境界を検出する。しかし,モーラ境界検出の精度が悪く,モーラ境界検出の誤りによってピッチが高いモーラを正しく特定できない場合には,アクセント位置のずれが生じ,結果的にユーザ所望のアクセント位置にならないという問題がある。
モーラ境界検出の精度が低い場合の例として,図21に示すように,「かなしい」の「し」と「い」とのモーラ境界が,実際には細点線で示す位置であるのに,太点線で示す位置で誤検出されたとする。
一般的に,アクセント位置(’で示す)は,ピッチが急激に下がったモーラの直前(1つ前の)モーラに設定される。そのため,正しくは,「し」にアクセント位置が設定されて「カナシ’イ」となるところが,誤検出のモーラ境界では「な」に設定されてしまい「カナ’シイ」となる。
また,従来技術では,予めモーラ境界が特定されている合成音声の音響特徴量と,ユーザ発声の音声から抽出した音響特徴量とをマッチングする。しかし,合成音声とユーザ発声音声とは全く声種が違い,両者の音響特徴量,例えばピッチ周波数が大きく異なるため,音響特徴量のマッチング精度は低下してしまう。そのため,図22に示すように,細点線で示す実際のモーラ境界を,太線で示す位置で誤検出してしまう。このような低精度のモーラ境界検出によって,モーラ長のバラツキや抑揚のずれが生じ,結果的にユーザ所望のモーラ長や抑揚にならないという問題がある。
また,合成音声の音響特徴量の代わりに,所定の音響モデル,例えば隠れマルコフモデル(Hidden Markov Model)などの音響特徴量を利用する場合もある。しかし,音響モデルは,多数話者の音声の音響特徴量の分布をモデル化したものであり,多数話者中にユーザ発声の音声に類似した音響特徴量を持つ話者が含まれる期待値は上がるものの,ユーザ発声の音声と同一ではない。そのため,図22に示すような,特徴量マッチングの精度低下は解消されず,モーラ境界の検出誤りにつながる問題がある。
本発明は,上記の問題を鑑みてなされたものであり,音声合成に際し,アクセント,モーラ長,抑揚などの韻律を精度良く修正することができる音声合成技術を提供することを目的とする。
本願において開示される音声合成装置は,1)韻律修正の対象となるテキスト情報を取得し,テキスト情報に対応するリズム情報を生成するタイミング制御部と,2)前記リズム情報を出力するリズム情報出力部と,3)前記リズム情報に同期した第1入力音声と,前記リズム情報と非同期の第2入力音声を入力する音声入力部と,4)前記第1入力音声および前記第2入力音声の各音響特徴量を抽出する音響特徴量抽出部と,5)前記第1入力音声および前記第2入力音声の各ピッチ周波数情報を抽出するピッチ抽出部と,6)前記リズム情報および前記第1入力音声のピッチ周波数情報から,前記第1入力音声のモーラ境界を修正し,修正した前記モーラ境界を示す第1入力音声のモーラ境界情報を生成するモーラ境界修正部と,7)前記第1入力音声のモーラ境界情報をもとに,前記第1入力音声および前記第2入力音声の各音響特徴量をマッチング処理し,前記マッチング処理結果をもとに,前記第2入力音声のモーラ境界を示す第2入力音声のモーラ境界情報を抽出するモーラ境界抽出部と,8)前記第2入力音声のピッチ周波数情報から,前記第2入力音声の抑揚情報を生成する抑揚生成部と,9)前記第2入力音声のモーラ境界情報および前記テキスト情報から,前記第2入力音声の各モーラのモーラ長を示すモーラ長情報を生成するモーラ長生成部と,10)前記第2入力音声の抑揚情報および前記モーラ長情報から,前記第2入力音声の韻律情報を生成して出力する韻律生成部とを備える。
上記した音声合成装置によれば,リズム情報に同期した第1入力音声のモーラ境界とリズム情報の同期のずれを修正してモーラ境界を検出するため,誤検出が少ないモーラ境界で,高精度のアクセント修正や韻律修正を実現することができる。
本発明の一態様として開示する音声合成装置の第1実施形態における構成例を示す図である。 第1実施形態における音声合成装置の処理フロー例を示す図である。 リズム情報を生成するためにタイミング制御部11が取得する情報のデータ構成例を示す図である。 音声合成装置の処理における各情報の関連を説明するための図(その1)である。 音声合成装置の処理における各情報の関連を説明するための図(その2)である。 第1入力音声のデータ構成例を示す図である。 ピッチ周波数情報の例を示す図である。 アクセント情報のデータ構成例を示す図である。 本発明の一態様として開示する音声合成装置の第2実施形態における構成例を示す図である。 第2実施形態におけるモーラ境界の抽出を説明するための図である。 発声者の相違による音響特徴量の相違例を示す図である。 第2実施形態における音声合成装置の処理フロー例を示す図である。 本発明の一態様として開示する音声合成装置の第3実施形態における構成例を示す図である。 第3実施形態におけるタイミング制御部の構成例を示す図である。 本発明の一態様として開示する音声合成装置1の第4実施形態における構成例を示す図である。 ピッチ抽出部およびモーラ境界修正部の構成例を示す図である。 第1入力音声が長音発声である場合のピッチ周波数および音声区間の例を示す図である。 第1入力音声が単音発声である場合のピッチ周波数および音声区間の例を示す図である。 音声合成装置のハードウェア構成例を示す図である。 モーラと音素との関係を説明するための図である。 従来技術による問題を説明するための図(その1)である。 従来技術による問題を説明するための図(その2)である。
本発明の一態様として開示する音声合成装置にかかる複数の実施形態を説明する。
[第1実施形態]
図1ないし図8を用いて,第1実施形態について説明する。
図1は,本発明の一態様として開示する音声合成装置1の第1実施形態における構成例を示す図である。
音声合成装置1は,タイミング制御部11,リズム情報出力部12,音声入力部13,ピッチ抽出部14,モーラ境界修正部15,およびアクセント抽出部16を備える。
タイミング制御部11は,アクセント修正の対象となるテキスト情報5を取得し,テキスト情報5に対応するリズム情報を生成する。
テキスト情報5は,生成する合成音声に対応したテキスト(かな漢字混じり)表記,言語解析処理後の表音(カナ)表記などのデータである。
言語解析処理は,テキスト表記を形態素解析して品詞情報を生成し,さらに,読みやアクセントに関する情報を付与した表音表記に変換する処理である。音声合成装置1は,既知の音声合成装置と同様に言語解析処理機能を備えるように構成されていてもよい。この場合には,タイミング制御部11は,表音表記であるテキスト情報5を取得する。
リズム情報とは,1モーラ(1音)ずつ発声しやすいように,一定周期のタイミング音またはタイミング画像である。タイミング画像は,ガイドとなる画像が一定周期で切り替わるスライド画像または動画像であればよい。
また,リズム情報は,タイミング音,タイミング画像の他に,例えば,音声合成装置1にLED等のランプなどを搭載し,一定間隔での光の点滅をリズム情報としてもよい。
リズム情報出力部12は,タイミング制御部11で生成されたリズム情報を,所定の時間間隔でスピーカやモニタ画面上に出力する。
音声入力部13は,アクセント修正したいテキスト情報(語彙)をユーザが発声した音声を収録したデータを,第1入力音声として取得する。
ピッチ抽出部14は,音声入力部13で取得された第1入力音声から,音声のピッチ周波数情報を抽出する。ピッチ抽出部14は,ピッチ周波数として,所定の短時間フレーム間隔(例えば10msなど)の平均ピッチ周波数を検出する。
モーラ境界修正部15は,リズム情報とピッチ周波数情報とから,第1入力音声のモーラ境界を修正し,正しいモーラ境界を設定したモーラ境界情報を生成する。第1入力音声は,原則,リズム情報である一定周期のタイミング音やタイミング画像に同期しているが,同期がずれる場合も考えられる。同期のずれは,モーラ境界位置のずれとなり,アクセント抽出の誤りにつながるからである。
アクセント抽出部16は,テキスト情報,第1入力音声のモーラ境界情報,およびピッチ周波数情報から,アクセント情報6を抽出する。
アクセント情報6は,アクセントを設定するモーラの位置を示すアクセント位置を含む情報である。一般に,アクセント位置は,音が急激に下がる(すなわち,ピッチ周波数が急激に下降する)モーラの1つ前のモーラの位置と定義される。アクセント抽出部16は,急激にピッチ周波数が下降するモーラを特定して,特定したモーラの1つ前のモーラをアクセント位置として決定する。なお,アクセント位置は,1つの第1入力音声中に1または複数設定されてもよい。
図2は,第1実施形態における音声合成装置1の処理フロー例を示す図である。
ステップS1: タイミング制御部11は,アクセント修正の対象となるテキスト情報5を取得する。
テキスト情報5として,例えばテキスト表記「悲しい」が言語解析処理によって,標準アクセントの表音表記「かなしい」に変換されたものが取得される。この4音(4モーラ)の「かなしい」を,ユーザが,現代アクセントの「かなし’い(「’」はアクセント位
置)」に修正するとする。
ステップS2: タイミング制御部11は,テキスト表記や表音表記であるテキスト情報5に対応するリズム情報を生成する。
図3は,リズム情報を生成するためにタイミング制御部11が取得する情報のデータ構成例を示す図である。
リズム情報を生成するためにタイミング制御部11が取得する情報は,ソース,出力レベルおよび出力間隔のデータ項目を含む。ソースは,リズム情報として出力されるソースデータ本体(例えば,音声データ,画像データ,動画像データなど)またはソースデータを示す識別情報である。出力レベルは,リズム情報の出力の大きさ(例えば,レベル1〜5で示す値)である。出力間隔は,リズム情報が出力される間隔(例えば,秒単位の値)である。ソースデータが動画像である場合には,間隔=0(なし)とされる。
タイミング制御部11は,テキスト情報5からモーラ数を得て,一定の間隔で発声または表示される,そのモーラ数以上のタイミング音(Beep音など)やタイミング画像を生成する。
タイミング制御部11は,発声前にタイミング音やタイミング画像を予め複数回出力してユーザ(発声者)にタイミングの周期を知らせ,ユーザがより精度良くタイミング音に同期して音声入力ができるように,その分のタイミング音やタイミング画像を追加して生成してもよい。ユーザは,発声の時間間隔に合わせて発声でき,より精度良くタイミング音に同期して音声を入力することができる。
また,リズム情報の一定時間間隔は,言いよどみなどが無く1モーラが正しく発声できるように,長めの時間間隔(例えば,1秒間隔程度)であることが好ましい。
図4および図5は,音声合成装置1の処理における各情報の関連を説明するための図である。
タイミング制御部11は,図4および図5に示すように,テキスト情報に対応して,少なくとも4回のタイミング音,または,画像が4回切り替わるタイミング画像をリズム情報として生成すればよいが,さらに,発声前にタイミングを知らせるために,事前に出力する3回分のタイミング音とタイミング画像とを生成している。
ステップS3: リズム情報出力部12は,タイミング制御部11が生成したリズム情報,すなわちタイミング音またはタイミング画像を,所定の時間間隔でスピーカやモニタ画面上に出力する。
ステップS4: 音声入力部13は,マイク等により,ユーザが,タイミング情報にもとづいて発声した第1入力音声を収録して,収録した音声データをピッチ抽出部14へ渡す。
図6は,第1入力音声のデータ構成例を示す図である。
第1入力音声は,音声データIDおよび音声データのデータ項目を含む。音声データIDは,第1入力音声を識別する情報であり,音声データは,マイク等で収録されたユーザの音声データ本体である。
ステップS5: ピッチ抽出部14は,既知の自己相関法,ケプストラム分析法などを利用してピッチ周波数を検出する。
自己相関法は,有声部分の音声波形が周期波形である点に着目し,自己相関を取ることで周期毎に自己相関ピーク値が得られることから,この自己相関ピーク位置をもとに,有声音の周期つまりピッチ周波数を検出する手法である。
また,ケプストラム分析手法は,音声が,音源信号(声帯の振動による有声音源と,声帯振動を伴わない無声音源)と,調波特性(声道,鼻腔,舌の位置などで決まるフィルタ特性)との畳み込みによって生成されるとの考えを前提に,音声信号から,音源成分と調波成分とを分離する手法である。この手法を用いて音源成分を抽出すれば,容易にピッチ周波数を得ることできる。
図7は,ピッチ周波数情報の例を示す図である。
ピッチ周波数情報は,検出されたピッチ周波数であり,音声データID,間隔番号およびピッチ周波数のデータ項目を含む。音声データIDは,処理の対象となっている第1入力音声を識別する情報である。間隔番号は,音声データを所定の間隔で区切った区間の先頭からの並び順を示す情報である。ピッチ周波数は,例えば,対応する間隔(区間)における音声データのピッチ周波数である。
ステップS6: モーラ境界修正部15は,リズム情報およびピッチ周波数情報から,第1入力音声のモーラ境界を修正したモーラ境界情報を生成する。
図4に示す例は,第1入力音声は「長音発声」された音声に対するモーラ境界検出の例である。
長音発声は,各モーラの母音部分を長音で発声する。そのため,各モーラで必ずピッチ周波数を得られるという利点がある。したがって,第1入力音声は長音であることが好ましい。例えば,通常の発声では「無声子音+無声母音(例えば,「き」「す」等)」や促音など,無声となるモーラが存在するため,モーラ全体で無声化してピッチ周波数が得られずにアクセント抽出誤りの一因となるが,長音発声ではこうした問題を回避することができる。
さらに,長音発声では,長音で発声される母音部分はピッチ変化がほとんどない(同じ高さで発声する)という特徴を有する。そこで,モーラ境界修正部15は,ピッチ周波数の変化が大きい部分をモーラ境界と判定する。
加えて,例えば図4に示すt3の部分のように,モーラの先頭子音が無声である場合に,その位置にはピッチ周波数が存在しない。しかし,その前後は長母音に挟まれて必ずピッチ周波数が存在する。そこで,モーラ境界修正部15は,ピッチ周波数が切れる期間の先頭位置を,モーラの終端境界と判定する。
また,図4に示すt1の部分のように,先頭モーラ「か」の子音が無声であるためピッチ周波数が存在せず,ピッチ周波数情報だけでは1モーラ目のモーラ境界を正しく修正できない場合がある。このような場合は,モーラ境界修正部15は,音声パワー情報を合わせて利用し,音声パワー情報(所定以上のパワー値の検出)を用いて,モーラの先頭境界を特定する。このようにして,先頭モーラに無声子音が存在しても,モーラ境界を正しく修正することができる。
モーラ境界修正部15は,以上の処理により,リズム情報の同期とずれた各モーラ境界を,図4に示すように,細点線で示すリズム情報の位置(時点)から太点線で示す位置(時点)に修正することによって,第1入力音声の正しいモーラ境界を示すモーラ境界情報を得る。
図5に示す例は,第1入力音声は「単音発声」された音声に対するモーラ境界検出の例である。
単音発声は,各モーラを区切って発声する。また,リズム情報が存在しても,必ずしも第1入力音声が長音発声になるとは限らず,単音発声となる場合も考えられる。単音発声では,各モーラの前後に無音区間が生じる。これに対応するため,モーラ境界修正部15は,無音から音声に変化する位置をモーラ先頭境界とし,音声から無音に変化する位置をモーラ終端境界として検出する。
さらに,音声パワー情報の場合に,モーラ先頭では,終端の音声パワーが小さい部分を音声区間外と判定してしまう場合もある。これに対応するため,モーラ境界修正部15は,音声パワー情報に加え,有声部分のピッチ周波数情報を組み合わせ,音声パワーの小さな部分であっても有声によるピッチ周波数が検出される区間を特定して,モーラ境界を検出する。
モーラ境界修正部15は,以上の処理により,リズム情報の同期とずれた各モーラ境界を,図5に示すように,細点線で示すリズム情報の位置(時点)から太点線で示す位置(時点)に修正することによって,第1入力音声の正しいモーラ境界を示すモーラ境界情報を得る。
ステップS7: アクセント抽出部16は,テキスト情報5と,第1入力音声のモーラ境界情報とピッチ周波数情報とから,アクセント位置を示すアクセント情報6を抽出する。
図8は,アクセント情報のデータ構成例を示す図である。
アクセント情報は,音声データIDおよびアクセント位置のデータ項目を含む。音声データIDは,処理の対象となっている第1入力音声を識別する情報であり,アクセント位置は,アクセントが設定されるモーラを示す情報である。
一般に,アクセント位置は,ピッチ周波数が急激に下降するモーラの1つ前のモーラにあると定義される。図4および図5に示す例では,モーラ「し」から「い」にかけて急激にピッチ周波数が下降するため,「し」がアクセント位置となる。
最も簡単なアクセント位置の抽出手法として,アクセント抽出部16は,1〜N個の各モーラの代表ピッチ周波数を算出し,nモーラ目(n=1〜N)の代表ピッチ周波数F(n)と,n+1モーラ目の代表ピッチ周波数F(n+1)の差:(F(n)−F(n+1))が,所定の閾値を超えた場合に,nモーラ目をアクセント位置に設定する。
なお,代表ピッチ周波数とは,例えば各モーラの平均ピッチ周波数を採用しても良く,または,メディアンフィルタを用いて各モーラの中央値ピッチ周波数を採用しても良い。または,ピッチの存在しないモーラ(例えば,「無声子音+母音」,「無声子音+無声母音」,「促音」など)は,その前後のモーラの代表ピッチ周波数から内挿して代表ピッチ周波数を設定するようにしても良い。
ステップS8: 音声合成装置1の音声合成機能により(図示しない),ユーザがアクセント修正結果を確認できるように,アクセント抽出部16が生成したアクセント情報(アクセント位置)6をもとに再合成した音声を出力する。
ステップS9: タイミング制御部11は,アクセント修正の対象となるテキスト情報5の入力(修正イベント)があるかを調べ,修正イベントがあれば(ステップS9のY),ステップS1の処理へ戻り,修正イベントがなければ(ステップS9のN),処理を終了する。
第1実施形態における音声合成装置1によれば,リズム情報に同期して入力された第1入力音声から,リズム情報と第1入力音声の同期のずれを修正して得られる第1入力音声の正確なモーラ境界を抽出することができる。これにより,各モーラから求められるピッチ周波数情報とモーラ境界とを組み合わせることで,アクセント位置抽出の誤りが抑制され,高い精度でアクセント修正を行うことが可能となる。
なお,単音発声,および,全部または一部が無声音であるモーラに対するモーラ境界修正について,ピッチ抽出部14およびモーラ境界修正部15のより詳細な説明は,後述する。
[第2実施形態]
図9ないし図12を用いて,第2実施例について説明する。
図9は,本発明の一態様として開示する音声合成装置1の第2実施形態における構成例を示す図である。
音声合成装置1は,タイミング制御部11,リズム情報出力部12,音声入力部13a,ピッチ抽出部14a,モーラ境界修正部15,音響特徴量抽出部21,モーラ境界抽出部22,モーラ長生成部23,音素長生成部24,抑揚生成部25,および韻律生成部26を備える。
タイミング制御部11,リズム情報出力部12,モーラ境界修正部15は,第1実施形態での音声合成装置1の同一番号が付いた処理部と同じであるため,ここでは説明を省略する。
音声入力部13aは,第1実施形態の音声合成装置1の音声入力部13とほぼ同じであるが,韻律修正したいテキスト情報(語彙)5,2種の異なるリズムでユーザが発声した2つの音声をマイク等で収録し,第1入力音声,第2入力音声とする。
第1入力音声は,リズム情報に同期して発声された音声である。第2入力音声は,リズム情報に同期していない,ユーザが所望する韻律で発声された音声であればよい。
ピッチ抽出部14aは,第1入力音声および第2入力音声それぞれのピッチ周波数情報を,それぞれ抽出する。ピッチ抽出方法については,第1実施形態におけるピッチ抽出部14と同様である。
音響特徴量抽出部21は,第1入力音声および第2入力音声それぞれの音響特徴量を,所定のフレーム単位で抽出する。
音響特徴量は,例えば,既知のケプストラム分析,線形予測分析(LPC分析)などの分析手法で得られる調波特性(声道,鼻腔,舌の位置などで決まるフィルタ特性)を特徴量とするものでよい。ただし,ケプストラム分析やLPC分析によって得られる調波特性(ケプストラム係数,LPC包絡など)は,次数が高く演算量も多く現実的でない。
そこで,音響特徴量抽出部21は,音声認識の分野で用いられる,低次でも音声特徴量を表現可能なMFCC(メル周波数ケプストラム)を特徴量として用いる。
モーラ境界抽出部22は,モーラ境界修正部15で修正された第1入力音声のモーラ境界情報をもとに,所定フレーム単位の第1入力音声と第2入力音声との音響特徴量をマッチング処理し,第2入力音声のモーラ境界情報を抽出する。
図10は,第2実施形態におけるモーラ境界の抽出を説明するための図である。
モーラ境界抽出部22は,音響特徴量のマッチング処理として,既知のDPマッチングと呼ばれる手法を採用する。モーラ境界抽出部22は,図10に示すように,第1入力音声と第2入力音声の音響特徴量が最も類似する最尤パスを探索する。ここで,第1入力音声は,モーラ境界修正部15によって正しいモーラ境界が特定されているため,第1入力音声のモーラ境界と最尤パスの交差点が,第2入力音声のモーラ境界として抽出できる。
従来技術では,第1入力音声の代替として,合成音声を利用したり,音声認識で利用される音響特徴量データベース(例えば,隠れマルコフモデル等)を利用したりしていた。しかし,この場合の第1入力音声はいずれも第2入力音声の発声者とは異なるので,同じ語彙を発声しても両者の音響特徴量が大きく異なっている。
図11は,発声者の相違による音響特徴量の相違例を示す図である。
図11は,LPC分析によって得られる調波特性であるLPC包絡を示している。図11(A)は,発声者Aのある発声による「ウ」のスペクトル形状の例,図11(B)は,発声者Aの別の発声による「ウ」のスペクトル形状の例,図11(C)は,発声者Bのある発声による「ウ」のスペクトル形状の例である。
図11(A)〜(C)に示すように,音響特徴量は発声者により個人差があり,大きく異なることが分かる。したがって,従来技術では,第1入力音声として合成音声やHMMモデルを利用しても,ユーザが発声した第2入力音声に対する最尤パスの信頼性が乏しく,得られる第2入力音声のモーラ境界精度が著しく低下していた。
第2実施形態によれば,音声合成装置1では,第1入力音声,第2入力音声とも,同一ユーザの音声であり,両音声の音響特徴量は非常に似通ったものとなるため(図11参照),最尤パスの信頼性が高く,得られる第2入力音声のモーラ境界精度を大きく改善することができる。
モーラ長生成部23は,抽出された第2入力音声のモーラ境界情報とテキスト情報5とにもとづいて,第2入力音声のモーラ長情報を生成する。モーラ境界に挟まれた時間間隔がモーラ長に相当し,モーラ長生成部23は,各モーラ長とモーラとを対応付けたモーラ長情報を生成する。
音素長生成部24は,抽出された第2入力音声のモーラ境界情報とテキスト情報5とにもとづいて,第2入力音声の音素長情報を生成する。この場合に,音素長生成部24は,モーラ長生成部23と同様に,各モーラのモーラ長を生成し,モーラが1音素で形成される場合は,音素長=モーラ長とし,モーラが2音素(子音+母音)で構成される場合は,モーラ長を音素長に変換する。例えば,図10の「かなしい」の例では,「い」を除き,他のモーラは「子音+母音」の構成である。音素長生成部24は,モーラ「か」は音素[K]と[A],モーラ「な」は音素[N]と[A],モーラ「し」は音素[SH]と[I]の音素境界を,それぞれ抽出する。抽出方法としては,既知の音響特徴量データベース(隠れマルコフモデル等)を用いた特徴量のマッチング処理により,音素境界を決定して求める。
または,音素長データベースを用いて音素長を決定する。音声合成では,合成する音素長を生成する際に,前後の音素の並びを考慮した対象音素の音素長の統計量をもとに,予め平均的な音素長をデータベース化(音素長データベース)している。したがって,音素長データベースを利用して,各モーラの各音素境界を設定してもよい。
なお,人間の聴感上,1モーラ単位のモーラ長がずれると,たどたどしい音声に聞こえたり,詰まったような音声に聞こえたりする。しかし,モーラ長の長短は,そのモーラを構成する「子音+母音」の母音長を伸縮させて発声するため,通常,子音長はモーラ長の長短で大きく変動しない。そのため,上記の手法で容易に各音素長を設定することができる。
また,この音素長はユーザ発声の音素長に対して誤差を持つが,モーラ長が正しく設定されていれば,音素長の誤差は聴感上の影響をほとんど及ぼさないため,既知の技術を用いて音素境界を抽出し,音素長を生成することで十分である。
第2実施形態において,音声合成装置1は,上記のモーラ長生成部23と音素長生成部24の少なくともいずれか一方を備えるような構成であればよい。例えば,後述の韻律生成部26が,モーラ長を利用して韻律情報7を生成する場合には,音声合成装置1は,モーラ長生成部23を備える構成で実施されることが好ましく,音素長を利用して韻律情報7を生成する場合には,音声合成装置1は,音素長生成部24を備える構成で実施されることが好ましい。
抑揚生成部25は,ピッチ抽出部14aが抽出した第2入力音声のピッチ周波数情報から,第2入力音声の抑揚情報を生成する。抑揚は,時間的なピッチ周波数の変化である。抑揚生成部25は,ピッチ抽出部14aが出力するピッチ周波数情報の時間変化を出力とする。
ただし,第2入力音声において,本来,有声でなければならない部分(モーラの全体または一部)に無声が含まれている場合には,抑揚生成部25は,そのようなモーラの部分のピッチ周波数を内挿して抑揚情報を生成する。例えば,有声破裂音(ガ行/ダ行/バ行等)は,その子音部分が無声化する傾向が強い。しかし,音声合成の抑揚情報としては,ピッチ周波数を与えることが必要となる。
そこで,抑揚生成部25は,このような無声化子音に対しては,その両端の母音部分のピッチ周波数から直線近似などによってピッチ周波数を内挿して与える。
抑揚生成部25は,無声化母音についても同様に処理する。
韻律生成部26は,第2入力音声の抑揚情報と,モーラ長情報または音素長情報から,第2入力音声の韻律情報7を生成して出力する。韻律生成部26は,各音素単位/モーラ単位のモーラ長情報または音素長情報と,抑揚情報との対応付け(時間的同期)を行い,韻律情報7として出力する。
図12は,第2実施形態における音声合成装置1の処理フロー例を示す図である。
タイミング制御部11は,韻律修正したいテキスト情報5を取得して(ステップS10),取得したタイミング情報5に対応するリズム情報を生成する(ステップS11)。
リズム情報出力部12がリズム情報を出力したら(ステップS12のY),その間に,音声入力部13aは,ユーザが発声した音声を収録し,第1入力音声とする(ステップS13)。
ピッチ抽出部14aは,第1入力音声のピッチ周波数を抽出する(ステップS14)。
モーラ境界修正部15は,テキスト情報5とリズム情報と第1入力音声のピッチ周波数とをもとに,第1入力音声の各モーラのモーラ境界を修正する(ステップS15)。音響特徴量抽出部21は,第1入力音声の音響特徴量を抽出する(ステップS16)。
さらに,リズム情報出力部12がリズム情報を出力しなかった場合に(ステップS12のN),音声入力部13aは,その間にユーザが発声した音声を収録し,第2入力音声とする(ステップS17)。音響特徴量抽出部21は,第2入力音声の音響特徴量を抽出する(ステップS18)。
第1入力音声と第2入力音声の音響特徴量が得られた後,モーラ境界抽出部22は,第1入力音声と第2入力音声の音響特徴量をマッチングして最尤パスを探索し,第1入力音声のモーラ境界と最尤パスとの交点から,第2入力音声のモーラ境界を抽出する(ステップS19)。
その後,モーラ長生成部23は,各モーラのモーラ境界間の長さを示すモーラ長情報を生成する(ステップS110)。または,音素長生成部24は,各モーラを構成する各音素の音素長を示す音素長情報を生成する(ステップS111)。
ピッチ抽出部14aは,第2入力音声のピッチ周波数を抽出すると(ステップS112),抑揚生成部25は,第2入力音声のピッチ周波数情報から,第2入力音声の抑揚情報を生成する(ステップS113)。
韻律生成部26は,モーラ長情報または音素長情報が生成された後,第2入力音声の抑揚情報と,モーラ長情報または音素長情報とから,第2入力音声の韻律を示す韻律情報7を生成し(ステップS114),音声合成装置1の音声合成機能により(図示しない),ユーザが韻律修正結果を確認できるように,韻律生成部26が生成した韻律情報7をもとに再合成した音声を出力する(ステップS115)。
タイミング制御部11は,韻律修正の対象となるテキスト情報5の入力(修正イベント)があるかを調べ,修正イベントがあれば(ステップS116のY),ステップS10の処理へ戻り,修正イベントがなければ(ステップS116のN),処理を終了する。
第2実施形態における音声合成装置1によれば,リズム情報に同期した第1入力音声から,リズム情報と第1入力音声の同期のずれを修正して得られる第1入力音声の正確なモーラ境界を抽出し,第1入力音声とユーザ所望の韻律で発声した第2入力音声の音響特徴量のマッチングによって第2入力音声のモーラ境界を検出することができる。これにより,モーラ境界の抽出精度が向上する。
さらに,第2実施形態における音声合成装置1によれば,第2入力音声のピッチ周波数を抽出して抑揚情報を生成し,モーラ長または音素長と抑揚情報から韻律情報7を生成することで,高い精度で韻律修正することが可能となる。
[第3実施形態]
図13および図14を用いて,第3実施形態について説明する。
図13は,本発明の一態様として開示する音声合成装置1の第3実施形態における構成例を示す図である。
音声合成装置1は,タイミング制御部11b,音声入力部13b,ピッチ抽出部14,モーラ境界修正部15,およびアクセント抽出部16を備える。
ピッチ抽出部14,モーラ境界修正部15,およびアクセント抽出部16は,第1実施形態の音声合成装置1の同一の番号が付けられた処理部と同じであるため,説明を省略する。
音声入力部13bは,第1入力音声として,ユーザ自身が指定したリズム情報と,このリズム情報に同期したモーラ単位の発声とを取得する。
リズム情報として,モーラ発声のタイミングに同期した時間情報であればよく,例えば,メトロノームのタイミング音,ユーザが発生する音,例えば指で机を叩く音などでよい。
音声入力部13bは,ユーザが発声した音声と共に,リズム情報の音(以下,リズム音)を収録する。なお,この場合に,リズム音と同期して,テキスト情報5をモーラ単位で発声する前に,予めリズム音だけを収録できるようにユーザ操作がなされることが好ましい。
タイミング制御部11bは,音声入力部13bが取得した第1入力音声について,リズム情報の時間同期を行う。
図14は,第3実施形態におけるタイミング制御部11bの構成例を示す図である。
タイミング制御部11bは,音響特徴量抽出部111とリズム音抽出部112を備える。
リズム情報が,テキスト情報5のモーラ単位での発声(以下,モーラ単位発声という)のタイミングに同期した時間情報であれば,そのまま第1入力音声のモーラ境界とリズム情報との同期をとることができる。しかし,リズム情報がユーザにより与えられる音(メトロノーム,ユーザが叩いた音など)である場合に,このリズム音のタイミングと,モーラ単位発声のモーラ境界との同期をとる必要があるからである。
音響特徴量抽出部111は,音声入力部13bが取得した第1入力音声を,所定のフレーム長に分割し,リズム音とモーラ単位発声の音響特徴量とを抽出する。リズム音の音響特徴量として,モーラ単位発声前のリズム音のみが発生している区間での音響特徴量が抽出されることが好ましい。
なお,音響特徴量については,第2実施形態の音響特徴量抽出部21で説明した処理と同様であるので,ここでは説明を省略する。
リズム音抽出部112は,モーラ単位発声の音響特徴量から,リズム音の音響特徴量が存在する位置を抽出する。リズム音は,モーラ単位発声での音声と異なる音響特徴量を持つため,モーラ単位発声とリズム音の音響特徴量のマッチングにより,リズム音の位置情報を正確に得ることができる。
リズム音抽出部112は,音響特徴量のマッチングとして,例えば,両者の音響特徴量のユークリッド距離差を評価値とし,この評価値が所定の閾値未満となった位置,すなわち音響特徴量が類似している位置を,リズム音の位置として抽出し,抽出したリズム音の位置を示すリズム情報を出力する。
以上の構成を備えるタイミング制御部11bにより,音声合成装置1では,ユーザはリズム情報出力部12が出力するタイミングに縛られることなく,ユーザ自身が所望するタイミングでモーラ発声をすることができる。
さらに,タイミング制御部11bは,そのようにして発声された第1入力音声であっても,そのモーラ発声タイミングを精度良く自動的に検出して,アクセント修正を高い精度で行うことが可能となる。
[第4実施形態]
図15を用いて,第4実施形態について説明する。
図15は,本発明の一態様として開示する音声合成装置1の第4実施形態における構成例を示す図である。
音声合成装置1は,タイミング制御部11c,音声入力部13c,ピッチ抽出部14a,モーラ境界修正部15,音響特徴量抽出部21,モーラ境界抽出部22,モーラ長生成部23,音素長生成部24,抑揚生成部25,および韻律生成部26を備える。
ピッチ抽出部14a,モーラ境界修正部15,音響特徴量抽出部21,モーラ境界抽出部22,モーラ長生成部23,音素長生成部24,抑揚生成部25,および韻律生成部26は,第2実施形態の音声合成装置1の同一の番号が付けられた処理部と同じであるため,説明を省略する。
音声入力部13cは,図13に示す音声入力部13bと同様の処理を行い,第1入力音声として,ユーザ自身が指定したリズム情報と,このリズム情報に同期したモーラ単位の発声とを取得する。
タイミング制御部11cは,図13に示すタイミング制御部11bと同様の処理を行い,音声入力部13cが取得した第1入力音声について,リズム情報の時間同期を行う。
以上の構成を備えるタイミング制御部11cにより,第3実施形態と同様に,ユーザが与えたリズム情報であってもモーラ発声タイミングを精度良く自動的に検出して,韻律修正を高い精度で行うことが可能となる。
次に,第1実施形態例〜第4実施形態において,音声合成装置1が,先頭モーラが無声音である場合または単音発声による音声を処理対象とする場合の処理精度を,より高精度に行えるようにする実施形態を説明する。
そのため,第1実施形態例〜第4実施形態における音声合成装置1のピッチ抽出部14,14aおよびモーラ境界修正部15は,図16に示す処理部を備える。
図16は,ピッチ抽出部14およびモーラ境界修正部15の構成例を示す図である。
ピッチ抽出部14,14aは,ピッチ周波数抽出部141および音声区間検出部142を備え,第1入力音声のピッチ周波数情報の抽出ならびに音声区間情報の検出を行う。
ピッチ周波数抽出部141は,第1入力音声から音声のピッチ周波数を抽出し,抽出したピッチ周波数(ピッチ周波数情報)を出力する。
ピッチ周波数抽出部141は,第1実施形態のピッチ周波数抽出部14の処理を実行する。したがって,ここでは,処理の説明を省略する。
音声区間検出部142は,第1入力音声の音声パワーを算出し,算出した音声パワーの値が所定の閾値を超えた位置を音声開始位置とし,音声パワーの値が所定の閾値を下回った位置を音声終了位置として,音声開始位置から終了位置までの区間を音声区間として検出し,検出した区間を示す音声区間情報を出力する。
モーラ境界修正部15は,音声種別判定部151およびモーラ境界決定部152を備え,テキスト情報5,リズム情報,ピッチ周波数情報,ならびに音声区間情報から,第1入力音声の実際のモーラ境界とリズム情報のずれを修正し,正しいモーラ境界を決定する。
音声種別判定部151は,第1入力音声が「長音発声」か「単音発声」のいずれかの音声種別に相当するかを判定し,判定した音声種別を示す音声種別情報を出力する。
一例として,音声種別判定部151は,テキスト情報5および音声区間情報から,音声種別(長音発声または単音発声)を判定する。
図17は,第1入力音声が長音発声である場合のピッチ周波数および音声区間の例を示す図,図18は,第1入力音声が単音発声である場合のピッチ周波数および音声区間の例を示す図である。
音声種別判定部151は,テキスト情報5からモーラ数をカウントし,さらに,音声区間情報から,第1入力音声の音声区間数をカウントする。
図17に示すように,長音発声では,全てのモーラが連続して発声され,1個の音声区間として検出される。音声種別判定部151は,音声区間数が1個である場合に,第1入力音声を長音発声と判定する。
一方,図18に示すように,単音発声では,各モーラ単位で区切って発声するため,モーラ間に無音区間が生じ,モーラ数分の音声区間が生成されるためである。音声種別判定部151は,カウントしたモーラ数と音声区間数とが一致する場合に,第1入力音声を単音発声と判定する。
音声種別判定部151は,音声区間が2個以上存在し,モーラ数と音声区間数が一致しない場合には,長音発声と単音発声の混在であると判定する。
音声種別判定部151は,長音発声と単音発声の混在であると判定した場合に,1)長音発声区間と単音発声区間を検出する処理,または,2)ユーザへエラーを通知する処理のいずれかを行うようにする。
音声種別判定部151は,上記1)の処理を行う場合に,ある音声区間中にリズム情報のモーラ単位発声の開始位置が含まれる場合に,その境界(モーラ単位発声の開始位置)の前後のモーラは長音発声区間であると判定し,それ以外のモーラは,単音発声区間であると判定する。
モーラ境界決定部152は,音声種別情報,リズム情報,テキスト情報5,ピッチ周波数情報,および音声区間情報から,第1入力音声の実際のモーラ境界とリズム情報のずれを修正し,正しいモーラ境界情報を決定して出力する。
より詳しくは,モーラ境界決定部152は,音声区間情報が長音発声区間である場合に,ピッチ周波数情報のピッチ周波数変化が大きい部分をモーラ境界と判定する。長音発声では,長音で発声される母音が同じ高さで発声される,すなわち聴音で発声される母音部分のピッチ変化がほとんどない,という特徴を有する。
モーラ境界決定部152は,ピッチ周波数の変化が大きい部分をモーラ境界と判定する。ピッチ周波数変化が大きい部分とは,例えば,図17のピッチ周波数の例において,リズム情報により「な」および「い」の各モーラに相当する区間の破線丸印で囲まれた部分t12,t14である。
加えて,モーラ境界決定部152は,ピッチ周波数が途切れる先頭位置はモーラ境界と判定する。図17のピッチ周波数の例において,リズム情報により「し」のモーラに相当する区間の破線丸印で囲まれた部分t13で示すように,先頭子音が無声であるモーラについては,先頭モーラ境界の位置にピッチ周波数が存在しないものの,その前後では長母音の発声が生じ,必ずピッチ周波数が存在するからである。
さらに,モーラ境界決定部152は,テキスト情報5の先頭モーラについて,ピッチ周波数情報と音声区間情報の音声区間とを合わせて利用して,先頭モーラ境界を判定する。図17に示すピッチ周波数の例において,リズム情報により「か」のモーラに相当する区間の破線丸印で囲まれた部分t11で示すように,テキスト情報5の先頭モーラの子音が無声である場合には,ピッチ周波数が存在せず,ピッチ周波数情報だけでは1モーラ目のモーラ境界を正しく修正できないためである。この場合は,モーラ境界決定部152は,音声区間情報の音声区間から,音声区間の開始位置を先頭モーラ境界の位置として決定する。
モーラ境界決定部152は,音声区間情報が単音発声である場合に,音声区間情報の音声区間の開始位置をモーラ境界と判定する。図18のピッチ周波数の例に示すように,単音発声の場合には,各モーラを区切って発声されるため,各モーラの前後に無音区間が挟まれるからである。
モーラ境界決定部152は,無音から音声に変化する位置をモーラ先頭境界として,音声から無音に変化する位置をモーラ終端境界として検出する。単音発声である場合には,音声区間の音声開始位置がモーラ単位発声のモーラ境界に相当するため,精度良くモーラ境界を修正できる。
さらに,音声区間情報は,モーラ先頭や終端の音声パワーが小さい部分を音声区間外と判定してしまう場合がある。これに対応するため,モーラ境界決定部152は,音声区間情報に加え,有声部分のピッチ周波数情報を組み合わせるため,音声区間外と判定されるような音声パワーの小さな区間であっても有声によるピッチ周波数が検出される場合には,音声区間内と判断する。
さらに,単音発声の場合には,モーラ発声の終端位置が次のモーラの開始位置にはならないため,各モーラの開始位置と終端位置とをリズム情報として持つことが好ましい。
第2実施形態および第4実施形態における音声合成装置1のモーラ境界抽出部22は,各モーラの開始位置と終端位置とを示すリズム情報により,無音区間を除外した第1入力音声の音響特徴量をマッチング対象として処理することができる。第1入力音声および第2入力音声の音響特徴量をマッチングする場合に,第2入力音声には無音が含まれないことから,有声の区間のみをマッチングするためである。これにより,第2入力音声のモーラ境界抽出精度が,より向上する。
以上の実施形態により開示した音声合成装置1は,専用のハードウェア,または,図19に示すような,演算装置(CPU)101,一時記憶装置(DRAM,フラッシュメモリ等)102,および永続性記憶装置(HDD,フラッシュメモリ等)103,入力装置(マイク,マウス等)120,および出力装置(スピーカ,モニタ等)130を有し,外部とデータ入出力が可能なコンピュータ100によって実施することができる。
また,音声合成装置1は,コンピュータ100が実行可能なプログラムによっても実施することができる。この場合に,音声合成装置1が有すべき処理部が実行する機能の処理内容を記述したプログラムが提供される。提供されたプログラムをコンピュータ100が実行することによって,上記説明した音声合成装置1の処理機能がコンピュータ100上で実現される。なお,コンピュータ100は,可搬型記録媒体から直接プログラムを読み取り,そのプログラムに従った処理を実行することもできる。さらに,上記プログラムは,コンピュータ100で読み取り可能な記録媒体に記録しておくことができる。
以上説明したように,開示した音声合成装置1によれば,次のような効果がある。
1)リズム情報に同期した第1入力音声のモーラ境界とリズム情報の同期のずれを修正してモーラ境界検出の精度を向上させ,高精度のアクセント修正を実現することが可能となる。
2)さらに,ユーザが任意に発声した第2入力音声のモーラ境界抽出の精度を向上させ,高精度の韻律修正を実現することが可能となる。
本発明の実施態様における特徴を列記すると以下のとおりとなる。
(付記1)
テキストを合成音声に変換する音声合成装置において,
韻律修正の対象となるテキスト情報を取得し,テキスト情報に対応するリズム情報を生成するタイミング制御部と,
前記リズム情報を出力するリズム情報出力部と,
前記リズム情報に同期した第1入力音声と,前記リズム情報と非同期の第2入力音声を入力する音声入力部と,
前記第1入力音声および前記第2入力音声の各音響特徴量を抽出する音響特徴量抽出部と,
前記第1入力音声および前記第2入力音声の各ピッチ周波数情報を抽出するピッチ抽出部と,
前記リズム情報および前記第1入力音声のピッチ周波数情報から,前記第1入力音声のモーラ境界を修正し,修正した前記モーラ境界を示す第1入力音声のモーラ境界情報を生成するモーラ境界修正部と,
前記第1入力音声のモーラ境界情報をもとに,前記第1入力音声および前記第2入力音声の各音響特徴量をマッチング処理し,前記マッチング処理結果をもとに,前記第2入力音声のモーラ境界を示す第2入力音声のモーラ境界情報を抽出するモーラ境界抽出部と,
前記第2入力音声のピッチ周波数情報から,前記第2入力音声の抑揚情報を生成する抑揚生成部と,
前記第2入力音声のモーラ境界情報および前記テキスト情報から,前記第2入力音声の各モーラのモーラ長を示すモーラ長情報を生成するモーラ長生成部と,
前記第2入力音声の抑揚情報および前記モーラ長情報から,前記第2入力音声の韻律情報を生成して出力する韻律生成部とを備える
ことを特徴とする音声合成装置。
(付記2)
前記モーラ長生成部に代えて,前記第2入力音声のモーラ境界情報および前記テキスト情報から,前記第2入力音声の音素長を示す音素長情報を生成する音素長生成部を備えて,
前記韻律生成部は,前記第2入力音声の抑揚情報,および前記モーラ長情報に代わる前記音素長情報から,前記第2入力音声の韻律情報を生成して出力する
ことを特徴とする前記付記1に記載の音声合成装置。
(付記3)
テキストを合成音声に変換する音声合成装置において,
アクセント修正の対象となるテキスト情報を取得し,テキスト情報のモーラ数に対応するリズム情報を生成するタイミング制御部と,
前記リズム情報を出力するリズム情報出力部と,
リズム情報に同期した第1入力音声を取得する音声入力部と,
前記第1入力音声から,音声のピッチ周波数を示すピッチ周波数情報を抽出するピッチ抽出部と,
前記リズム情報と前記ピッチ周波数情報から,前記第1入力音声の各モーラのモーラ境界を修正し,修正した前記モーラ境界を示すモーラ境界情報を生成するモーラ境界修正部と,
前記テキスト情報,前記第1入力音声のモーラ境界情報,および前記ピッチ周波数情報から,アクセント位置が設定されるモーラを決定し,前記アクセント位置を示すアクセント情報を抽出するアクセント抽出部とを備える
ことを特徴とする音声合成装置。
(付記4)
前記音声入力部は,外部で生成されたリズム音が重畳された前記第1入力音声を入力し,
前記タイミング制御部は,前記リズム情報の生成に代えて,前記リズム音が重畳された第1入力音声から前記リズム音の位置を決定し,決定した前記リズム音の位置を示すリズム情報を生成する
ことを特徴とする前記付記1ないし前記付記3のいずれか1項に記載の音声合成装置。
(付記5)
前記ピッチ抽出部は,前記第1入力音声から,音声が存在する区間を抽出し,抽出した前記区間を示す音声区間情報を生成し,
前記モーラ境界修正部は,前記テキスト情報,前記リズム情報,前記第1入力音声のピッチ周波数情報,および前記音声区間情報から,第1入力音声が長音発声または単音発声のいずれであるかを判定する
ことを特徴とする前記付記1ないし前記付記4のいずれか1項に記載の音声合成装置。
(付記6)
前記モーラ境界修正部は,前記第1入力音声が長音発声であると判定した場合に,前記第1入力音声のピッチ周波数の連続性が途切れる位置を,モーラ境界として抽出する
ことを特徴とする前記付記5に記載の音声合成装置。
(付記7)
前記モーラ境界修正部は,前記第1入力音声が長音発声であると判定した場合に,前記第1入力音声のピッチ周波数変化率を算出し,算出した前記ピッチ周波数変化率が所定の閾値を超えた位置を,モーラ境界として抽出する
ことを特徴とする前記付記5に記載の音声合成装置。
(付記8)
前記モーラ境界修正部は,前記第1入力音声が単音発声であると判定した場合に,前記第1入力音声の音声区間の開始位置またはピッチ周波数の開始位置を,モーラ境界として抽出する
ことを特徴とする前記付記5に記載の音声合成装置。
(付記9)
前記タイミング制御部が生成する前記リズム情報は,一定間隔で発せられる音,一定間隔で画像が変化する静止画像もしくは動画像,または一定間隔で発せられる光である
ことを特徴とする前記付記1または前記付記3に記載の音声合成装置。
(付記10)
コンピュータに,テキストを合成音声に変換する音声合成処理として,
韻律修正の対象となるテキスト情報を取得し,テキスト情報に対応するリズム情報を生成する処理と,
前記リズム情報を出力する処理と,
前記リズム情報に同期した第1入力音声と,前記リズム情報と非同期の第2入力音声を入力する処理と,
前記第1入力音声および前記第2入力音声の各音響特徴量を抽出する処理と,
前記第1入力音声および前記第2入力音声の各ピッチ周波数情報を抽出する処理と,
前記リズム情報および前記第1入力音声のピッチ周波数情報から,前記第1入力音声のモーラ境界を修正し,修正した前記モーラ境界を示す第1入力音声のモーラ境界情報を生成する処理と,
前記第1入力音声のモーラ境界情報をもとに,前記第1入力音声および前記第2入力音声の各音響特徴量をマッチング処理し,前記マッチング処理結果をもとに,前記第2入力音声のモーラ境界を示す第2入力音声のモーラ境界情報を抽出する処理と,
前記第2入力音声のピッチ周波数情報から,前記第2入力音声の抑揚情報を生成する処理と,
前記第2入力音声のモーラ境界情報および前記テキスト情報から,前記第2入力音声の各モーラのモーラ長を示すモーラ長情報を生成する処理と,
前記第2入力音声の抑揚情報および前記モーラ長情報から,前記第2入力音声の韻律情報を生成して出力する処理とを,実行させる
ことを特徴とする音声合成プログラム。
(付記11)
コンピュータに,テキストを合成音声に変換する音声合成処理として,
アクセント修正の対象となるテキスト情報を取得し,テキスト情報のモーラ数に対応するリズム情報を生成する処理と,
前記リズム情報を出力する処理と,
リズム情報に同期した第1入力音声を取得する処理と,
前記第1入力音声から,音声のピッチ周波数を示すピッチ周波数情報を抽出する処理と,
前記リズム情報と前記ピッチ周波数情報から,前記第1入力音声の各モーラのモーラ境界を修正し,修正した前記モーラ境界を示すモーラ境界情報を生成する処理と,
前記テキスト情報,前記第1入力音声のモーラ境界情報,および前記ピッチ周波数情報から,アクセント位置が設定されるモーラを決定し,前記アクセント位置を示すアクセント情報を抽出する処理とを,実行させる
ことを特徴とする音声合成プログラム。
1 音声合成装置
11,11b,11c タイミング制御部
12 リズム情報出力部
13,13a,13b,13c 音声入力部
14,14a ピッチ抽出部
15 モーラ境界修正部
16 アクセント抽出部
21 音響特徴量抽出部
22 モーラ境界抽出部
23 モーラ長生成部
24 音素長生成部
25 抑揚生成部
26 韻律生成部
5 テキスト情報
6 アクセント情報
7 韻律情報

Claims (8)

  1. テキストを合成音声に変換する音声合成装置において,
    韻律修正の対象となるテキスト情報を取得し,テキスト情報に対応するリズム情報を生成するタイミング制御部と,
    前記リズム情報を出力するリズム情報出力部と,
    前記リズム情報に同期した第1入力音声と,前記リズム情報と非同期の第2入力音声を入力する音声入力部と,
    前記第1入力音声および前記第2入力音声の各音響特徴量を抽出する音響特徴量抽出部と,
    前記第1入力音声および前記第2入力音声の各ピッチ周波数情報を抽出するピッチ抽出部と,
    前記リズム情報および前記第1入力音声のピッチ周波数情報から,前記第1入力音声のモーラ境界を修正し,修正した前記モーラ境界を示す第1入力音声のモーラ境界情報を生成するモーラ境界修正部と,
    前記第1入力音声のモーラ境界情報をもとに,前記第1入力音声および前記第2入力音声の各音響特徴量をマッチング処理し,前記マッチング処理結果をもとに,前記第2入力音声のモーラ境界を示す第2入力音声のモーラ境界情報を抽出するモーラ境界抽出部と,
    前記第2入力音声のピッチ周波数情報から,前記第2入力音声の抑揚情報を生成する抑揚生成部と,
    前記第2入力音声のモーラ境界情報および前記テキスト情報から,前記第2入力音声の各モーラのモーラ長を示すモーラ長情報を生成するモーラ長生成部と,
    前記第2入力音声の抑揚情報および前記モーラ長情報から,前記第2入力音声の韻律情報を生成して出力する韻律生成部とを備える
    ことを特徴とする音声合成装置。
  2. 前記モーラ長生成部に代えて,前記第2入力音声のモーラ境界情報および前記テキスト情報から,前記第2入力音声の音素長を示す音素長情報を生成する音素長生成部を備えて,
    前記韻律生成部は,前記第2入力音声の抑揚情報,および前記モーラ長情報に代わる前記音素長情報から,前記第2入力音声の韻律情報を生成して出力する
    ことを特徴とする請求項1に記載の音声合成装置。
  3. 記テキスト情報,前記第1入力音声のモーラ境界情報,および前記第1入力音声のピッチ周波数情報から,アクセント位置が設定されるモーラを決定し,前記アクセント位置を示すアクセント情報を抽出するアクセント抽出部とを備える
    ことを特徴とする請求項1または請求項2に記載の音声合成装置。
  4. 前記音声入力部は,外部で生成されたリズム音が重畳された前記第1入力音声を入力し,
    前記タイミング制御部は,前記リズム情報の生成に代えて,前記リズム音が重畳された第1入力音声から前記リズム音の位置を決定し,決定した前記リズム音の位置を示すリズム情報を生成する
    ことを特徴とする請求項1ないし請求項3のいずれか1項に記載の音声合成装置。
  5. 前記ピッチ抽出部は,前記第1入力音声から,音声が存在する区間を抽出し,抽出した前記区間を示す音声区間情報を生成し,
    前記モーラ境界修正部は,前記テキスト情報,前記リズム情報,前記第1入力音声のピッチ周波数情報,および前記音声区間情報から,第1入力音声が長音発声または単音発声のいずれであるかを判定する
    ことを特徴とする請求項1ないし請求項4のいずれか1項に記載の音声合成装置。
  6. 前記タイミング制御部が生成する前記リズム情報は,一定間隔で発せられる音,一定間隔で画像が変化する静止画像もしくは動画像,または一定間隔で発せられる光である
    ことを特徴とする請求項1または請求項3に記載の音声合成装置。
  7. コンピュータに,テキストを合成音声に変換する音声合成処理として,
    韻律修正の対象となるテキスト情報を取得し,テキスト情報に対応するリズム情報を生成する処理と,
    前記リズム情報を出力する処理と,
    前記リズム情報に同期した第1入力音声と,前記リズム情報と非同期の第2入力音声を入力する処理と,
    前記第1入力音声および前記第2入力音声の各音響特徴量を抽出する処理と,
    前記第1入力音声および前記第2入力音声の各ピッチ周波数情報を抽出する処理と,
    前記リズム情報および前記第1入力音声のピッチ周波数情報から,前記第1入力音声のモーラ境界を修正し,修正した前記モーラ境界を示す第1入力音声のモーラ境界情報を生成する処理と,
    前記第1入力音声のモーラ境界情報をもとに,前記第1入力音声および前記第2入力音声の各音響特徴量をマッチング処理し,前記マッチング処理結果をもとに,前記第2入力音声のモーラ境界を示す第2入力音声のモーラ境界情報を抽出する処理と,
    前記第2入力音声のピッチ周波数情報から,前記第2入力音声の抑揚情報を生成する処理と,
    前記第2入力音声のモーラ境界情報および前記テキスト情報から,前記第2入力音声の各モーラのモーラ長を示すモーラ長情報を生成する処理と,
    前記第2入力音声の抑揚情報および前記モーラ長情報から,前記第2入力音声の韻律情報を生成して出力する処理とを,実行させる
    ことを特徴とする音声合成プログラム。
  8. 記テキスト情報,前記第1入力音声のモーラ境界情報,および前記第1入力音声のピッチ周波数情報から,アクセント位置が設定されるモーラを決定し,前記アクセント位置を示すアクセント情報を抽出する処理とを,実行させる
    ことを特徴とする請求項7に記載の音声合成プログラム。
JP2011004728A 2011-01-13 2011-01-13 音声合成装置および音声合成プログラム Active JP5754141B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011004728A JP5754141B2 (ja) 2011-01-13 2011-01-13 音声合成装置および音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011004728A JP5754141B2 (ja) 2011-01-13 2011-01-13 音声合成装置および音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2012145802A JP2012145802A (ja) 2012-08-02
JP5754141B2 true JP5754141B2 (ja) 2015-07-29

Family

ID=46789408

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011004728A Active JP5754141B2 (ja) 2011-01-13 2011-01-13 音声合成装置および音声合成プログラム

Country Status (1)

Country Link
JP (1) JP5754141B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667816A (zh) * 2020-06-15 2020-09-15 北京百度网讯科技有限公司 模型训练方法、语音合成方法、装置、设备和存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015132777A (ja) * 2014-01-15 2015-07-23 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
WO2019082321A1 (ja) * 2017-10-25 2019-05-02 ヤマハ株式会社 テンポ設定装置及びその制御方法、プログラム
CN111681639B (zh) * 2020-05-28 2023-05-30 上海墨百意信息科技有限公司 一种多说话人语音合成方法、装置及计算设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000047683A (ja) * 1998-07-30 2000-02-18 Matsushita Electric Ind Co Ltd セグメンテーション補助装置及び媒体
JP2002258885A (ja) * 2001-02-27 2002-09-11 Sharp Corp テキスト音声合成装置およびプログラム記録媒体
JP4759827B2 (ja) * 2001-03-28 2011-08-31 日本電気株式会社 音声セグメンテーション装置及びその方法並びにその制御プログラム
JP4856560B2 (ja) * 2007-01-31 2012-01-18 株式会社アルカディア 音声合成装置
JP2009042509A (ja) * 2007-08-09 2009-02-26 Toshiba Corp アクセント情報抽出装置及びその方法
US8140326B2 (en) * 2008-06-06 2012-03-20 Fuji Xerox Co., Ltd. Systems and methods for reducing speech intelligibility while preserving environmental sounds

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667816A (zh) * 2020-06-15 2020-09-15 北京百度网讯科技有限公司 模型训练方法、语音合成方法、装置、设备和存储介质
US11769480B2 (en) 2020-06-15 2023-09-26 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium
CN111667816B (zh) * 2020-06-15 2024-01-23 北京百度网讯科技有限公司 模型训练方法、语音合成方法、装置、设备和存储介质

Also Published As

Publication number Publication date
JP2012145802A (ja) 2012-08-02

Similar Documents

Publication Publication Date Title
Iseli et al. Age, sex, and vowel dependencies of acoustic measures related to the voice source
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
EP2048655A1 (en) Context sensitive multi-stage speech recognition
US9147392B2 (en) Speech synthesis device and speech synthesis method
US9508338B1 (en) Inserting breath sounds into text-to-speech output
KR20160122542A (ko) 발음 유사도 측정 방법 및 장치
JP2015068897A (ja) 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
JP5040778B2 (ja) 音声合成装置、方法及びプログラム
JP5754141B2 (ja) 音声合成装置および音声合成プログラム
Suni et al. The GlottHMM Entry for Blizzard Challenge 2012: Hybrid Approach
CN107610691B (zh) 英语元音发声纠错方法及装置
Urbain et al. Automatic phonetic transcription of laughter and its application to laughter synthesis
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
Mannell Formant diphone parameter extraction utilising a labelled single-speaker database.
JP4778402B2 (ja) 休止時間長算出装置及びそのプログラム、並びに音声合成装置
KR20040061070A (ko) 음성인식시스템에서의 음성인식장치 및 그 방법
Lertwongkhanakool et al. An automatic real-time synchronization of live speech with its transcription approach
JP2009042509A (ja) アクセント情報抽出装置及びその方法
JP2011180308A (ja) 音声認識装置及び記録媒体
Verkhodanova et al. Automatic detection of speech disfluencies in the spontaneous Russian speech
Ninh et al. F0 parameterization of glottalized tones in HMM-based speech synthesis for Hanoi Vietnamese
Kupryjanow et al. A non-uniform real-time speech time-scale stretching method
JP3883318B2 (ja) 音声素片作成方法及び装置
CN113409762B (zh) 情感语音合成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150428

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150511

R150 Certificate of patent or registration of utility model

Ref document number: 5754141

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150