JP5743625B2 - 音声合成編集装置および音声合成編集方法 - Google Patents

音声合成編集装置および音声合成編集方法 Download PDF

Info

Publication number
JP5743625B2
JP5743625B2 JP2011059560A JP2011059560A JP5743625B2 JP 5743625 B2 JP5743625 B2 JP 5743625B2 JP 2011059560 A JP2011059560 A JP 2011059560A JP 2011059560 A JP2011059560 A JP 2011059560A JP 5743625 B2 JP5743625 B2 JP 5743625B2
Authority
JP
Japan
Prior art keywords
speech
editing
waveform
information
phonological
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011059560A
Other languages
English (en)
Other versions
JP2012194460A (ja
Inventor
西山 修
修 西山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2011059560A priority Critical patent/JP5743625B2/ja
Priority to US13/235,656 priority patent/US9020821B2/en
Publication of JP2012194460A publication Critical patent/JP2012194460A/ja
Application granted granted Critical
Publication of JP5743625B2 publication Critical patent/JP5743625B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Telephone Function (AREA)

Description

本発明の実施形態は、音声合成編集装置および音声合成編集方法に関する。
近年、テキストを解析して得られた音韻韻律情報をユーザが直接編集し、編集後の音韻韻律情報を音声波形に変換する音声合成編集装置が提案されている。このような音声合成編集装置では、ユーザの編集作業を支援するために、読み記号、韻律記号、合成音制御情報(基本周波数・音韻・継続時間長)などの音韻韻律情報に対するユーザの編集履歴を保持し、この編集履歴から編集前の音声波形を再現する技術が提案されている。
あるテキストのアクセント句を編集する場合、上述した技術では、まず編集前の音韻韻律情報を音声波形に変換して試聴し、編集作業を行った後、編集後の音韻韻律情報を音声波形に変換して試聴していた。このように、従来技術では、編集作業を挟んで編集前後の音声波形を試聴していたため、編集によって生じる音声波形の差異を正確に確認することが難しかった。
特開2005−345699号公報
発明が解決しようとする課題は、音韻韻律情報の編集前後における音声波形を正確に比較することができる音声合成編集装置を提供することである。
実施形態の音声合成編集装置は、テキストを解析して音韻韻律情報を取得する音韻韻律情報取得手段と、前記音韻韻律情報を編集する音韻韻律情報編集手段と、前記音韻韻律情報編集手段における編集前および編集後の音韻韻律情報をそれぞれ第1および第2の音声波形に変換する音声合成手段と、前記音韻韻律情報編集手段で編集対象になった音韻韻律情報に対応する前記第1および第2の音声波形の対比区間を算出する対比区間算出手段と、前記対比区間算出手段で算出された前記第1の音声波形の対比区間を含む前記第1の音声波形の部分波形と、前記対比区間算出手段で算出された前記第2の音声波形の対比区間を含む前記第2の音声波形の部分波形を連続的に出力する対比音声生成手段を備える。
第1の実施形態の音声合成編集装置を示すブロック図。 実施形態の音声合成編集装置のハードウェア構成を示す図。 実施形態の音声合成編集装置のフローチャート。 実施形態の音声合成編集装置のフローチャート。 実施形態のユーザーインタフェースを示す図。 実施形態の音韻韻律情報記憶部に記憶された読み・韻律記号情報を示す図。 実施形態の読み・韻律記号情報を示す図。 実施形態の読み・韻律記号情報を示す図。 実施形態の合成音制御情報を示す図。 実施形態の音声波形を示す図。 実施形態の比較視聴を示す図。 実施形態の音声合成編集装置を示すブロック図。 実施形態の音声合成編集装置を示すブロック図。 変形例2の読み・韻律記号情報を示す図。 変形例4の情報表示を示す図。 変形例4の情報表示を示す図。
以下、本発明の実施形態について図面を参照しながら説明する。
(第1の実施形態)
第1の実施形態の音声合成編集装置は、テキスト音声合成においてテキストを解析して得られた音韻韻律情報を対話的に編集する装置である。この音声合成編集装置は、編集前の音韻韻律情報から第1の音声波形を、編集後の音韻韻律情報から第2の音声波形を生成する。そして、編集対象となった音韻韻律情報の部分系列に対応する第1の音声波形と当該部分系列に対応する第2の音声波形を連結した第3の音声波形を生成し、スピーカから再生する。このように、第3の音声波形を用いて編集前後の音声波形を連続的に再生することにより、音声波形の差異を正確に確認することができる。
(全体のブロック構成)
図1は、第1の実施形態にかかる音声合成編集装置を示すブロック図である。本実施形態の音声合成編集装置は、テキストを入力するテキスト入力部101と、テキスト入力部101に入力されたテキストを解析して音声を合成するための音韻韻律情報を取得する音韻韻律情報取得部102と、音韻韻律情報取得部102で取得された音韻韻律情報を編集する音韻韻律情報編集部103と、音韻韻律情報編集部103における編集前および編集後の音韻韻律情報をそれぞれ第1および第2の音声波形に変換する音声合成部104と、音韻韻律情報編集部103で編集対象になった音韻韻律情報の部分系列に対応する第1および第2の音声波形の対比区間を算出する対比区間算出部105と、対比区間算出部105で算出された第1の音声波形の対比区間を含む第1の音声波形の部分波形と、対比区間算出部105で算出された第2の音声波形の対比区間を含む第2の音声波形の部分波形とを連結した第3の音声波形を生成する対比音声生成部106と、前記第3の音声波形を再生するスピーカ107とを備える。
音韻韻律情報取得部102は、テキスト入力部101に入力されたテキストを解析して、読み記号および韻律記号(以後、読み・韻律記号情報と記す)を生成する読み・韻律記号生成部108と、読み・韻律記号生成部108で生成された読み・韻律記号情報を記憶する音韻韻律情報記憶部109と、音韻韻律情報記憶部109に記憶された読み・韻律記号情報を解析して、継続時間長や基本周波数などの合成音制御情報を生成する合成音制御情報生成部110とを備える。
(ハードウェア構成)
本実施形態の読み記号列編集装置は、図2に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するCPU(Central Processing Unit)等の制御部201と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部202と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部203と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部204と、外部装置との通信を制御する通信部205と、音声波形を再生して再生音を発生させるスピーカ107と、映像を表示するディスプレイ207と、これらを接続するバス208とを備えている。
このようなハードウェア構成において、制御部201がROM等の記憶部202や外部記憶部203に記憶された各種プログラムを実行することにより以下の機能が実現される。
(テキスト入力部)
テキスト入力部101は、操作部204のキーボードを介して合成対象となるテキストを入力する。この他にも、外部記憶部203に記憶されたファイルからテキストを入力したり、通信部205と接続された外部装置からテキストを受信したりすることもできる。
(音韻韻律情報取得部)
音韻韻律情報取得部102は、テキスト入力部101に入力されたテキストを解析して音韻韻律情報を取得する。ここで、音韻韻律情報は、音声合成部104において音声波形を生成する際に必要となる音韻や韻律に関する情報であり、本実施形態では、後述する読み・韻律記号生成部108および合成音制御情報生成部110でそれぞれ生成される読み・韻律記号情報および合成音制御情報を表している。
(音韻韻律情報編集部)
音韻韻律情報編集部103は、音韻韻律情報取得部102で取得された音韻韻律情報を、ディスプレイ207に表示したユーザーインタフェースを介して編集する。本実施形態において、ユーザは、音韻韻律情報のうち読み・韻律記号情報を編集することができる。なお、読み・韻律記号情報の編集は、操作部204のキーボードを介してユーザが自由にテキストを編集してもよいし、音声合成編集装置が提示した読み・韻律記号情報の次候補をユーザが選択してもよい。
(音声合成部)
音声合成部104は、音韻韻律情報編集部103における編集前および編集後の音韻韻律情報から音声波形を生成する。具体的には、編集前の音韻韻律情報を第1の音声波形に、編集後の音韻韻律情報を第2の音声波形に変換する。
(対比区間算出部)
対比区間算出部105は、音韻韻律情報編集部103で編集対象になった音韻韻律情報の部分系列を特定し、当該部分系列に対応する第1および第2の音声波形の対比区間を算出する。対比区間は、編集対象になった音韻韻律情報の部分系列に対応する音声波形を特定する情報であり、例えば、「音声波形の0msecから100msecまでの区間」のような情報を持つ。部分系列から対比区間を算出する際は、後述する合成音制御情報生成部110で取得した継続時間長を用いる。具体的には、読み・韻律記号情報に継続時間長を割り当てることで、編集対象になった部分系列が対応する音声波形の開始位置および終了位置を特定する。
(対比音声生成部)
対比音声生成部106は、対比区間算出部105で算出された第1の音声波形の対比区間を含む第1の音声波形の部分波形と、対比区間算出部105で算出された第2の音声波形の対比区間を含む第2の音声波形の部分波形を連結して第3の音声波形を生成する。例えば、第1の音声波形の対比区間が0msecから100msecである場合、第1の音声波形の部分波形は、少なくとも0msecから100msecの区間を含む区間から切り出された音声波形を表している。また、第1の音声波形の部分波形と第2の音声波形の部分波形を連結する際は、間に500msec程度の無音区間を挟んでもよい。このように、編集前の部分波形と編集後の部分波形を連続的に連結した第3の音声波形を生成することにより、対比音声生成部106は、編集前後の部分波形を連続的に出力することができる。これにより、ユーザは、編集によって生じた音声波形の差異を正確に比較することができる。
対比音声生成部106は、第3の音声波形を生成せずに、切り出した第1の音声波形の部分波形および第2の音声波形の部分波形を連続的にスピーカ107に出力するようにしてもよい。この場合も、第1および第2の音声波形の部分波形の間に所定長の無音区間を挿入してスピーカ107に出力することができる。
次に、音韻韻律情報取得部102を構成する各ブロックについて説明する。
(読み・韻律記号生成部)
読み・韻律記号生成部108は、テキスト入力部101に入力されたテキストに対し形態素解析・構文解析・ポーズ長推定を施して、韻律制御単位ごとに読みとアクセント核の位置・強度とポーズの位置・長さを含む読み・韻律記号情報を生成する。ここで、韻律制御単位は、アアクセント句境界で区切られた単位を表している。
(音韻韻律情報記憶部)
音韻韻律情報記憶部109は、読み・韻律記号生成部108で生成された読み・韻律記号情報と、後述する音韻韻律情報編集部103で編集された読み・韻律記号情報を記憶する。音韻韻律情報記憶部109には、記憶部202や外部記憶部203を用いることができる。
(合成音制御情報生成部)
合成音制御情報生成部110は、音韻韻律情報記憶部109に記憶された読み・韻律記号を解析して韻律制御単位ごとに合成音制御情報を算出する。合成音制御情報は、読み・韻律記号情報の継続時間長や基本周波数などの情報を含む。
(フローチャート)
図3は、本実施形態にかかる音声合成編集装置のフローチャートである。まず、テキスト入力部101は、操作部204のキーボードから合成対象となるテキストを入力する(ステップS31)。次に、読み・韻律記号生成部108は、同テキストから生成した読み・韻律記号情報が音韻韻律情報記憶部109に記憶されているか否かに従って処理を分岐する(ステップS32)。記憶されている場合には(ステップS32のYes)、ステップS33に進む。記憶されていない場合には(ステップS32のNo)、ステップS34に進む。
ステップS34に進んだ場合、読み・韻律記号生成部108は、テキストに形態素解析・構文解析・ポーズ推定を施し、読み・韻律記号情報を生成する。そして、読み・韻律記号生成部108は、生成した読み・韻律記号情報とテキストを関連付けて音韻韻律情報記憶部109に記憶する(ステップS35)。
ステップS33では、音韻韻律情報編集部102は、音韻韻律情報記憶部109に記憶された読み・韻律記号情報とテキストを取得してユーザに提示する。ステップS36では、ユーザは、音韻韻律情報編集部102から提示された読み・韻律記号情報に編集を加える。次に、ステップS37では、ユーザは、音声波形を生成する際の合成モードを指示する。本実施形態では、合成モードとして「単独合成」、「比較合成」の2種類がある。「単独合成」は、編集を加えた読み・韻律記号情報の音声波形を単独で試聴するモードである。一方、「比較合成」は、編集前後の読み・韻律記号情報に基づいて作成した音声波形を対比試聴するモードである。
ステップS38では、音韻韻律情報編集部102は、編集が加えられた読み・韻律記号情報を音韻韻律情報記憶部109のテキストと関連付けて追加で記憶する。
ステップS39では、ステップS37でユーザが指示した合成モードに基づいて処理を分岐する。合成モードが「単独合成」の場合(ステップS39の単独合成)は、音韻韻律情報記憶部109に記憶された編集後の読み・韻律記号から音声波形を生成し(ステップS40)、当該音声波形をスピーカ107から再生する(ステップS42)。一方、合成モードが「比較合成」の場合(ステップS39の比較合成)は、ステップS41に進む。
ステップS41では、音声合成部104は、編集前の読み・韻律記号情報から第1の音声波形を、編集後の読み・韻律記号情報から第2の音声波形を生成して、変更が加えられた読み・韻律記号情報に対応する第1および第2の音声波形の部分波形を連結した第3の音声波形を生成する。そして、当該第3の音声波形をスピーカ107から再生する(ステップS42)。
次に、図4のフローチャートを参照して、ステップS41の詳細を説明する。まず、対比区間算出部105は、音韻韻律情報記憶部109に記憶された編集前の読み・韻律記号情報と編集後の読み・韻律記号情報を韻律制御単位ごとに比較して、編集前後の読み・韻律記号間で対応する韻律制御単位の組に差異が発生したか否か(編集されたか否か)を判別する(ステップS45)。編集前後の読み・韻律記号間における韻律制御単位の対応付けには、動的計画法における最適パス探索を利用する。
ステップS46では、ステップS45での判別結果に基づいて処理を分岐する。編集前後の読み・韻律記号間における韻律制御単位の組に差異が発生している場合(ステップS46のYes)は、ステップS47に進む。差異が発生していない場合(ステップS46のNo)は、第3の音声波形を生成せずに処理を終了する。
ステップS47では、合成音制御情報生成部110は、音韻韻律情報記憶部109に記憶された編集前および編集後の読み・韻律記号情報を解析して合成音制御情報を生成する。合成音制御情報には、少なくとも各韻律制御単位が対応する音声波形を特定できる情報、例えば、読み・韻律記号情報の継続時間長を含む。
次に、音声合成部104は、編集前の音韻韻律情報(読み・韻律記号情報および合成音制御情報)から第1の音声波形を、編集後の音韻韻律情報から第2の音声波形を生成する(ステップS48)。
ステップS49では、対比区間算出部105は、ステップS45で差異が発生したと判別された韻律制御単位を含む編集前後の読み・韻律記号情報の部分系列を特定する。編集前後の読み・韻律記号情報における部分系列の特定は、後述する具体例を用いた処理で説明する。
次に、対比区間算出部105は、ステップS49で特定された編集前後の読み・韻律記号情報の部分系列から第1の音声波形および第2の音声波形の対比区間を算出する(ステップS50)。ここで、対比区間の算出には、ステップS47で生成した読み・韻律記号情報の継続時間長を用いる。具体的には、読み・韻律記号情報に継続時間長を割り当てることで、編集対象になった部分系列が対応する音声波形の開始位置および終了位置を特定する。なお、ステップS49で特定した部分系列が複数個ある場合は、対比区間を複数個算出する。例えば、部分系列が2個ある場合は、「第1の音声波形の100msecから200msecの区間、第2の音声波形の110msecから220msecの区間」、「第1の音声波形の300msecから400msecの区間、第2の音声波形の320msecから430msecの区間」のように対比区間を2個算出する。
次に、対比音声生成部106は、対比区間算出部105で算出された第1および第2の対比区間に対応する第1の音声波形の部分波形と第2の音声波形の部分波形とを連結して第3の音声波形を生成する(ステップS51)。対比区間算出部105で算出された対比区間が「第1の音声波形の100msecから200msecの区間、第2の音声波形の110msecから220msecの区間」である場合は、少なくとも第1の音声波形の100msecから200msecの区間を含む区間から切り出した部分波形と少なくとも第2の音声波形の110msecから220msecの区間を含む区間から切り出した部分波形を連結して、第3の音声波形を生成する。このとき、500msec程度の無音区間を部分波形の間に挟んで連結することもできる。
最後に、ステップS52では、ステップS50で算出された全ての対比区間について第3の音声波形の生成が終了したか否かを判別し、終了していない場合は(ステップS52のNo)、ステップS51に戻る。一方、終了している場合は(ステップS52のYes)、ステップS42に進んで第3の音声波形をスピーカ107から再生する。なお、対比区間が複数個ありステップS51で第3の音声波形が複数個生成された場合は、第3の音声波形を所定の間隔(例えば、500msecの間隔)をおいて連続的に再生することができる。
(具体例)
図3および図4の処理フローの動作を、具体例を用いて説明する。なお、この具体例では、音韻韻律情報記憶部109に何も記憶されていない状態からスタートする。
ステップS31では、テキスト入力部101は、図5に示すようなユーザーインタフェースのテキスト入力欄501に、テキスト「一週間ばかり、ニューヨークを取材した。」を入力する。そして、ユーザは、読み・韻律記号情報の生成を指示するために読み・韻律記号生成ボタン503を押下する。
ステップS32では、音韻韻律情報記憶部109に同テキストに対する読み・韻律記号情報が記録されていないため、ステップS33へ進む。
ステップS33では、読み・韻律記号生成部108は、テキストデータに形態素解析・構文解析・ポーズ長推定を施して、読み・韻律記号情報「[イッシュ’−カン]-[ ]-[バ*カリ]-[,]-[ニューヨ’ークオ]-[ ]-[シュザイシ%タ]-[.]」を生成する。括弧([ ])で括られた区間がひとつの韻律制御単位に相当する。アクセント句はその読みが半角カタカナで、アクセントの位置とその強度はシングルクォーテーション( ’ )およびアスタリスク( * )でそれぞれ記述されている。(%)は無声化音節を表す。アクセント句境界は、スペース・コンマ( , )・コロン( : )・ピリオド( . )で、それぞれ記述されている。
ステップS33では、テキスト「一週間ばかり、ニューヨークを取材した。」と読み・韻律記号情報「[イッシュ’−カン]-[ ]-[バ*カリ]-[,]-[ニューヨ’ークオ]-[ ]-[シュザイシ%タ]-[.]」を関連付けて音韻韻律情報記憶部109に記録する。
ステップS36では、音韻韻律情報編集部102は、音韻韻律情報記憶部109から最新の読み・韻律記号情報「[イッシュ’−カン]-[ ]-[バ*カリ]-[,]-[ニューヨ’ークオ]-[ ]-[シュザイシ%タ]-[.]」を取得して、図5の読み・韻律記号表示欄502に表示する。
次に、ステップS36で、ユーザが、読み・韻律記号表示欄502に表示された1つ目から3つ目の韻律制御単位「[イッシュ’−カン]-[ ]-[バ*カリ]」のアクセント句境界とアクセントの位置を表すテキストを、操作部204のキーボードを介して直接編集し、編集後の読み・韻律記号情報が「[イッシュ−カンバ*カリ]-[,]-[ニューヨ’ークオ]-[ ]-[シュザイシ%タ]-[.]」になったとする。
ステップS37では、ユーザは、図5の比較合成ボタン505を押下して、編集前後の読み・韻律記号情報の部分系列(編集前: [イッシュ’−カン]-[ ]-[バ*カリ]、編集後: [イッシュ−カンバ*カリ])から生成された音声波形を比較試聴する「比較合成」モードを選択する。なお、編集後の読み・韻律記号情報から生成された音声波形のみを視聴する「単独合成」モードを選択する場合は、図5の単独合成ボタン504を押下すればよい。
ステップS38では、音韻韻律情報編集部102は、図6のように編集後の読み・韻律記号情報を音韻韻律情報記憶部109のスタックに追加する。
ステップ39では、ユーザが合成モードとして「比較合成」を選択したことから、ステップS41へ進む。
ステップS45では、対比区間算出部105は、編集前の読み・韻律記号情報「[イッシュ’−カン]-[ ]-[バ*カリ]-[,]-[ニューヨ’ークオ]-[ ]-[シュザイシ%タ]-[.]」と編集後の読み・韻律記号情報「[イッシュ−カンバ*カリ]-[,]-[ニューヨ’ークオ]-[ ]-[シュザイシ%タ]-[.]」を韻律制御単位ごとに比較して差異が発生したか否かを判別する。編集前後の韻律制御単位の対応付けには、動的計画法における最適パス探索を利用する。図7より、編集前の読み・韻律記号情報の「[イッシュ’−カン]-[ ]-[バ*カリ]」と編集後の読み・韻律記号情報の「[イッシュ−カンバ*カリ]」には差異が生じている。
ステップ46では、編集前後の読み・韻律記号間の韻律制御単位の組に差異が発生していることからステップS47に進む。
ステップS47では、合成音制御情報生成部110は、編集前後の読み・韻律記号情報を解析して、合成音制御情報として基本周波数や読み・韻律記号情報の継続時間長を生成する。次に、ステップS48では、音声合成部104は、編集前後の音韻韻律情報を第1および第2の音声波形に変換する。
ステップS49では、対比区間算出部105は、ステップS45で差異が発生したと判別された韻律制御単位を含む編集前後の読み・韻律記号情報の部分系列を特定する。図7の例では、差異が発生したと判別された編集後の韻律制御単位である「[イッシュ−カンバ*カリ]」を編集後の部分系列とし、それに対応する「[イッシュ’−カン]-[ ]-[バ*カリ]」を編集前の部分系列とする。図7のフォーカス701で囲まれた箇所が、対比区間算出部105で特定された編集前後の部分系列を表している。
なお、図8(a)のように、差異が発生した韻律制御単位が連続している場合は、編集前後の読み・韻律記号情報で差異が発生していない韻律制御単位([,]および[ ])で囲まれた複数の韻律制御単位([キク]、[ ]、[ケコサシ])を1つのまとまりとみなして編集後の部分系列とすることができる。また、編集前の部分系列も同様に、[,]および[ ]で囲まれた韻律制御単位「キクケコサシ」とすることができる。
また、図8(b)のように差異が発生した韻律制御単位がアクセント句境界([:])に関するものであれば、隣接する韻律制御単位を編集前後の部分系列に含めることができる。これにより、後述する第3の音声波形でアクセント句境界のポーズ長、基本周波数の変化を比較試聴することができる。
ステップS50では、対比区間算出部105は、ステップS49で特定された編集前後の読み・韻律記号の部分系列から第1の音声波形および第2の音声波形の対比区間を算出する。対比区間の算出には、合成音制御情報生成部110で生成された読み・韻律記号情報の継続時間長を用いる。図9に、「[イッシュ’−カン]-[ ]-[バ*カリ]」という編集前の部分系列に対する読み・韻律記号情報の継続時間長と基本周波数を示す。この例では、編集前の部分系列に対応する第1の音声波形の対比区間の開始位置は、[イ]が語頭であることから0msecの位置になる。また、各読み・韻律記号情報の継続時間長(75ms、100 ms、200 ms、100 ms、100 ms、75 ms、150 ms、139 ms、150 ms)を合計すると1089msになることから、対比区間の終了位置は先頭から1089msの位置になる。以上より、第1の音声波形の対比区間は、「0msecから1089msecまでの区間」になることが分かる。同様に、編集後の部分系列「[イッシュ−カンバ*カリ]」に対応する第2の音声波形の対比区間(「0msecから1069msecの区間」)も算出する。
ステップS51では、対比音声生成部106は、第1の音声波形の0msecから1089msecまでの部分波形と第2の音声波形の0msecから1069msecまでの部分波形を切り出す(図10)。そして、切り出した部分波形を間に500msecの無音区間を挟んで連結し、第3の音声波形を生成する。最後にステップS42では、第3の音声波形をスピーカ107から再生する。ユーザが編集を加えた音韻韻律情報に対応する編集前後の音声波形を連結して再生するため、図11に示すように、本実施形態の比較視聴では、不要な音声波形の視聴や編集作業によるタイムラグを削除することができる。
(効果)
このように、本実施形態にかかる音声合成編集装置では、編集対象になった音韻韻律情報に対応する第1および第2の音声波形の部分波形を連続的に接続した第3の音声波形を出力する。これにより、ユーザは編集前後の音声波形を連続的に試聴することができ、編集によって生じた音声波形の差異を正確に確認できる。
(変形例1)
本実施形態では音韻韻律情報のうち読み・韻律記号情報を編集対象としていたが、図12のような構成をとり、合成音制御情報生成部で生成された基本周波数のパターンや継続時間長などの合成音制御情報を編集対象にすることもできる。また、図13に示すように、部分系列を編集する部分系列編集部120を対比区間算出部105に設けてもよい。これにより、ユーザは、編集前後の読み・韻律記号情報の部分系列(編集前: [イッシュ’−カン]-[ ]-[バ*カリ]、編集後: [イッシュ−カンバ*カリ])を、(編集前: [イッシュ’−カン]-[ ]-[バ*カリ]-[ ,]-[ニューヨ’ークオ]、編集後: [イッシュ−カンバ*カリ] -[ ,]-[ニューヨ’ークオ])のように編集することができる。つまり、部分系列編集部120を設けることにより、対比試聴される音声波形の範囲をユーザが調整することができる。
(変形例2)
以上の実施形態では、日本語の音韻韻律情報の編集について述べたが、編集対象となる言語は日本語に限定されない。例えば、英語などのヨーロッパ言語の音韻韻律情報の編集において、単語内のストレスが置かれるシラブルの位置やその強度、または、アクセント句境界の編集に適応してもよい。
例えば、図14は、米語"Showing Manual Options."の音韻韻律情報(読み・韻律記号情報)の編集を行なった際の1例である。図14では、アクセント句境界が[ ](ポーズなし)から[--:](短いポーズあり)に変更され、かつ、アクセント句(テキストの"Manual"の部分)のアクセント強度が中["m{n.j@l]から強[<+>"m{n.j@l]に変更されている。この場合、対比区間算出部105は、図14のフォーカス701で囲まれた部分を編集前後の部分系列として特定する。これにより、ユーザは、"Showing Manual"に対する編集前後の音声波形を連続的に試聴できる。
この他にも、中国語などの声調言語の音韻韻律情報の編集において、各シラブルの声調(四声)の編集に適応してもよい。
(変形例3)
以上の実施形態では、編集前の第1の音声波形の部分波形、編集後の第2の音声波形の部分波形の順番で音声波形を連続的に再生していたが、編集後の第2の音声波形の部分波形、編集前の第1の音声波形の部分波形の順番で音声波形を連続的に再生してもよい。
(変形例4)
対比音声生成部106は、スピーカ107に出力中の音声波形が、第1の音声波形の部分波形と第2の音声波形の部分波形のどちらであるかを区別する情報を情報表示部に表示することができる。情報表示部にはディスプレイ207を用いる。
図15(a)は、ディスプレイ207に表示された画面1501であり、当該画面1501に第1および第2の音声波形が表示されている。同図では、バー1502が出力中の音声波形の位置を表しており、この例では、第1の音声波形の部分波形が出力中(スピーカ107から再生中)であることがわかる。また、図15(b)は、第2の音声波形の部分波形が出力中である場合の例を示している。この他にも、図16に示すように、編集前後の読み・音韻記号情報を用いて情報を表示することができる。同図では、バー1602が出力中の音声波形に対応する読み・音韻記号情報の位置を表示している。また、「編集前の音声波形を再生中」のようなテキストをディスプレイ207に表示するようにしてもよい。なお、対比音声生成部106が出力中の音声波形の位置は、各読み・韻律記号情報の継続時間長を用いて特定できる。
このように、本変形例の音声合成編集装置は、対比音声生成部106が出力している音声波形が第1の音声波形の部分波形と第2の音声波形の部分波形のどちらであるか区別する情報を情報表示部に表示する。ことにより、ユーザは現在試聴している音声が編集前のものであるか編集後のものであるかを容易に判断することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
101 テキスト入力部
102 音韻韻律情報取得部
103 音韻韻律情報編集部
104 音声合成部
105 対比区間算出部
106 対比音声生成部
107 スピーカ
108 読み・韻律記号生成部
109 音韻韻律情報記憶部
110 合成音制御情報生成部
120 部分系列編集部
201 制御部
202 記憶部
203 外部記憶部
204 操作部
205 通信部
207 ディスプレイ
208 バス
501 テキスト入力欄
502 読み・韻律記号表示欄
503 読み・韻律記号生成ボタン
504 単独合成ボタン
505 比較合成ボタン
701 フォーカス
1501 表示画面
1502 バー
1601 表示画面
1602 バー

Claims (8)

  1. テキストを解析して音声を合成するための音韻韻律情報を取得する音韻韻律情報取得手段と、
    前記音韻韻律情報取得手段で取得された音韻韻律情報を編集する音韻韻律情報編集手段と、
    前記音韻韻律情報編集手段における編集前および編集後の音韻韻律情報をそれぞれ第1および第2の音声波形に変換する音声合成手段と、
    前記音韻韻律情報編集手段で編集対象になった音韻韻律情報に対応する前記第1および第2の音声波形の対比区間を算出する対比区間算出手段と、
    前記対比区間算出手段で算出された前記第1の音声波形の対比区間を含む前記第1の音声波形の部分波形と、前記対比区間算出手段で算出された前記第2の音声波形の対比区間を含む前記第2の音声波形の部分波形とを連続的に出力する対比音声生成手段と、
    を備える音声合成編集装置。
  2. 前記対比音声生成手段が、前記第1の音声波形の部分波形と前記第2の音声波形の部分波形の間に所定長の無音区間を挿入して連続的に出力する請求項1記載の音声合成編集装置。
  3. 前記音韻韻律情報取得手段が、テキストを解析して読み記号および韻律記号を生成する読み・韻律記号生成手段と、
    前記読み・韻律記号生成手段が生成した読み記号および韻律記号を解析して合成音制御情報を生成する合成音制御情報生成手段と、
    を備え、
    前記音韻韻律情報編集手段が、前記読み記号、前記韻律記号、前記合成音制御情報のうちの少なくとも1つまたはその組み合わせを編集する請求項1乃至請求項2記載の音声合成編集装置。
  4. 前記対比区間算出手段が、前記音韻韻律情報編集手段で編集対象になった前記編集前および編集後の音韻韻律情報の部分系列を特定し、前記合成音制御情報生成手段で生成された合成音制御情報を用いて、当該部分系列に対応する前記第1および第2の音声波形の対比区間を算出する請求項3記載の音声合成編集装置。
  5. 前記対比区間算出手段が、前記部分系列を編集する部分系列編集手段を更に備え、
    前記対比区間算出手段が、前記部分系列編集手段で編集した部分系列に対応する前記第1および第2の音声波形の対比区間を算出する請求項4記載の音声合成編集装置。
  6. 前記対比音声生成手段が出力している音声波形が前記第1の音声波形の部分波形と前記第2の音声波形の部分波形のどちらであるかを区別する情報を表示する情報表示手段を更に備える請求項1から請求項5の何れか1項に記載の音声合成編集装置。
  7. テキストを解析して音声を合成するための音韻韻律情報を取得する音韻韻律情報取得工程と、
    前記音韻韻律情報取得工程で取得された音韻韻律情報を編集する音韻韻律情報編集工程と、
    前記音韻韻律情報編集工程における編集前および編集後の音韻韻律情報をそれぞれ第1および第2の音声波形に変換する音声合成工程と、
    前記音韻韻律情報編集工程で編集対象になった音韻韻律情報に対応する前記第1および第2の音声波形の対比区間を算出する対比区間算出工程と、
    前記対比区間算出工程で算出された前記第1の音声波形の対比区間を含む前記第1の音声波形の部分波形と、前記対比区間算出工程で算出された前記第2の音声波形の対比区間を含む前記第2の音声波形の部分波形とを連続的に出力する対比音声生成工程と、
    を備える音声合成編集方法。
  8. 音声合成編集装置に、
    テキストを解析して音声を合成するための音韻韻律情報を取得する音韻韻律情報取得工程と、
    前記音韻韻律情報取得工程で取得された音韻韻律情報を編集する音韻韻律情報編集工程と、
    前記音韻韻律情報編集工程における編集前および編集後の音韻韻律情報をそれぞれ第1および第2の音声波形に変換する音声合成工程と、
    前記音韻韻律情報編集工程で編集対象になった音韻韻律情報に対応する前記第1および第2の音声波形の対比区間を算出する対比区間算出工程と、
    前記対比区間算出工程で算出された前記第1の音声波形の対比区間を含む前記第1の音声波形の部分波形と、前記対比区間算出工程で算出された前記第2の音声波形の対比区間を含む前記第2の音声波形の部分波形とを連続的に出力する対比音声生成工程と、
    を実現させるための音声合成編集プログラム。
JP2011059560A 2011-03-17 2011-03-17 音声合成編集装置および音声合成編集方法 Active JP5743625B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011059560A JP5743625B2 (ja) 2011-03-17 2011-03-17 音声合成編集装置および音声合成編集方法
US13/235,656 US9020821B2 (en) 2011-03-17 2011-09-19 Apparatus and method for editing speech synthesis, and computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011059560A JP5743625B2 (ja) 2011-03-17 2011-03-17 音声合成編集装置および音声合成編集方法

Publications (2)

Publication Number Publication Date
JP2012194460A JP2012194460A (ja) 2012-10-11
JP5743625B2 true JP5743625B2 (ja) 2015-07-01

Family

ID=46829180

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011059560A Active JP5743625B2 (ja) 2011-03-17 2011-03-17 音声合成編集装置および音声合成編集方法

Country Status (2)

Country Link
US (1) US9020821B2 (ja)
JP (1) JP5743625B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5949607B2 (ja) * 2013-03-15 2016-07-13 ヤマハ株式会社 音声合成装置
CN107039034B (zh) * 2016-02-04 2020-05-01 科大讯飞股份有限公司 一种韵律预测方法及系统
KR102421745B1 (ko) * 2017-08-22 2022-07-19 삼성전자주식회사 Tts 모델을 생성하는 시스템 및 전자 장치
CN110767209B (zh) * 2019-10-31 2022-03-15 标贝(北京)科技有限公司 语音合成方法、装置、系统和存储介质
KR102568145B1 (ko) * 2020-11-25 2023-08-18 주식회사 자이냅스 무음 멜-스펙트로그램을 이용하여 음성 데이터를 생성하는 방법 및 음성 합성 시스템

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3059348A (en) * 1959-12-21 1962-10-23 Mezzacappa Antonio Libero Method and apparatus for teaching languages
US3765106A (en) * 1971-07-29 1973-10-16 D Cornell Teaching system
US3911494A (en) * 1972-10-02 1975-10-07 Polaroid Corp Interactive teaching system using two tapes in a single cassette
US5020108A (en) * 1987-05-04 1991-05-28 Wason Thomas D Audible display of electrical signal characteristics
JPH01303498A (ja) * 1988-06-01 1989-12-07 Toshiba Corp アクセント辞書作成装置
US5490234A (en) * 1993-01-21 1996-02-06 Apple Computer, Inc. Waveform blending technique for text-to-speech system
US5796916A (en) * 1993-01-21 1998-08-18 Apple Computer, Inc. Method and apparatus for prosody for synthetic speech prosody determination
DE19514767C1 (de) * 1995-04-21 1996-05-15 Siemens Ag Gekapselte Ein-/Ausgabebaugruppe
JP3667950B2 (ja) 1997-09-16 2005-07-06 株式会社東芝 ピッチパターン生成方法
US7031924B2 (en) * 2000-06-30 2006-04-18 Canon Kabushiki Kaisha Voice synthesizing apparatus, voice synthesizing system, voice synthesizing method and storage medium
JP2005345699A (ja) * 2004-06-02 2005-12-15 Toshiba Corp 音声編集装置、音声編集方法および音声編集プログラム
JP4516863B2 (ja) * 2005-03-11 2010-08-04 株式会社ケンウッド 音声合成装置、音声合成方法及びプログラム
JP4559950B2 (ja) * 2005-10-20 2010-10-13 株式会社東芝 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
US20090254349A1 (en) * 2006-06-05 2009-10-08 Yoshifumi Hirose Speech synthesizer
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech
JP2008268478A (ja) * 2007-04-19 2008-11-06 Hitachi Business Solution Kk アクセント調整可能な音声合成装置
JP5262464B2 (ja) * 2008-09-04 2013-08-14 ヤマハ株式会社 音声処理装置およびプログラム
JP5320363B2 (ja) * 2010-03-26 2013-10-23 株式会社東芝 音声編集方法、装置及び音声合成方法
US20120046949A1 (en) * 2010-08-23 2012-02-23 Patrick John Leddy Method and apparatus for generating and distributing a hybrid voice recording derived from vocal attributes of a reference voice and a subject voice

Also Published As

Publication number Publication date
US9020821B2 (en) 2015-04-28
US20120239404A1 (en) 2012-09-20
JP2012194460A (ja) 2012-10-11

Similar Documents

Publication Publication Date Title
US8849669B2 (en) System for tuning synthesized speech
JPH10153998A (ja) 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JP5743625B2 (ja) 音声合成編集装置および音声合成編集方法
JP4797597B2 (ja) 語学学習装置
JP2013072903A (ja) 合成辞書作成装置および合成辞書作成方法
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP4639932B2 (ja) 音声合成装置
JP5343293B2 (ja) 音声編集合成装置及び音声編集合成方法
JP2007322934A (ja) 歌唱練習装置、カラオケ装置及びプログラム
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
KR100710600B1 (ko) 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동동기 생성/재생 방법 및 그 장치
US20060084047A1 (en) System and method of segmented language learning
JP2013061591A (ja) 音声合成装置、音声合成方法およびプログラム
JPH08335096A (ja) テキスト音声合成装置
JP2001134283A (ja) 音声合成装置および音声合成方法
JP4501874B2 (ja) 楽曲練習装置
JP3060276B2 (ja) 音声合成装置
JP6251219B2 (ja) 合成辞書作成装置、合成辞書作成方法および合成辞書作成プログラム
JP2006349787A (ja) 音声合成方法および装置
JP2006284645A (ja) 音声再生装置およびその再生プログラムならびにその再生方法
JP4654889B2 (ja) 再生装置
JP4260071B2 (ja) 音声合成方法、音声合成プログラム及び音声合成装置
JPH06318094A (ja) 音声規則合成装置
JPH0527787A (ja) 音楽再生装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131025

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140703

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141104

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150216

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150428

R151 Written notification of patent or utility model registration

Ref document number: 5743625

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350