JP5320363B2 - 音声編集方法、装置及び音声合成方法 - Google Patents

音声編集方法、装置及び音声合成方法 Download PDF

Info

Publication number
JP5320363B2
JP5320363B2 JP2010202448A JP2010202448A JP5320363B2 JP 5320363 B2 JP5320363 B2 JP 5320363B2 JP 2010202448 A JP2010202448 A JP 2010202448A JP 2010202448 A JP2010202448 A JP 2010202448A JP 5320363 B2 JP5320363 B2 JP 5320363B2
Authority
JP
Japan
Prior art keywords
waveform
information
speech
sound
sound piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010202448A
Other languages
English (en)
Other versions
JP2011221486A (ja
Inventor
剛 平林
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010202448A priority Critical patent/JP5320363B2/ja
Publication of JP2011221486A publication Critical patent/JP2011221486A/ja
Application granted granted Critical
Publication of JP5320363B2 publication Critical patent/JP5320363B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephone Function (AREA)

Description

本発明は、音声編集方法、装置及び音声合成方法に関する。
人が発生した音声を、予め単語や文節や句の単位等に分割した「音片」として記憶しておき、これらの音片を読み出して組み合わせることにより、複数の文章を音声として出力する録音編集方式の音声合成装置がある(例えば、特許文献1参照)。
このような音声合成装置では、複数の文章間で同じ音片を用いることにより、出力する文章をすべて記憶する場合に比べて、記憶するデータ量を節約している。
特開平7−210184号公報
しかしながら、上述したような音声合成装置では、録音した音声を人による手作業で音片に分割するため、利用効率の良い音片を作成することが困難である。
本発明では、上記課題に鑑み、利用効率の良い音片を作成することができる音声編集方法、装置、及び該音片を用いた音声合成方法を提供することを目的とする。
上記課題を解決するために、本発明の一態様に係る音声編集方法は、入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、前記音声情報から規則音声合成を用いて音声波形を生成し、前記音韻情報に基づいて前記音声波形を複数の音片波形に分割し、複数の前記音片波形の中で、波形がそれぞれ一致又は類似する2以上の前記音片波形を探索し、探索した2つ以上の音片波形から代表音片波形を選択し、前記代表音片波形を記憶部に記憶する。
また、本発明の一態様に係る音声編集方法は、入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、前記音声情報から規則音声合成を用いて音声波形を生成し、前記音韻情報に基づいて前記音声波形を複数の音片波形に分割し、複数の前記音片波形の中で、対応する前記音韻情報がそれぞれ一致し、かつ、対応する前記韻律情報がそれぞれ一致又は類似する2つ以上の前記音片波形を探索し、探索した2つ以上の前記音片波形から代表音片波形を選択し、前記代表音片波形を記憶部に記憶する
また、本発明の一態様に係る音声編集方法は、入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、前記音韻情報に基づいて前記音声情報を複数の音片情報に分割し、複数の前記音片情報の中で、前記音韻情報がそれぞれ一致し、かつ、前記韻律情報がそれぞれ一致又は類似する2つ以上の前記音片情報を探索し、探索した2つ以上の前記音片情報を代表する代表音片情報を生成し、前記代表音片情報に対応する代表音片波形を、規則音声合成を用いて生成し、前記代表音片波形を記憶部に記憶する
本発明により、利用効率の良い音片を作成することができる音声編集方法、装置、及び該音片を用いた音声合成方法を提供することができる。
第1の実施の形態に係る音声編集装置1を表すブロック図。 音声波形、韻律情報、音韻情報の説明図。 音声編集装置1の編集処理を表すフローチャート。 入力部11に入力されるテキストの例を表す図。 音声波形の例を表す図。 音声波形を分割する時刻を例示した図。 音声波形の分割の例を示す図。 音片波形の例を表す図。 探索部14による判定後の音片波形を表す図。 音声編集装置1が英文テキストの編集処理を行なう例を表す図。 国際音声記号と変形例1の音素文字との対応表。 変形例1における音声編集装置1の編集処理を表すフローチャート。 変形例2における音声編集装置1の編集処理を表すフローチャート。 第2の実施の形態に係る音声編集装置の編集処理を表すフローチャート。 第3の実施の形態に係る音声合成装置3を表すブロック図。
以下、本発明の実施の形態について図面を参照して詳細に説明する。
本願明細書と各図において、既出の図に関して前述したものと同様の要素には同一の符号を付して詳細な説明は適宜省略する。
(第1の実施の形態)
第1の実施の形態に係る音声編集装置1は、規則合成方式により、ユーザが入力したテキストから音韻情報、韻律情報、及び音声波形を作成する。音声波形を、音声波形の素片である音片波形に分割する。全ての音片波形の中で、波形が一致又は類似する音片波形を探索して、それらを代表する代表音片波形を選択しておく。このような代表音片波形を、音声を合成して出力する音声合成装置等に用いる。
図1は、音声編集装置1を表すブロック図である。音声編集装置1は、入力部11と、生成部12と、分割部13と、探索部14とを含む。
入力部11は、ユーザから一または複数のテキストが入力される。入力部11は、キーボードや手書きパッド等であってよい。生成部12は、入力されたテキストの音韻情報、韻律情報、及び音韻情報と韻律情報とに対応する音声波形を、例えば、中央演算処理装置(CPU)により生成する。なお、ユーザは、入力部11で、録音編集方式で再生させたいテキストを入力することができる。
音声波形とは、音声の振幅の時間変化である。音韻情報とは、音声の内容を文字や記号で表したものである。韻律情報とは、音声のリズムやイントネーションを表したものである。複数のテキストが入力された場合、生成部12は、各々のテキストに対応する音韻情報、韻律情報、及び音声波形を生成する。例えば、生成部12は、音韻情報、韻律情報に対応する音声素片が格納された格納部(不図示)を用いて、音声波形を生成してもよい。生成部12はテキストから音声波形を生成する公知の音声合成装置であってもよい。
分割部13は、音声波形と音韻情報と韻律情報とを用いて、音声波形を特定の時刻で音片波形に分割する。入力部11に入力されたテキストが複数ある場合、分割部13は、各々のテキストに対応する音声波形を音片波形に分割する。
探索部14は、分割部13で得られた全ての音片波形の中で、波形が一致又は類似する音片波形を探索する。波形が一致又は類似する音片波形が複数存在する場合、探索部14は、その中から一の音片波形を代表音片波形として選択し、他の音片波形を破棄する。探索部14は、代表音片波形を記憶部50に記憶させる。代表音片波形は、波形が一致又は類似する、複数の音片波形の中の1つであればよい。
生成部12と、分割部13と、探索部14とは、中央演算処理装置(CPU)及びCPUが用いるメモリにより実現されてよい。
以下、本実施の形態について詳細に説明する。
図2は、音声波形、韻律情報、音韻情報の説明図である。図2では、例として、「東京方面へ向かっている方に」というテキストから生成された音声波形、韻律情報、音韻情報の一部が示されている。音声波形は、音声の振幅の時間変化で表わされる。音韻情報は、音声波形を音素文字で表した音素系列と、アクセントを持つ音素(アクセント音素と呼ぶ)の情報とを含む。図2では、「東京方面へ向かっている方に」の音素系列の一部である、「oh1o1omeNemukate」が示されている。音素「N」(大文字)は、撥音を表す。そして「1」が付されている音素はアクセントを持つ音素である。すなわち、この音素系列においては、「ho(ほ)」にアクセントがあることを示している。韻律情報は、音素系列と、音素の継続時間と、音素のF0系列と、音素境界時刻とを含む。F0系列とは、音素の基本周波数の時間変化である。音素境界時刻とは、隣接する2つの音素の境界の時刻である。
図3は、音声編集装置1の処理を表すフローチャートである。入力部11には、ユーザから一又は複数のテキストが入力される(S301)。
図4は、入力部11に入力されるテキストの例である。図4に示したように、例えば、入力部11には、ユーザから「八王子インターへ向かっている方に、渋滞の情報です。」(テキスト1)と、「新潟方面へ向かっている方に、8時現在の渋滞の情報です。」(テキスト2)と、「蒲田方面へ向かっている方に、自然渋滞の情報です。」(テキスト3)という3つのテキストが入力される。
生成部12は、これら複数のテキストについて形態素解析や構文解析等の言語解析を行ない、テキストの音韻情報を決定し、決定した音韻情報から韻律情報を決定し、音韻情報と韻律情報とから音声波形を生成する(S302)。図5は、音声波形の例を表す図である。音声波形1はテキスト1に対応する。音声波形2はテキスト2に対応する。音声波形3はテキスト3に対応する。図5では、音素系列も記載してある。例えば、生成部12は、テキスト1を解析して、テキスト1のテキストの音韻情報を決定し、決定した音韻情報から韻律情報を決定し、音韻情報と韻律情報とから音声波形1を生成する。生成部12は、音声波形を分割部13に渡す。生成部12は、音声波形が複数ある場合には、全ての音声波形を分割部13に渡す。
分割部13は、音韻情報を用いて、音声波形を特定時刻で区切ることにより、音片波形に分割する(S303)。図6は、音声波形の分割を例示した図である。図6には、「東京方面へ向かっている方に」(図2と同じ)の音声波形と韻律情報が示されている。分割部13は、音韻情報を用いて、無声破裂音及び「PAUSE」の開始時刻または終了時刻を検出して、無声破裂音区間およびポーズ区間を求める。分割部13は、無声破裂音区間とポーズ区間の中で、音声波形の振幅の絶対値が所定閾値未満となる(例えば、0となる)時刻を特定時刻として区切って、音声波形を音片波形に分割するのが望ましい。例えば、当該区間中で、振幅が0となる時刻で最も早い時刻(時刻A)や、最も遅い時刻(時刻B)等で、音声波形を分割してもよい。
ここで、無声破裂音区間とは、無声破裂音(「k」、「t」、「p」、「ch」等)である音素に対応する音声波形の区間である。ポーズ区間は、入力部11に入力されたテキストにおける句読点やピリオド等、無音であることを示す音素文字「PAUSE」に対応する音声波形の区間である。本実施の形態で区間とは、音声波形における任意の一の時刻から任意の他の時刻までの時間の範囲である。
図7では、音声波形1が複数の音片波形に分割された例が示されている。例えば、分割部13は、「hachioojiiNtaaemukateirukataniPjikojyuutainojyoohoodes」という音声波形1(図6では、音素系列のみで表わしている)を、上述した時刻(無声破裂音区間の時刻A及びポーズ区間の時刻B)で、「ha」「chioojiiNtaaemu」「kateirukataniP」「jikojyuu」「tainojyoohoodes」という5つの音片波形に分割する。音素系列における大文字の「P」は、音素文字「PAUSE」を表している。
分割部13は、音声波形2についても同様にし、音声波形2を「niiga」「tahoomeNemu」「kateirukataniP」「ha」「chijigeNzainojyuu」「tainojyoohoodes」という6つの音片波形に分割する。分割部13は、音声波形3についても同様にし、音声波形3を「kama」「tahoomeNemu」「kateirukataniP」「sizeNjyuu」「tainojyoohoodes」という5つの音片波形に分割する。
図8は、音片波形を表す図である。図8では、簡単のため、音片波形を、音片波形に対応する音素系列で示している。図8では、音声波形1と音声波形2と音声波形3の各々から分割された音片波形が存在する。分割部13は、全ての音片波形を探索部14に渡す。探索部14は、すべての音片波形の中から、たとえば順次1つの音片波形を選択して、残りの音片波形と比較して、2つの音片波形の波形が一致又は類似するものであるかどうかを探索することを、すべての組み合わせについて繰り返す(S304)。波形が一致するとは、比較する音片波形において、音声波形の各時刻における振幅の値が一致することである。波形が類似するとは、比較する音片波形において、音片波形の各時刻における振幅の値の差が所定の範囲内となることである。
ステップS304における判定がNOの場合、探索部14は当該音片波形をそのまま残して、後述するステップS306に遷移する。ステップS304における判定がYESの場合、探索部14は、波形が一致又は類似する少なくとも2つの音片波形から、一の音片波形を選択し、他の音片波形を破棄する。(S305)。選択された音片波形を代表音片波形と呼ぶ。
代表音片波形は、波形が一致又は類似する少なくとも2つの音片波形の中から、ランダムに一の音片波形を選択したものとしてもよい。
例えば、図8の例において、探索部14は、音声波形1から分割された「ha」の音片波形101に対して、波形が一致又は類似する音片波形があるか否かを判定する。そして、音声波形2から分割されてできた「ha」の音片波形106が、音片波形101に対して、波形が一致又は類似する音片波形であると判定したとする。同様に、探索部14は、他の音片波形についても、波形が一致又は類似する音片波形があるか否かを判定する。
そして、音声波形1から分割された「kateirukataniP」の音片波形102と、音声波形2から分割された「kateirukataniP」の音片波形105と、音声波形3から分割された「kateirukataniP」の音片波形109とが、波形が一致又は類似する音片波形であると判定したとする。
音声波形1から分割された「tainojyohoodes」の音片波形103と、音声波形が一致又は類似する他の音片波形が存在しなかった音片波形2から分割された「tainojyohoodes」の音片波形107と、音声波形が一致又は類似する他の音片波形が存在しなかった音片波形3から分割された「tainojyohoodes」の音片波形110とが、波形が一致又は類似する音片波形であると判定したとする。
音声波形が一致又は類似する他の音片波形が存在しなかった音片波形2から分割された「tahoomeNemu」の音片波形104と、音声波形3から分割された「tahoomeNemu」の音片波形108とが、波形が一致又は類似する音片波形であると判定したとする。
探索部14は、音片波形101と音片波形106の第1の代表音片波形として音片波形101を選択する。同様にして、探索部14は、音片波形102と音片波形105と音片波形109の第2の代表音片波形として音片波形102を選択する。音片波形103と音片波形107と音片波形110の第3の代表音片波形として音片波形103を選択する。
探索部14は、波形が一致又は類似する少なくとも2つの音片波形のうちで、代表音片波形に選択しなかった音片波形を破棄する。例えば、探索部14は、第1の代表音片波形に選択しなかった音片波形106を破棄する。第2の代表音片波形に選択しなかった音片波形105と音片波形109とを破棄する。第3の代表音片波形に選択しなかった音片波形107と音片波形110とを破棄する。
図9は、探索部14による判定後の音片波形を表す図である。探索部14による判定の終了後、探索部14には、代表音片波形と、波形が一致又は類似する他の音片波形が存在しなかった音片波形とが残る。図9の例では、代表音片波形として、音片波形101と音片波形102と音片波形103と音片波形104が残る。波形が一致又は類似する他の音片波形が存在しなかった音片波形として、音声波形1から分割された、「chioojiiNtaaemu」の音片波形と「jikojyuu」の音片波形とが残る。音声波形2から分割された、「niiga」の音片波形と、「chijigeNzainojyuu」の音片波形とが残る。音声波形3から分割された、「kama」の音片波形と、「sizeNjyuu」の音片波形とが残る。探索部14は、残った音片波形を記憶部50に記憶させ(S306)、処理を終了する。このとき、記憶させる音片波形に対応する音韻情報や韻律情報も記憶部50に記憶させてもよい。この場合、分割部13は、分割された音片波形に対応するように、音韻情報、韻律情報も分割しておく。
本実施の形態により、利用効率の良い音片を作成することができる。記憶する音片の総データ量を容易に削減できる。また、全ての音片の中から、波形等の特徴が一致又は類似する音片を探索するため、音質の劣化を抑えられる。
なお、本実施の形態では、日本語の処理について説明したがこれに限定されない。例えば、英語の場合も同様の処理を行なうことができる。
図10は、音声編集装置1が英文テキストの処理を行なう例を表す図である。例えば、図3のフローチャートにおけるステップS301で、入力部11にユーザから「Turn right at the next exit, then immediately left.」(テキスト4)というテキストと、「Turn left at the next intersection.」(テキスト5)というテキストと、「Turn right at the intersection, then immediately right again.」(テキスト6)というテキストが入力されたとする。
ステップS302で、生成部12は、テキスト4に対応する音声波形4と、テキスト5に対応する音声波形5と、テキスト6に対応する音声波形6とを生成する。音声波形4〜音声波形6における文字は、音素を表している。図11は、国際音声記号と本例の音素文字との対応表である。該文字は図11に示した国際音声記号と対応している。
ステップS303で、分割部13は、上述したように、音声波形を特定の時刻で音片波形に分割する。例えば、分割部13は、音声波形4(図10では、音素系列のみで表わしている)を、「t 3R N r aI」「tA」「tc D @ n E」「k s」「t E」「k s I t P」「k s I t P」「D E N I m I d I @」「tc l I l E f t」という8つの音片波形に分割する。音素系列における大文字の「P」は、音素文字「PAUSE」を表している。
分割部13は、音声波形2についても同様にし、音声波形2を「t 3R N l Ef」「t A」「tc D @ n E」「k s」「t I n」「k s @ n」「k s I t P」「D E N I m I d I @」「tc l I l E f t」という7つの音片波形に分割する。分割部13は、音声波形3についても同様にし、音声波形3を「t 3R N r aI」「t A」「tc D @ I n」「t 3R s E」「k S @ n P」「D E n I m i d i @」「tc l i r aI」「t @ g E n」という8つの音片波形に分割する。
ステップS304で、探索部14は、全ての音片波形の中で、波形が一致又は類似する音片波形を探索する。例えば、探索部14は、音声波形4から分割された音片波形201と、音声波形6から分割された音片波形211とが、波形が一致又は類似する音片波形であると判定したとする。音声波形4から分割された音片波形202と、音声波形5から分割された音片波形206と、音声波形6から分割された音片波形212とが、波形が一致又は類似する音片波形であると判定したとする。音声波形4から分割された音片波形203と、音声波形5から分割された音片波形207とが、波形が一致又は類似する音片波形であると判定したとする。
音声波形4から分割された音片波形204と、音声波形5から分割された音片波形208とが、波形が一致又は類似する音片波形であると判定したとする。音声波形4から分割された音片波形205と、音声波形6から分割された音片波形215とが、波形が一致又は類似する音片波形であると判定したとする。音声波形5から分割された音片波形209と、音声波形6から分割された音片波形213とが、波形が一致又は類似する音片波形であると判定したとする。音声波形5から分割された音片波形210と、音声波形6から分割された音片波形214とが、波形が一致又は類似する音片波形であると判定したとする。
ステップS305で、探索部14は、波形が一致又は類似する少なくとも2つの音片波形から、一の音片波形を選択し、他の音片波形を破棄する。例えば、探索部14は、音片波形201と音片波形211の第4の代表音片波形として音片波形201を選択する。同様にして、探索部14は、音片波形202と音片波形206と音片波形212の第5の代表音片波形として音片波形202を選択する。音片波形203と音片波形207の第6の代表音片波形として音片波形203を選択する。音片波形204と音片波形208の第7の代表音片波形として音片波形204を選択する。音片波形205と音片波形215の第8の代表音片波形として音片波形205を選択する。音片波形209と音片波形213の第9の代表音片波形として音片波形209を選択する。音片波形210と音片波形214の第10の代表音片波形として音片波形210を選択する。
探索部14は、波形が一致又は類似する少なくとも2つの音片波形のうちで、代表音片波形に選択しなかった音片波形を破棄する。例えば、探索部14は、第4の代表音片波形に選択しなかった音片波形211を破棄する。第5の代表音片波形に選択しなかった音片波形206と音片波形212とを破棄する。第6の代表音片波形に選択しなかった音片波形207を破棄する。第7の代表音片波形に選択しなかった音片波形208を破棄する。第8の代表音片波形に選択しなかった音片波形215を破棄する。第9の代表音片波形に選択しなかった音片波形213を破棄する。第10の代表音片波形に選択しなかった音片波形214を破棄する。
ステップS306で、探索部14は、破棄せずに残った音片波形を記憶部50に記憶させ、処理を終了する。
このように、本実施の形態では、英語の場合も同様の処理を行なうことができる。
本実施の形態において、探索部14は、代表音片波形を音片波形の中から選択したが、これに限られない。全ての音片波形の中に、波形が類似する少なくとも2つの音片波形がある場合、探索部14は、少なくとも2つの音片波形を基にして新たな代表音片波形を作成してもよい。例えば、探索部14は、各々の音片波形の韻律情報のうち、継続時間及び基本周波数系列を、各々重み付け平均した音片波形を新たに生成してもよい。すなわち、探索部14は、一致又は類似する音片波形の韻律情報に対し、各々の継続時間及び基本周波数の値を重み付け平均した平均韻律情報を求め、この平均韻律情報から規則音声合成方式等の音声合成手段によって、音片波形を再合成することで代表音片波形を生成してもよい。
(変形例1)
本実施の形態で、探索部14は、波形が一致又は類似する音片波形を探索したが、本例において、探索部14は、韻律情報が一致又は類似する音片波形を探索する。
図12は、本例における音声編集装置1の処理を表すフローチャートである。本例では、図3におけるステップS304がステップS304Aに置換されている。探索部14は、全ての音片波形の中に、韻律情報が一致又は類似する音片波形があるか否かを判定する(S304A)。韻律情報が一致するとは、比較する音片波形の音素系列と、各音素の継続時間と、各音素のF0系列とが全て一致することである。韻律情報が類似するとは、比較する音片波形の音素系列は同じであり、対応する各音素の継続時間が所定の誤差以内であり、対応する各音素のF0系列の平均が所定の誤差以内であることである。
上述した、「波形が一致又は類似する」という条件を条件1とし、「韻律情報が一致又は類似する」という条件を条件2とする。条件1が満たされれば、条件2も満たされるが、逆は成立しない。
すなわち、探索部14は条件2を用いて判定することにより、条件1を用いて判定する場合に比べて、記憶部50に記憶させる音片の総データ量を削減することができる。
(変形例2)
本変形例において、探索部14は、音韻情報が一致する音片波形を探索する。
図13は、本例における音声編集装置1の処理を表すフローチャートである。本例では、図3におけるステップS304がステップS304Bに置換されている。探索部14は、全ての音片波形の中に、音韻情報が一致する音片波形があるか否かを判定する(S304B)。音韻情報が一致するとは、比較する音片波形の音素系列と、アクセント音素が一致することである。
上述した、「音韻情報が一致する」という条件を条件3とする。条件2が満たされれば、条件3も満たされるが、逆は成立しない。
すなわち、探索部14は条件3を用いて判定することにより、条件1又は条件2を用いて判定する場合に比べて、記憶部50に記憶させる音片の総データ量を削減することができる。
なお、音韻情報は、音素系列やアクセント音素以外にも、例えばアクセント句境界の情報を含んでいてもよい。アクセント句境界とは、隣接する、一のアクセントを有する句の境界を表す。条件3に、アクセント句境界が一致するという条件を含めてもよい。
(変形例3)
上述した変形例では、生成部12が生成した音声波形を分割部13が音片波形に分割したが、これに限定されない。例えば以下のようにしてもよい。
生成部12は、入力されたテキストから、テキストを音素で表した音素系列の情報を含む音韻情報と、各々の音素の継続時間の情報及び基本周波数の時間変化の情報を含む韻律情報とを生成する。分割部13は、音素系列と、継続時間に基づいて、韻律情報を韻律情報の素片である音片情報に分割する。例えば、無声破裂音やポーズ音素の中間の時刻で分割してもよい。探索部14は、分割されてできた複数の音片情報の中で、少なくとも音素系列と継続時間と基本周波数の時間変化のいずれかが一致又は類似する、少なくとも2つの前記音片情報を探索する。探索部14は、前記音片情報を代表する代表音片情報に対応する波形である音片波形を生成する。すなわち、探索部14は、代表音片情報に含まれる音韻情報と韻律情報に基づいて、規則音声合成方式などの音声合成方法によって、合成音声波形を生成することで、対応する音片波形を生成する。探索部14は、音片波形を記憶部50に記憶する。
(第2の実施の形態)
第2の実施の形態に係る音声編集装置(不図示)は、最も厳しい条件(条件1)を用いて、特徴が一致又は類似する音片波形を探索する。探索後に残った音片波形のデータ量の合計が所定値以下となれば、音片波形を記憶部50に記憶させる。所定の所定値以下とならなければ、次に厳しい条件(条件2)を用いて特徴が一致又は類似する音片波形を探索する。これを繰り返し、記憶部50に記憶させる音片波形のデータ量を制限する。本実施の形態では、探索部14の処理が第1の実施の形態と異なる。
図14は、本実施の形態に係る音声編集装置の処理を表すフローチャートである。ステップS301〜ステップS303とステップS305とステップS306については、第1の実施の形態の場合と同様である。以下説明する。
分割部13から全ての音片波形を受け取った後、探索部14は、条件n(n=1,2,・・・,N)(本実施の形態では、N=3である)の初期値をn=1とする(S1000)。探索部14は、条件nを満たす音片波形があるか否かを判定する(S1001)。第1の実施の形態の場合と同様に、条件nは、条件nを満たせば、条件(n+1)以降の条件も満たされるものとする。
ステップS1001における判定がYESの場合、探索部14は、ステップS305の処理を行ない、残った音片波形のデータ量の合計が所定量以下であるか否かを判定する(S1002)。ステップS1001における判定がNOの場合、探索部14は、ステップS305の処理を行なわず、ステップS1002に遷移する。
ステップS1002における判定がYESの場合、探索部14は、破棄せずに残った音片波形を記憶部50に記憶させ(S306)、処理を終了する。ステップS1002における判定がNOの場合、探索部14は、n=Nであるか否かを判定する(S1003)。
ステップS1003における判定がYESの場合、探索部14は、残った音片波形を記憶部50に記憶させ(S306)、処理を終了する。ステップS1003における判定がYESの場合、探索部14は、nに1を足し(S1004)、ステップS1001に遷移する。
本実施の形態により、記憶部50に記憶させる音片波形のデータ量を段階的に制限することができる。
(第3の実施の形態)
第3の実施の形態に係る音声合成装置3は、上述した実施の形態において、記憶部50に記憶された音片波形を用いて、音声を合成する音声合成装置である。
図15は、音声合成装置3の構成を表すブロック図である。音声合成装置3は、記憶部50と、入力部31と、合成部32と、出力部33とを備える。記憶部50は、上述した実施の形態で生成した音片波形及びその音韻情報を記憶している。入力部31には、ユーザからテキストが入力される。合成部32は、テキストの発音データを生成する。発音データとは、テキストの音韻情報のデータ列を含む。合成部32は、発音データと、記憶部50にある音韻情報とを照らし合わせ、発音データに対応する音片波形を組み合わせて音声波形を合成する。出力部33は、音声波形を音声に変換して出力する。合成部32は、中央演算処理装置(CPU)及びCPUが用いるメモリにより実現されてよい。
本実施の形態により、利用効率の良い音片を用いた音声合成装置を提供することができる。
1 音声編集装置
3 音声合成装置
11、31 入力部
12 生成部
13 分割部
14 探索部
32 合成部
33 出力部
50 記憶部

Claims (8)

  1. 入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、
    前記音声情報から規則音声合成を用いて音声波形を生成し、
    前記音韻情報に基づいて前記音声波形を複数の音片波形に分割し、
    複数の前記音片波形の中で、波形がそれぞれ一致又は類似する2以上の前記音片波形を探索し、
    探索した2つ以上の音片波形から代表音片波形を選択し、
    前記代表音片波形を記憶部に記憶する
    音声編集方法。
  2. 入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、
    前記音声情報から規則音声合成を用いて音声波形を生成し、
    前記音韻情報に基づいて前記音声波形を複数の音片波形に分割し、
    複数の前記音片波形の中で、対応する前記音韻情報がそれぞれ一致し、かつ、対応する前記韻律情報がそれぞれ一致又は類似する2つ以上の前記音片波形を探索し、
    探索した2つ以上の前記音片波形から代表音片波形を選択し、
    前記代表音片波形を記憶部に記憶する、
    音声編集方法。
  3. 前記音片波形に分割する際には、
    前記音韻情報により、無声音区間またはポーズ区間と判定され、かつ前記音声波形の振幅の絶対値が所定の閾値未満となる時刻で、前記音声情報を複数の前記音片波形に分割する、請求項1または請求項2記載の音声編集方法。
  4. 入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、
    前記音韻情報に基づいて前記音声情報を複数の音片情報に分割し、
    複数の前記音片情報の中で、前記音韻情報がそれぞれ一致し、かつ、前記韻律情報がそれぞれ一致又は類似する2つ以上の前記音片情報を探索し、
    探索した2つ以上の前記音片情報を代表する代表音片情報を生成し、
    前記代表音片情報に対応する代表音片波形を、規則音声合成を用いて生成し、
    前記代表音片波形を記憶部に記憶する、
    音声編集方法。
  5. 前記代表音片情報を生成する際には、
    探索した2つ以上の前記音片情報の前記韻律情報を平均化することにより前記代表音片情報の前記韻律情報を生成する、
    請求項4記載の音声編集方法。
  6. 入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、前記音声情報から規則音声合成を用いて音声波形を生成する生成部と、
    前記音韻情報に基づいて前記音声波形を複数の音片波形に分割する分割部と、
    複数の前記音片波形の中で、波形がそれぞれ一致又は類似する2つ以上の前記音片波形を探索し、探索した2つ以上の音片波形から代表音片波形を選択し、前記代表音片波形を記憶部に記憶する探索部と
    を備える、音声編集装置。
  7. 入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、前記音声情報から規則音声合成を用いて音声波形を生成する生成部と、
    前記音韻情報に基づいて前記音声波形を複数の音片波形に分割する分割部と、
    複数の前記音片波形の中で、対応する前記音韻情報がそれぞれ一致し、かつ、対応する前記韻律情報がそれぞれ一致又は類似する2つ以上の前記音片波形を探索し、探索した2つ以上の前記音片波形から代表音片波形を選択し、前記代表音片波形を記憶部に記憶する探索部と
    を備える、音声編集装置。
  8. 入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成する生成部と、
    前記音韻情報に基づいて前記音声情報を複数の音片情報に分割する分割部と、
    複数の前記音片情報の中で、前記音韻情報がそれぞれ一致し、かつ、前記韻律情報がそれぞれ一致又は類似する2つ以上の前記音片情報を探索し、探索した2つ以上の前記音片情報を代表する代表音片情報を生成し、前記代表音片情報に対応する代表音片波形を、規則音声合成を用いて生成し、前記代表音片波形を記憶部に記憶する探索部と
    を備える、音声編集装置。
JP2010202448A 2010-03-26 2010-09-09 音声編集方法、装置及び音声合成方法 Active JP5320363B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010202448A JP5320363B2 (ja) 2010-03-26 2010-09-09 音声編集方法、装置及び音声合成方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010073694 2010-03-26
JP2010073694 2010-03-26
JP2010202448A JP5320363B2 (ja) 2010-03-26 2010-09-09 音声編集方法、装置及び音声合成方法

Publications (2)

Publication Number Publication Date
JP2011221486A JP2011221486A (ja) 2011-11-04
JP5320363B2 true JP5320363B2 (ja) 2013-10-23

Family

ID=44657386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010202448A Active JP5320363B2 (ja) 2010-03-26 2010-09-09 音声編集方法、装置及び音声合成方法

Country Status (2)

Country Link
US (1) US8868422B2 (ja)
JP (1) JP5320363B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120173242A1 (en) * 2010-12-30 2012-07-05 Samsung Electronics Co., Ltd. System and method for exchange of scribble data between gsm devices along with voice
JP5743625B2 (ja) * 2011-03-17 2015-07-01 株式会社東芝 音声合成編集装置および音声合成編集方法
JP5840075B2 (ja) * 2012-06-01 2016-01-06 日本電信電話株式会社 音声波形データベース生成装置、方法、プログラム
CN104240703B (zh) * 2014-08-21 2018-03-06 广州三星通信技术研究有限公司 语音信息处理方法和装置
US11150871B2 (en) * 2017-08-18 2021-10-19 Colossio, Inc. Information density of documents
CN109788308B (zh) * 2019-02-01 2022-07-15 腾讯音乐娱乐科技(深圳)有限公司 音视频处理方法、装置、电子设备及存储介质
US11302300B2 (en) * 2019-11-19 2022-04-12 Applications Technology (Apptek), Llc Method and apparatus for forced duration in neural speech synthesis
KR102222597B1 (ko) * 2020-02-03 2021-03-05 (주)라이언로켓 콜미 서비스를 위한 음성 합성 장치 및 방법

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07210184A (ja) * 1994-01-24 1995-08-11 Matsushita Electric Ind Co Ltd 音声編集合成装置
JPH08263520A (ja) * 1995-03-24 1996-10-11 N T T Data Tsushin Kk 音声ファイル構成方式及び方法
JP3378448B2 (ja) * 1996-09-20 2003-02-17 株式会社エヌ・ティ・ティ・データ 音声素片選択方法,音声合成装置,及び命令記憶媒体
JP3349905B2 (ja) * 1996-12-10 2002-11-25 松下電器産業株式会社 音声合成方法および装置
CN1168068C (zh) * 1999-03-25 2004-09-22 松下电器产业株式会社 语音合成系统与语音合成方法
US6496801B1 (en) * 1999-11-02 2002-12-17 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing concatenated prosodic and acoustic templates for phrases of multiple words
JP4454780B2 (ja) * 2000-03-31 2010-04-21 キヤノン株式会社 音声情報処理装置とその方法と記憶媒体
US6847931B2 (en) * 2002-01-29 2005-01-25 Lessac Technology, Inc. Expressive parsing in computerized conversion of text to speech
US6856958B2 (en) * 2000-09-05 2005-02-15 Lucent Technologies Inc. Methods and apparatus for text to speech processing using language independent prosody markup
JP3981619B2 (ja) * 2002-10-15 2007-09-26 日本電信電話株式会社 収録リスト取得装置と音声素片データベース作成装置、及びそれらの装置プログラム
US6961704B1 (en) * 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech
DE04735990T1 (de) * 2003-06-05 2006-10-05 Kabushiki Kaisha Kenwood, Hachiouji Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm
US20050119890A1 (en) * 2003-11-28 2005-06-02 Yoshifumi Hirose Speech synthesis apparatus and speech synthesis method
JP4328698B2 (ja) * 2004-09-15 2009-09-09 キヤノン株式会社 素片セット作成方法および装置
JP4551803B2 (ja) * 2005-03-29 2010-09-29 株式会社東芝 音声合成装置及びそのプログラム
JP4469883B2 (ja) * 2007-08-17 2010-06-02 株式会社東芝 音声合成方法及びその装置
JP2009271190A (ja) * 2008-05-01 2009-11-19 Mitsubishi Electric Corp 音声素片辞書作成装置及び音声合成装置

Also Published As

Publication number Publication date
US20110238420A1 (en) 2011-09-29
JP2011221486A (ja) 2011-11-04
US8868422B2 (en) 2014-10-21

Similar Documents

Publication Publication Date Title
JP5320363B2 (ja) 音声編集方法、装置及び音声合成方法
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
US7991616B2 (en) Speech synthesizer
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
CN101131818A (zh) 语音合成装置与方法
Bettayeb et al. Speech synthesis system for the holy quran recitation.
CN114678001A (zh) 语音合成方法和语音合成装置
JP5930738B2 (ja) 音声合成装置及び音声合成方法
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP2009133890A (ja) 音声合成装置及びその方法
JPH08263095A (ja) 音声素片選択方法および音声合成装置
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JPH08335096A (ja) テキスト音声合成装置
JP3109778B2 (ja) 音声規則合成装置
JP2001100776A (ja) 音声合成装置
EP1589524B1 (en) Method and device for speech synthesis
JP4287664B2 (ja) 音声合成装置
JP4414864B2 (ja) 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体
Cabral et al. The ADAPT entry to the Blizzard Challenge 2016
Dong et al. A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese.
JP3378448B2 (ja) 音声素片選択方法,音声合成装置,及び命令記憶媒体
JP2000056788A (ja) 音声合成装置の韻律制御方法
JP2003108170A (ja) 音声合成学習方法および音声合成学習装置
JP2003108180A (ja) 音声合成方法および音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110916

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20111125

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20111205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130712

R151 Written notification of patent or utility model registration

Ref document number: 5320363

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350