JP2006189554A - テキスト音声合成方法及びその装置、並びにテキスト音声合成プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

テキスト音声合成方法及びその装置、並びにテキスト音声合成プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2006189554A
JP2006189554A JP2005000498A JP2005000498A JP2006189554A JP 2006189554 A JP2006189554 A JP 2006189554A JP 2005000498 A JP2005000498 A JP 2005000498A JP 2005000498 A JP2005000498 A JP 2005000498A JP 2006189554 A JP2006189554 A JP 2006189554A
Authority
JP
Japan
Prior art keywords
speech
unit
speech unit
fusion
fused
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005000498A
Other languages
English (en)
Other versions
JP4762553B2 (ja
Inventor
Satoshi Furuta
訓 古田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2005000498A priority Critical patent/JP4762553B2/ja
Publication of JP2006189554A publication Critical patent/JP2006189554A/ja
Application granted granted Critical
Publication of JP4762553B2 publication Critical patent/JP4762553B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】従来は、合成音声生成時の音声素片選択時の波形歪計算は音声合成単位であるため、子音部の音質は非常に良いが、母音部の音質が悪いと、代表音声素片選択から除外され、子音部の良い点が反映されず、「子音も母音もそこそこ良い」平均的な品質のものになり、高品質なものは得られない。
【解決手段】複数のトレーニング音声素片から複数の信号波形を切り出し、切り出された信号波形を組み合わせて複数の融合音声素片を生成し、この融合音声素片のピッチおよび継続時間長の少なくとも一方を所定の音声素片の対応パラメータに従って変更して複数の合成音声素片を生成し、生成した複数の合成音声素片と所定の音声素片間の距離を評価し、その評価に基づく融合音声素片を音声素片辞書に記憶し、入力テキストを解析して得られる入力音素に対応した融合音声素片を音声素片辞書から選択して接続し、合成音声を出力する。
【選択図】図1

Description

この発明は、テキスト音声合成に係り、特にピッチ長、継続時間長などの情報から生成する合成音声の品質向上を図るテキスト音声合成技術に関するものである。
任意の文章から人工的に音声信号を作り出すことをテキスト音声合成という。テキスト音声合成は、一般的に言語処理部、音韻処理部(韻律設定)、音声合成部の3つの段階によって行われる。
入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われ、次に音韻処理部においてアクセントやイントネーションの処理が行われて、音韻記号、ピッチ長、継続時間長などの音素環境情報が出力される。そして音素環境情報を根拠に、音声素片辞書に登録された音声素片を選択する。最後に、音声合成部で音韻記号、ピッチ長、継続時間長などの情報から音声を合成する。
このような音声合成の技術分野において、複数のトレーニング音声素片のピッチおよび継続時間長の少なくとも一方に従って、既に生成されている代表音声素片のピッチおよび継続時間長の少なくとも一方を変更し、複数の合成音声素片を生成する。この生成した合成音声素片とトレーニング素片との歪を評価し、歪が最小となる音声素片(これを代表音声素片という)を選択して接続することにより合成音声を出力するものがある。(例えば特許文献1参照)。
ここで、音声素片とは、母音をV、子音をCと表すと、CV、VC、VCV等の音声合成単位で音声信号中から切り出される素片であり、切り出された音声波形またはその波形から何らかの方法で抽出されたパラメータ系列を表している。音素環境は、当該音声素片の環境要因であり、例えば、当該音声素片の音素名、先行する音素、後続する音素、ピッチ周期、ピッチパターン、継続時間長、CとVの音素境界位置、パワー、モーラ数、アクセント位置等の要素が挙げられる。
特開平9−319391号公報(第4頁〜8頁、第1図)
従来の音声合成方法は、以上のように構成されているが、音声素片選択の際の波形歪計算が、CV、VC、VCV等の音声合成単位であるため、CV単位で構成される音声素片の場合を例にとれば、ある代表音声素片候補において、C(子音)部の音質は非常に良い(あるいは変形に強い)が、V(母音)部の音質が悪い(あるいは変形に弱い)と、最終的に選択される代表音声素片からこの音声素片候補は除外されてしまい、C部の音質の良い点が代表音声素片に反映されず、その結果、代表音声素片として選択される音声素片は「子音も母音もそこそこ良い」平均的な品質のものしか得られないという課題がある。
この発明は、前記問題点を解決するためになされたもので、トレーニング音声素片または音声素片辞書から最適音声素片を選択する素片選択過程において、任意の複数の音声波形、あるいは音声波形を構成するパラメータを組み合わせて最適な音声素片を新規に生成することで、高品質の合成音声を可能にする音声合成方法および装置を得ることを目的とする。
また、この発明は、トレーニング音声素片または音声素片辞書から最適音声素片を選択する素片選択過程において、複数の音声素片中の共通部分、例えば、/ma/、/ka/、/ba/における母音音素/a/や、/na/、/ni/、/nu/における子音音素/n/等であって、複数の切り出された音声波形から歪最小となる波形を組み合わせて複数の音声素片の最適な共通部分を生成し、共通部分を縮退化することで、高品質な合成音声を提供しつつ、音声素片の記憶容量を大幅に削減することを可能にする音声合成方法および装置を得ることを目的とする。
この発明に係るテキスト音声合成方法は、
複数のトレーニング音声素片から複数の信号波形を切り出す波形分離ステップと、
前記切り出された複数の信号波形から、任意の1つまたは複数の信号波形を組み合わせて融合することにより複数の融合音声素片を生成する波形融合ステップと、
前記複数のトレーニング音声素片のピッチおよび継続時間長の少なくとも一方に従って、前記生成した融合音声素片のピッチおよび継続時間長の少なくとも一方を変更した複数の合成音声素片を生成する音声素片合成ステップと、
前記複数のトレーニング音声素片のそれぞれに対する、前記生成した複数の合成音声素片のそれぞれとの間の距離を評価し、その評価に基づく融合音声素片を音声素片辞書に保持または記憶する歪み評価ステップと、
前記音声素片辞書に保持または記憶された複数の融合音声素片から、入力テキストを解析して得られる入力音素に対応した融合音声素片を選択して接続することにより合成音声を出力する合成音声生成ステップとを有する。
また、この発明に係るテキスト音声合成装置は、
入力テキストを解析して入力音素を得る韻律設定部と、
複数のトレーニング音声素片から複数の信号波形を切り出し、この複数の信号波形を任意に組み合わせて複数の融合音声素片候補を生成し、この融合音声素片候補のピッチおよび継続時間長の少なくとも一方を前記複数のトレーニング音声素片の何れか1つのピッチおよび継続時間長の少なくとも一方に従って変更した複数の合成音声素片を生成し、この複数の合成音声素片と前記何れか1つのトレーニング音声素片との間の距離を評価し、その評価に基づく融合音声素片を生成する融合音声素片生成手段と、
前記融合音声素片を保持または記憶する融合音声素片記憶手段と、
融合音声素片記憶手段が保持または記憶する融合音声素片から、前記入力音素に対応する融合音声素片を選択する素片選択手段と、
選択された融合音声素片を接続し、合成音声を生成する音声合成手段とを具備する。
また、この発明に係るテキスト音声合成プログラムは、
コンピュータに
入力テキストを解析して入力音素を得る韻律設定手段、
複数のトレーニング音声素片から複数の信号波形を切り出し、この複数の信号波形を任意に組み合わせて複数の融合音声素片候補を生成し、この融合音声素片候補のピッチおよび継続時間長の少なくとも一方を前記複数のトレーニング音声素片の何れか1つのピッチおよび継続時間長の少なくとも一方に従って変更した複数の合成音声素片を生成し、この複数の合成音声素片と前記何れか1つのトレーニング音声素片との間の距離を評価し、その評価に基づく融合音声素片を生成する融合音声素片生成手段、
前記融合音声素片を保持または記憶する融合音声素片記憶手段、
融合音声素片記憶手段が保持または記憶する融合音声素片から、前記入力音素に対応する融合音声素片を選択する素片選択手段、
選択された融合音声素片を接続し、合成音声を生成する音声合成手段として機能させる。
また、この発明に係るテキスト音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体は、
コンピュータを、
入力テキストを解析して入力音素を得る韻律設定手段、
複数のトレーニング音声素片から複数の信号波形を切り出し、この複数の信号波形を任意に組み合わせて複数の融合音声素片候補を生成し、この融合音声素片候補のピッチおよび継続時間長の少なくとも一方を前記複数のトレーニング音声素片の何れか1つのピッチおよび継続時間長の少なくとも一方に従って変更した複数の合成音声素片を生成し、この複数の合成音声素片と前記何れか1つのトレーニング音声素片との間の距離を評価し、その評価に基づく融合音声素片を生成する融合音声素片生成手段、
前記融合音声素片を保持または記憶する融合音声素片記憶手段、
融合音声素片記憶手段が保持または記憶する融合音声素片から、前記入力音素に対応する融合音声素片を選択する素片選択手段、
選択された融合音声素片を接続し、合成音声を生成する音声合成手段として機能させるためのプログラムを記録した。
この発明によれば、トレーニング音声素片から任意の複数の音声波形を組み合わせて、合成音レベルで良好な音質となる音声素片を新規に生成することにより、高品質の合成音声を生成することができる。
また、この発明によれば、複数の切り出された音声波形から、歪最小となる波形を組み合わせて複数の音声素片の最適な共通部分を生成し、共通部分を縮退化することで、高品質な合成音声を提供しつつ、音声素片辞書の記憶容量を大幅に削減することができる。
以下、図面を参照してこの発明の実施の形態を説明する。
実施の形態1.
図1は、この発明の実施の形態1に係る音声合成方法を実現する音声合成装置の構成を示すブロック図である。図1において、1は入力端子、2は言語処理部、3は言語辞書、4は韻律設定部、5は融合音声素片生成部、6は音声素片辞書、7は素片選択部、8は音声合成部、9は出力端子である。
図1において、入力端子1から入力された入力テキスト101は、言語処理部2において言語辞書3を相互参照して形態素解析、構文解析がされ、読みや品詞情報等の解析結果102を出力する。
次に、言語処理部2が出力する解析結果102を元に、韻律設定部4において、音韻系列、アクセントならびにイントネーションの制御処理が行われ、音響的特徴のパラメータ、例えば、音韻記号列、音声素片のピッチパターン、ピッチ周期、ピッチマーク、継続時間長または韻律のパラメータである韻律情報103が設定される。
融合音声素片生成部5では、第1のトレーニング音声素片104と第2のトレーニング音声素片105が入力され、例えば、第2のトレーニング音声素片105からある音韻に属する複数の信号波形を切り出して、任意の1つまたは複数の信号波形を組み合わせて融合することにより、複数の融合音声素片を生成する。さらに、第2のトレーニング音声素片と同一の音韻に属する第1のトレーニング音声素片104を選択し、それら音声素片に含まれるピッチ周期および継続時間長等の情報に従って、第2のトレーニング音声素片105から生成された複数の融合音声素片のピッチ周期および継続時間長等を変更することにより、複数の合成音声素片を生成する。続いて、複数の合成音声素片のそれぞれと第1のトレーニング音声素片104のそれぞれとの歪評価を行い、歪を最小とする融合音声素片106を音声素片辞書6に記憶する。
なお、本実施の形態ではトレーニング音声素片は、人間が発声した自然音声信号を用いている。
また、融合音声素片生成部5の処理については、後に詳細に説明する。
次に、素片選択部7において、韻律情報103と、複数の融合音声素片106を保持または記憶する音声素片辞書6を参照して、音声合成に用いる融合音声素片である代表音声素片107が選択される。
音声合成部8は、韻律情報103に従って、音声素片辞書6から選択された代表音声素片107に対して、ピッチ周期および音韻継続時間長を変更するとともに、素片の接続を行って合成音声信号108を出力端子9に出力する。ここで、ピッチ周期および音韻継続時間長を変更し、音声を合成する方法としては、たとえばLSP(Line Spectral Pair)パラメータ上で合成する残差駆動LSP方法、スペクトルパラメータ上で合成するMBE(Multi Band Excitation)方法、2ピッチ長波形を重畳合成するピッチ波形重畳方法、音素単位等の信号波形を接続合成する波形編集方法など公知の手法を用いることができる。
次に、この発明の特徴をなす融合音声素片生成部5の処理の実施の形態について具体的に説明する。図2のフローチャートは、融合音声素片生成部5の実施の形態1における処理手順を示している。
本実施の形態1における融合音声素片生成処理では、まず、多数の音声データに対して音韻毎にラベリングし、CV、VC、VCV等の合成単位に従って切り出された第1のトレーニング音声素片S1[i](i=1、2、3、…、Ns1)と、同様に切り出された第2のトレーニング音声素片S2[i](i=1、2、3、…、Ns2)を用意する。ただし、Ns1およびNs2はそれぞれのトレーニング音声素片の同一音韻に属する素片の個数である。また、ラベリング時に音声素片毎の音韻情報、ピッチ情報、継続時間長、音素境界情報、その他必要に応じて前後音素環境等の情報も抽出して記憶する。
前記のように第1および第2のトレーニング音声素片を用意した後、まず、波形分離ステップS11で波形分離を行う。本実施の形態では、説明を簡単にするために合成単位をCVとし、また、音声素片の信号波形分離位置をCとVの音素境界位置(以下、CV境界とする)に設定し、C部の信号波形(以下、C素片とする)とV部の信号波形(以下、V素片とする)の2個に分離するものとして以下の説明を行う。
波形分離ステップS11では、第2のトレーニング音声素片S2[i]から各音声素片のCV境界に従ってC素片SC[j](j=1、2、3、…、Ns2)、V素片SV[k](k=1、2、3、…、Ns2)に分離する。例えばCV素片の音韻が/ma/の場合では、C素片は/m/の音素波形、V素片は/a/の音素波形である。また、C素片、V素片の分離に伴い、C素片およびV素片のピッチ情報、継続時間長、前後音素環境等の情報を記憶する。
続いて、波形融合ステップS12では、波形分離ステップS11で分離されたC素片SC[j]とV素片SV[k]から同一音韻に属するものを任意に選択し、融合音声素片SM[jk](j=1、2、3、…、Ns2、k=1、2、3、…、Ns2)を生成する。ここで、SM[jk]はj番目のC素片とk番目のV素片とを接続・融合したCV音声素片である。なお、融合音声素片SM[jk]のピッチについては、C素片およびV素片のピッチ情報をそれぞれC部のピッチとV部のピッチとして継承し、同じく継続時間長については、C素片の継続時間長とV素片の継続時間長の合計値を融合音声素片の継続時間長としている。
前記の融合音声素片SM[jk]を生成する際に、C素片とV素片との接続部の不連続を軽減するために補間処理を行ってもよい。補間処理の例として、フレーム間のパワーや振幅の線形補間、移動平均、Lagrangeの補間多項式を利用した方法等を用いることができる。
音声素片合成ステップS13では、第1のトレーニング音声素片S1[i]のピッチおよび継続時間長に等しくなるように、融合音声素片SM[jk]のピッチおよび継続時間長を変更して音声合成を行って、合成音声素片G[jk、i](j=1、2、3、…、Ns2、k=1、2、3、…、Ns2、i=1、2、3、…、Ns1)を生成する。ここで、融合音声素片の音韻が/ma/の場合には、第1のトレーニング音声素片S1[i]も同一の音韻/ma/のCV素片を用いる。
歪評価ステップS14では、合成音声素片G[jk、i]の歪評価を行う。この歪評価は合成音声素片G[jk、i]と第1のトレーニング音声素片S1[i]との距離e[jk、i] (j=1、2、3、…、Ns2、k=1、2、3、…、Ns2、i=1、2、3、…、Ns1)を評価することで行う。距離e[jk、i]は、例えば、合成音声素片G[jk、i]の信号波形と第1のトレーニング音声素片S1[i]の信号波形の2乗誤差や、合成音声素片G[jk、i]および第1のトレーニング音声素片S1[i]をFFT(Fast Fourier Transform)等を用いて、パワースペクトルに変換し、スペクトル間の2乗誤差を用いることができる。あるいは、LSPパラメータ、ケプストラムパラメータ等の公知のパラメータを用いたそれぞれの素片間の距離であっても良い。また、合成音声素片と第1のトレーニング音声素片を、例えば帯域通過フィルタ処理し、帯域毎に適した別の評価方法を用いても良い。帯域毎に適した評価方法により歪評価を行うことにより、さらに詳細な歪評価が可能となり、合成音声の品質を向上することができる。
また、CV境界近傍やスペクトルが大きく変動する部分、例えば、語頭・語尾など音声の立ち上がり・立下り部分や音韻変化過渡部においては、他の部分より大きく重み付けして距離e[jk、i]を評価してもよい。波形融合点であるCV近傍等を大きく重み付けして距離e[jk、i]を評価することにより、波形融合による波形不連続に起因する歪に大きく重み付けして評価することができるので、劣化した融合音声素片の生成を抑制することができ、合成音声の品質を向上することができる。
さらに、合成音声素片G[jk、i]と第1のトレーニング音声素片S1[i]との距離e[jk、i]を評価する際に、合成音声素片G[jk、i]と第1のトレーニング音声素片S1[i]に対して、なんらかの聴覚的重み付けフィルタ処理を行っても良い。聴覚重み付けの方法としては、例えばLPC(Linear Predictive Coefficient)パラメータ等を用いた逆フィルタ処理による方法等の公知の方法を用いることができる。この聴覚重み付け処理はトレーニング音声素片に予め処理しておくことで計算を省力化することができる。
このとき、音声素片辞書6へは聴覚重み付け処理を行っていないトレーニング音声素片から、前記歪最小となる融合音声素片のみを生成して出力する。
また、前記の距離e[jk、i]に対して、聴覚重み付けフィルタを構成する関数を距離計算の重み付け関数として組み込んでもよい。聴覚重み付け処理を行うことで、聴覚的に重要な部分を重視した歪評価が可能となり、さらに合成音声の品質を向上することができる。
総合評価ステップS15では、歪評価ステップS14にて合成音声素片G[jk、i]の全ての歪評価を行った後、式(1)、(2)に従って、融合音声素片SM[jk]の波形変形歪を表す総合歪E[jk](j=1、2、3、…、Ns2、k=1、2、3、…、Ns2)を求める。
Figure 2006189554
ここで、w(ij)は第1のトレーニング音声素片S1[i]と第2のトレーニング音声素片S2[i]の関係から導出される重み付け関数であり、F01[i]は第1のトレーニング音声素片S1[i]の平均ピッチ周期、F02[i]は第2のトレーニング音声素片S2[i]の平均ピッチ周期である。また、Wcは所定の重み係数であり、音韻毎に実験的に好適な値を設定する。
以上、第2のトレーニング音声素片S2[i]から得られた、C素片SC[j]とV素片SV[k]の全ての組み合わせによる融合音声素片SM[jk]の総合歪E[jk]を評価し、総合歪が最小となるC素片SC[j]とV素片SV[k]の組み合わせで構成される融合音声素片106を、音声素片辞書6へ出力する。前記のステップS11〜S15の工程を、音声合成に用いるのに必要な全ての音韻に対し、第1のトレーニング音声素片104と第2のトレーニング音声素片105を、当該音韻のものに取り替えて順次実施することで音声素片辞書6を構築する。
なお、本実施の形態においては、説明の簡略化のために波形分離位置をCV境界丁度としているが、音韻毎に調音結合等を考慮して波形分離位置を移動・調整してもよい。
また、上述の総合歪E[jk]あるいは距離e[jk、i]が小さくなるように、音声素片毎に波形分離位置をCV境界の前後にトラッキング(微調整)してもよい。図3はこのときの融合音声素片生成部5の処理の変形例であり、総合評価ステップS15から波形分離ステップS11に戻るフィードバックループを形成し、判断ステップS16にて総合歪あるいは距離が最小と判断されるまで、ステップS11からステップS15までの処理を順次実施することとなる。
本実施の形態においては、説明の簡略化のために合成単位をCV素片として説明を行ったが、VC、VCV、CVCといったような合成単位にも勿論適用できる。また、例えば、/myo/のような半母音/yo/を含む音声素片においては、/m/、/y/、/o/と3分割してそれぞれを組み合わせることで融合音声素片を作成することも可能である。また、半音素単位で/-m/、/m-y/、/y-o/、/o-/と4分割してもかまわない。
本実施の形態においては、有声子音/ma/の場合について例示したが、例えば、無声子音/sa/等のCV素片にこの発明を適用しても良いし、単独母音/a/において、ある/a/の音素と別の/a/の音素を接続して/a/の長音を生成(VV素片)する場合にもこの発明は適用可能である。さらに単独子音の場合も単独母音の場合と同様に長音を生成(CC素片)することができる。すなわち、C、V単独音素に対応できるので、単独のC、Vを合成単位とする(単音素単位)の音声合成方法にも適用可能である。
さらに、C、V、CVといった合成単位よりももっと細分化された単位、例えば、2ピッチ長波形重畳合成方法に用いられる2ピッチ長波形を素片組み合わせ単位と見なし、この2ピッチ長波形単位で組み合わせて融合音声素片を生成したり、また、音声素片の時間軸信号を5ms単位のフレームに分割し、そのフレーム単位に分析したLSPパラメータなどのパラメータレベルで組み合わせて融合音声素片を生成しても良い。
また、歪評価の際に、ある音韻において、融合音声素片を用いて合成音声素片を生成した場合と、従来の融合しない音声素片にて合成音声素片を生成した場合とを比較し、従来の融合音声素片を用いない場合の方が歪が小さくなる場合には、当該音韻に関しては融合音声素片を用いずに通常の音声素片を選択することも可能である。
本実施の形態1の構成をとることにより、例えば、トレーニング音声素片の個数が十分用意できない場合でも、任意に波形を組み合わせて融合音声素片を生成して音声素片とすることで、音声素片のバリエーションを増やすことができ、品質の高い合成音声を生成することができる。
実施の形態2.
前記実施の形態1にて示した融合音声素片生成部5において、第2のトレーニング音声素片数がNs2個の場合、(Ns2)×(Ns2)通りの組み合わせの融合音声素片の歪評価が必要であり、Ns2が大きくなると飛躍的に処理量が増大するが、融合音声素片の組み合わせに用いる音声素片を予備選択することで、融合音声素片評価に対する処理量を削減することができる。
図4は、融合音声素片生成部5の別の実施の形態の処理手順を示すフローチャートである。図4において、予備選択ステップS21が波形分離ステップS11の処理の前にあり、他は図2の処理と同様に構成される。
予備選択ステップS21では、所定の予備選択方法により、第2のトレーニング音声素片から、融合音声素片の生成候補として好適な音声素片のみ選択し、この選択された音声素片に対して波形分離、波形融合の処理を施し、音声素片合成ステップS13へ出力する。また、適宜、第1のトレーニング音声素片も同様に予備選択し、好適な音声素片のみ音声素片合成ステップS13へ出力してもかまわない。
予備選択方法として、例えば、従来の代表音声素片選択方法により選択された上位の音声素片(合成音声レベルでの歪が小さい音声素片)を用いたり、ピッチ周期または継続時間長が所定範囲の音声素片だけや、前後音素環境が同じもの、あるいは、スペクトルが近似している(スペクトル上の距離が一定範囲内など)音声素片だけ選択する等で実施可能である。
また、別の予備選択方法として、音質が悪い音声素片を公知の手法を用いて事前に排除(スクリーニング)することでも実行可能である。音質の悪い音声素片として、例えば、パワーが小さい、信号波形・ピッチ周期・パワーが乱れている音声素片、ラベリング時に有声・無声判定やピッチ抽出を誤っている音声素片、あるいは、ピッチ周期が平均値から大きく外れていたり、継続時間長が短すぎたり長すぎたりして音声合成に用いるには不適当な音声素片等が挙げられる。
続いて、予備選択ステップS21から出力された、予備選択後のトレーニング音声素片に対し、ステップS11、ステップS12、ステップS13、ステップS14、ステップS15を実施の形態1と同様に順次実行し、作成された融合音声素片106を音声素片辞書6へ出力する。
なお、本実施の形態2においては、説明の簡略化のために波形分離位置をCV境界丁度としているが、音韻毎に調音結合等を考慮して波形分離位置を移動・調整してもよい。
また、本実施の形態2においても、先の実施の形態1と同様に、総合歪E[jk]あるいは距離e[jk、i]が小さくなるように、音声素片毎に波形分離位置をCV境界の前後にトラッキング(微調整)してもよい。図5はこのときの融合音声素片生成部5の処理の別の変形例であり、総合評価ステップS15から波形分離ステップS11に戻るフィードバックループを形成し、判断ステップS16にて総合歪あるいは距離が最小と判断されるまで、ステップS11からステップS15までの処理を順次実施することとなる。
前記のように、融合音声素片の組み合わせに用いる音声素片を予備選択することで、融合音声素片評価に対する処理量を削減する効果を奏すると共に、音質の悪い第2のトレーニング音声素片を排除することができ、合成音声の品質を向上することができる。
さらに、融合音声素片のリファレンス(教師データ)となる第1のトレーニング音声素片も予備選択することで、歪評価時においてその処理量を削減する効果を奏すると共に、音質が悪い第1のトレーニング音声素片を排除することができ、合成音声の品質を向上することができる。
実施の形態3.
また、実施の形態2の別の形態として、C素片とV素片を分離した後に、それぞれの素片別に予備選択を実施することも可能である。
図6は、融合音声素片生成部5の別の実施の形態の処理手順を示すフローチャートである。図6において、まず、波形分離ステップS11により、第2のトレーニング音声素片の波形分離を行い、その後、予備選択ステップS21において、C素片、V素片に対しそれぞれ独立した予備選択が実行され、以下、実施の形態1と同様にステップS12、ステップS13、ステップS14、ステップS15を順次実行し、作成された融合音声素片106を音声素片辞書6へ出力する。
予備選択方法として、例えば、従来の代表素片選択方法によりそれぞれの上位候補を選定し、それぞれの上位候補で融合音声素片を生成する方法など、前記実施の形態2の予備選択ステップS21で用いているのと同様の方法を用いることができる。
本実施の形態3においても、先の実施の形態2と同様に、音韻毎に調音結合等を考慮して波形分離位置を移動・調整してもよいし、総合歪E[jk]あるいは距離e[jk、i]が小さくなるように、音声素片毎に波形分離位置をCV境界の前後にトラッキング(微調整)してもよい。
波形分離した後に、分離後の波形別に独立して予備選択を行うことで、融合音声素片の歪評価に対する処理量を削減する効果を奏すると共に、音質が悪いトレーニング音声素片を排除することができ、合成音声の品質を向上することができる。
実施の形態4.
前記実施の形態1の変形例として、CV素片のC素片とV素片を、他の音韻のそれらと共有化することで、合成音声の品質を維持したまま音響辞書のサイズを大幅に削減したり、音素を共通化できるため聴感上の合成音声の安定化を図ることが可能である。
図7は、この発明の実施の形態4に係る音声合成方法を実現するテキスト音声合成装置の構成を示すブロック図である。図1と同一部分については同一の参照符号を付して説明を省き相違点を説明する。本実施の形態では、第2のトレーニング音声素片105から複数の共通化音声素片候補201および複数の非共通化音声素片候補202を生成し出力する共通音声素片生成具21と、第1のトレーニング音声素片104および複数の共通化音声素片候補201と複数の非共通化音声素片候補202を入力し、共通化音声素片203および非共通化音声素片204を出力する融合音声素片生成具22が備えられており、共通音声素片生成具21と融合音声素片生成具22で融合音声素片生成部5を構成している点がこれまでの実施の形態と異なる処である。
共通音声素片生成具21では、第2のトレーニング音声素片105から、例えば、音韻中の音素名が共通する複数の信号波形を切り出して、複数の共通化音声素片候補201および複数の非共通化音声素片候補202を生成し出力する。ここで、共通化音声素片とは、例えば有声子音/ma/、/za/、/na/等のグループにおいて、共通音素名である母音部/a/の音声素片波形を示し、非共通化音声素片とは、各子音部/m/、/z/、/n/等の音声素片波形のことを示す。
融合音声素片生成具22には、第1のトレーニング音声素片104と、共通音声素片生成具21において第2のトレーニング音声素片105から生成された共通化音声素片候補201および非共通化音声素片候補202が入力される。入力された共通化音声素片候補201および非共通化音声素片候補202から、任意の1つまたは複数の信号波形を組み合わせて融合することにより、複数の融合音声素片を生成する。さらに、融合音声素片と同一の音韻に属する第1のトレーニング音声素片104を選択し、それら音声素片に含まれるピッチ周期および継続時間長等の情報に従って、複数の融合音声素片のピッチ周期および継続時間長等を変更することにより、複数の合成音声素片を生成する。
続いて、複数の合成音声素片のそれぞれと第1のトレーニング音声素片104のそれぞれとの歪評価を行う。歪評価は共通化対象である音韻に属する全ての音素に対して実施し、最も歪を最小とする共通化部分の音声素片を共通化音声素片203として音声素片辞書6に記憶する。また、共通化音声素片203を用いたときに、各音韻単位で歪が最小となる共通化部分以外の音声素片を非共通化音声素片204として音声素片辞書6に記憶する。
素片選択部7では、共通化音声素片203および非共通化音声素片204を保持または記憶する音声素片辞書6と韻律情報103を参照して、韻律情報103が持つ音韻記号列に従って、共通化音声素片203と非共通化音声素片204を選択して該当する融合音声素片を生成し、音声合成に用いる代表音声素片107として出力する。
図8のフローチャートは、共通音声素片生成具21ならびに融合音声素片生成具22、即ち融合音声素片生成部5の実施の形態4における処理手順を示している。この実施の形態4における融合音声素片生成処理では、前出の実施の形態1の融合音声素片生成部5における処理と同様に、まず、多数の音声データに対して音韻毎にラベリングし、CV、VC、VCV等の合成単位に従って切り出された複数音韻の第1のトレーニング音声素片S1[i]|ph(i=1、2、3、…、Ns1、ph=音韻名)と、同様に切り出された複数音韻の第2のトレーニング音声素片S2[i]|ph(i=1、2、3、…、Ns2、ph=音韻名)を用意する。ただし、Ns1およびNs2はそれぞれのトレーニング音声素片の同一音韻に属する音声素片の個数である。また、ラベリング時に音声素片毎の音韻情報、ピッチ情報、継続時間長、音素境界情報、その他必要に応じて前後音素環境等の情報も抽出して記憶する。
なお、以下の説明の便宜上、他の音韻に対する、第1および第2のトレーニング音声素片の個数もそれぞれNs1およびNs2とするが、この定義はこの発明の範囲を狭めるものではなく、任意の個数を取ることができる。
前記のように第1および第2のトレーニング音声素片を用意した後、まず、波形分離ステップS11および共通素片抽出ステップS41において、共通音声素片生成具21における第2のトレーニング音声素片105の内部処理を実行する。本実施の形態では、先の実施の形態1と同様に合成単位をCVとし、また、音声素片の信号波形分離位置をCV境界に設定して、C素片とV素片の2個に分離するものとして以下の説明を行う。
波形分離ステップS11では、第2のトレーニング音声素片S2[i]|phから各音声素片のCV境界に従ってC素片SC[j]|ph(j=1、2、3、…、Ns2、ph=音素名)、V素片SV[k]|ph(k=1、2、3、…、Ns2、ph=音素名)に分離する。また、C素片、V素片の分離に伴い、C素片およびV素片のピッチ情報、継続時間長、前後音素環境等の情報を記憶する。また、非共通化音声素片候補202であるC素片SC[j]|phを出力する。
共通素片抽出ステップS41では、例えば/a/を共通化要素として、/a/が存在する音韻、すなわち、/ma/、/ba/、/na/、/sa/等の音声素片から、波形分離ステップS11で分離されたV素片SV[k]|phを参照して/a/の波形信号を取り出して、共通化音声素片候補201であるA[k](k=1、2、3、…、NA)を生成する。ただし、NAは共通化音声素片候補の個数である。
続いて、波形融合ステップS12、音声素片合成ステップS13、歪評価ステップS14、総合評価ステップS15では、融合音声素片生成具22の内部処理を実行する。
波形融合ステップS12では、波形分離ステップS11で分離された非共通化音声素片候補202であるC素片SC[j]|phと、共通素片抽出ステップS41で生成された共通化音声素片候補201であるA[k]を任意に選択し、融合音声素片SM[jk]|ph(j=1、2、3、…、Ns2、k=1、2、3、…、NA、ph=音韻名)を生成する。ここでSM[jk]|ph=maは、/ma/のj番目のC素片(/m/)と、k番目の共通化素片候補(/a/)とを接続・融合したCV音声素片/ma/を表している。なお、融合音声素片SM[jk]|phのピッチについては、C素片および共通化音声素片候補のピッチ情報をそれぞれC部のピッチとV部のピッチとして継承し、同じく継続時間長については、C素片の継続時間長と共通化音声素片候補の継続時間長の合計値を融合音声素片の継続時間長としている。
前記の融合音声素片SM[jk]|phを生成する際に、C素片と共通化音声素片候補との接続部の不連続を軽減するために補間処理を行ってもよい。補間処理の例として、フレーム間のパワーや振幅の線形補間、移動平均、Lagrangeの補間多項式を利用した方法等を用いることができる。
音声素片合成ステップS13では、第1のトレーニング音声素片S1[i]|phのピッチおよび継続時間長に等しくなるように、融合音声素片SM[jk]|phのピッチおよび継続時間長を変更して音声合成を行って、合成音声素片G[jk、i]|ph(j=1、2、3、…、Ns2、k=1、2、3、…、NA、i=1、2、3、…、Ns1、ph=音韻名)を生成する。ここで、融合音声素片の音韻が/ma/の場合には、同一の音韻/ma/のCV素片である第1のトレーニング音声素片S1[i]|ph=maを用いて音声合成し、合成音声素片G[jk、i]|ph=maと記す。同様に、融合音声素片が/ba/の場合には、第1のトレーニング音声素片も/ba/のCV素片を用いて合成音声素片G[jk、i]|ph=baと記し、全ての音韻に対する合成音声素片を生成する。
歪評価ステップS14では、合成音声素片G[jk、i]|phの歪評価を行う。この歪評価は合成音声素片G[jk、i]|phと第1のトレーニング音声素片S1[i]|phとの距離e[jk、i]|phを評価することで行う。距離e[jk、i]|phは、例えば、合成音声素片G[jk、i]|phの信号波形と第1のトレーニング音声素片S1[i]|phの信号波形の2乗誤差や、合成音声素片G[jk、i]|phおよび第1のトレーニング音声素片S1[i]|phをFFT(Fast Fourier Transform)等を用いて、パワースペクトルに変換し、スペクトル間の2乗誤差を用いることができる。あるいは、LSPパラメータ、ケプストラムパラメータ等の公知のパラメータを用いたそれぞれの素片間の距離であっても良い。また、合成音声素片と第1のトレーニング音声素片を、例えば帯域通過フィルタ処理し、帯域毎に適した別の評価方法を用いても良い。帯域毎に適した評価方法により歪評価を行うことにより、さらに詳細な歪評価が可能となり、合成音声の品質を向上することができる。
また、CV境界近傍やスペクトルが大きく変動する部分、例えば、語頭・語尾など音声の立ち上がり・立下り部分や音韻変化過渡部においては、他の部分より大きく重み付けして距離e[jk、i]|phを評価してもよい。波形融合点であるCV近傍等を大きく重み付けして距離e[jk、i]|phを評価することにより、波形融合による波形不連続に起因する歪に大きく重み付けして評価することができるので、劣化した融合音声素片の生成を抑制することができ、合成音声の品質を向上することができる。
さらに、合成音声素片G[jk、i]|phと第1のトレーニング音声素片S1[i]|phとの距離e[jk、i]|phを評価する際に、合成音声素片G[jk、i]|phと第1のトレーニング音声素片S1[i]|phに対して、なんらかの聴覚的重み付けフィルタ処理を行っても良い。聴覚重み付けの方法としては、例えばLPC(Linear Predictive Coefficient)パラメータ等を用いた逆フィルタ処理による方法等の公知の方法を用いることができる。この聴覚重み付け処理はトレーニング音声素片に予め処理しておくことで計算を省力化することができる。このとき、音声素片辞書6へは聴覚重み付け処理を行っていないトレーニング音声素片から、前記歪最小となる融合音声素片のみを生成して出力する。また、前記の距離e[jk、i]|phに対して、聴覚重み付けフィルタを構成する関数を距離計算の重み付け関数として組み込んでもよい。聴覚重み付け処理を行うことで、聴覚的に重要な部分を重視した歪評価が可能となり、さらに合成音声の品質を向上することができる。
総合評価ステップS15では、歪評価ステップS14にて合成音声素片G[jk、i]|phの全ての歪評価を行った後、式(3)、(4)に従って、融合音声素片SM[jk]|phの波形変形歪を評価して、共通化音声素片203および非共通化音声素片204を音声素片辞書6へ出力する。
Figure 2006189554
まず、共通化音声素片を決定するために、第2のトレーニング音声素片S2[i]|phから得られた、C素片SC[j]|phと共通化音声素片A[k]の全ての組み合わせによる融合音声素片SM[jk]|phの音韻別歪Ep[jk]|phを式(3)から求める。音韻別歪Ep[jk]|phを求めた後、全ての音韻に対する総合歪EA[k]を式(4)で求め、総合歪EA[k]が最小となる共通化音声素片候補A[k]を共通化音声素片203として音声素片辞書6に記憶する。
続いて、共通化音声素片A[k]が求まった後、各音韻において決定した共通化音声素片に対応する合成音声素片G[jk、i]|phを再評価し、各音韻別に歪が最小となるC素片を、非共通化音声素片204として音声素片辞書に記憶する。以上、前記のステップS11、S41およびS12〜S15の工程を、全ての共通化音素に対して順次実施することで音声素片辞書6を構築する。
なお、本実施の形態4においては、説明の簡略化のために波形分離位置をCV境界丁度としているが、音韻毎に調音結合等を考慮して波形分離位置を移動・調整してもよい。
本実施の形態4においても、先の実施の形態1と同様に、総合歪EA[k]あるいは距離e[jk、i]|phが小さくなるように、音声素片毎に波形分離位置をCV境界の前後にトラッキング(微調整)してもよい。
図9は、このときの共通音声素片生成具21と融合音声素片生成具22の処理の別の変形例であり、総合評価ステップS15と、波形分離ステップS11との間にフィードバックループを形成し、判断ステップS16にて総合歪あるいは距離が最小と判断されるまで、ステップS11、S41およびS12〜S15までの処理を順次実施することとなる。
本実施の形態4においては、母音/a/について共通化を行った一例を提示しているが、例えば、/ma/、/mi/、/mu/、/me/、/mo/等の有声子音の子音部/m/等についても共通化可能である。また、無声子音/sa/、/shi/、/su/、/se/、/so/等の無声子音についてもこの発明は適用可能である。さらに、/m/等のC素片と/a/等のV素片をそれぞれ共通化し、C素片とV素片の渡りの部分(/m-a/)、すなわち、音韻過渡部だけを非共通化音声素片とすることも可能である。
本実施の形態4においては、説明の簡略化のために合成単位をCV素片として説明を行ったが、VC、VCV、CVCといったような合成単位にも勿論適用できる。また、例えば、/myo/のような半母音/yo/を含む音声素片においては、/m/、/y/、/o/と3分割してそれぞれを組み合わせることで融合音声素片を作成することも可能である。また、半音素単位で/-m/、/m-y/、/y-o/、/o-/と4分割してもかまわない。
さらに、C、V、CVといった合成単位よりももっと細分化された単位、例えば、2ピッチ長波形重畳合成方法に用いられる2ピッチ長波形を素片組み合わせ単位と見なし、この2ピッチ長波形単位で組み合わせて共通化音声素片を生成したり、また、音声素片の時間軸信号を5ms単位のフレームに分割し、そのフレーム単位に分析したLSPパラメータなどのパラメータレベルで組み合わせて共通化音声素片を生成しても良い。
また、歪評価の際に、ある音韻において、共通化音声素片を用いて合成音声素片を生成した場合と、共通化音声素片を用いない、すなわち通常の融合音声素片にて合成音声素片を生成した場合とを比較し、共通音声素片を用いない場合の方が歪が小さくなる場合には、当該音韻に関しては共通化音声素片を用いずに通常の融合音声素片を選択することも可能である。
本実施の形態4の構成をとることにより、例えば、トレーニング素片の個数が十分用意できない場合でも、任意に波形を組み合わせて融合音声素片を生成して音声素片とすることで、音声素片のバリエーションを増やすことができ、品質の高い合成音声を生成することができる。
また、本実施の形態4の構成をとることにより、CV素片のC素片とV素片を、他の音韻のそれらと共通化することで共通部分を縮退化きるので、合成音声の品質を維持したまま音響辞書のメモリ量を大幅に削減したり、さらに、音素を共通化できるため聴感上の合成音声の安定化を図ることが可能となる。
実施の形態5.
実施の形態4の別の実施の形態5として、先の実施の形態2と同様に、共通化音声素片、融合音声素片の組み合わせに用いる音声素片を予備選択してもよい。予備選択することで融合音声素片評価に対する処理量を削減できるとともに、音質が悪いトレーニング音声素片を排除することができ、合成音声の品質を向上することができる。
実施の形態6.
前記実施の形態1では、第1のトレーニング音声素片104中の音声素片が保持するピッチ周期および音韻継続時間長に従って融合音声素片106を生成したが、所定の規則により生成されたピッチおよび継続時間長、例えば、韻律設定部4が出力する入力テキストのピッチ周期および音韻継続時間長に従って融合音声素片を変形して合成音声素片を生成し、韻律設定部4の出力するピッチ周期および音韻継続時間長との差が最小となる音声素片を、第1のトレーニング音声素片104から抽出して、抽出された第1のトレーニング音声素片のピッチおよび継続時間長と合成音声素片との歪評価を行うことも可能である。
図10は、この発明の実施の形態6に係る音声合成方法を実現する音声合成装置の構成を示すブロック図である。図1と同一部分については同一の参照符号を付して説明を省き相違点を説明する。本実施の形態では、韻律設定部4が出力する韻律情報103が、融合音声素片生成部5へ入力されていることが、これまでの実施の形態と異なる点である。
まず、入力端子1より、入力テキスト101として例えば「山の景色を見る」を入力する。言語処理部2では、言語辞書3を相互参照して入力テキスト101の解析を行い解析結果102を出力する。韻律設定部4では音韻系列、アクセントならびにイントネーションの制御処理が行われ、音響的特徴のパラメータ、例えば、音韻記号列、音声素片のピッチパターン、ピッチ周期、ピッチマーク、継続時間長または韻律のパラメータである韻律情報103が設定される。なお、入力テキストとして入力された「山の景色を見る」は、例えばCVを合成単位とした場合、式5のような音韻記号列に分解される。
Figure 2006189554
融合音声素片生成部5では、前記の音韻記号列の各音韻/ya/、/ma/、…に対応する韻律情報103に従って、順次第2のトレーニング音声素片105から融合音声素片を生成し、第1のトレーニング音声素片104から韻律情報103に最も適した各々の音声素片を選択して、前記融合音声素片との歪評価を行い、歪を最小とする融合音声素片106を音声素片辞書6に記憶する。
図11は、本実施の形態における融合音声素片生成部5の処理手順を示すフローチャートである。図11のフローチャートは、図2で説明したステップS11、ステップS12、ステップS13、ステップS14、ステップS15と、新規要素である評価素片選択ステップS51により構成される。
図11より、まず、波形分離ステップS11により、第2のトレーニング音声素片105の波形分離を行い、波形融合ステップS12で融合音声素片を生成する。音声素片合成ステップS13では、各音韻に対応した韻律情報103に含まれるピッチ周期および継続時間長に従って、前記生成された融合音声素片のピッチ周期および継続時間長等を変更することにより、合成音声素片を生成する。
続いて、評価素片選択ステップS51では、前記生成された合成音声素片の歪評価を行うために、第1のトレーニング音声素片104から、各音韻に対応した韻律情報103に含まれるピッチ周期および継続時間長に近似した音声素片を選択・抽出する。言い換えれば、合成音声素片が持つピッチパターンと継続時間長に近似した音声素片を選択する。
第1のトレーニング音声素片104から、歪評価に用いる音声素片を選択する方法として、例えば、下記式6に示すピッチ周期と継続時間長の重み付き2乗誤差Ed[i]を用い、Ed[i]が所定の閾値以下の音声素片を選択することで実施できる。
Figure 2006189554
ここで、F0ruleは、韻律情報103に含まれるピッチ周期系列を示すM個の配列であり、F0rule[j]はそのj番目の要素を示す。また、F0[i](i=1、2、3、…、Ns1)は、F0ruleの配列長にあわせて正規化した(M次元化)した第1のトレーニング音声素片104のピッチ周期系列の配列であり、F0[i][j]はF0[i]のj番目の要素を示す。同様にDURruleは韻律情報103に含まれる継続時間長を示し、DUR[i](i=1、2、3、…、Ns1)は第1のトレーニング音声素片104の継続時間長である。wfおよびwdは所定の重み係数であり、例えば、wf=0.8、wd=0.2である。
歪評価ステップS14では、評価素片選択ステップS51にて選択された音声素片と、音声素片合成ステップS13にて生成された合成音声素片との歪評価を各音韻毎に実行する。
以上、前記の「山の景色を見る」に続いて、大量の任意の入力テキストを順次入力して、言語処理部2、韻律設定部4および融合音声素片生成部5のステップS11〜S13,S51,S14〜S15の処理を順次実行し、各音韻毎にステップS14で得られた歪評価を集計する。総合評価ステップS15ではこうして得られた歪評価を元に、最終的に歪が最小となる融合音声素片106を各音韻毎に音声素片辞書6に記憶する。
なお、評価素片選択ステップS51において用いられた、ピッチ周期系列および継続時間長については、所定の規則によって生成された韻律情報の代わりに、自然音声から抽出されたピッチ周期系列および継続時間長、すなわち自然韻律を用いることもできる。
実施の形態6の構成をとることにより、韻律設定部4により生成された韻律情報103に則した音声素片のみを評価することができるので、さらに合成音声の品質を向上させることができるとともに、韻律情報103が対応しないトレーニング音声素片との歪評価を行わずに済むので、処理量を削減する効果がある。
実施の形態7.
実施の形態6の別の実施の形態7として、先の実施の形態2と同様に、融合音声素片の組み合わせに用いる音声素片を予備選択してもよい。予備選択することで融合音声素片評価に対する処理量を削減できるとともに、音質が悪いトレーニング音声素片を排除することができ、合成音声の品質を向上することができる。
実施の形態8.
前記の実施の形態1において、音声素片辞書6に格納されている融合音声素片は、メモリ量や通信情報量を削減するために圧縮処理を行ってもよい。
図12は、この発明の実施の形態8に係る音声合成方法を実現する音声合成装置の構成を示すブロック図である。図1と同一部分については同一の参照符号を付して説明を省き相違点を説明する。本実施の形態では、融合音声素片生成部5が出力する融合音声素片106を符号化した符号化音声素片301を音声素片辞書6に保持させる符号化部31と、音声素片辞書6からの符号化音声素片301を復号する復号化部32が備えられている点がこれまでの実施の形態と異なる。
融合音声素片生成部5の出力である融合音声素片106が符号化部31へ入力され、所定の圧縮方法にてデータ圧縮あるいは符号化処理が実施されて符号化音声素片301とされ、この符号化音声素片301が音声素片辞書6に出力される。素片選択部7は韻律情報103に従って音声素片辞書6に保持されている符号化音声素片301を復号化部32へ入力し、復号化部32でデータ伸長あるいは復号化処理が行われ、復号化音声素片302を得て素片選択・接続処理をし、音声合成部8で音声合成して合成音声108を得て出力端子9より出力する。
ここで、融合音声素片106が音声素片辞書6に格納されるパラメータまたは波形信号を圧縮する方法として、例えばハフマン圧縮やLZ(Lempel-Ziv)法あるいはその他公知のデータ可逆圧縮方法を用いて可逆圧縮しても良いし、前記のLSPパラメータやスペクトルパラメータ等の音響パラメータを量子化あるいは符号化して非可逆圧縮したり、波形をADPCM法、ITU-T G.729やその他公知の音声音響符号化方法を用いて非可逆圧縮しても良い。
また、量子化あるいは符号化して非可逆圧縮した後、非可逆圧縮されたデータを可逆圧縮して更にメモリ量を削減する等、両者を組み合わせて用いることも可能であるし、音声素片毎にその特性を考慮して可逆圧縮のみ、非可逆圧縮のみ、可逆圧縮+非可逆圧縮等の圧縮パタンを使い分けても良い。さらに、量子化・符号化精度(量子化・符号化に割り当てるビット数)や符号化方法は音声素片毎に異なるものであっても良い。
融合音声素片106が圧縮されて音声素片辞書6に保管・記憶されるとき、音声素片辞書6の内部に、可逆圧縮の場合には圧縮された音声素片データとデータ伸長時に用いる情報が格納され、非可逆圧縮の場合には、音声素片データを構成する量子化または符号化処理による量子化テーブルのインデックス情報や符号化コードと、量子化テーブルや符号帳など復号化処理に用いる情報が格納されることとなる。
なお、本実施の形態8で述べた融合音声素片106の圧縮は、実施の形態2等にて述べた予備選択を実施した後に行っても良い。
実施の形態8の構成をとることにより、音声素片辞書6に格納される融合音声素片106を圧縮することが可能となり、音声素片辞書6に要するメモリ量や、音声素片辞書6をダウンロード等するための通信情報量を削減することができる。
実施の形態9.
実施の形態8の変形例として、融合音声素片106に対する圧縮・伸張処理を、実施の形態4にて述べた、共通化音声素片203および非共通化音声素片204に対して実施しても良い。
図13は、この発明の実施の形態9に係る音声合成方法を実現する音声合成装置の構成を示すブロック図である。図7と同一部分については同一の参照符号を付し説明を省略する。相違点を説明すると、本実施の形態では、融合音声素片生成具22の出力の共通化音声素片203と非共通化音声素片204を符号化し、符号化した符号化音声素片301を音声素片辞書6に保持させる符号化部31と、音声素片辞書6からの符号化音声素片301を復号し、復号化音声素片302を得る復号化部32が備えられている点が図7に示す実施の形態4と異なる。
融合音声素片生成具22で生成された共通化音声素片203と非共通化音声素片204は、符号化部31へ入力されて、例えば、前記実施の形態8にて述べられている公知の手法により符号化または圧縮処理が行われて、符号化音声素片301として音声素片辞書6へ出力される。
素片選択部7は韻律情報103に従って選択される音声素片辞書6に保持されている共通化音声素片203と非共通化音声素片204に該当する符号化音声素片301を復号化部32へ入力し、復号化部32でデータ伸長あるいは復号化処理が行われ、復号化音声素片302を得て素片選択・接続処理をし、音声合成部8で音声合成して合成音声108を得て出力端子9より出力する。
実施の形態9の構成をとることにより、融合音声素片生成具22で生成され、音声素片辞書6に格納される共通化音声素片203と非共通化音声素片204を圧縮することが可能となり、音声素片辞書6に要するメモリ量や、音声素片辞書6をダウンロード等するための通信情報量を削減することができる。
なお、この実施の形態9で述べた共通音声素片および非共通音声素片の圧縮は、実施の形態5にて述べた予備選択を実施した後に行っても良い。
また、共通化音声素片、非共通化音声素片を別々に異なる圧縮方法により情報量圧縮を行っても良いし、例えば、共通化音声素片は圧縮せず、非共通化音声素片のみ圧縮を行うことも可能であるし、その逆も可能である。
実施の形態9の構成をとることにより、音声素片辞書6に格納されている共通化音声素片および非共通化音声素片を圧縮することが可能となり、音声素片辞書6に要するメモリ量や、音声素片辞書6をダウンロード等するための通信情報量を削減することができる。
前記実施の形態では、第1のトレーニング音声素片104 S1[i]と、第2のトレーニング音声素片105 S2[j]は別データとしたが、第1のトレーニング音声素片と第2のトレーニング音声素片は同一のものであっても良い。
なお、前記実施の形態における、形態素解析、構文解析、ならびに韻律設定の全てまたは一部については、予め処理を行っておいてその解析結果を例えばROM(Read Only Memory)、RAM(Random Access Memory)、不揮発メモリ、磁気ディスク等の記憶手段に蓄えておき、音声合成時に解析結果を記憶手段から読み出すことで省略することも可能である。
また、例えばLAN(Local Area Network)、インターネット、赤外線通信、携帯電話パケット通信等の通信手段経由で、サーバコンピュータ等の処理手段により解析された解析結果や韻律情報、あるいはサーバコンピュータ上のハードディスク等の記憶手段に記憶されている解析結果や韻律情報を読み出すことでも省略可能である。
さらに、解析結果や韻律情報を例えば、コンピュータのGUI(Graphical User Interface)、キーボード、押しボタン、1次元/2次元バーコードリーダ、OCR(Optical Character Reader)等の入力手段から直接入力してもかまわない。これはカーナビゲーションシステム、携帯電話、PDA(Personal Digital Assistance)、ビデオレコーダ、監視システム、ゲーム機器、電子書籍、玩具等において決まった文章、例えばナビの市町村名や操作案内(ガイダンス)文、防犯警告合成音声、ゲームのキャラクタ合成音、新聞の文章等を読み上げる場合に有効である。
前記述べた実施の形態において、前記の全ての機能あるいは一部の機能は、パーソナルコンピュータ等のソフトウエアとしてプログラム実行したり、CPU等の組み込みソフトウエアやファームウエアとしてプログラム実行することで達成できるものである。また、同様の動作をする回路、例えばLSI(Large Scale IC)、FPGA(Field Programmable Gate Array)、論理IC等の集積回路で実現しても良いし、あるいはディスクリート素子を組み合わせて実現しても良い。
また、前記のソフトウエア等は、例えばROM、磁気ディスク(ハードディスクやリムーバブルディスク等)、不揮発性半導体メモリ等の記憶手段に予め保持しておいたものであってもよいし、例えば、インターネット、LAN、赤外線通信、Bluetooth、携帯電話のパケット通信等の有線・無線通信手段を用いてサーバ上の記憶手段からダウンロードしたり、例えば、CD−ROM、CD−R、DVD(Digital Versatile Disk)、MOディスク、磁気ディスク(ハードディスクやリムーバブルディスク等)、不揮発性の半導体メモリ、磁気テープ等の記憶媒体や、バーコード等が印刷されたカード等の印刷媒体より配布・提供されるものであってもよい。この場合、記憶媒体等から読み出された前記ソフトウエアのプログラムコードが、前記実施の形態の機能を実現することとなり、これら記憶媒体等はこの発明を構成するものとなる。
前記実施の形態においては、各部を同一の計算機上で構成する場合について説明したが、この発明はこれに限定されるものではなく、例えば、ネットワーク上に分散した計算機や処理装置などに分かれて各部を構成してもよい。
また、この発明は、1つ以上の複数の機器から構成されるシステムに適用しても良い。サーバコンピュータがこの発明の実施の形態を実現するプログラム等をネットワーク等の通信手段を用いて配信し、複数のクライアントコンピュータや、携帯電話、PDA等の携帯端末機器が配信されたプログラムを実行することができる。
前記の実施の形態で用いたトレーニング音声素片は、人間が発声した自然音声信号を用いたが、トレーニング音声素片は自然音声だけでなく、自然音声から解析的に生成した音声波形、例えば、所定の基準(例えば、スペクトル上の相互距離が所定の閾値以下)の下に選択された波形の平均的な波形、準最適波形、パワー補正された音声波形などでも良いし、さらに、人工的に生成された波形と自然音声の両者を混合した信号波形でも適用可能である。また、動物の鳴き声、楽器、電子音等の人以外から抽出した擬似的な音声信号波形でも良い。さらに、前記人工的に生成された音声波形等に雑音波形を混入してもよい。
この発明によれば、高品質の合成音声を生成できるので、カーナビ向け音声合成機能、携帯電話のメールや情報家電の音声読み上げ機能、市町村防災無線、ハイウェイラジオにおける音声合成システム、エレベータ、エスカレータなどの自動音声案内等に適用可能である。
実施の形態1の音声合成装置のブロック構成図である。 実施の形態1における融合音声素片生成部のフローチャートである。 実施の形態1における融合音声素片生成部の変形例のフローチャートである。 実施の形態2における融合音声素片生成部のフローチャートである。 実施の形態2における融合音声素片生成部の変形例のフローチャートである。 実施の形態3における融合音声素片生成部のフローチャートである。 実施の形態4の音声合成装置のブロック構成図である。 実施の形態4における融合音声素片生成部のフローチャートである。 実施の形態4における融合音声素片生成部の変形例のフローチャートである。 実施の形態6の音声合成装置のブロック構成図である。 実施の形態6における融合音声素片生成部5のフローチャートである。 実施の形態8の音声合成装置のブロック構成図である。 実施の形態9の音声合成装置のブロック構成図である。
符号の説明
1 入力端子、2 言語解析部、3 言語辞書、4 韻律設定部、5 融合音声素片生成部、6 音声素片辞書、7 素片選択部、8 音声合成部、9 出力端子、21 共通音声素片生成具、22 融合音声素片生成具、31 符号化部、32 復号化部、101 入力テキスト、102 解析結果、103 韻律情報、104 第1のトレーニング音声素片、105 第2のトレーニング音声素片、106 融合音声素片、107 代表音声素片、108 合成音声、201 共通化音声素片候補、202 非共通化音声素片候補、 203 共通化音声素片、204 非共通化音声素片、301 符号化音声素片、302 復号化音声素片。

Claims (12)

  1. 複数のトレーニング音声素片から複数の信号波形を切り出す波形分離ステップと、
    前記切り出された複数の信号波形から、任意の1つまたは複数の信号波形を組み合わせて融合することにより複数の融合音声素片を生成する波形融合ステップと、
    前記複数のトレーニング音声素片のピッチおよび継続時間長の少なくとも一方に従って、前記生成した融合音声素片のピッチおよび継続時間長の少なくとも一方を変更した複数の合成音声素片を生成する音声素片合成ステップと、
    前記複数のトレーニング音声素片のそれぞれに対する、前記生成した複数の合成音声素片のそれぞれとの間の距離を評価し、その評価に基づく融合音声素片を音声素片辞書に保持または記憶する歪み評価ステップと、
    前記音声素片辞書に保持または記憶された複数の融合音声素片から、入力テキストを解析して得られる入力音素に対応した融合音声素片を選択して接続することにより合成音声を出力する合成音声生成ステップとを有することを特徴とするテキスト音声合成方法。
  2. 前記波形融合ステップは、前記切り出された複数の信号波形から、他の音声素片との共通部分となる複数の信号波形と、他の音声素片と非共通部分となる複数の信号波形を生成し、前記共通部分となる複数の信号波形と、前記非共通部分となる複数の信号波形から、任意の1つまたは複数の信号波形を組み合わせて融合することにより、他の音声素片との共通部分を含む複数の融合音声素片を生成し、
    前記歪み評価ステップは前記複数のトレーニング音声素片の何れか1つのそれぞれに対する、前記生成した複数の合成音声素片のそれぞれとの間の距離を評価し、その評価に基づく共通音声素片とそれ以外の音声素片を保持または記憶し、
    前記合成音声生成ステップは、前記保持または記憶された、複数の共有音声素片とそれ以外の複数の音声素片から、入力音素に対応した融合音声素片を生成して接続することにより合成音声を出力する方法とされたことを特徴とする請求項1記載のテキスト音声合成方法。
  3. 前記音声素片合成ステップで、合成音声素片を生成する際に用いられるピッチおよび継続時間長は所定の規則により生成されたピッチおよび継続時間長であり、
    歪み評価ステップで、合成音声素片を評価する際に用いられるトレーニング音声素片は前記所定の規則により生成されたピッチおよび継続時間長との距離が最小となる前記複数のトレーニング音声素片から選択された音声素片であることを特徴とする請求項1又は2記載のテキスト音声合成方法。
  4. 波形分離ステップは、複数のトレーニング音声素片に対し、所定の判断基準に基づいて音声素片を選択し、前記選択された音声素片から複数の信号波形を切り出す処理であることを特徴とする請求項1〜3の何れかに記載のテキスト音声合成方法。
  5. 音声素片辞書に記憶または保持する融合音声素片の情報量を、所定の圧縮方法により圧縮し、
    入力音素に対応する融合音声素片を選択する際に、音響素片辞書から圧縮された融合音声素片の情報量を伸張して、合成音声を生成することを特徴とする請求項1〜4の何れかに記載のテキスト音声合成方法。
  6. 入力テキストを解析して入力音素を得る韻律設定部と、
    複数のトレーニング音声素片から複数の信号波形を切り出し、この複数の信号波形を任意に組み合わせて複数の融合音声素片候補を生成し、この融合音声素片候補のピッチおよび継続時間長の少なくとも一方を前記複数のトレーニング音声素片の何れか1つのピッチおよび継続時間長の少なくとも一方に従って変更した複数の合成音声素片を生成し、この複数の合成音声素片と前記何れか1つのトレーニング音声素片との間の距離を評価し、その評価に基づく融合音声素片を生成する融合音声素片生成手段と、
    前記融合音声素片を保持または記憶する融合音声素片記憶手段と、
    融合音声素片記憶手段が保持または記憶する融合音声素片から、前記入力音素に対応する融合音声素片を選択する素片選択手段と、
    選択された融合音声素片を接続し、合成音声を生成する音声合成手段とを具備することを特徴とするテキスト音声合成装置。
  7. 前記融合音声素片生成手段は、
    複数のトレーニング音声素片から複数の信号波形を切り出して、前記切り出された複数の信号波形から、他の音声素片との共通部分となる複数の信号波形と、他の音声素片と非共通部分となる複数の信号波形を生成し、前記融合音声素片生成手段に出力する共通音声素片生成具と、
    前記共通部分となる複数の信号波形と、前記非共通部分となる複数の信号波形から、任意の信号波形を組み合わせて融合することにより、他の音声素片との共通部分を含む複数の融合音声素片を生成し、複数のトレーニング音声素片の何れか1つのピッチおよび継続時間長の少なくとも一方に従って、前記生成した融合音声素片のピッチおよび継続時間長の少なくとも一方を変更した複数の合成音声素片を生成し、前記複数のトレーニング音声素片の何れか1つとそれに対応する前記生成した複数の合成音声素片との間の距離を評価し、その評価に基づき融合音声素片を出力する融合音声素片生成具とから構成されることを特徴とする請求項6記載のテキスト音声合成装置。
  8. 前記融合音声素片生成手段は、
    融合音声素片のピッチおよび継続時間長の少なくとも一方を変更して複数の合成音声素片を生成する際に用いられるピッチおよび継続時間長は所定の規則により予め生成されたものであり、
    合成音声素片の歪み評価に用いられる音声素片は前記所定の規則により生成されたピッチおよび継続時間長との距離が最小となる前記複数のトレーニング音声素片の何れか1つのトレーニング音声素片から選択されたものであることを特徴とする請求項6又は7記載のテキスト音声合成装置。
  9. 前記融合音声素片生成手段は、
    複数のトレーニング音声素片に対し、所定の判断基準に基づいて音声素片を選択し、前記選択された音声素片を用いて複数の融合音声素片の生成および評価を行う構成にされたことを特徴とする請求項6〜8の何れかに記載のテキスト音声合成装置。
  10. 音声素片辞書に記憶または保持する融合音声素片の情報量を、所定の圧縮方法により圧縮する符号化部と、
    音声素片辞書中の圧縮された融合音声素片の情報量を伸張する、復号化部を具備することを特徴とする、請求項6〜9の何れかに記載のテキスト音声合成装置。
  11. コンピュータに
    入力テキストを解析して入力音素を得る韻律設定手段、
    複数のトレーニング音声素片から複数の信号波形を切り出し、この複数の信号波形を任意に組み合わせて複数の融合音声素片候補を生成し、この融合音声素片候補のピッチおよび継続時間長の少なくとも一方を前記複数のトレーニング音声素片の何れか1つのピッチおよび継続時間長の少なくとも一方に従って変更した複数の合成音声素片を生成し、この複数の合成音声素片と前記何れか1つのトレーニング音声素片との間の距離を評価し、その評価に基づく融合音声素片を生成する融合音声素片生成手段、
    前記融合音声素片を保持または記憶する融合音声素片記憶手段、
    融合音声素片記憶手段が保持または記憶する融合音声素片から、前記入力音素に対応する融合音声素片を選択する素片選択手段、
    選択された融合音声素片を接続し、合成音声を生成する音声合成手段として機能させるためのテキスト音声合成プログラム。
  12. コンピュータを
    入力テキストを解析して入力音素を得る韻律設定手段、
    複数のトレーニング音声素片から複数の信号波形を切り出し、この複数の信号波形を任意に組み合わせて複数の融合音声素片候補を生成し、この融合音声素片候補のピッチおよび継続時間長の少なくとも一方を前記複数のトレーニング音声素片の何れか1つのピッチおよび継続時間長の少なくとも一方に従って変更した複数の合成音声素片を生成し、この複数の合成音声素片と前記何れか1つのトレーニング音声素片との間の距離を評価し、その評価に基づく融合音声素片を生成する融合音声素片生成手段、
    前記融合音声素片を保持または記憶する融合音声素片記憶手段、
    融合音声素片記憶手段が保持または記憶する融合音声素片から、前記入力音素に対応する融合音声素片を選択する素片選択手段、
    選択された融合音声素片を接続し、合成音声を生成する音声合成手段として機能させるためのテキスト音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2005000498A 2005-01-05 2005-01-05 テキスト音声合成方法及びその装置、並びにテキスト音声合成プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体 Active JP4762553B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005000498A JP4762553B2 (ja) 2005-01-05 2005-01-05 テキスト音声合成方法及びその装置、並びにテキスト音声合成プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005000498A JP4762553B2 (ja) 2005-01-05 2005-01-05 テキスト音声合成方法及びその装置、並びにテキスト音声合成プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2006189554A true JP2006189554A (ja) 2006-07-20
JP4762553B2 JP4762553B2 (ja) 2011-08-31

Family

ID=36796845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005000498A Active JP4762553B2 (ja) 2005-01-05 2005-01-05 テキスト音声合成方法及びその装置、並びにテキスト音声合成プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4762553B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008145685A (ja) * 2006-12-08 2008-06-26 Mitsubishi Electric Corp 音声合成装置及び音声合成方法
WO2012001457A1 (en) * 2010-06-28 2012-01-05 Kabushiki Kaisha Toshiba Method and apparatus for fusing voiced phoneme units in text-to-speech
JP2012185356A (ja) * 2011-03-07 2012-09-27 Yamaha Corp 音声合成装置
US8754663B2 (en) 2008-07-21 2014-06-17 Dspace Digital Signal Processing And Control Engineering Gmbh Circuit for simulating an electrical load
CN111312210A (zh) * 2020-03-05 2020-06-19 云知声智能科技股份有限公司 一种融合图文的语音合成方法及装置
CN113313183A (zh) * 2020-06-05 2021-08-27 谷歌有限责任公司 通过使用能量分值来训练语音合成神经网络

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3935627A1 (en) * 2019-05-15 2022-01-12 DeepMind Technologies Limited Speech synthesis utilizing audio waveform difference signal(s)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319391A (ja) * 1996-03-12 1997-12-12 Toshiba Corp 音声合成方法
JPH10171484A (ja) * 1996-12-10 1998-06-26 Matsushita Electric Ind Co Ltd 音声合成方法および装置
JPH10288999A (ja) * 1997-04-15 1998-10-27 Oki Electric Ind Co Ltd 音声合成方法及び音声合成装置
JP2001282273A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置とその方法と記憶媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319391A (ja) * 1996-03-12 1997-12-12 Toshiba Corp 音声合成方法
JPH10171484A (ja) * 1996-12-10 1998-06-26 Matsushita Electric Ind Co Ltd 音声合成方法および装置
JPH10288999A (ja) * 1997-04-15 1998-10-27 Oki Electric Ind Co Ltd 音声合成方法及び音声合成装置
JP2001282273A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置とその方法と記憶媒体

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008145685A (ja) * 2006-12-08 2008-06-26 Mitsubishi Electric Corp 音声合成装置及び音声合成方法
US8754663B2 (en) 2008-07-21 2014-06-17 Dspace Digital Signal Processing And Control Engineering Gmbh Circuit for simulating an electrical load
WO2012001457A1 (en) * 2010-06-28 2012-01-05 Kabushiki Kaisha Toshiba Method and apparatus for fusing voiced phoneme units in text-to-speech
CN102511061A (zh) * 2010-06-28 2012-06-20 株式会社东芝 在语音合成中用于融合浊音音素单元的方法和装置
JP2012185356A (ja) * 2011-03-07 2012-09-27 Yamaha Corp 音声合成装置
CN111312210A (zh) * 2020-03-05 2020-06-19 云知声智能科技股份有限公司 一种融合图文的语音合成方法及装置
CN113313183A (zh) * 2020-06-05 2021-08-27 谷歌有限责任公司 通过使用能量分值来训练语音合成神经网络

Also Published As

Publication number Publication date
JP4762553B2 (ja) 2011-08-31

Similar Documents

Publication Publication Date Title
US7831420B2 (en) Voice modifier for speech processing systems
CA2161540C (en) A method and apparatus for converting text into audible signals using a neural network
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
JP4328698B2 (ja) 素片セット作成方法および装置
US20200410981A1 (en) Text-to-speech (tts) processing
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
US11763797B2 (en) Text-to-speech (TTS) processing
US20060229877A1 (en) Memory usage in a text-to-speech system
Lee et al. A very low bit rate speech coder based on a recognition/synthesis paradigm
JPH031200A (ja) 規則型音声合成装置
US5633984A (en) Method and apparatus for speech processing
JP4762553B2 (ja) テキスト音声合成方法及びその装置、並びにテキスト音声合成プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
Hamad et al. Arabic text-to-speech synthesizer
JP2001265375A (ja) 規則音声合成装置
RU61924U1 (ru) Статистическая модель речи
JP5376643B2 (ja) 音声合成装置、方法およびプログラム
JP5268731B2 (ja) 音声合成装置、方法およびプログラム
JPWO2010104040A1 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
Ramasubramanian et al. Ultra low bit-rate speech coding
Sassi et al. Neural speech synthesis system for Arabic language using CELP algorithm
JP2009271190A (ja) 音声素片辞書作成装置及び音声合成装置
Dong-jian Two stage concatenation speech synthesis for embedded devices
Ebihara et al. Speech synthesis software with a variable speaking rate and its implementation on a 32-bit microprocessor
WO2023182291A1 (ja) 音声合成装置、音声合成方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100827

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110322

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110607

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110608

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140617

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4762553

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250