JP4644879B2 - Data generator for articulation parameter interpolation and computer program - Google Patents
Data generator for articulation parameter interpolation and computer program Download PDFInfo
- Publication number
- JP4644879B2 JP4644879B2 JP2005329011A JP2005329011A JP4644879B2 JP 4644879 B2 JP4644879 B2 JP 4644879B2 JP 2005329011 A JP2005329011 A JP 2005329011A JP 2005329011 A JP2005329011 A JP 2005329011A JP 4644879 B2 JP4644879 B2 JP 4644879B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- change rate
- frame
- interpolation
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
この発明は、音声合成に際し、音源に対する変調を行ない、合成される音声をより滑らかにするためのパラメータを生成する技術に関する。 The present invention relates to a technique for performing modulation on a sound source and generating a parameter for smoothing synthesized speech when speech synthesis is performed.
人間とコンピュータシステムに代表される機械系との間のインターフェイスとして、近年種々のものが提案されている。それらの中で最近特に使用される頻度が高くなっているものに、音声がある。音声を用いる事によって、人間と機械系との間のコミュニケーションを、人間同士の間でのそれに近い形で実現できる。 In recent years, various interfaces have been proposed as an interface between a human and a mechanical system represented by a computer system. Among them, voice is one of the most frequently used recently. By using voice, communication between humans and mechanical systems can be realized in a form close to that between humans.
音声によるコミュニケーションを実現するための音声合成技術には、以下の2つの方式がある。1つは、あらかじめ録音された音声の音声波形から音素片を取り出し、それらをつなぎ合わせる事によって音声を合成する方式である。もう1つは、人間の発話器官の形状の変化をシミュレートする事によって音声を合成する方式である。 There are the following two methods for voice synthesis technology for realizing communication by voice. One is a method of synthesizing a voice by taking out phoneme pieces from a voice waveform of a voice recorded in advance and connecting them. The other is a method of synthesizing speech by simulating changes in the shape of a human speech organ.
音声波形の変化に比べて、発話器官の形状の変化は緩やかである事から、後者の方式の方が、聴覚上、より滑らかな音声を合成する事ができる。そのため、この方式は近年特に注目されている。 Since the change in the shape of the speech organ is more gradual than the change in the speech waveform, the latter method can synthesize a smoother speech. For this reason, this method has attracted particular attention in recent years.
この方式の音声合成方法では、音源からの信号を、発話器官の形状を表わすパラメータ(例えば声道断面積関数、声道長、開口面積等。以下「調音パラメータ」という)により特性が変化する電気回路からなるフィルタに通す事によって、音声信号を合成する。例えば、「あ」という音を発声しているときと、「い」という音を発声しているときとでは、調音パラメータが違う。従って、調音パラメータを変化させる事によって、種々の音声を合成する事ができる。もちろん、この方式は、現在ではコンピュータとソフトウェアとによるデジタル技術で実現される。 In this type of speech synthesis method, a signal from a sound source is converted into an electric signal whose characteristics change depending on parameters representing the shape of the speech organ (for example, vocal tract cross-sectional area function, vocal tract length, opening area, etc .; hereinafter referred to as “articulation parameters”) The audio signal is synthesized by passing through a filter composed of a circuit. For example, the articulation parameter differs between when a sound “a” is uttered and when a sound “i” is uttered. Therefore, various voices can be synthesized by changing the articulation parameters. Of course, this method is currently realized by digital technology using a computer and software.
より自然な連続音声を合成するためには、ある音声を発話しているときの調音パラメータと、次の音声を発話しているときの調音パラメータとを、連続音声発話時の発話器官の形状変化の時間的な推移と一致した形で補間する必要がある。そのためには、実際に連続音声を発話している際の発話器官の形状変化の速度を反映した物理量とその時間的推移とを、何らかの方法で算出する必要がある。 In order to synthesize a more natural continuous speech, the articulation parameter when speaking a certain speech and the articulation parameter when speaking the next speech are changed to the shape change of the speech organ during continuous speech. It is necessary to interpolate in a manner consistent with the temporal transition of. For that purpose, it is necessary to calculate the physical quantity reflecting the speed of the shape change of the uttering organ when actually speaking continuous speech and its temporal transition by some method.
発話器官の形状変化の速度を利用する先行技術として非特許文献1に開示のものがある。これは、連続音声を合成するために、声道断面積関数を時間補間したものであり、時間補間のためのパラメータをMRI(Magnetic Resonance Imaging:核磁気共鳴画像)動画の平均輝度値の時間的変化から求めたものである。この方法によると、実際の調音動作に基づいた合成であるので、自然な連続音が得られるという利点がある。
非特許文献1に開示の技術によれば、実際の調音動作に基づいた自然な連続音を得る事ができるという大きな利点がある。しかしこの方法では、人間に発話をさせながらMRI動画を撮る必要がある。周知の様にMRI動画像の撮影には時間がかかる。また、MRI動画を撮るために必要な設備も大型で、その利用には面倒な手順がいる。さらに、MRI動画の画像処理は大変な上、コストもかかる。
According to the technique disclosed in Non-Patent
非特許文献1に開示された技術と同様の効果を、より簡単に、簡略な処理で得る事ができる様にする事が望ましい。
It is desirable that the same effect as that disclosed in
そこで、この発明の目的は、MRI動画等の透過撮影手法よりも簡略な処理により、実際の発話動作による発話器官の形状変化を反映する調音パラメータ補間用のデータを生成できる補間用データ生成装置を提供する事である。 Accordingly, an object of the present invention is to provide an interpolation data generating apparatus capable of generating articulation parameter interpolation data reflecting the shape change of an utterance organ due to an actual utterance operation by a simpler process than a transmission imaging method such as an MRI moving image. It is to provide.
本発明の第1の局面に係る調音パラメータ補間用データ生成装置は、第1の音素から第2の音素まで連続的に変化する音声を合成するための調音パラメータを、第1及び第2の音素の音声合成のための既知の調音パラメータの間の補間によって生成する際の補間用データを生成するための装置であって、連続する第1の音素及び第2の音素を含む入力音声信号から、第1の音素から第2の音素までの所定の音響特徴量の変化率の推移を算出するための変化率算出手段と、変化率を用いて補間用データを作成するための補間用データ作成手段とを含む。 The articulation parameter interpolation data generation device according to the first aspect of the present invention provides an articulation parameter for synthesizing speech that continuously changes from a first phoneme to a second phoneme. An apparatus for generating data for interpolation when generating by interpolating between known articulation parameters for speech synthesis of a speech, comprising: an input speech signal including a continuous first phoneme and a second phoneme; Change rate calculation means for calculating a change rate change rate of a predetermined acoustic feature amount from the first phoneme to the second phoneme, and interpolation data creation means for creating interpolation data using the change rate Including.
この補間用データ生成装置によると、各々独立した第1の音素と第2の音素との間を連続的につなぐ様な補間用データを音声から生成できる。音声は、MRI動画と異なり、容易に取得できる。また、音響特徴量の変化率は、発話器官の形状変化をよく反映すると考えられる。従って、MRI動画等の透過撮影手法を用いるよりも簡略な方法で実際の発話動作による発話器官の形状変化を反映する補間用データを生成する事ができる。 According to this interpolation data generating apparatus, it is possible to generate interpolation data from speech so as to continuously connect the first phoneme and the second phoneme independent of each other. Unlike MRI moving images, audio can be easily acquired. In addition, it is considered that the change rate of the acoustic feature amount well reflects the change in the shape of the speech organ. Accordingly, it is possible to generate interpolation data that reflects a change in the shape of the uttered organ by an actual utterance operation by a simpler method than using a transmission imaging method such as an MRI moving image.
好ましくは、変化率算出手段は、入力音声信号を所定時間ごとにフレーム化するためのフレーム化手段と、フレーム化手段によりフレーム化された音声信号からフレームごとに所定のスペクトル変化率を算出するためのスペクトル変化率算出手段とを含む。 Preferably, the rate-of-change calculating means calculates a predetermined spectrum change rate for each frame from the framing means for framing the input voice signal at predetermined time intervals and the voice signal framed by the framing means. Spectrum change rate calculating means.
この補間用データ生成装置によると、上述した変化率として、フレームごとのスペクトル変化率を算出する事ができる。そして、このスペクトル変化率は、発話器官の形状変化の速度をよく反映すると考えられる上、その算出には確立された技術を用いる事ができる。従って、MRI動画等の透過撮影手法を用いるよりも簡略な、音の特徴を使用して実際の発話動作による発話器官の形状変化を反映する補間用データを生成する事ができる。 According to this interpolation data generation apparatus, the spectrum change rate for each frame can be calculated as the above-described change rate. The spectrum change rate is considered to well reflect the speed of the shape change of the speech organ, and an established technique can be used for the calculation. Therefore, it is possible to generate interpolation data that reflects a change in the shape of the utterance organ due to the actual utterance operation using the characteristics of the sound, which is simpler than using a transmission imaging method such as an MRI moving image.
さらに好ましくは、スペクトル変化率算出手段は、第1の音素から第2の音素までの音声信号からフレーム化手段によりフレーム化された音声信号のフレームの内、所定のスペクトル変化率の隣り合う極小値を与える第1及び第2の二つのフレームと、当該二つのフレームの間に存在し、所定のスペクトル変化率の極大値を与える第3のフレームとを含む複数のフレームを組合せるためのフレーム組合せ手段と、フレーム組合せ手段により組合されたフレームの極大値と極小値とにより定められる所定の連続関数で所定のスペクトル変化率の推移を近似するための関数近似手段とを含む。 More preferably, the spectrum change rate calculating means is the adjacent minimum value of the predetermined spectrum change rate among the frames of the audio signal framed by the framing means from the audio signals from the first phoneme to the second phoneme. Frame combination for combining a plurality of frames, including first and second two frames that provide a second frame and a third frame that exists between the two frames and that provides a maximum value of a predetermined spectral change rate And function approximating means for approximating the transition of a predetermined spectrum change rate with a predetermined continuous function determined by the maximum value and the minimum value of the frames combined by the frame combination means.
この補間用データ生成装置によると、音中心にあたる二つの極小値を両端とする連続関数で所定のスペクトル変化率の推移を近似する。そこで、補間用データ生成の際に、スペクトル変化率そのものよりもデータ量の小さい近似関数を使用する事ができる。それゆえ、補間用データ生成の際に必要となるリソースを簡略化する事ができる。従って、より簡略な方法を使用して、実際の発話動作による発話器官の形状変化を反映する補間用データを生成する事ができる。 According to this interpolation data generation apparatus, the transition of a predetermined spectrum change rate is approximated by a continuous function having two minimum values corresponding to the sound center as both ends. Therefore, when generating interpolation data, an approximate function having a data amount smaller than the spectrum change rate itself can be used. Therefore, it is possible to simplify the resources required for generating the interpolation data. Therefore, using a simpler method, it is possible to generate interpolation data that reflects changes in the shape of the uttered organ due to the actual utterance operation.
さらに好ましくは、フレーム組合せ手段は、変化率に基づき、第1及び第2のフレームを検出するための極小値検出手段と、変化率に基づき、第3のフレームを検出するための極大値検出手段と、第1のフレームに第1の音素を、第2のフレームに第2の音素を、それぞれ割当てるための音割当手段と、第1のフレームから第2のフレームまでのフレームを組合せてフレームシーケンスを作成するためのフレームシーケンス作成手段とを含む。 More preferably, the frame combination means is a minimum value detecting means for detecting the first and second frames based on the rate of change, and a maximum value detecting means for detecting the third frame based on the rate of change. A sound sequence assigning means for assigning the first phoneme to the first frame and the second phoneme to the second frame, and a frame sequence combining the frames from the first frame to the second frame. Frame sequence creating means for creating
この補間用データ生成装置によると、第1のフレーム及び第2のフレームに具体的な音素を割当て、上記二つのフレームを含む様にフレームシーケンスを作成する。ゆえに、補間用データ生成の際に、補間の対象を自動的に定めて補間する事ができる。従って、より簡略な方法で実際の発話動作による発話器官の形状変化を反映する補間用データを生成する事ができる。 According to the interpolation data generation apparatus, specific phonemes are assigned to the first frame and the second frame, and a frame sequence is created so as to include the two frames. Therefore, when generating interpolation data, the interpolation target can be automatically determined and interpolated. Therefore, it is possible to generate interpolation data that reflects a change in the shape of the utterance organ by an actual utterance operation by a simpler method.
さらに好ましくは、関数近似手段は、第1のフレームにおける変化率と、第3のフレームにおける変化率とに基づいて、第1のフレームにおいて所定の定数をとり、第3のフレームにおいて第3のフレームにおける変化率の値と所定の関係を有する値をとる第1の近似関数を求める第1の近似手段と、第3のフレームにおける変化率と第2のフレームにおける変化率とに基づいて、第2のフレームにおいて所定の定数をとり、第3のフレームにおいて第1の近似関数と同じ値をとる第2の近似関数を求める第2の近似手段とを含む。 More preferably, the function approximating means takes a predetermined constant in the first frame based on the rate of change in the first frame and the rate of change in the third frame, and the third frame in the third frame. Based on the first approximation means for obtaining a first approximation function that takes a value having a predetermined relationship with the value of the rate of change in, and on the basis of the rate of change in the third frame and the rate of change in the second frame And second approximation means for obtaining a second approximation function that takes a predetermined constant in the second frame and takes the same value as the first approximation function in the third frame.
この補間用データ生成装置によると、該当するフレームにおける変化率に基づいて、近似関数の種類を適切に変化させる事ができる。変化率が最大となる箇所は、補間対象の二つの音素の中間位置とは限らず、その前後にずれる事が多い。そうした場合でも、上記した様に変化率が最大となる箇所の前後で異なる近似関数を適用する事により、簡単な近似関数を用いて精度高く変化率を近似できる。ゆえに、近似の精度が上がり、この近似関数を用いた補間用データ生成処理にかかる時間を短縮する事ができる。従って、より簡略な方法で実際の発話動作による発話器官の形状変化を反映する補間用データを生成する事ができる。 According to this interpolation data generation device, the type of approximation function can be changed appropriately based on the rate of change in the corresponding frame. The location where the change rate is maximum is not necessarily the intermediate position between the two phonemes to be interpolated, and often shifts before and after the location. Even in such a case, it is possible to approximate the change rate with high accuracy using a simple approximate function by applying different approximation functions before and after the portion where the change rate is maximum as described above. Therefore, the accuracy of approximation is improved, and the time required for the interpolation data generation processing using this approximation function can be shortened. Therefore, it is possible to generate interpolation data that reflects a change in the shape of the utterance organ by an actual utterance operation by a simpler method.
さらに好ましくは、補間用データ作成手段は、関数近似手段により得られた所定の関数の、第1のフレームから第2のフレームまでの積分関数を正規化した正規化積分関数を求めるための正規化積分手段を含む。 More preferably, the interpolation data creating means normalizes to obtain a normalized integral function obtained by normalizing the integral function from the first frame to the second frame of the predetermined function obtained by the function approximating means. Includes integration means.
この補間用データ生成装置によると、補間用データとして、正規化積分関数を算出するのみであるので、調音パラメータそのものの補間までする場合と比較して、補間用データ生成のためにかかる時間が短縮できる。また、補間用データをデータベース(以下DBと記載)に収納する場合には、DBの容量が削減できる。従って、より簡略な処理により実際の発話動作による発話器官の形状変化を反映する補間用データを生成する事ができる。 According to this interpolation data generation device, since only the normalized integration function is calculated as the interpolation data, the time required to generate the interpolation data is shortened compared to the case where the articulation parameters themselves are interpolated. it can. Further, when the interpolation data is stored in a database (hereinafter referred to as DB), the capacity of the DB can be reduced. Therefore, it is possible to generate interpolation data that reflects the change in shape of the utterance organ due to the actual utterance operation by a simpler process.
さらに好ましくは、補間用データ作成手段はさらに、第1の音素のための調音パラメータと、第2の音素のための調音パラメータとの間を正規化積分関数によって補間する事により、第1の音素と第2の音素との間の所定の時刻における混合比を算出するための手段を含む。 More preferably, the interpolation data creation means further interpolates between the articulation parameter for the first phoneme and the articulation parameter for the second phoneme by a normalization integration function, thereby providing the first phoneme. Means for calculating a mixing ratio at a predetermined time between the first phoneme and the second phoneme.
この補間用データ生成装置によると、補間用データとして、混合比を算出するのみである。そこで、補間用データ生成のためにかかる時間が短縮できる。また、補間用データをDBに収納する場合には、DBの容量が削減できる。さらに、正規化積分関数の算出までで処理をとどめておく場合と比較して、音声の合成時には混合比の算出をする必要がない。従って、より簡略な処理により実際の発話動作による発話器官の形状変化を反映するとともに、音声合成時の処理量を削減可能な補間用データを生成する事ができる。 According to this interpolation data generation device, only the mixture ratio is calculated as the interpolation data. Thus, the time required for generating the interpolation data can be shortened. Further, when the interpolation data is stored in the DB, the capacity of the DB can be reduced. Furthermore, it is not necessary to calculate the mixing ratio when synthesizing speech, compared to the case where the processing is stopped until the calculation of the normalized integration function. Accordingly, it is possible to generate interpolation data that can reflect the change in the shape of the utterance organ due to the actual utterance operation by simpler processing and can reduce the processing amount at the time of speech synthesis.
さらに好ましくは、補間用データ作成手段はさらに、第1の音素のための調音パラメータと、第2の音素のための調音パラメータとの間を混合比によって補間する事により、所定の時刻における調音パラメータである声道断面積関数を算出するための手段を含む。 More preferably, the interpolation data creation means further interpolates between the articulation parameter for the first phoneme and the articulation parameter for the second phoneme by a mixing ratio, thereby providing an articulation parameter at a predetermined time. Means for calculating a vocal tract cross-sectional area function.
この補間用データ生成装置によると、音声の特徴量から補間用データとして、声道断面積関数を算出する。ゆえに、この声道断面積関数を使用して後の音声合成を行なう場合には、音声合成にかかる時間を削減する事ができる。従って、効率的な音声合成を行なう事ができる。その結果、MRI動画等による処理よりも簡略な処理によって、実際の発話動作による発話器官の形状変化を反映する補間用データを生成する事ができる。 According to this interpolation data generation device, a vocal tract cross-sectional area function is calculated as interpolation data from the feature amount of speech. Therefore, when performing later speech synthesis using this vocal tract cross-sectional area function, the time required for speech synthesis can be reduced. Therefore, efficient speech synthesis can be performed. As a result, it is possible to generate interpolation data that reflects a change in the shape of the uttered organ due to the actual utterance operation by a process that is simpler than the process using the MRI moving image or the like.
この発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの調音パラメータ補間用データ生成装置として動作させるものである。従って、上記した調音パラメータ補間用データ生成装置と同様の効果を奏する事ができる。 When executed by a computer, the computer program according to the second aspect of the present invention causes the computer to operate as any one of the articulation parameter interpolation data generation devices described above. Therefore, the same effect as the above-described articulation parameter interpolation data generation device can be obtained.
<スペクトル変化率に基づく補間方法>
本発明の一実施の形態に係る音声合成システムでは、音声信号の時間変化から、補間用パラメータである声道断面積関数を算出し、その結果を用いて音声合成を行なう。音声信号はMRI動画像と比較してはるかに容易に得る事ができるし、信号処理も容易である。本実施の形態の詳細を説明する前に、まず、本実施の形態で採用した補間方法の原理について詳述する。なお以下の説明及び図面において、同じ部品には同じ参照番号を付す。
<Interpolation method based on spectral change rate>
In a speech synthesis system according to an embodiment of the present invention, a vocal tract cross-sectional area function, which is an interpolation parameter, is calculated from a time change of a speech signal, and speech synthesis is performed using the result. Audio signals can be obtained much more easily than MRI moving images, and signal processing is also easy. Before describing the details of this embodiment, the principle of the interpolation method employed in this embodiment will be described in detail. In the following description and drawings, the same reference numerals are assigned to the same components.
(1)混合比の算出
混合比とは、発話音声が第1の音素から第2の音素へ移行する途中の音素を合成するために、移行途中の調音パラメータを、第1の音素と第2の音素との調音パラメータの間の補間により生成するための、第1の音素と第2の音素との調音パラメータを混合する割合の事をいう。例えば実際の発話において、「あ」から「い」に移行する際には、徐々に「あ」の音の要素が減り、代わりに「い」の音の要素が増えて、連続的に音が移行する。混合比を使用すると、母音中心の間での連続音を生成するための調音パラメータをスムーズに補間できる。本実施の形態では、混合比を発話音声のスペクトル変化率から得た値で近似する。スペクトル変化率とは、発話音声のスペクトルがどの程度の速度で変化しているかを表す値であり(式については後述する。)、発話時の発話器官の動きを反映している。以下で、スペクトル変化率を用いた混合比の算出方法について述べる。
(1) Calculation of mixing ratio In order to synthesize the phoneme in the middle of the transition of the utterance voice from the first phoneme to the second phoneme, the articulation parameter in the middle of the transition is defined as the first phoneme and the second phoneme. The ratio of mixing the articulation parameters of the first phoneme and the second phoneme, which is generated by interpolation between the articulation parameters of the first phoneme. For example, in an actual utterance, when moving from “A” to “I”, the “A” sound element gradually decreases, and instead, the “I” sound element increases, and the sound continuously increases. Transition. By using the mixing ratio, it is possible to smoothly interpolate the articulation parameters for generating a continuous sound between vowel centers. In the present embodiment, the mixture ratio is approximated by a value obtained from the spectrum change rate of the speech voice. The spectrum change rate is a value indicating how fast the spectrum of the speech is changing (the expression will be described later), and reflects the movement of the speech organ during speech. Hereinafter, a calculation method of the mixing ratio using the spectrum change rate will be described.
図1に、発話音声波形の一例と、この音声波形から得られたスペクトル変化率との関係を示す。図1を参照して、図中で/a/、/i/、/u/、/e/、及び/o/で表わされるフレームは各々の母音の母音中心が存在する位置を示している。母音の発声の間は、発話器官形状は安定しており、従ってスペクトル変化率は小さい。一方、ある母音から別の母音への移行時には、発話器官の形状が変化する。この変化の速度は一定ではなく、変化の最初と最後とでは変化速度が小さく、途中のどこかで極大となる事が知られている。図1に示す例では、スペクトル変化率の極大値30、32、34及び36で発話器官の形状変化速度が最大に達する。
FIG. 1 shows a relationship between an example of a speech voice waveform and a spectrum change rate obtained from the voice waveform. Referring to FIG. 1, the frames represented by / a /, / i /, / u /, / e /, and / o / in the figure indicate the positions where the vowel centers of each vowel exist. During the production of vowels, the shape of the uttered organ is stable and the rate of spectral change is small. On the other hand, at the time of transition from one vowel to another, the shape of the speech organ changes. It is known that the rate of this change is not constant, the rate of change is small at the beginning and end of the change, and it reaches a maximum somewhere in the middle. In the example shown in FIG. 1, the shape change rate of the speech organ reaches a maximum at the
前述した様に混合比は、隣接する母音中心の調音パラメータの間を補間して連続的で自然な音声合成をするためのパラメータである。従って、混合比算出にあたっては、隣接する二つの母音の発声中心に対応するフレーム(スペクトル変化率が極小となるフレーム)が両端に配される様にとられたフレームシーケンスのスペクトル変化率を使用してその間の音声を補間するための混合比を算出すればよい。ただし、この場合、フレームシーケンスの最後のフレームは、次のフレームシーケンスの先頭フレームに相当するので、混合比算出の対象とはしない。 As described above, the mixing ratio is a parameter for interpolating between adjacent vowel-centric articulation parameters to synthesize continuous and natural speech. Therefore, when calculating the mixing ratio, the frame sequence spectrum change rate is used so that the frames corresponding to the utterance centers of two adjacent vowels (frames with the minimum spectrum change rate) are arranged at both ends. Then, a mixing ratio for interpolating the sound between them may be calculated. However, in this case, since the last frame of the frame sequence corresponds to the first frame of the next frame sequence, it is not subject to the mixing ratio calculation.
また、処理対象となる音声信号にはノイズが含まれている事が多く、そのために、音声信号から得られるスペクトル変化率のグラフは変形している。そうしたノイズの影響を除去し、かつ演算を簡略にするために、スペクトル変化率の描く曲線を何らかの関数で近似する。本実施の形態では、スペクトル変化率の描く曲線をガウス関数で近似する。 In addition, the audio signal to be processed often includes noise, and for this reason, the graph of the spectrum change rate obtained from the audio signal is deformed. In order to remove the influence of such noise and simplify the calculation, the curve drawn by the spectrum change rate is approximated by some function. In the present embodiment, the curve drawn by the spectrum change rate is approximated by a Gaussian function.
図2に、母音/a/から母音/i/まで音声が変化するときの音声信号から得られたスペクトル変化率の一例(スペクトル変化率42)と、このスペクトル変化率の描く曲線を近似するガウス関数44とを示す。図2を参照して、母音/a/の母音中心がグラフの左端に、母音/i/の母音中心がグラフの右端に配されている。なお、前述の理由により、グラフの右端は母音/i/の母音中心を含むフレームよりも一つ前のフレームとなっている。
FIG. 2 shows an example of a spectrum change rate (spectrum change rate 42) obtained from a voice signal when the voice changes from vowel / a / to vowel / i /, and a Gaussian approximating a curve drawn by this spectrum change rate.
ガウス分布は左右対称の分布を示す。しかし、スペクトル変化率は極大値フレーム40の左右で異なった分布を持つ事が一般的である。そこで、極大値フレームの左右で異なるガウス関数を割当てる。この近似に用いられるガウス関数は、スペクトル変化率の極大値と極小値とから定められる。なお、ガウス関数は、x軸に漸近するが決して0にはならない。一方、ガウス関数による近似では、フレームシーケンスの両端の母音位置で調音パラメータがそれぞれ両者の調音パラメータと一致する事が望ましく、そのためにはフレームシーケンスの両端の母音位置では近似関数の値が0となる必要がある。そこで、例えば上記したガウス関数を一旦求めた後、さらにフレームシーケンスの両端での関数の値が0となる様に、ガウス関数から定数を引いたり、ガウス関数に所定倍数を乗じた後に定数を引いたりして、関数の値がフレームシーケンスの両端(母音位置)で0となる様にする。
The Gaussian distribution is a symmetrical distribution. However, the spectral change rate generally has different distributions on the left and right of the local
この様にしてスペクトル変化率を近似するガウス関数を求めた後、このガウス関数から以下の様にして混合比を算出する。 After obtaining a Gaussian function that approximates the spectrum change rate in this way, the mixing ratio is calculated from the Gaussian function as follows.
図3の上段に図2に示すスペクトル変化率50の曲線と、対応するガウス関数による近似(近似関数52)とを示す。この近似関数52を積分し、最終的な積分の値が1となる様に正規化した曲線54(図3下段に示す)により、母音/a/から母音/i/までの移行途中の混合比が得られる。
The upper part of FIG. 3 shows the curve of the
以上のガウス関数の割当から混合比までの算出をまとめると、次の様になる。隣接する母音中心間にm個のフレームがあり、そのn番目にスペクトル変化率の極大値が存在するものとする。このとき、母音間のフレーム番号をk(0≦k<n)、曲線60に対応する関数(すなわち混合比)をbr(k)とすると、混合比br(k)は次の式(1)及び(2)で表わされる。 The calculation from the allocation of the above Gaussian function to the mixture ratio is summarized as follows. It is assumed that there are m frames between adjacent vowel centers, and the maximum value of the spectrum change rate exists at the nth. At this time, if the frame number between vowels is k (0 ≦ k <n) and the function corresponding to the curve 60 (ie, the mixing ratio) is br (k), the mixing ratio br (k) is expressed by the following equation (1). And (2).
(2)声道断面積関数の算出
次に、この混合比brを用いて、声道断面積関数を算出する方法について説明する。
(2) Calculation of vocal tract cross-sectional area function Next, a method for calculating the vocal tract cross-sectional area function using the mixture ratio br will be described.
図4及び図5に、声道断面積関数の例を示す。声道断面積関数は時刻の関数であり、ある時刻における声門からの距離と声道断面積との間の関係を示す。図4及び図5では、縦軸に声道断面積をとり、横軸に声門からの距離をとっている。図4に示された声道断面積関数は時刻t1の時のものである。図5に示された声道断面積関数は時刻t2の時のものである。声道断面積関数を求めるためには、各時刻における声門からの距離と、その位置における声道の断面積とを求める必要がある。本実施の形態では、声道を所定個数のセクションに分け、各時刻における各セクションでの声道断面積によって声道断面積関数を表す。また本実施の形態では、セクション数は一定であるものとし、声道長の変化にはセクション長の変化で対応する。 4 and 5 show examples of vocal tract cross-sectional area functions. The vocal tract cross-sectional area function is a function of time and indicates the relationship between the distance from the glottis and the vocal tract cross-sectional area at a certain time. 4 and 5, the vertical axis represents the vocal tract cross-sectional area, and the horizontal axis represents the distance from the glottis. The vocal tract cross-sectional area function shown in FIG. 4 is that at time t1. The vocal tract cross-sectional area function shown in FIG. 5 is that at time t2. In order to obtain the vocal tract cross-sectional area function, it is necessary to obtain the distance from the glottis at each time and the cross-sectional area of the vocal tract at that position. In this embodiment, the vocal tract is divided into a predetermined number of sections, and the vocal tract cross-sectional area function is represented by the vocal tract cross-sectional area in each section at each time. In this embodiment, the number of sections is assumed to be constant, and changes in vocal tract length are handled by changes in section length.
以下では、混合比brを時刻tの関数br(t)として考える。このとき、声門から数えてn番目のセクションにおける声門からの距離(xpos)は次の式(5)で表わされる。 In the following, the mixture ratio br is considered as a function br (t) at time t. At this time, the distance (xpos) from the glottis in the n-th section counted from the glottis is expressed by the following equation (5).
<第1の実施の形態>
以下、上記した補間方法を利用した、本発明の一実施の形態に係る音声合成装置について詳述する。
<First Embodiment>
Hereinafter, a speech synthesizer according to an embodiment of the present invention using the above-described interpolation method will be described in detail.
[構成]
(1)音声合成システム70
図6に、本発明の第1の実施の形態に係る音声合成システム70のブロック図を示す。なお、本実施の形態では、ある話者が連続音声を発声したものを録音し、その録音から各母音の調音パラメータと母音間の混合比とを算出する。その連続音声の発話テキスト84は予め与えられるものとする。
[Constitution]
(1)
FIG. 6 shows a block diagram of the
図6を参照して、音声合成システム70は、音声信号と発話テキスト84とを用いて、音声合成のための調音パラメータを補間するために用いられるデータを生成するための補間用データ生成装置86と、補間用データ生成装置86によって生成されたデータを保持するための補間用DB88と、入力されたテキスト90に対し、補間用DB88内のデータを用いて合成音声信号94を出力するための音声合成装置92とを含む。
Referring to FIG. 6, the
(2)補間用データ生成装置86
図7に、補間用データ生成装置86のブロック図を示す。補間用データ生成装置86は、音声信号からそのスペクトル変化率を生成するためのスペクトル変化率生成部60と、生成されたスペクトル変化率を保持するためのスペクトル変化率DB62と、スペクトル変化率と発話テキスト84とから、各母音中心の調音パラメータと補間用データとを生成するための補間用データ生成部64とを含む。母音中心の調音パラメータも補間比が0又は1の補間用データと考える事ができるので、本実施の形態では母音中心の調音パラメータも含めて補間用データと呼ぶ。
(2)
FIG. 7 shows a block diagram of the interpolation
(3)スペクトル変化率生成部60
図8に、スペクトル変化率生成部60のブロック図を示す。スペクトル変化率生成部60は、与えられた音声信号をフレーム化するためのフレーム化部100と、フレーム化された音声信号のスペクトルを抽出するためのスペクトル抽出部102と、抽出されたスペクトルからケプストラムを算出するためのケプストラム算出部104と、算出されたケプストラムから音声特徴量の差であるデルタケプストラムを算出するためのデルタケプストラム算出部106と、算出されたデルタケプストラムからスペクトル変化率を算出し、その算出結果をスペクトル変化率DB62に与えるためのスペクトル変化率算出部108とを含む。
(3) Spectrum change
FIG. 8 shows a block diagram of the spectrum change
ここで、デルタケプストラムはフレーム間の音声特徴量であるケプストラムの差を表わすパラメータであるので、デルタケプストラムの値が大きいほどフレーム間のスペクトル変化が大きいと言える。デルタケプストラムdcep(n,m)は次の式(7)で表わされる。ここでmはフレーム番号を表わし、nはケプストラムの次数を表わす。 Here, since the delta cepstrum is a parameter representing a difference in cepstrum, which is an audio feature amount between frames, it can be said that the larger the value of the delta cepstrum, the larger the spectrum change between frames. The delta cepstrum dcep (n, m) is expressed by the following equation (7). Here, m represents the frame number, and n represents the order of the cepstrum.
図9に、補間用データ生成部64のブロック図を示す。補間用データ生成部64は、スペクトル変化率DB62に保持されたスペクトル変化率を参照して、母音中心を示す調音運動極小値を含むフレームを検出するための極小値検出部110と、スペクトル変化率DB62に保持されたスペクトル変化率を参照して、発話母音間の境界を示す調音運動極大値を含むフレームを検出するための極大値検出部112と、発話テキストを比較参照して、調音運動が極小値になるフレームに順に母音を割当てるための母音割当部114と、全フレームのうち、第1の音素の母音中心であるスペクトル変化率最小値を含むフレームから始まって、スペクトル変化率最大値を含むフレームを経て、第2の音素の母音中心であるスペクトル最小値を含むフレームの一つ前のフレームで終わる様に複数のフレームを一組のフレームシーケンスとして組合せるためのフレームシーケンス作成部116とを含む。
FIG. 9 shows a block diagram of the interpolation
補間用データ生成部64はさらに、フレームシーケンス作成部116により組合わされたフレームシーケンス中で先頭のフレームに極小値を、スペクトル変化率の極大値のフレームにガウス関数の極大値を、それぞれ持ち、かつ極小値が0となるガウス関数を割当てるためのガウス関数割当部118と、スペクトル変化率の極大値のフレームに極大値を、次のフレームシーケンスの先頭のフレームに極小値を、それぞれ持ち、かつ極小値が0となるガウス関数を割当てるためのガウス関数割当部120とを含む。ガウス関数割当部118により割当てられたガウス関数のうちの前半部(極小値から極大値まで)と、ガウス関数割当部120により割当てられたガウス関数のうち後半部(極大値から極小値の1フレーム前まで)とを極大値部分で接続する事により、発話器官の動きを表す関数が得られる。以下、この関数を「発話器官変化率関数」と呼ぶ。
The interpolation
補間用データ生成部64はさらに、この発話器官変化率関数を先頭フレームから最終フレーム(次のフレームシーケンスの1つ前のフレーム)まで積分して最大値が1になる様に正規化して得られる関数(以下これを「発話器官形状関数」と呼ぶ。)を出力するための積分・正規化部122と、積分・正規化部122により出力された発話器官形状関数から各フレームにおける混合比を算出するための混合比算出部124と、種々の音素に対して予め算出された調音パラメータを保持するための調音パラメータDB128と、母音割当部114で割当てられた音素に対応する調音パラメータを調音パラメータDB128から取り出し、対応する混合比を用いた補間により各時刻における各音素間の声道断面積関数を算出し、その結果を補間用DB88に与えるための声道断面積関数算出部126とを含む。この声道断面積関数が、本実施の形態における補間用データである。
Further, the interpolation
(5)音声合成装置92
図10に、音声合成装置92のブロック図を示す。図10を参照して、テキスト90には、各音素を発声すべき時間情報が付されている。音声合成装置92は、入力されたテキスト90を音素単位に分割し、隣接する2音素ごとに、当該2音素間の補間用データを補間用DB88から抽出して、補間調音パラメータ132として出力するための補間パラメータ抽出部130と、所定周期のクロック信号を発生するためのクロック部140と、合成する連続音声の発音長等に応じて、クロック部140からのクロックにより定まるタイミングで、補間調音パラメータ132を順番に出力してフィルタ138に与えるための出力部134と、発話のための音源となる音源信号を出力するための音源136と、出力部134によって与えられる調音パラメータに従って変化する特性で音源136からの音源信号を変調し、合成音声信号94を出力するためのフィルタ138とを含む。
(5)
FIG. 10 shows a block diagram of the
なお、音声にイントネーションを付けたり音の高さを調整する必要がある場合、音源136からの音源信号の周波数を変化させる必要がある。
Note that when it is necessary to add intonation to the sound or adjust the pitch, it is necessary to change the frequency of the sound source signal from the
[動作]
本実施の形態に係る音声合成システム70の動作には、2つの局面がある。すなわち、第1の局面は、音声信号及び対応する発話テキストから、調音パラメータ補間用のデータ(補間後の調音パラメータ)を生成し、補間用DBを作成する局面(補間用データ生成装置86の動作に相当する。)である。第2の局面は、補間用DB88のデータを用いて、入力テキスト90の連続音声を合成する局面(音声合成装置92の動作に相当する。)である。以下、順に説明する。
[Operation]
There are two aspects to the operation of the
(1)補間用データ生成装置86の動作
本実施の形態に係る補間用データ生成装置86は以下の様に動作する。
(1) Operation of Interpolation
図8を参照して、音声信号が与えられると、フレーム化部100は、音声信号をフレーム化する。スペクトル抽出部102は、フレーム化された音声信号の各フレームから発話スペクトルを抽出する。ケプストラム算出部104が、各フレームから抽出された発話スペクトルに基づいてフレームごとのケプストラムを算出する。デルタケプストラム算出部106は、算出されたケプストラムから前述した式(7)によってデルタケプストラムを算出する。スペクトル変化率算出部108は、算出されたデルタケプストラムから前述した式(8)によってスペクトル変化率を算出する。算出されたスペクトル変化率は、スペクトル変化率DB62に与えられ、保持される。
Referring to FIG. 8, when an audio signal is given, framing
次に、図9を参照して、極小値検出部110は、スペクトル変化率DB62に保持されたスペクトル変化率から、変化率が極小であるフレームを検出する。同様に、極大値検出部112は、スペクトル変化率DB62に保持されたスペクトル変化率から、変化率が極大であるフレームを検出する。
Next, referring to FIG. 9, the minimum
母音割当部114は、検出された調音運動極小値に発話テキスト84に含まれた音を順番に対応させて、極小値である母音中心に該当する音を割当てる。
The
フレームシーケンス作成部116は、スペクトル変化率が極小となるフレームのうち、隣接する極小値を与えるフレームの対と、その間のすべてのフレームとからなるフレームシーケンスを作成する。その中にはスペクトル変化率が極大になるフレームも含まれる。この処理により、一つのフレームシーケンスの組が作成される。この処理を繰返す事により、すべてのフレームシーケンスの組を作る。
The frame
ガウス関数割当部118は、組合された各組のフレームシーケンスのうちで、先頭のフレームと極大値を含むフレームとの間のスペクトル変化率にガウス関数を割当てる。同様に、ガウス関数割当部120は、極大値を含むフレームと、当該フレームシーケンスの最後のフレームより一つ前のフレームまでに含まれるスペクトル変化率にガウス関数を割当てる。積分・正規化部122は、この二つのガウス関数を接続して得られる発話器官変化率関数についてフレームシーケンスの先頭から最後(最後の極小値を与えるフレームの一つ前のフレーム)まで積分し、さらに最大値が1になる様に正規化する事により、発話器官形状関数を生成する。
The Gaussian
混合比算出部124は、この様にして得られた発話器官形状関数から、前述した式(1)、(2)、(3)、及び(4)によって混合比を算出する。声道断面積関数算出部126は、調音パラメータDB128に保持された調音パラメータから、母音割当部114で割当てられた音素に該当する調音パラメータを読出す。そして読出された調音パラメータを使用して、算出された混合比から、前述した式(5)及び(6)によってフレームシーケンスに含まれる各フレームでの各音素間の声道断面積関数を算出する。算出された声道断面積関数は補間用DB88に与えられ、保持される。
The mixing
この処理がすべてのフレームシーケンスに対して実行される。 This process is executed for all frame sequences.
(2)音声合成装置92の動作
本実施の形態に係る音声合成装置92は以下の様に動作する。
(2) Operation of
図10を参照して、テキスト90が入力されると、補間パラメータ抽出部130は、入力テキスト90を音素単位に分割する。さらに補間パラメータ抽出部130は、入力テキスト90内において隣接する2音素の組の各々について、その2音素を補間するための補間用データ(補間後の調音パラメータ)である声道断面積関数を補間用DB88から抽出する。この抽出作業を入力テキスト90内において隣接する2音素の組合わせのすべてについて行ない、補間調音パラメータ132として出力する。
Referring to FIG. 10, when
出力部134は、出力された補間調音パラメータ132を順に読込み、補間調音パラメータ132に付された、そのパラメータの2音素間における位置情報及び合成すべき音声の長さ等から、クロック部140からのクロックに従って適切な時期に各補間調音パラメータをフィルタ138に与える。フィルタ138は、与えられた補間調音パラメータに従ってその特性を変化させて音源136からの音源信号を変調し、合成音声信号94を出力する。この合成音声信号94を図示しない増幅器を介してスピーカに与える事により、連続音声が発生される。
The
なお、フレームシーケンス作成部116(図9参照)で行なわれる、フレームシーケンスの組を作る処理は、手動で行なわれてもよい。 Note that the process of creating a set of frame sequences performed by the frame sequence creation unit 116 (see FIG. 9) may be performed manually.
[第1の実施の形態の効果]
この様にして、本発明の第1の実施の形態に係る音声合成システム70によれば、実際の人間の発話における発話器官の動きと一致する様な方法で調音パラメータである声道断面積関数を補間する。そのため、聴覚上、滑らかで自然な連続音声を合成する事ができる。さらに、この第1の実施の形態では、声道断面積関数算出まで予め行ない、実際の音声合成時にはこの声道断面積関数を読出すだけでよい。その結果、実際の音声合成時の計算量が削減されるという効果がある。また、従来技術と異なり、音声信号から補間パラメータの抽出を行なう。その結果、MRI動画像の撮影に伴う手間及びコストを削減する事ができる。
[Effect of the first embodiment]
In this way, according to the
[コンピュータによる実現]
本発明の第1の実施の形態に係る音声合成システム70は、コンピュータと、当該コンピュータ上で実行されるコンピュータプログラムとにより実現できる。以下、図11〜図15を参照して音声合成システム70を実現するコンピュータプログラムの制御構造を説明する。
[Realization by computer]
The
(1)補間用データ生成部64を実現するプログラム
図11に、補間パラメータを算出する処理の詳細なフローチャートを示す。図11を参照して、補間パラメータ算出処理が開始されると、まずステップ150にて初期処理を行なう。すなわち、ワークエリアのクリア、使用する変数のクリア等を行なう。ここで、極小値の配列の添字となる変数iには1を代入しておく。続いて、ステップ152では、変数iに1を加算した値を変数jに代入して、ステップ154へ進む。
(1) Program for Implementing Interpolation
ステップ154では、極小値の配列において、j番目のデータがセットされているかどうかを判断する。セットされていれば、処理はステップ156に進み、さもなければ、補間パラメータ算出処理を終了する。
In
ステップ156では、極小値の配列のi番目の調音パラメータ(これを調音パラメータ(i)と呼ぶ。)と調音パラメータ(j)との間を、前述した式(1)〜式(6)を用いて補間する。具体的には、まず、極小値の配列のi番目のフレーム番号(フレーム番号(i)と呼ぶ。)とフレーム番号(j)とを参照して、フレーム番号(i)とフレーム番号(j)との間のフレームのスペクトル変化率に2種類のガウス関数を割当てる。すなわち、フレーム番号(i)とフレーム番号(j)との間のスペクトル変化率と、その間のスペクトル変化率の極大値と、その極大値を与えるフレーム番号とを特定し、フレーム番号(i)から極大値を与えるフレームまでについてのガウス関数と、極大値を与えるフレームからフレーム番号(j)−1までについてのガウス関数とを割当てる。それらガウス関数を極大値部分で接続して発話器官変化率関数を得る。この発話器官変化率関数に基づき、前述の式(1)〜式(4)を用いて各フレームにおける混合比を算出する。さらに、調音パラメータ(i)及び調音パラメータ(j)と、算出された混合比とを用いて、前述の式(5)及び(6)によってそのフレームにおける声道断面積関数を算出する。この様にして、フレーム番号(i)とフレーム番号(j)との間の全てのフレームにおいて、補間された声道断面積関数を算出する。
In
続いて、ステップ158において、変数iの値に1を加算し、再びステップ152の処理に戻る。
Subsequently, in
この様にして、すべての極小値の間のフレームについて、補間用データを算出する処理を繰返す。 In this way, the process of calculating the interpolation data is repeated for the frames between all the minimum values.
(2)音声合成装置92を実現するプログラム
図12に、音声合成装置92を実現するコンピュータプログラムのフローチャートを示す。図12を参照して、音声合成処理が開始されると、ステップ160において、入力発話テキスト90に応じて、補間用DBから補間パラメータである声道断面積関数を抽出する処理が行なわれる。続いて、ステップ162において、ステップ160で抽出された声道断面積関数をクロックに従ってフィルタに出力し、合成音声信号を発生させる出力処理を行なう。
(2) Program for
図13に、ステップ160の補間パラメータを抽出する処理の詳細なフローチャートを示す。図13を参照して、補間パラメータ抽出処理が開始されると、まずステップ170で初期処理を行なう。すなわち、ワークエリアのクリア、使用する変数のクリア等を行なう。ここで、後述する音素の配列の添字となる変数iには1を代入しておく。ステップ172で、入力テキスト90を読出す。ステップ174では、テキスト90を音素単位に分割し、それらの音素を順に配列にセットする。処理はステップ176へ進む。
FIG. 13 shows a detailed flowchart of the process of extracting the interpolation parameter in
ステップ176では、変数iに1を加算した値を変数jに代入する。ステップ178で、ステップ174でセットした音素の配列から、i番目の音素(これを音素(i)と呼ぶ。)及び音素(j)を参照する。このとき、音素(j)に音素がセットされているかどうかを判定する(ステップ180)。音素(j)に値がなければ(すなわち終了であれば)、補間パラメータ抽出処理を終了し、さもなければ、処理はステップ182へ進む。
In
ステップ182では、音素(i)・音素(j)間の補間調音パラメータを、補間用DBよりすべて抽出し、ワークエリアに順に蓄積していく。続いてステップ184で、変数iに1を加算し、処理はステップ176へ戻る。
In
この様にして、入力テキストに係る補間調音パラメータを全て順に抽出して、ワークエリアに順に出力し、蓄積していく。 In this way, all the interpolation articulation parameters related to the input text are extracted in order, and are sequentially output and stored in the work area.
図12に示すステップ162の出力処理では、ステップ160の補間パラメータ抽出処理で抽出されワークエリアに蓄積された補間調音パラメータを使用して、合成音声信号を発生させる。なお、この処理の詳細については、前述の音声合成装置92の構成・動作の説明から処理内容が明らかであるため、ここでは詳細な説明は繰返さない。
In the output process of
[コンピュータハードウェア構成]
上記したコンピュータプログラムを実行するコンピュータシステムの外観の一例を図14に、そのブロック図の例を図15に、それぞれ示す。
[Computer hardware configuration]
FIG. 14 shows an example of the external appearance of a computer system that executes the above-described computer program, and FIG. 15 shows an example of a block diagram thereof.
図14を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352及びCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342と、スピーカ372とを含む。
Referring to FIG. 14, a
図15を参照して、コンピュータ340は、FDドライブ352及びCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352及びCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)360と、バス366に接続され、スピーカ372に接続されるサウンドボード368を含む。コンピュータシステム330はさらに、図示しないプリンタを含んでいる。
Referring to FIG. 15, in addition to the FD drive 352 and the CD-
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
Although not shown here, the
コンピュータシステム330に、図7に示す補間用データ生成装置86又は図10に示す音声合成装置92としての動作を行なわせるためのコンピュータプログラムは、CDROMドライブ350又はFDドライブ352に挿入されるCD−ROM362又はFD364に記憶され、さらにハードディスク354に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、又はネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
A computer program for causing the
このプログラムは、コンピュータ340にこの実施の形態の補間用データ生成装置86又は音声合成装置92としての動作を行なわせる複数の命令を含む。この方法を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するOS又はサードパーティのプログラム、もしくはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態の補間用データ生成装置86又は音声合成装置92を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られる様に制御されたやり方で適切な機能又は「ツール」を呼出す事により、上記した補間用データ生成装置86又は音声合成装置92を実現する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。
This program includes a plurality of instructions that cause the
<第2の実施の形態>
上記した第1の実施の形態では、補間用DB88には、実際に補間式を適用して補間パラメータである声道断面積関数を算出して補間用データとして蓄積し、それを使用して連続音声を合成した。しかし、本発明はこのような実施の形態には限定されない。例えば、補間用DB88には、声道断面積関数ではなく、声道断面積関数を算出するための混合比(前述した式(1)〜式(4)によって算出されるもの)を蓄積しておき、それを連続音声合成の際に使用する方法も考えられる。以下、この方法を適用した、第2の実施の形態について説明する。
<Second Embodiment>
In the first embodiment described above, the
[構成]
本発明の第2の実施の形態に係る音声合成システムは、図6に示す第1の実施の形態に係る音声合成システム70と類似した構成である。ただし、この第2の実施の形態に係るシステムの補間用データ生成装置は、第1の実施の形態における補間用データ生成装置86と類似した構成を持つが、補間用データ生成部64(図9参照)に代えて図16に示す構成を有する補間用データ生成部190を含む点で異なる。またこの第2の実施の形態に係るシステムは、第1の実施の形態における音声合成装置92(図10参照)に代えて、図17に示す構成を有する音声合成装置210を含む。
[Constitution]
The speech synthesis system according to the second embodiment of the present invention has a configuration similar to the
(1)補間用データ生成部190
図16に、本実施の形態に係る補間用データ生成部190のブロック図を示す。図16を参照して、補間用データ生成部190は、第1の実施の形態に係る補間用データ生成部64と同様の構成を持つが、図9に示す声道断面積関数算出部126を含まず、混合比算出部124の出力をそのまま補間用DB208に保持させる点で補間用データ生成部64と異なる。すなわち、第2の実施の形態においては、第1の実施の形態とは異なり、調音パラメータである声道断面積関数の補間までは行なわず、フレームごとの混合比を算出するにとどめる様にしたものである。
(1) Interpolation
FIG. 16 is a block diagram of the interpolation
(2)音声合成装置210
図17に、本実施の形態に係る音声合成装置210のブロック図を示す。図17を参照して、音声合成装置210は、図10に示す第1の実施の形態に係る音声合成装置92と類似した構成を持つ。異なるのは、音声合成装置210が、図10に示す補間パラメータ抽出部130に代えて、隣接する音素の組の各々に対して補間用DB208から2音素間の声道断面積関数を補間するための混合比を抽出するための混合比抽出部212と、種々の音素に対して予め算出された調音パラメータを保持するための調音パラメータDB216と、テキスト90により与えられた音素に対応する調音パラメータを調音パラメータDB216から取り出し、対応する混合比を用いた補間により音素間の声道断面積関数を算出し、補間調音パラメータ132として出力するための声道断面積関数算出部214とを含む点である。
(2)
FIG. 17 shows a block diagram of
[動作]
第2の実施の形態のうち、スペクトル変化率生成部60は第1の実施の形態に係る音声合成システムに含まれるスペクトル変化率生成部60と同様に動作する。従ってこれについての詳細な説明は繰返さない。
[Operation]
In the second embodiment, the spectrum change
(1)補間用データ生成部190の動作
図16に示す補間用データ生成部190は、第1の実施の形態に含まれる補間用データ生成部64とは声道断面積関数算出部126を含むか否かの点に違いがあるのみである。従って、動作の詳細な説明は繰返さない。ただし、ここでは補間用データとして混合比算出部124で混合比を算出するのみであるので、補間用DB208には声道断面積関数の代わりに混合比が保持される。
(1) Operation of Interpolation
(2)音声合成装置210の動作
音声合成装置210のうち、出力部134、音源136、フィルタ138、及びクロック部140は、第1の実施の形態に係る音声合成装置92における場合と同様に動作する。従ってそれらについての詳細な説明は繰返さない。
(2) Operation of
図17を参照して、テキスト90は、発声すべき音素列からなるテキストと、各音素を発声するための時間情報とを含む。テキスト90が入力されると、このテキストと時間情報とは混合比抽出部212及び声道断面積関数算出部214に与えられる。
Referring to FIG. 17,
混合比抽出部212は、テキスト90により与えられた音素列のうち隣接する2音素の組合せの各々について、その2音素を補間するための補間用データである混合比を補間用DB208からすべて抽出する。声道断面積関数算出部214は、調音パラメータDB216に保持された調音パラメータから、テキスト90により与えられた音素に該当する調音パラメータを読出す。そして読出された調音パラメータを使用して、式(5)及び式(6)によって抽出された混合比から各音素間の声道断面積関数を算出する。そして、テキスト90に含まれる2音素間を声道断面積関数で補間して補間調音パラメータ132を出力する。この作業を、テキスト90内の音素列で隣接する2音素の組合せの全てについて行ない、補間調音パラメータ132として出力部134に与える。その後の動作は、音声合成装置92と同様である。
The mixing
なお、フレームシーケンス作成部116(図16参照)で行なわれる、フレームシーケンスの組を作る処理は、手動で行なわれてもよい。 Note that the process of creating a frame sequence set performed by the frame sequence creation unit 116 (see FIG. 16) may be performed manually.
[第2の実施の形態の効果]
本実施の形態に係る音声合成システムにおいても、実際の人間の発話における発話器官の動きと一致する様な方法で調音パラメータである声道断面積関数を補間する。そのため、聴覚上、滑らかで自然な連続音声を合成する事ができる。また補間用データ生成装置では2音素間の各フレームに対応する混合比のみを算出し、声道断面積関数までは算出しない。そのため、補間用データの生成に要する時間が短くて済み、補間用DB208として必要な容量も削減できる。また、本実施の形態においても、従来技術と異なり、音声信号から補間パラメータの抽出を行なう。その結果、MRI動画像の撮影に伴う手間及びコストを削減する事ができる。
[Effect of the second embodiment]
Also in the speech synthesis system according to the present embodiment, the vocal tract cross-sectional area function that is the articulation parameter is interpolated by a method that matches the movement of the speech organ in the actual human speech. Therefore, it is possible to synthesize a continuous sound that is smooth and natural in terms of hearing. Further, the interpolation data generation apparatus calculates only the mixture ratio corresponding to each frame between two phonemes, and does not calculate the vocal tract cross-sectional area function. Therefore, the time required for generating the interpolation data can be shortened, and the capacity required for the
[コンピュータによる実現]
本発明の第2の実施の形態に係る音声合成システムも、第1の実施の形態と同様に、コンピュータと、当該コンピュータ上で実行されるコンピュータプログラムとにより実現できる。なお、本実施の形態に係る音声合成システムを実現するコンピュータプログラムの制御構造については、第1の実施の形態の説明に基づいて、当業者には容易に実現できると思われる。コンピュータのハードウェア構成についても、第1の実施の形態で説明したものと同様である。従って、ここではそれらについての詳細な説明は繰返さない。
[Realization by computer]
Similarly to the first embodiment, the speech synthesis system according to the second embodiment of the present invention can also be realized by a computer and a computer program executed on the computer. Note that the control structure of the computer program that implements the speech synthesis system according to the present embodiment can be easily realized by those skilled in the art based on the description of the first embodiment. The hardware configuration of the computer is the same as that described in the first embodiment. Therefore, detailed description thereof will not be repeated here.
<第3の実施の形態>
上記した第2の実施の形態では、補間用DB208には、2音素間で声道断面積関数の補間を行なうための混合比を蓄積し、実際の補間時にそれを使用して声道断面積関数を算出し連続音声を合成した。しかし、本発明はこのような実施の形態には限定されない。例えば、補間用DBには、声道断面積関数又はその算出に用いる混合比ではなく、スペクトル変化率にガウス関数を割当て、さらに積分及び正規化して得られた発話器官形状関数を蓄積しておき、連続音声合成の際にこれらを用いて調音パラメータである声道断面積関数を算出する方法も考えられる。以下、この方法を適用した第3の実施の形態について説明する。
<Third Embodiment>
In the second embodiment described above, the interpolating
[構成]
本発明の第3の実施の形態に係る音声合成システムも、図6に示す第1の実施の形態に係る音声合成システム70と類似した構成である。ただし、この第3の実施の形態に係るシステムの補間用データ生成装置は、第1の実施の形態における補間用データ生成装置86と類似した構成を持つが、補間用データ生成部64(図9参照)に代えて図18に示す補間用データ生成部230を含む点で異なる。またこの第3の実施の形態に係るシステムは、第1の実施の形態における音声合成装置92(図10参照)に代えて図19に示す構成を有する音声合成装置250を含む。
[Constitution]
The speech synthesis system according to the third embodiment of the present invention has a configuration similar to the
(1)補間用データ生成部230
図18に、本実施の形態に係る補間用データ生成部230のブロック図を示す。図18を参照して、補間用データ生成部230は、第1の実施の形態における補間用データ生成部64と同様の極小値検出部110と、極大値検出部112と、母音割当部114と、フレームシーケンス作成部116と、ガウス関数割当部118と、ガウス関数割当部120と、積分・正規化部124とを含む。第3の実施の形態においては、第1の実施の形態とは異なり、混合比の算出及び声道断面積関数の算出までは行なわず、発話器官変化率関数の積分・正規化処理をして発話器官形状関数の算出をするにとどめ、補間用データとしてこの発話器官形状関数を補間用DB246に出力する様にしたものである。
(1) Interpolation
FIG. 18 is a block diagram of the interpolation
(2)音声合成装置250
図19に、本実施の形態に係る音声合成装置250のブロック図を示す。図19を参照して、この音声合成装置250は、図10に示す第1の実施の形態に係る音声合成装置92と類似した構成を持つ。異なるのは、図10に示す補間パラメータ抽出部130に代えて、入力テキスト90の中の隣接する音素の組の各々に対して補間用DB246から積分・正規化された発話器官形状関数を抽出するための補間用データ抽出部252と、抽出された補間用データから混合比を算出するための混合比算出部254と、種々の音素に対して予め算出された調音パラメータを保持するための調音パラメータDB216と、テキスト90により与えられた音素に対応する調音パラメータを調音パラメータDB216から取り出し、混合比を用いた補間により各音素間の声道断面積関数を算出し補間調音パラメータ132として出力するための、第2の実施の形態で使用したものと同じ声道断面積関数算出部214(図17参照)とを含む点である。
(2)
FIG. 19 shows a block diagram of
[動作]
第3の実施の形態に係る音声合成システムのうち、スペクトル変化率生成部60は第1の実施の形態及び第2の実施の形態に係る音声合成システムに含まれるスペクトル変化率生成部60と同様に動作する。従ってこれについての詳細な説明は繰返さない。
[Operation]
Of the speech synthesis system according to the third embodiment, the spectrum change
(1)補間用データ生成部230の動作
図18に示す補間用データ生成部230は、第1の実施の形態に含まれる補間用データ生成部64とは混合比算出部124及び声道断面積関数算出部126(図9参照)を含むか否かの点に違いがあるのみである。従って、その動作の詳細な説明は繰返さない。ただし、ここでは補間用データとして積分・正規化部124で発話器官変化率関数を積分・正規化して得られた発話器官形状関数を算出するのみであるので、補間用DB246には混合比の代わりに発話器官形状関数が保持される。
(1) Operation of Interpolation
(2)音声合成装置250の動作
図19を参照して、テキスト90は発声すべき音素列からなるテキストと、各音素を発声するための時間情報とを含む。テキスト90が入力されると、そのテキストと時間情報とは補間用データ抽出部252及び声道断面積関数算出部214に与えられる。
(2) Operation of
補間用データ抽出部252は、テキスト90を参照し、テキスト中で隣接する各音素の組に対し、補間用DB246に保持された発話器官形状関数を抽出する。混合比算出部254は前述した式(1)〜(4)によって算出されたデータから、二つの音素に対応する調音パラメータの混合比を算出して、声道断面積関数算出部214に与える。その後の動作は、第2の実施の形態における音声合成装置210と同様である。
The interpolation
なお、フレームシーケンス作成部116(図18参照)で行なわれる、フレームシーケンスの組を作る処理は、手動で行なわれてもよい。 Note that the process of creating a frame sequence set performed by the frame sequence creation unit 116 (see FIG. 18) may be performed manually.
[第3の実施の形態の効果]
本実施の形態に係る音声合成システムにおいても、実際の人間の発話における発話器官の動きと一致する様な方法で調音パラメータである声道断面積関数を補間する。そのため、聴覚上、より滑らかで自然な連続音声を合成する事ができる。補間用データ生成部230ではガウス関数でスペクトル変化率を近似する事により得られた発話器官変化率関数を積分・正規化して発話器官形状関数を算出するのみであり、混合比又は声道断面積関数は算出しない。そのため、補間用データの生成に要する時間が短くて済み、補間DB246として必要な容量も削減できる。ただし、音声合成装置250において混合比の算出と声道断面積関数の算出との双方を行なうので、第1の実施の形態又は第2の実施の形態と比較して計算量は大きくなる。また、本実施の形態においても、従来技術と異なり、音声信号から補間パラメータの抽出を行なう。その結果、MRI動画像の撮影に伴う手間及びコストを削減する事ができる。
[Effect of the third embodiment]
Also in the speech synthesis system according to the present embodiment, the vocal tract cross-sectional area function that is the articulation parameter is interpolated by a method that matches the movement of the speech organ in the actual human speech. Therefore, it is possible to synthesize a continuous voice that is smoother and more natural for hearing. Interpolation
[コンピュータによる実現]
本発明の第3の実施の形態に係る音声合成システムにおいても、第1の実施の形態と同様に、コンピュータと、当該コンピュータ上で実行されるコンピュータプログラムとにより実現できる。なお、本実施の形態に係る音声合成システムを実現するコンピュータプログラムの制御構造については、第1の実施の形態の説明に基づいて、当業者には容易に実現できると思われる。コンピュータのハードウェア構成についても、第1の実施の形態で説明したものと同様である。従って、ここではそれらについての詳細な説明は繰返さない。
[Realization by computer]
Similarly to the first embodiment, the speech synthesis system according to the third embodiment of the present invention can be realized by a computer and a computer program executed on the computer. Note that the control structure of the computer program that implements the speech synthesis system according to the present embodiment can be easily realized by those skilled in the art based on the description of the first embodiment. The hardware configuration of the computer is the same as that described in the first embodiment. Therefore, detailed description thereof will not be repeated here.
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
60 スペクトル変化率生成部
64 補間用データ生成部
100 フレーム化部
108 スペクトル変化率算出部
110 極小値検出部
112 極大値検出部
116 フレームシーケンス作成部
118 ガウス関数割当部
120 ガウス関数割当部
122 積分・正規化部
124 混合比算出部
126 声道断面積関数算出部
60 Spectral change
Claims (5)
連続する前記第1の音素及び前記第2の音素を含む入力音声信号から、前記第1の音素から前記第2の音素までの所定のスペクトル変化率の推移を算出するための変化率算出手段と、
前記変化率を用いて前記補間用データを作成するための補間用データ作成手段とを含み、
前記変化率算出手段は、
前記入力音声信号を所定時間ごとにフレーム化するためのフレーム化手段と、
前記フレーム化手段によりフレーム化された音声信号からフレームごとに前記所定のスペクトル変化率を算出するためのスペクトル変化率算出手段とを含み、
前記スペクトル変化率算出手段は、
前記第1の音素から前記第2の音素までの前記音声信号から前記フレーム化手段によりフレーム化された音声信号のフレームの内、前記所定のスペクトル変化率の隣り合う極小値を与える第1及び第2の二つのフレームと、当該二つのフレームの間に存在し、前記所定のスペクトル変化率の極大値を与える第3のフレームとを含む複数のフレームを組合せるためのフレーム組合せ手段と、
前記フレーム組合せ手段により組合されたフレームの前記極大値と極小値とにより定められるガウス関数で前記所定のスペクトル変化率の推移を近似するための関数近似手段とを含み、
前記補間用データ作成手段は、
前記関数近似手段により得られた前記ガウス関数の、前記第1のフレームから前記第2のフレームまでを積分して積分関数を求め、さらに当該積分関数をその最大値で正規化した正規化積分関数を求めるための積分・正規化手段を含む、調音パラメータ補間用データ生成装置。 Articulation parameters for synthesizing speech that varies continuously from the first phoneme to the second phoneme are generated by interpolation between known articulation parameters for speech synthesis of the first and second phonemes. A data generation device for articulation parameter interpolation for generating interpolating data at the time,
Change rate calculation means for calculating a transition of a predetermined spectrum change rate from the first phoneme to the second phoneme from an input speech signal including the first phoneme and the second phoneme that are continuous; ,
Look including an interpolation data generating means for generating said interpolation data by using the rate of change,
The rate of change calculation means includes:
Framing means for framing the input audio signal every predetermined time;
Spectrum change rate calculating means for calculating the predetermined spectrum change rate for each frame from the voice signal framed by the framing means,
The spectrum change rate calculating means includes:
First and second for giving adjacent minimum values of the predetermined spectrum change rate in the frames of the voice signal framed by the framing means from the voice signal from the first phoneme to the second phoneme. Frame combining means for combining a plurality of frames including two frames and a third frame that exists between the two frames and that gives a maximum value of the predetermined spectral change rate;
Function approximating means for approximating the transition of the predetermined spectral change rate with a Gaussian function defined by the maximum value and the minimum value of the frames combined by the frame combination means;
The interpolation data creation means includes:
A normalized integral function obtained by integrating the Gaussian function obtained by the function approximating means from the first frame to the second frame to obtain an integral function, and further normalizing the integral function with the maximum value. A data generation apparatus for articulation parameter interpolation , including integration / normalization means for obtaining
前記フレーム組合せ手段により組合されたフレームのうち、前記第1のフレームと前記第3のフレームとの間で、前記所定のスペクトル変化率を近似する第1のガウス関数を求めるための手段と、 Means for obtaining a first Gaussian function approximating the predetermined spectral change rate between the first frame and the third frame among the frames combined by the frame combination means;
前記フレーム組合せ手段により組合されたフレームのうち、前記第3のフレームと前記第2のフレームとの間で、前記所定のスペクトル変化率を近似する第2のガウス関数を求めるための手段と、 Means for obtaining a second Gaussian function approximating the predetermined spectral change rate between the third frame and the second frame among frames combined by the frame combination means;
前記第3のフレームにおいて前記第1のガウス関数と前記第2のガウス関数とを接続することにより、前記極大値と2つの極小値との間で前記所定のスペクトル変化率の推移を近似する前記ガウス関数を求めるための手段とを含む、請求項1に記載の長音パラメータ補間用データ生成装置。 By connecting the first Gaussian function and the second Gaussian function in the third frame, the transition of the predetermined spectral change rate is approximated between the maximum value and two minimum values. The long sound parameter interpolation data generation apparatus according to claim 1, further comprising means for obtaining a Gaussian function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005329011A JP4644879B2 (en) | 2005-11-14 | 2005-11-14 | Data generator for articulation parameter interpolation and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005329011A JP4644879B2 (en) | 2005-11-14 | 2005-11-14 | Data generator for articulation parameter interpolation and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007133328A JP2007133328A (en) | 2007-05-31 |
JP4644879B2 true JP4644879B2 (en) | 2011-03-09 |
Family
ID=38155021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005329011A Expired - Fee Related JP4644879B2 (en) | 2005-11-14 | 2005-11-14 | Data generator for articulation parameter interpolation and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4644879B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5039865B2 (en) * | 2010-06-04 | 2012-10-03 | パナソニック株式会社 | Voice quality conversion apparatus and method |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63210900A (en) * | 1987-02-27 | 1988-09-01 | 松下電器産業株式会社 | Voice synthesizer |
JP2005134685A (en) * | 2003-10-31 | 2005-05-26 | Advanced Telecommunication Research Institute International | Vocal tract shaped parameter estimation device, speech synthesis device and computer program |
-
2005
- 2005-11-14 JP JP2005329011A patent/JP4644879B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63210900A (en) * | 1987-02-27 | 1988-09-01 | 松下電器産業株式会社 | Voice synthesizer |
JP2005134685A (en) * | 2003-10-31 | 2005-05-26 | Advanced Telecommunication Research Institute International | Vocal tract shaped parameter estimation device, speech synthesis device and computer program |
Also Published As
Publication number | Publication date |
---|---|
JP2007133328A (en) | 2007-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11295721B2 (en) | Generating expressive speech audio from text data | |
KR102158743B1 (en) | Data augmentation method for spontaneous speech recognition | |
US7739113B2 (en) | Voice synthesizer, voice synthesizing method, and computer program | |
JP5685649B2 (en) | Parameter speech synthesis method and system | |
JP4705203B2 (en) | Voice quality conversion device, pitch conversion device, and voice quality conversion method | |
JP4169921B2 (en) | Speech recognition system | |
CN105957515B (en) | Speech synthesizing method, speech synthesizing device and the medium for storing sound synthesis programs | |
JP2009025658A (en) | Speech synthesizer and speech synthesis system | |
JP2013057735A (en) | Hidden markov model learning device for voice synthesis and voice synthesizer | |
WO2016172871A1 (en) | Speech synthesis method based on recurrent neural networks | |
CN113571047A (en) | Audio data processing method, device and equipment | |
KR20050049103A (en) | Method and apparatus for enhancing dialog using formant | |
JP2015041081A (en) | Quantitative f0 pattern generation device, quantitative f0 pattern generation method, model learning device for f0 pattern generation, and computer program | |
JP4644879B2 (en) | Data generator for articulation parameter interpolation and computer program | |
JP2798003B2 (en) | Voice band expansion device and voice band expansion method | |
JP2006243215A (en) | Data generating device for articulatory parameter interpolation, speech synthesizing device, and computer program | |
JP7339151B2 (en) | Speech synthesizer, speech synthesis program and speech synthesis method | |
JP5830364B2 (en) | Prosody conversion device and program thereof | |
CN114999440A (en) | Avatar generation method, apparatus, device, storage medium, and program product | |
JP2000075879A (en) | Method and device for voice synthesis | |
JP2005196020A (en) | Speech processing apparatus, method, and program | |
JP2011141470A (en) | Phoneme information-creating device, voice synthesis system, voice synthesis method and program | |
CN113066472A (en) | Synthetic speech processing method and related device | |
JP2010224418A (en) | Voice synthesizer, method, and program | |
JP6163454B2 (en) | Speech synthesis apparatus, method and program thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071116 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101102 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101119 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131217 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4644879 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |