JP4424024B2 - Segment-connected speech synthesizer and method - Google Patents
Segment-connected speech synthesizer and method Download PDFInfo
- Publication number
- JP4424024B2 JP4424024B2 JP2004075185A JP2004075185A JP4424024B2 JP 4424024 B2 JP4424024 B2 JP 4424024B2 JP 2004075185 A JP2004075185 A JP 2004075185A JP 2004075185 A JP2004075185 A JP 2004075185A JP 4424024 B2 JP4424024 B2 JP 4424024B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- speech unit
- storage device
- cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 84
- 238000003786 synthesis reaction Methods 0.000 claims description 84
- 238000012360 testing method Methods 0.000 claims description 19
- 238000001308 synthesis method Methods 0.000 claims description 17
- 238000004088 simulation Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 description 47
- 230000007423 decrease Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Description
この発明は音声合成装置に関し、特に、所定のコスト関数に基づいて音声素片を選択し接続することにより合成器指令に合致した音声合成を行なう音声合成装置に関する。 The present invention relates to a speech synthesizer, and more particularly to a speech synthesizer that performs speech synthesis that matches a synthesizer command by selecting and connecting speech segments based on a predetermined cost function.
音声認識、音声合成は、人間とコンピュータを用いた諸システムとのインターフェースを実現する技術として重要である。これらと人工知能技術とを併用することにより、利用者は相手がコンピュータシステムであることを意識せずに様々なサービスを利用することができる。 Speech recognition and speech synthesis are important technologies for realizing interfaces between humans and various systems using computers. By using these and artificial intelligence technology together, the user can use various services without being aware that the other party is a computer system.
中でも音声合成は、人間に対するシステム出力のためのインターフェースとしてその重要性は大きい。人間は、合成された音声の不自然さを敏感に感じ取る。合成された音声が不自然であると利用者が感じると、発話にも影響を及ぼし、その結果、人間とシステムとの間の対話がうまく行かなくなるおそれもある。 Speech synthesis is especially important as an interface for system output to humans. Humans are sensitive to the unnaturalness of synthesized speech. If the user feels that the synthesized speech is unnatural, it will affect the utterance, and as a result, the dialogue between the human and the system may not be successful.
最近の音声合成技術としては、予め人間の発話を多数集めて語・音節・音素等を単位とする音声素片を音素ラベルと関連付けてデータベース化しておき、合成時には、指定された語・音節・音素等に対応する音声素片の中から、最も適切と思われるものを選択して接続するものが知られている。これを素片接続型音声合成と呼ぶ。なお、音素ラベルとは、通常は各音素の音素記号とその開始・終了時刻を記述したものをいう。これに加えて、その区間におけるMFCC(Mel−Frequency Cepstrum Coefficient)、基本周波数(F0)等の音響特徴量、さらに前後の素片の音素記号を含む場合もある。 As a recent speech synthesis technology, a large number of human utterances are collected in advance and speech segments in units of words, syllables, phonemes, etc. are associated with phoneme labels to create a database, and at the time of synthesis, specified words, syllables, There is known one that selects and connects the most appropriate speech segment from speech segments corresponding to phonemes. This is called segment-connected speech synthesis. The phoneme label usually refers to a phoneme symbol describing each phoneme and its start / end time. In addition to this, acoustic feature quantities such as MFCC (Mel-Frequency Cepstrum Coefficient) and fundamental frequency (F0) in the section, and phoneme symbols of the front and rear segments may be included.
素片接続型音声合成では、与えられた合成目標を基準として、いかにして適切な音声素片をデータベース中から取出すかが問題となる。 In unit-connected speech synthesis, there is a problem of how to extract an appropriate speech unit from a database based on a given synthesis target.
合成目標を構成するデータは、典型的には音素と、F0、持続時間、MFCC、及びパワー等の音声特徴量とを含む。これらを以下「合成器指令」と呼ぶ。 The data constituting the synthesis target typically includes phonemes and speech feature quantities such as F0, duration, MFCC, and power. These are hereinafter referred to as “synthesizer commands”.
素片接続型音声合成では、合成器指令と音声素片のF0、持続時間、MFCC、パワー等とのずれ、及び接続に伴う自然劣化を表現するための「コスト」と呼ばれる評価関数を定義し、コストを最小とする音声素片を求めることにより、最適な音声素片系列を決定する。 In unit-connected speech synthesis, an evaluation function called “cost” is defined to express the difference between the synthesizer command and the F0, duration, MFCC, power, etc. of speech units, and the natural degradation associated with the connection. Then, an optimum speech unit sequence is determined by obtaining a speech unit that minimizes the cost.
本件出願の出願人は、上記した「コスト」を、それぞれある音声の特徴に対応するような「サブコスト」に分解し、それらを結合したもの(例えば線形和)により定義した素片接続型音声合成を提案している。例えば特許文献1を参照されたい。
The applicant of the present application decomposes the above-mentioned “cost” into “sub-costs” corresponding to certain voice features, and combines them (for example, linear sum) to define a unit-connected speech synthesis. Has proposed. For example, see
サブコストには、物理量から計算されるものと、シンボリックな情報から事前に作成した規則から基づき得られるものとがある。前者は、複数のサンプル値に対する非線形演算であることも多く、その計算量は相対的に大きい。後者は、単純なテーブル参照の形であることが多く、テーブル参照で実現される場合にはサブコスト計算に必要な計算量は非常に少ない。 There are sub-costs that are calculated from physical quantities and those that are obtained from rules created in advance from symbolic information. The former is often a non-linear operation for a plurality of sample values, and the amount of calculation is relatively large. The latter is often in the form of a simple table reference, and when it is realized by table reference, the amount of calculation required for sub-cost calculation is very small.
以上はあくまで一例であるが、この例に限らず、各サブコストの計算量はその種類により大きなばらつきがある場合が多い。 The above is only an example, but the present invention is not limited to this example, and the calculation amount of each sub-cost often varies greatly depending on the type.
一方、上記とは別に、サブコストは、ターゲットコストに関係するものと接続コストに属するものとの二つに大別することもできる。ターゲットコストは、合成目標と素片候補との間の誤差を表す。接続コストは、合成音声において隣接する素片間の誤差(不連続性)を表す。 On the other hand, apart from the above, the sub-costs can be broadly divided into two types, those related to the target cost and those belonging to the connection cost. The target cost represents an error between the synthesis target and the segment candidate. The connection cost represents an error (discontinuity) between adjacent segments in the synthesized speech.
このような音声合成をリアルタイムで行なおうとする場合、いかにして素片選択と合成とを高速に行なうかが問題となる。この処理を高速化するためには、素片選択のコスト計算を高速に行なうとともに、選択された音声素片を接続する処理も高速にすることが望ましい。 When such speech synthesis is to be performed in real time, the problem is how to perform segment selection and synthesis at high speed. In order to increase the speed of this process, it is desirable to perform the cost calculation of the segment selection at a high speed and to increase the speed of the process for connecting the selected speech segment.
実際に音声素片を接続する際には音声素片の波形データが必要となるが、個々の波形データのデータ量が比較的大きく、また、合成音声の品質を高くするためには、音声素片データベースに格納される音声素片の数を大きくする必要がある。その結果、音声素片データベース全体の容量は大きくなる。従って従来は、素片データのうち音響特徴量のみをメモリに格納して素片選択のコスト計算を行ない、音声素片データベースは、固定ハードディスク等比較的容量が大きな記憶装置に格納しておき、素片が選択された後、素片の接続時に波形データを読出すようにしている。 When speech units are actually connected, the waveform data of the speech units is required. However, in order to increase the quality of synthesized speech, the amount of individual waveform data is relatively large. It is necessary to increase the number of speech elements stored in the fragment database. As a result, the capacity of the entire speech unit database increases. Therefore, conventionally, only the acoustic feature amount of the segment data is stored in the memory to calculate the cost of segment selection, and the speech segment database is stored in a storage device having a relatively large capacity such as a fixed hard disk, After the segment is selected, the waveform data is read when the segment is connected.
しかし、容量が大きな記憶装置のアクセス速度は比較的低速である。そのため、素片選択後、音声素片の波形データの取得に要する時間が大きく、音声合成に要する時間も長くかかるという問題があった。 However, the access speed of a storage device with a large capacity is relatively low. For this reason, there is a problem that after selecting a segment, it takes a long time to acquire waveform data of the speech segment, and it takes a long time to synthesize speech.
それゆえに、本発明の目的は、利用可能な音声素片の数を多く保ったまま、高速に音声合成を行なうことができる素片接続型音声合成装置及び方法を提供することである。 Therefore, an object of the present invention is to provide a unit connection type speech synthesis apparatus and method capable of performing speech synthesis at high speed while maintaining a large number of usable speech units.
本発明の第1の局面に係る素片接続型音声合成装置は、合成音声の目標と音声素片候補との間で、複数のサブコストを含むコストを算出し、当該コストに基づいて、複数の音声素片候補を含む音声素片データベースから音声素片を選択し接続することにより音声合成を行なう素片接続型音声合成装置であって、各音声素片候補は、各音声素片の音響特徴量データと、各音声素片の波形データとを含み、音声素片データベースを記憶するための第1の記憶装置と、音声素片データベースに記憶された複数の音声素片候補の音響特徴量データと、音声素片データベースに記憶された複数の音声素片候補の中で、所定の基準で選択された音声素片候補の波形データとを記憶するための、第1の記憶装置より高速アクセス可能な第2の記憶装置とを含み、複数のサブコストは、各音声素片候補の波形データが記憶されている記憶装置へのアクセス速度に関するアクセス速度コストを含み、複数の音声素片候補の各々の音響特徴量データは、当該音声素片候補の波形データが第1及び第2の記憶装置のいずれに記憶されているかを示す第1のフラグを含み、音声合成装置はさらに、合成音声の目標との間で、複数のサブコストを含んで算出されるコストが所定の条件を充足する一つの音声素片候補を、第2の記憶装置に記憶された音響特徴量に基づいて複数の音声素片候補から選択するための選択手段と、選択手段により選択された音声素片候補の音声波形を、当該選択された音声波形に対応する第1のフラグに基づいて、第1の記憶装置又は第2の記憶装置のいずれかから読出して合成音声の目標に従って接続し、合成音声波形を出力するための接続手段とを含む。
The segment-connected speech synthesizer according to the first aspect of the present invention calculates a cost including a plurality of sub-costs between a synthesized speech target and a speech segment candidate, and based on the cost, A speech synthesizer that synthesizes speech by selecting and connecting speech units from a speech unit database including speech unit candidates, wherein each speech unit candidate is an acoustic feature of each speech unit A first storage device for storing a speech unit database, and acoustic feature data of a plurality of speech unit candidates stored in the speech unit database, including volume data and waveform data of each speech unit Can be accessed at a higher speed than the first storage device for storing the waveform data of a speech unit candidate selected according to a predetermined standard among a plurality of speech unit candidates stored in the speech unit database Including a second storage device The plurality of sub-costs includes an access speed cost related to the access speed to the storage device in which the waveform data of each speech unit candidate is stored, and the acoustic feature value data of each of the plurality of speech unit candidates is The speech synthesizer further includes a plurality of sub-costs with the target of the synthesized speech. The first flag indicates whether the waveform data of the single candidate is stored in the first storage device or the second storage device. Selecting means for selecting one speech unit candidate for which the cost calculated in
好ましくは、第1の記憶装置に記憶された音声素片データベースは、当該音声素片データベースに含まれる複数の音声素片候補のうち、対応する波形データを第2の記憶装置に記憶すべき音声素片候補を選択するための基準となる選択基準情報が付されており、素片接続型音声合成装置はさらに、第1の記憶装置に記憶された音声素片データベースに含まれる複数の音声素片候補のうち、選択基準情報により選択された音声素片候補の波形データを第2の記憶装置にロードするためのロード手段を含む。 Preferably, the speech unit database stored in the first storage device is a speech to store corresponding waveform data in the second storage device among a plurality of speech unit candidates included in the speech unit database. Selection criterion information serving as a criterion for selecting a segment candidate is attached, and the segment-connected speech synthesizer further includes a plurality of speech elements included in the speech segment database stored in the first storage device. Load means for loading waveform data of a speech element candidate selected by the selection criterion information among the candidate pieces into the second storage device is included.
さらに好ましくは、テストデータに基づいて、音声素片データベースの選択基準情報を生成するための選択基準情報生成手段をさらに含む。 More preferably, it further includes selection criterion information generating means for generating selection criterion information of the speech segment database based on the test data.
選択基準情報生成手段は、テストデータに基づき、音声素片データベースに含まれる音声素片候補を使用して音声合成をシミュレートするための音声合成シミュレート手段と、音声素片データベースに含まれる複数の音声素片候補の各々について、音声合成シミュレート手段による音声合成の際に選択された頻度を記録するための頻度記録手段とを含んでもよい。選択基準情報は、頻度記録手段により記録された、音声素片データベースに含まれる複数の音声素片候補の各々の頻度情報でもよい。 The selection criterion information generating means includes: speech synthesis simulating means for simulating speech synthesis using speech segment candidates included in the speech segment database based on the test data; and a plurality of selection criteria information generating means included in the speech segment database. For each of the speech segment candidates, a frequency recording unit for recording the frequency selected at the time of speech synthesis by the speech synthesis simulation unit may be included. The selection criterion information may be frequency information of each of a plurality of speech unit candidates included in the speech unit database recorded by the frequency recording unit.
好ましくは、ロード手段は、頻度情報に基づき、音声素片データベースに含まれる音声素片のうち、音声合成シミュレート手段による音声合成で選択された頻度の高いものを上位から所定個数選択し、選択された音声素片の波形データを第2の記憶装置にロードするための手段を含む。 Preferably, the loading unit selects a predetermined number of high-frequency ones selected by the speech synthesis by the speech synthesis simulation unit from the speech units included in the speech unit database based on the frequency information, and selects them. Means for loading the waveform data of the recorded speech segment into the second storage device.
さらに好ましくは、音声合成シミュレート手段は、テストデータから得られる合成音声の目標と、音声素片データベースに含まれる複数の音声素片候補との間で、複数のサブコストのうち、アクセス速度コストを除くアクセスコストと、頻度記録手段により記録された各音声素片候補が選択された頻度に基づいて算出される選択頻度コストとを含んで算出されるコストが所定の条件を充足する一つの音声素片候補を、音声素片データベースから選択するための手段を含む。 More preferably, the speech synthesis simulation means calculates an access speed cost among a plurality of sub-costs between a target of synthesized speech obtained from the test data and a plurality of speech unit candidates included in the speech unit database. One speech element for which the cost calculated including the access cost to be excluded and the selection frequency cost calculated based on the frequency with which each speech segment candidate recorded by the frequency recording means is selected satisfies a predetermined condition Means are included for selecting the piece candidates from the speech unit database.
素片接続型音声合成装置は、キャッシュメモリと、キャッシュメモリに対して設けられたキャッシュメモリ管理機構と、複数の音声素片候補に対応して設けられ、対応の音声素片候補が選択手段により選択されたか否かを記録するための第2のフラグを記憶するための手段と、第2のフラグの値を所定の第1の値に初期化するための手段と、複数の音声素片候補のいずれかが選択手段により選択されるたびに、選択された音声素片候補に対応する第2のフラグを第1の値と異なる所定の第2の値に更新するためのフラグ更新手段とをさらに含んでもよい。アクセス速度コストは、第1及び第2のフラグに基づいて算出され、選択手段は、合成音声の目標との間で、アクセス速度コストを含む複数のサブコストを含んで算出されるコストが所定の条件を充足する一つの音声素片候補を、第2の記憶装置に記憶された音響特徴量に基づいて複数の音声素片候補から選択するための手段を含んでもよい。 The unit connection type speech synthesizer is provided corresponding to a cache memory, a cache memory management mechanism provided for the cache memory, and a plurality of speech unit candidates. Means for storing a second flag for recording whether or not it has been selected, means for initializing the value of the second flag to a predetermined first value, and a plurality of speech segment candidates Flag updating means for updating the second flag corresponding to the selected speech segment candidate to a predetermined second value different from the first value each time any of the above is selected by the selection means; Further, it may be included. The access speed cost is calculated on the basis of the first and second flags, and the selection means determines that the cost calculated including a plurality of sub-costs including the access speed cost is a predetermined condition with the target of the synthesized speech. A means for selecting one speech unit candidate satisfying the above from a plurality of speech unit candidates based on the acoustic feature quantity stored in the second storage device may be included.
本発明の第2の局面に係る素片接続型音声合成方法は、合成音声の目標と音声素片候補との間で、複数のサブコストを含むコストを算出し、当該コストに基づいて、複数の音声素片候補を含む音声素片データベースから音声素片を選択し接続することにより音声合成を行なう素片接続型音声合成方法であって、各音声素片候補は、各音声素片の音響特徴量データと、各音声素片の波形データとを含み、音声素片データベースを第1の記憶装置に記憶させるステップと、音声素片データベースに記憶された複数の音声素片候補の音響特徴量データと、音声素片データベースに記憶された複数の音声素片候補の中で、所定の基準で選択された音声素片候補の波形データとを、第1の記憶装置より高速アクセス可能な第2の記憶装置に記憶させるステップとを含み、複数のサブコストは、各音声素片候補の波形データが記憶されている記憶装置へのアクセス速度に関するアクセス速度コストを含み、複数の音声素片候補の各々の音響特徴量データは、当該音声素片候補の波形データが第1及び第2の記憶装置のいずれに記憶されているかを示す第1のフラグを含み、音声合成方法はさらに、合成音声の目標との間で、複数のサブコストを含んで算出されるコストが所定の条件を充足する一つの音声素片候補を、第2の記憶装置に記憶された音響特徴量に基づいて複数の音声素片候補から選択する選択ステップと、選択ステップにおいて選択された音声素片候補の音声波形を、当該選択された音声波形に対応する第1のフラグに基づいて、第1の記憶装置又は第2の記憶装置のいずれかから読出して合成器指令に従って接続し、合成音声波形を出力する接続ステップとを含む。 The unit connection type speech synthesis method according to the second aspect of the present invention calculates a cost including a plurality of sub-costs between a target of synthesized speech and a speech unit candidate, and based on the cost, A unit-connected speech synthesis method for performing speech synthesis by selecting and connecting speech units from a speech unit database including speech unit candidates, wherein each speech unit candidate is an acoustic feature of each speech unit A step of storing the speech unit database in the first storage device, and the acoustic feature data of the plurality of speech unit candidates stored in the speech unit database. And the second speech unit waveform data selected on the basis of a predetermined criterion among the plurality of speech unit candidates stored in the speech unit database, which can be accessed at a higher speed than the first storage device. The memory to be stored in the storage device The plurality of sub-costs includes an access speed cost related to an access speed to the storage device in which the waveform data of each speech unit candidate is stored, and each acoustic feature amount data of the plurality of speech unit candidates Includes a first flag indicating whether the waveform data of the speech segment candidate is stored in the first storage device or the second storage device, and the speech synthesis method further includes a target for the synthesized speech, Selection that selects one speech unit candidate whose cost calculated including a plurality of sub-costs satisfies a predetermined condition from the plurality of speech unit candidates based on the acoustic feature quantity stored in the second storage device The speech waveform of the speech unit candidate selected in the step and the selection step is selected from either the first storage device or the second storage device based on the first flag corresponding to the selected speech waveform. Out the connections per synthesizer command and a connection step of outputting synthetic speech waveform.
好ましくは、第1の記憶装置に記憶された音声素片データベースは、当該音声素片データベースに含まれる複数の音声素片候補のうち、対応する波形データを第2の記憶装置に記憶すべき音声素片候補を選択する基準となる選択基準情報を有し、素片接続型音声合成方法はさらに、第1の記憶装置に記憶された音声素片データベースに含まれる複数の音声素片候補のうち、選択基準情報により選択された音声素片候補の波形データを第2の記憶装置にロードするロードステップを含む。 Preferably, the speech unit database stored in the first storage device is a speech to store corresponding waveform data in the second storage device among a plurality of speech unit candidates included in the speech unit database. The unit-connected speech synthesis method further includes selection criterion information serving as a criterion for selecting a segment candidate, and further includes a plurality of speech unit candidates included in the speech unit database stored in the first storage device. And a loading step of loading waveform data of the speech segment candidate selected by the selection criterion information into the second storage device.
さらに好ましくは、素片接続型音声合成方法はテストデータに基づいて、音声素片データベースの選択基準情報を生成する選択基準情報生成ステップをさらに含む。 More preferably, the unit connection type speech synthesis method further includes a selection criterion information generation step of generating selection criterion information of the speech unit database based on the test data.
選択基準情報生成ステップは、テストデータに基づき、音声素片データベースに含まれる音声素片候補を使用して音声合成をシミュレートする音声合成シミュレートステップと、音声素片データベースに含まれる複数の音声素片候補の各々について、音声合成シミュレートステップによる音声合成の際に選択された頻度を記録する頻度記録ステップとを含んでもよい。選択基準情報は、頻度記録ステップにおいて記録された、音声素片データベースに含まれる複数の音声素片候補の各々の頻度情報でもよい。 The selection criterion information generation step includes a speech synthesis simulation step of simulating speech synthesis using speech unit candidates included in the speech unit database based on the test data, and a plurality of speeches included in the speech unit database. A frequency recording step for recording the frequency selected at the time of speech synthesis by the speech synthesis simulation step for each of the segment candidates may be included. The selection criterion information may be frequency information of each of a plurality of speech unit candidates included in the speech unit database recorded in the frequency recording step.
好ましくは、ロードステップは、頻度情報に基づき、音声素片データベースに含まれる音声素片のうち、音声合成シミュレートステップによる音声合成で選択された頻度の高いものを上位から所定個数選択し、選択された音声素片の波形データを第2の記憶装置にロードするステップを含む。 Preferably, the loading step selects a predetermined number of high-frequency ones selected in the speech synthesis by the speech synthesis simulation step from among the speech units contained in the speech unit database based on the frequency information, and selects them. Loading waveform data of the generated speech segment into the second storage device.
さらに好ましくは、音声合成シミュレートステップは、テストデータから得られる合成音声の目標と、音声素片データベースに含まれる複数の音声素片候補との間で、複数のサブコストのうち、アクセス速度コストを除くアクセスコストと、頻度記録ステップにおいて記録された各音声素片候補が選択された頻度に基づいて算出される選択頻度コストとを含んで算出されるコストが所定の条件を充足する一つの音声素片候補を、音声素片データベースから選択するステップを含む。 More preferably, the speech synthesis simulation step calculates an access speed cost among a plurality of sub-costs between a target of synthesized speech obtained from test data and a plurality of speech unit candidates included in the speech unit database. One speech element for which the cost calculated including the access cost to be excluded and the selection frequency cost calculated based on the frequency at which each speech element candidate recorded in the frequency recording step is selected satisfies a predetermined condition Selecting a segment candidate from the speech segment database.
素片接続型音声合成方法は、キャッシュメモリと、キャッシュメモリに対して設けられたキャッシュメモリ管理機構とを有するコンピュータ上で実行される方法でもよい。素片接続型音声合成方法はさらに、複数の音声素片候補に対応して設けられ、対応の音声素片候補が選択ステップにおいて選択されたか否かを記録する第2のフラグを所定の記憶装置に記憶するステップと、第2のフラグの値を所定の第1の値に初期化するステップと、複数の音声素片候補のいずれかが選択ステップにおいて選択されるたびに、選択された音声素片候補に対応する第2のフラグを第1の値と異なる所定の第2の値に更新するステップとをさらに含んでもよい。アクセス速度コストは、第1及び第2のフラグに基づいて算出される。選択ステップは、合成音声の目標との間で、アクセス速度コストを含む複数のサブコストを含んで算出されるコストが所定の条件を充足する一つの音声素片候補を、第2の記憶装置に記憶された音響特徴量に基づいて複数の音声素片候補から選択するステップを含んでもよい。 The unit connection type speech synthesis method may be a method executed on a computer having a cache memory and a cache memory management mechanism provided for the cache memory. The unit connection type speech synthesis method is further provided with a second flag provided corresponding to a plurality of speech unit candidates and recording whether or not the corresponding speech unit candidate is selected in the selection step. Each of the speech unit candidates, the step of initializing the value of the second flag to a predetermined first value, and the selection of each of the plurality of speech unit candidates in the selection step. The method may further include a step of updating the second flag corresponding to the single candidate to a predetermined second value different from the first value. The access speed cost is calculated based on the first and second flags. The selection step stores, in the second storage device, one speech unit candidate whose cost calculated by including a plurality of sub-costs including the access speed cost satisfies a predetermined condition with the target of synthesized speech The method may include a step of selecting from a plurality of speech segment candidates based on the acoustic feature value thus determined.
素片選択型音声合成において、実際に選ばれる音声素片には偏りが生じる。従って、選ばれやすい音声素片は音声素片データベースより高速にアクセス可能な記憶装置(例えばメモリ)に格納しておくことで、音声合成の速度を全体として上げることができる。さらに、素片選択の際に、各音声素片の波形データが記憶されている記憶装置のアクセス速度をコストに加える。記憶装置のアクセス速度に対応するコストを、本明細書では「アクセス速度コスト」と呼ぶ。アクセス速度コストは、記憶装置のアクセス速度が高いほど小さく(0に近く)、低いほど大きくなるように、予め算出式を設計する。高速な記憶装置に波形データが記憶されている音声素片ほど、実際に音声合成で選択される可能性が高くなり、音声合成の速度を全体として高くすることができる。 In the unit selection type speech synthesis, the actually selected speech unit is biased. Therefore, by storing speech units that are easily selected in a storage device (for example, a memory) that can be accessed at a higher speed than the speech unit database, the overall speech synthesis speed can be increased. Furthermore, when selecting a segment, the access speed of the storage device storing the waveform data of each speech segment is added to the cost. The cost corresponding to the access speed of the storage device is referred to as “access speed cost” in this specification. The calculation formula is designed in advance so that the access speed cost decreases as the access speed of the storage device increases (close to 0) and increases as the access speed decreases. A speech unit having waveform data stored in a high-speed storage device is more likely to be actually selected for speech synthesis, and the speech synthesis speed can be increased as a whole.
図1に、本発明の一実施の形態に係る音声合成システム20のブロック図を示す。図1を参照して、この音声合成システム20は、従来と同様の音声素片DB30と、多数の音声合成のためのテキストからなるテストデータ42を使用して、音声素片DB30を用いた音声合成をシミュレートし、音声素片DB30に含まれる音声素片ごとに音声合成で使用された頻度を算出して、頻度情報44を有する頻度情報付き音声素片DB34を生成するための頻度情報生成装置32とを含む。
FIG. 1 shows a block diagram of a
音声合成システム20はさらに、目標となるテキストを分析した結果得られる合成器指令36を入力として受け、頻度情報付き音声素片DB34に含まれる音声素片から適切な音声素片を選択し接続して合成音声波形40を出力するための音声合成装置38を含む。音声合成装置38は、素片選択のための、頻度情報付き音声素片DB34内の各音声素片の音響情報と、頻度情報付き音声素片DB34内の音声素片のうち、頻度情報44により表される出現頻度が高いものを予め記憶しておくためのメモリ48を含む。
The
音声合成システム20はさらに、音声合成装置38の起動時に、頻度情報付き音声素片DB34内の各音声素片の音響情報と、頻度情報44を参照することにより、頻度情報付き音声素片DB34の中から選択した出現頻度の上位の所定個数の音声素片の波形データとをメモリ48にロードするための音声素片データロード装置46とを含む。
The
図2を参照して、頻度情報生成装置32は、音声素片DB30を使用し、テストデータ42に含まれる各入力に対して実際に音声合成と同様の処理をして、各音声素片の使用頻度を算出する機能を持つ。頻度情報生成装置32は、テストデータ42の各テキスト文を受け、合成目標となる合成器指令62を作成するための合成器指令作成部60と、この合成器指令62と音声素片DB30中の各音声素片の音響特徴量とのターゲットコストを算出するためのターゲットコスト算出部68と、合成器指令62と音声素片DB30中の各音声素片の音響特徴量との接続コストを算出するための接続コスト算出部70と、音声素片DB30中の各音声素片が音声合成で選択された頻度を反映する選択頻度コストを算出するための選択頻度コスト算出部72とを含む。
Referring to FIG. 2, the frequency
選択頻度コストとは、頻度情報生成装置32において選択される音声素片に対し、意図的に偏りを生じさせるために導入されたコストである。選択頻度コストは、音声素片が選択された頻度が高くなるほど小さく、低くなるほど大きくなるような算出式で算出される。本実施の形態では、i番目の音声素片の選択頻度コストCsiを次の式により算出する。
The selection frequency cost is a cost introduced in order to intentionally bias the speech unit selected by the frequency
頻度情報生成装置32はさらに、ターゲットコスト算出部68により算出されたターゲットコストと、接続コスト算出部70により算出された接続コストと、選択頻度コスト算出部72により算出された選択頻度コストとに基づいて総コストを算出し、総コストの最も小さな音声素片を選択することにより、実際の音声合成時の素片選択をシミュレートするための素片選択部64と、素片選択部64により選択された音声素片に関し、頻度情報44を更新するための頻度情報更新部66とを含む。
Further, the frequency
図3を参照して、図1に示す音声素片データロード装置46がメモリ48にロードするデータについて説明する。図3に示すように、メモリ48は、頻度情報付き音声素片DB34の全ての音声素片の音響特徴量130,…を格納するための音響特徴量格納領域120と、頻度情報付き音声素片DB34内の音声素片のうち、頻度情報44に記録された出現頻度が所定の値以上のものの波形データを記憶するための波形データ格納領域122とを含む。これらはいずれも音声素片データロード装置46により、音声合成装置38の起動時にメモリ48にロードされる。
With reference to FIG. 3, the data loaded into the
音響特徴量130の各々は、前述したとおり、音素ラベル、基本周波数(F0),MFCC、パワー(図示せず)、持続時間(図示せず)を含むが、これらに加えて、音声素片の波形データが頻度情報付き音声素片DB34に格納されているか、メモリ48の波形データ格納領域122に格納されているかをあらわす第1のフラグ(F1)140と、音声素片の波形データが最近読出されたか否かを示す第2のフラグ(F2)142とを含む。フラグ140は、音声素片データロード装置46が音響特徴量格納領域120に音響特徴量をロードした後、高頻度の音声素片の波形データを波形データ格納領域122にロードする際に、音声素片データロード装置46によって設定される。
As described above, each
本実施の形態では、第1のフラグ140が0の場合には波形データは頻度情報付き音声素片DB34に格納されていることを表し、フラグが1の場合には波形データがメモリ48の波形データ格納領域122に格納されていることを示す。従ってこの第1のフラグ140の値を見ることで波形データをどこから読出せばよいかが判定できる。
In the present embodiment, when the
フラグ142は最初に0に初期化され、実際に音声合成を行ないながら、波形データが読出されたときに「1」に更新される。これは、装置をコンピュータで実現する場合、ハードディスク又はメモリから読出されたデータはメモリよりもさらに高速アクセス可能なキャッシュに格納されることがあることを考慮したものである。この第2のフラグ142の値はアクセス速度コストに反映される。
The
図4を参照して、音声合成装置38は、前述のメモリ48に加え、それぞれ合成目標を定める合成器指令36を受け、メモリ48に記憶されている音声素片であって、かつ合成器指令36により指定された音素ラベルを持つ音声素片の音響特徴量と合成器指令36との間のターゲットコストを算出するためのターゲットコスト算出部82と、同じくメモリ48内の音声素片と合成器指令36との間の接続コストを算出するための接続コスト算出部84と、メモリ48に記憶されている音声素片に対応する第1及び第2のフラグ140、142に基づいてアクセス速度コストを算出するためのアクセス速度コスト算出部86とを含む。
Referring to FIG. 4,
音声合成装置38はさらに、ターゲットコスト算出部82により算出されたターゲットコスト、接続コスト算出部84により算出された接続コスト、及びアクセス速度コスト算出部86により算出されたアクセス速度コストに基づいて総コストを算出し、総コストの最小の音声素片を選択するための素片選択部80と、素片選択部80により選択された音声素片の波形データを接続して合成音声波形40を出力するための接続部88とを含む。
The
接続部88は、素片選択部80により指定された音声素片を頻度情報付き音声素片DB34又はメモリ48から読出すため、次のような信号を出力する。すなわち、接続部88は、素片選択部80により指定された音声素片の第1のフラグ140に対応するレベルをとり、波形データをメモリ48と頻度情報付き音声素片DB34とのいずれから読出すかを指定するための選択信号100と、波形データを読出すアドレスを指定するアドレス信号102とを出力する機能を持つ。選択信号100は、指定された音声素片のフラグが1のときにはHレベルをとり、それ以外のときにはLレベルをとる。
The
音声合成装置38は、接続部88による波形データの読出を行なうための機能ブロックとして、第1及び第2の入力を持ち、選択信号100のレベルに応じて第1及び第2の入力の信号のいずれかを選択して出力するための選択回路90と、選択信号100のレベルを反転して反転選択信号104を出力するための反転回路92と、Hレベルの反転選択信号104を受けると、アドレス信号102により指定されるアドレスの波形データを頻度情報付き音声素片DB34から読出して選択回路90の第1の入力に与えるためのアクセス部94とを含む。一方、メモリ48は、Hレベルの選択信号100を受けると、アドレス信号102により指定されるアドレスの波形データを選択回路90の第2の入力に与える。選択回路90は、選択信号100がHレベルのときは第2の入力の信号を、Lレベルのときには第1の入力の信号を選択して出力する。
The
音声合成装置38はさらに、接続部88により読出が指示された波形データについて、メモリ48のうち、対応する音声素片の第2のフラグ142(F2)を「1」に更新するためのフラグ更新部96を含む。頻度情報付き音声素片DB34又はメモリ48から読出されたデータは、いずれの場合も、コンピュータのキャッシュメモリに格納されることが通常である。キャッシュメモリはメモリ48と比較してもさらに高速にアクセス可能である。一度でも読出された波形データはキャッシュメモリに格納されている可能性が高いので、このように第2のフラグを更新し,次のアクセス速度算出部でのコスト計算に反映させ、より選択されやすくする。
The
なお、キャッシュメモリの容量には限りがあるため、何らかのアルゴリズムによってキャッシュに格納されているデータを選択して削除し、そこに新しいデータを格納する。本来であればキャッシュメモリにどの波形データが格納されているかを把握できればよいが、キャッシュメモリはコンピュータハードウェアにより管理されており、ソフトウェアでキャッシュの内容について知ることはできない。従って本実施の形態では、キャッシュメモリに実際にどのようなデータが格納されているかとは別に、一度でも読出されたことのあるデータについてはキャッシュメモリに格納されているものと想定した設計としている。もちろん、キャッシュメモリに記憶されている波形データがどの音声素片に対応するものであるかを容易に知ることができれば、それをアクセス速度コストの計算に反映させることが好ましい。 Since the capacity of the cache memory is limited, data stored in the cache is selected and deleted by some algorithm, and new data is stored there. Originally, it is only necessary to know which waveform data is stored in the cache memory, but the cache memory is managed by computer hardware, and the contents of the cache cannot be known by software. Therefore, in this embodiment, the design assumes that the data that has been read even once is stored in the cache memory, apart from what data is actually stored in the cache memory. . Of course, if it is possible to easily know which speech element corresponds to the waveform data stored in the cache memory, it is preferable to reflect this in the calculation of the access speed cost.
本実施の形態で使用されるサブコストは、前述したアクセス速度コスト以外に、基本周波数(F0)誤差、継続長誤差、MFCC誤差、F0不連続誤差、MFCC不連続誤差、音素環境誤差にそれぞれ対応する6種類のサブコストを含む。これらのうち、前3者はターゲットコストに属し、後3者は接続コストに属する。 The sub-costs used in the present embodiment correspond to the fundamental frequency (F0) error, duration error, MFCC error, F0 discontinuous error, MFCC discontinuous error, and phoneme environment error in addition to the access speed cost described above. Includes 6 types of sub-costs. Among these, the former three belong to the target cost, and the latter three belong to the connection cost.
本実施の形態に係る素片選択部64によるコスト計算では、コストC0は以下のようにしてサブコストから計算される。
In the cost calculation by the
上記した第1の実施の形態に係る音声合成システム20は以下のように動作する。大きく分けてこの音声合成システム20の動作には二つの局面がある。第1の局面は頻度情報付き音声素片DB34の作成であり、第2の局面は第1の局面で作成された頻度情報付き音声素片DB34を用いた音声合成である。以下、順に説明する。
The
まず第1の局面では頻度情報生成装置32が以下のようにして頻度情報付き音声素片DB34を作成する。図2を参照して、まず音声素片DB30を用意する。音声素片DB30には頻度情報は付されていない。また、頻度情報44を記憶すべき領域をメモリ上に確保しておく。さらに、頻度情報44中の、各音声素片の選択頻度回数を全て0に初期化する。
First, in the first aspect, the frequency
テストデータ42の第1のテキストを頻度情報生成装置32に与えると、合成器指令作成部60がそのテキストに基づいて合成目標の音素ごとに合成器指令62を作成し、素片選択部64に与える。素片選択部64は、この合成器指令62により指定された音響特徴量をターゲットコスト算出部68及び接続コスト算出部70に与える。ターゲットコスト算出部68及び接続コスト算出部70は、与えられた音響特徴量に基づき、音声素片DB30に含まれる各音声素片との間でターゲットコスト及び接続コストを算出し素片選択部64に与える。選択頻度コスト算出部72は、式(1)に従って各音声素片候補の選択頻度コストを算出し素片選択部64に与える。第1回目の処理では選択頻度はいずれも0であるから、選択頻度コストはいすれも式(1)より「a」となる。
When the first text of the
素片選択部64は、ターゲットコスト算出部68から与えられたターゲットコスト、接続コスト算出部70から与えられた接続コスト、及び選択頻度コスト算出部72から与えられた選択頻度コストから式(2)によって総コストを算出する。素片選択部64はこの総コストが最小の音声素片を選択し、選択された音声素片を示す情報を頻度情報更新部66に与える。
The
頻度情報更新部66は、頻度情報44の中の頻度情報のうち、素片選択部64により選択された音素の頻度に1を加算する。以上で第1番目の音素に対する処理を終了する。
The frequency
同様の処理を、最初のテキストの各音素に対して繰り返す。この繰り返しにより、頻度情報44は徐々に更新されていく。選択頻度コスト算出部72による選択頻度コストの算出においては、頻度情報44の内容が反映される。すなわち、選択された回数が多くなるほど選択頻度コストは小さくなる。従って、選択されたことのある素片候補についてはその後の素片選択で選択される可能性が高くなる。その結果、こうした処理を繰り返すと、互いによく似た音響特徴慮をもつ音声素片同士であって、選択されたことのある素片選択候補はさらに選択されやすく、選択されたことのない候補はさらに選択されにくくなる。
Similar processing is repeated for each phoneme of the first text. By repeating this, the
テストデータ42の全てのテキストについて上記した処理を繰り返すことにより、頻度情報付き音声素片DB34が完成する。頻度情報付き音声素片DB34が完成すると、音声合成装置38による音声合成が可能となる。
By repeating the above-described processing for all the texts of the
音声素片の出現頻度を意図的に偏らせることにより、特徴空間において素片の密度が高い領域において、一部の素片のみがよく選択されるようになり、それ以外の素片の出現頻度は下がる。その分、素片の密度が低い部分でそれ以外の素片の頻度の順位が相対的に上がる。これにより、実際の合成時に高速アクセス可能な記憶装置に波形データが格納される音声素片の分布が広がり、高速な記憶装置に格納された波形データに対応する音声素片がより頻繁に選択されるようになる。 By intentionally biasing the appearance frequency of speech elements, only some of the elements are often selected in regions where the density of the elements is high in the feature space, and the frequency of appearance of other elements Go down. Accordingly, the frequency ranking of the other segments is relatively increased in the portion where the density of the segments is low. As a result, the distribution of speech units storing waveform data in a storage device that can be accessed at high speed during actual synthesis spreads, and speech units corresponding to waveform data stored in a high-speed storage device are selected more frequently. Become so.
実際の音声合成は以下のようにして行なわれる。図1を参照して、最初に音声素片データロード装置46により、頻度情報付き音声素片DB34中の音声素片の音響特徴量がメモリ48に格納される。音響特徴量に付随する第1及び第2のフラグの値は0で初期化される。次に、頻度情報44を基準とし、上位の所定個数の音声素片の波形データがメモリ48に格納される。波形データをメモリ48にロードした音声素片については、メモリ48に格納された音響特徴量に付随する第1のフラグ140(図3参照)の値を「1」に設定する。
Actual speech synthesis is performed as follows. Referring to FIG. 1, first, an acoustic feature quantity of a speech unit in
音声素片データロード装置46によるメモリ48へのデータのロードが終わると、実際の音声合成が開始される。図4を参照して、合成器指令36が与えられると、素片選択部80はターゲットコスト算出部82、接続コスト算出部84及びアクセス速度コスト算出部86に合成器指令62により指定された音響特徴量を与える。ターゲットコスト算出部82及び接続コスト算出部84は、与えられた音響特徴量を用い、メモリ48に格納されている音声素片候補のうち、指定された音素ラベルの音声素片候補の音響特徴量との間でターゲットコスト及び接続コストを算出し、素片選択部80に与える。アクセス速度コスト算出部86は、各音声素片候補の第1のフラグ140及び第2のフラグ142の値に基づきアクセス速度コストを算出し素片選択部80に与える。
When the voice unit
素片選択部80は、ターゲットコスト算出部82、接続コスト算出部84、及びアクセス速度コスト算出部86から与えられたターゲットコスト、接続コスト、及びアクセスコストに基づき、式(2)に従って総コストを算出する。素片選択部80はさらに、そのようにして算出された総コストが最小の音声素片候補を選択し、その音声素片候補を示す情報と、音響特徴量とを接続部88に与える。接続部88は、与えられた音響特徴量の中の、波形データアドレスをアドレス信号102に、第1のフラグ140を選択信号100に、それぞれ出力する。
The
例えば選択された音声素片の波形データがメモリ48に格納されている場合、その音声素片の第1のフラグの値は1であり、選択信号100はHレベルとなる。アドレス信号102はメモリ48の、選択された音声素片の波形データのアドレスとなる。アドレス信号102はメモリ48に与えられる。Hレベルの選択信号100がメモリ48に与えられるので、メモリ48はアドレス信号102により指定されるアドレスの波形データを読出し、選択回路90の第2の入力に与える。反転選択信号104はLレベルなのでアクセス部94は何もしない。
For example, when the waveform data of the selected speech unit is stored in the
選択信号100がHレベルなので、選択回路90は第2の入力を選択する。すなわち、選択回路90はメモリ48からの出力を接続部88に与える。接続部88はこの波形データを用いて波形接続を行なう。
Since the
また、選択された音声素片の波形データが頻度情報付き音声素片DB34に格納されている場合、その音声素片の第1のフラグの値は0であり、選択信号100はLレベルとなる。アドレス信号102は頻度情報付き音声素片DB34の、選択された音声素片の波形データのアドレスとなる。アドレス信号102はアクセス部94に与えられる。Hレベルの反転選択信号104がアクセス部94に与えられるので、アクセス部94はアドレス信号102により指定されるアドレスの波形データを頻度情報付き音声素片DB34から読出し、選択回路90の第1の入力に与える。選択信号100はLレベルなのでメモリ48からは何も出力されない。
When the waveform data of the selected speech unit is stored in the
選択信号100がLレベルなので選択回路90は第1の入力の信号を選択して接続部88に与える。すなわちこの場合、頻度情報付き音声素片DB34から読出された波形データが接続部88に与えられ、波形接続に用いられる。
Since the
メモリ48の波形データにせよ、頻度情報付き音声素片DB34の波形データにせよ、最近接続部88により読出されたものは図示しないキャッシュメモリに格納される可能性が高い。従ってフラグ更新部96は、メモリ48中の、接続部88により波形データが読出された音声素片の音響特徴量に付随する第2のフラグ142の値を「1」に更新する。この結果、同じ音声素片が次に選択された場合、アクセス速度コストはより小さくなり、同じ音声素片が選択される可能性が高くなる。この音声素片に対応する波形データはキャッシュに格納されていて高速アクセス可能である可能性が高い。従って全体として波形データの読出が高速化される可能性が高い。
Regardless of the waveform data in the
以上のように本実施の形態に係る音声合成システム20では、音声素片DB30を使用してテストデータ42による音声合成実験を行なって、各音声頻度が選択された頻度を調べる。音声合成実験の途中では、音声素片が選択された回数に応じ、選択された素片はさらに選択されやすく、そうでない素片はさらに選択されにくくなるように、選択頻度コストというサブコストを導入し、音声素片の選択に人為的な偏りが生じるようにする。
As described above, in the
音声合成時には、この頻度が上位の所定個数の音声素片候補の波形データをメモリに記憶しておく。さらに、サブコストとして、波形データが記憶されている記憶装置のアクセス速度を反映したアクセス速度コストを定義し、高速アクセス可能な記憶装置に波形データが記憶されている音声素片候補が選択されやすくする。その結果、メモリなどの高速アクセス可能な記憶媒体に記憶された音声素片が選択されやすくなり、全体として音声合成処理が高速化される。 At the time of speech synthesis, waveform data of a predetermined number of speech segment candidates having higher frequencies is stored in the memory. Furthermore, as a sub-cost, an access speed cost reflecting the access speed of the storage device storing the waveform data is defined, and the speech unit candidate storing the waveform data in the storage device capable of high-speed access is easily selected. . As a result, a speech unit stored in a storage medium such as a memory that can be accessed at high speed can be easily selected, and the speech synthesis process as a whole is accelerated.
さらに、キャッシュメモリなどが使用されることを考慮し、最近選択された音声波形についてはアクセス速度コストが少なく算出されるようにアクセス速度コストを設計する。これにより、コンピュータによるキャッシュ制御を利用した処理速度の向上を図ることができる。 Further, in consideration of the use of a cache memory or the like, the access speed cost is designed so that the access speed cost is calculated to be low for the recently selected speech waveform. Thereby, it is possible to improve the processing speed using the cache control by the computer.
また、上記した実施の形態の装置では、一旦頻度情報44が作成された後は、頻度情報44を更新しないことを前提としている。しかし本発明はそのような実施の形態には限定されない。例えば音声合成時、頻度情報44のをメモリ48に転記し、素片候補が選択されるたびに頻度情報44を更新し、全体の処理が終了したとき、または所定回数の素片候補の選択が行なわれるたびごとに、もとの頻度情報44に書き戻すようにしてもよい。こうすることで、実験だけでなく実際のデータに基づく音声合成での選択頻度に基づいて、波形データの格納場所を決定することができる。
In the apparatus of the above-described embodiment, it is assumed that the
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
20 音声合成システム、30 音声素片DB、32 頻度情報生成装置、34 頻度情報付き音声素片DB、36,62 合成器指令、38 音声合成装置、40 合成音声波形、42 テストデータ、44 頻度情報、46 音声素片データロード装置、48 メモリ、60 合成器指令作成部、64,80 素片選択部、66 頻度情報更新部、68,82 ターゲットコスト算出部、70,84 接続コスト算出部、72 選択頻度コスト算出部、86 アクセス速度コスト算出部 88 接続部、90 選択回路、100 選択信号、102 アドレス信号、104 反転選択信号
20 speech synthesis system, 30 speech segment DB, 32 frequency information generating device, 34 speech segment DB with frequency information, 36,62 synthesizer command, 38 speech synthesizer, 40 synthesized speech waveform, 42 test data, 44
Claims (14)
前記音声素片データベースを記憶するための第1の記憶装置と、
前記音声素片データベースに記憶された複数の音声素片候補の音響特徴量データと、前記音声素片データベースに記憶された複数の音声素片候補の中で、所定の基準で選択された音声素片候補の波形データとを記憶するための、前記第1の記憶装置より高速アクセス可能な第2の記憶装置とを含み、
前記複数のサブコストは、各音声素片候補の波形データが記憶されている記憶装置へのアクセス速度に関するアクセス速度コストを含み、
前記複数の音声素片候補の各々の音響特徴量データは、当該音声素片候補の波形データが前記第1及び第2の記憶装置のいずれに記憶されているかを示す第1のフラグを含み、
前記音声合成装置はさらに、
前記合成音声の目標との間で、前記複数のサブコストを含んで算出されるコストが所定の条件を充足する一つの音声素片候補を、前記第2の記憶装置に記憶された音響特徴量に基づいて前記複数の音声素片候補から選択するための選択手段と、
前記選択手段により選択された音声素片候補の音声波形を、当該選択された音声波形に対応する第1のフラグに基づいて、前記第1の記憶装置又は前記第2の記憶装置のいずれかから読出して前記合成音声の目標に従って接続し、合成音声波形を出力するための接続手段とを含む、素片接続型音声合成装置。 Calculate the cost including multiple sub-costs between the target of synthesized speech and the speech element candidate, and select and connect the speech element from the speech element database including the multiple speech element candidates based on the cost A speech synthesizer that performs speech synthesis, and each speech unit candidate includes acoustic feature data of each speech unit and waveform data of each speech unit;
A first storage device for storing the speech segment database;
Acoustic feature quantity data of a plurality of speech unit candidates stored in the speech unit database and a speech unit selected based on a predetermined criterion among the plurality of speech unit candidates stored in the speech unit database A second storage device for storing one candidate waveform data, which is accessible at a higher speed than the first storage device,
The plurality of sub-costs includes an access speed cost related to an access speed to a storage device in which waveform data of each speech unit candidate is stored,
Each acoustic feature amount data of the plurality of speech unit candidates includes a first flag indicating which of the first and second storage devices the waveform data of the speech unit candidate is stored.
The speech synthesizer further includes:
One speech segment candidate whose cost calculated including the plurality of sub-costs satisfies a predetermined condition with the target of the synthesized speech is stored as an acoustic feature amount stored in the second storage device. A selection means for selecting from the plurality of speech segment candidates based on;
Based on the first flag corresponding to the selected speech waveform, the speech unit candidate speech waveform selected by the selection means is selected from either the first storage device or the second storage device. Connection unit for reading and connecting according to the target of the synthesized speech and outputting a synthesized speech waveform.
前記素片接続型音声合成装置はさらに、前記第1の記憶装置に記憶された前記音声素片データベースに含まれる前記複数の音声素片候補のうち、前記選択基準情報により選択された音声素片候補の波形データを前記第2の記憶装置にロードするためのロード手段を含む、請求項1に記載の素片接続型音声合成装置。 The speech unit database stored in the first storage device is a speech to store corresponding waveform data in the second storage device among a plurality of speech unit candidates included in the speech unit database. Selection criteria information that serves as a criterion for selecting segment candidates is attached.
The unit-connected speech synthesizer further includes a speech unit selected according to the selection criterion information from the plurality of speech unit candidates included in the speech unit database stored in the first storage device. The unit connection type speech synthesizer according to claim 1, further comprising loading means for loading candidate waveform data into the second storage device.
前記テストデータに基づき、前記音声素片データベースに含まれる音声素片候補を使用して音声合成をシミュレートするための音声合成シミュレート手段と、
前記音声素片データベースに含まれる前記複数の音声素片候補の各々について、前記音声合成シミュレート手段による音声合成の際に選択された頻度を記録するための頻度記録手段とを含み、
前記選択基準情報は、前記頻度記録手段により記録された、前記音声素片データベースに含まれる前記複数の音声素片候補の各々の頻度情報である、請求項3に記載の素片接続型音声合成装置。 The selection criterion information generating means includes:
Speech synthesis simulation means for simulating speech synthesis using speech segment candidates included in the speech segment database based on the test data;
Frequency recording means for recording the frequency selected during speech synthesis by the speech synthesis simulation means for each of the plurality of speech unit candidates included in the speech unit database;
The unit connection type speech synthesis according to claim 3, wherein the selection criterion information is frequency information of each of the plurality of speech unit candidates included in the speech unit database recorded by the frequency recording unit. apparatus.
キャッシュメモリと、
前記キャッシュメモリに対して設けられたキャッシュメモリ管理機構と、
前記複数の音声素片候補に対応して設けられ、対応の音声素片候補が前記選択手段により選択されたか否かを記録するための第2のフラグを記憶するための手段と、
前記第2のフラグの値を所定の第1の値に初期化するための手段と、
前記複数の音声素片候補のいずれかが前記選択手段により選択されるたびに、選択された音声素片候補に対応する第2のフラグを前記第1の値と異なる所定の第2の値に更新するためのフラグ更新手段とをさらに含み、
前記アクセス速度コストは、前記第1及び第2のフラグに基づいて算出され、
前記選択手段は、前記合成音声の目標との間で、前記アクセス速度コストを含む前記複数のサブコストを含んで算出されるコストが所定の条件を充足する一つの音声素片候補を、前記第2の記憶装置に記憶された音響特徴量に基づいて前記複数の音声素片候補から選択するための手段を含む、請求項1〜請求項6のいずれかに記載の素片接続型音声合成装置。 The unit connection type speech synthesizer comprises:
Cache memory,
A cache memory management mechanism provided for the cache memory;
Means for storing a second flag provided corresponding to the plurality of speech unit candidates and for recording whether or not the corresponding speech unit candidate has been selected by the selection unit;
Means for initializing the value of the second flag to a predetermined first value;
Each time one of the plurality of speech unit candidates is selected by the selection unit, the second flag corresponding to the selected speech unit candidate is set to a predetermined second value different from the first value. A flag updating means for updating,
The access speed cost is calculated based on the first and second flags,
The selection means selects one speech unit candidate for which the cost calculated by including the plurality of sub-costs including the access speed cost satisfies a predetermined condition with respect to the target of the synthesized speech. The unit connection type speech synthesizer according to any one of claims 1 to 6, further comprising means for selecting from the plurality of speech unit candidates based on an acoustic feature amount stored in the storage device.
前記音声素片データベースを第1の記憶ステップに記憶させるステップと、
前記音声素片データベースに記憶された複数の音声素片候補の音響特徴量データと、前記音声素片データベースに記憶された複数の音声素片候補の中で、所定の基準で選択された音声素片候補の波形データとを、前記第1の記憶装置より高速アクセス可能な第2の記憶装置に記憶させるステップとを含み、
前記複数のサブコストは、各音声素片候補の波形データが記憶されている記憶装置へのアクセス速度に関するアクセス速度コストを含み、
前記複数の音声素片候補の各々の音響特徴量データは、当該音声素片候補の波形データが前記第1及び第2の記憶装置のいずれに記憶されているかを示す第1のフラグを含み、
前記音声合成方法はさらに、
前記合成音声の目標との間で、前記複数のサブコストを含んで算出されるコストが所定の条件を充足する一つの音声素片候補を、前記第2の記憶装置に記憶された音響特徴量に基づいて前記複数の音声素片候補から選択する選択ステップと、
前記選択ステップにおいて選択された音声素片候補の音声波形を、当該選択された音声波形に対応する第1のフラグに基づいて、前記第1の記憶装置又は前記第2の記憶装置のいずれかから読出して前記合成器指令に従って接続し、合成音声波形を出力する接続ステップとを含む、素片接続型音声合成方法。 Calculate the cost including multiple sub-costs between the target of synthesized speech and the speech element candidate, and select and connect the speech element from the speech element database including the multiple speech element candidates based on the cost A speech synthesis method for performing speech synthesis by performing speech synthesis, wherein each speech unit candidate includes acoustic feature data of each speech unit and waveform data of each speech unit;
Storing the speech segment database in a first storage step;
Acoustic feature quantity data of a plurality of speech unit candidates stored in the speech unit database and a speech unit selected based on a predetermined criterion among the plurality of speech unit candidates stored in the speech unit database Storing waveform data of one candidate in a second storage device accessible at a higher speed than the first storage device,
The plurality of sub-costs includes an access speed cost related to an access speed to a storage device in which waveform data of each speech unit candidate is stored,
Each acoustic feature amount data of the plurality of speech unit candidates includes a first flag indicating which of the first and second storage devices the waveform data of the speech unit candidate is stored.
The speech synthesis method further includes:
One speech segment candidate whose cost calculated including the plurality of sub-costs satisfies a predetermined condition with the target of the synthesized speech is stored as an acoustic feature amount stored in the second storage device. A selection step of selecting from the plurality of speech segment candidates based on;
Based on the first flag corresponding to the selected speech waveform, the speech unit candidate speech waveform selected in the selection step is selected from either the first storage device or the second storage device. A unit connection type speech synthesis method including a connection step of reading out and connecting in accordance with the synthesizer command and outputting a synthesized speech waveform.
前記素片接続型音声合成方法はさらに、前記第1の記憶装置に記憶された前記音声素片データベースに含まれる前記複数の音声素片候補のうち、前記選択基準情報により選択された音声素片候補の波形データを前記第2の記憶装置にロードするロードステップを含む、請求項8に記載の素片接続型音声合成方法。 The speech unit database stored in the first storage device is a speech to store corresponding waveform data in the second storage device among a plurality of speech unit candidates included in the speech unit database. Selection criteria information that serves as a criterion for selecting segment candidates is attached.
The unit-connected speech synthesis method further includes a speech unit selected by the selection criterion information among the plurality of speech unit candidates included in the speech unit database stored in the first storage device. The segment connection type speech synthesis method according to claim 8, further comprising a load step of loading candidate waveform data into the second storage device.
前記テストデータに基づき、前記音声素片データベースに含まれる音声素片候補を使用して音声合成をシミュレートする音声合成シミュレートステップと、
前記音声素片データベースに含まれる前記複数の音声素片候補の各々について、前記音声合成シミュレートステップによる音声合成の際に選択された頻度を記録する頻度記録ステップとを含み、
前記選択基準情報は、前記頻度記録ステップにおいて記録された、前記音声素片データベースに含まれる前記複数の音声素片候補の各々の頻度情報である、請求項10に記載の素片接続型音声合成方法。 The selection criterion information generation step includes:
A speech synthesis simulation step of simulating speech synthesis using speech unit candidates included in the speech unit database based on the test data;
A frequency recording step for recording the frequency selected at the time of speech synthesis by the speech synthesis simulation step for each of the plurality of speech unit candidates included in the speech unit database;
The unit connection type speech synthesis according to claim 10, wherein the selection criterion information is frequency information of each of the plurality of speech unit candidates included in the speech unit database recorded in the frequency recording step. Method.
前記複数の音声素片候補に対応して設けられ、対応の音声素片候補が前記選択ステップにおいて選択されたか否かを記録する第2のフラグを所定の記憶装置に記憶するステップと、
前記第2のフラグの値を所定の第1の値に初期化するステップと、
前記複数の音声素片候補のいずれかが前記選択ステップにおいて選択されるたびに、選択された音声素片候補に対応する第2のフラグを前記第1の値と異なる所定の第2の値に更新するステップとをさらに含み、
前記アクセス速度コストは、前記第1及び第2のフラグに基づいて算出され、
前記選択ステップは、前記合成音声の目標との間で、前記アクセス速度コストを含む前記複数のサブコストを含んで算出されるコストが所定の条件を充足する一つの音声素片候補を、前記第2の記憶装置に記憶された音響特徴量に基づいて前記複数の音声素片候補から選択するステップを含む、請求項8〜請求項13のいずれかに記載の素片接続型音声合成方法。
The unit connection type speech synthesis method is executed on a computer having a cache memory and a cache memory management mechanism provided for the cache memory, and
Storing in a predetermined storage device a second flag provided corresponding to the plurality of speech unit candidates and recording whether or not the corresponding speech unit candidate is selected in the selection step;
Initializing the value of the second flag to a predetermined first value;
Each time one of the plurality of speech unit candidates is selected in the selection step, the second flag corresponding to the selected speech unit candidate is set to a predetermined second value different from the first value. And further updating
The access speed cost is calculated based on the first and second flags,
In the selection step, one speech unit candidate whose cost calculated by including the plurality of sub-costs including the access speed cost satisfies a predetermined condition with respect to the target of the synthesized speech is selected as the second speech unit candidate. The unit connection type speech synthesis method according to claim 8, further comprising a step of selecting from the plurality of speech unit candidates based on an acoustic feature amount stored in the storage device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004075185A JP4424024B2 (en) | 2004-03-16 | 2004-03-16 | Segment-connected speech synthesizer and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004075185A JP4424024B2 (en) | 2004-03-16 | 2004-03-16 | Segment-connected speech synthesizer and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005266010A JP2005266010A (en) | 2005-09-29 |
JP4424024B2 true JP4424024B2 (en) | 2010-03-03 |
Family
ID=35090666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004075185A Expired - Lifetime JP4424024B2 (en) | 2004-03-16 | 2004-03-16 | Segment-connected speech synthesizer and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4424024B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007264503A (en) * | 2006-03-29 | 2007-10-11 | Toshiba Corp | Speech synthesizer and its method |
JP4241762B2 (en) | 2006-05-18 | 2009-03-18 | 株式会社東芝 | Speech synthesizer, method thereof, and program |
JP4406440B2 (en) | 2007-03-29 | 2010-01-27 | 株式会社東芝 | Speech synthesis apparatus, speech synthesis method and program |
JP5181521B2 (en) * | 2007-04-24 | 2013-04-10 | カシオ計算機株式会社 | Automatic accompaniment device and program |
JP5747471B2 (en) * | 2010-10-20 | 2015-07-15 | 三菱電機株式会社 | Speech synthesis system, speech segment dictionary creation method, speech segment dictionary creation program, and speech segment dictionary creation program recording medium |
CN102487422B (en) * | 2010-12-02 | 2015-04-29 | 北京市三希电子科技开发公司 | Voice prompted file processing method and device |
-
2004
- 2004-03-16 JP JP2004075185A patent/JP4424024B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2005266010A (en) | 2005-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6752872B2 (en) | Speech synthesis methods and equipment, computer equipment, readable media and programs | |
US10991360B2 (en) | System and method for generating customized text-to-speech voices | |
US8046225B2 (en) | Prosody-pattern generating apparatus, speech synthesizing apparatus, and computer program product and method thereof | |
US8370149B2 (en) | Speech synthesis system, speech synthesis program product, and speech synthesis method | |
JP4241762B2 (en) | Speech synthesizer, method thereof, and program | |
JPWO2004097792A1 (en) | Speech synthesis system | |
JP2003150187A (en) | System and method for speech synthesis using smoothing filter, device and method for controlling smoothing filter characteristic | |
US20040153324A1 (en) | Reduced unit database generation based on cost information | |
US20060229874A1 (en) | Speech synthesizer, speech synthesizing method, and computer program | |
JPWO2008102710A1 (en) | Speech synthesis apparatus and method and program | |
JP2019179257A (en) | Acoustic model learning device, voice synthesizer, acoustic model learning method, voice synthesis method, and program | |
JP4424024B2 (en) | Segment-connected speech synthesizer and method | |
JP4298672B2 (en) | Method and apparatus for calculating output probability of state of mixed distribution HMM | |
CN116235247A (en) | Text-to-speech using duration prediction | |
US8478595B2 (en) | Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method | |
JP5512597B2 (en) | Speech synthesis apparatus, method and program thereof | |
JP4247289B1 (en) | Speech synthesis apparatus, speech synthesis method and program thereof | |
JP4716125B2 (en) | Pronunciation rating device and program | |
JP3960928B2 (en) | Text selection method, apparatus and program | |
JP4167084B2 (en) | Speech synthesis method and apparatus, and speech synthesis program | |
JP5020759B2 (en) | Segment database generation apparatus, method and program for various speech synthesizers | |
JP3881970B2 (en) | Speech data set creation device for perceptual test, computer program, sub-cost function optimization device for speech synthesis, and speech synthesizer | |
JP2005265895A (en) | Piece connecting type voice synthesizer and its method | |
JP2014228580A (en) | Voice model generation device, method and program | |
JP4909318B2 (en) | Acoustic model creation method, acoustic model creation device, program thereof, and recording medium thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070226 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091028 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091110 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4424024 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131218 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |