JP4424023B2 - Segment-connected speech synthesizer - Google Patents
Segment-connected speech synthesizer Download PDFInfo
- Publication number
- JP4424023B2 JP4424023B2 JP2004073724A JP2004073724A JP4424023B2 JP 4424023 B2 JP4424023 B2 JP 4424023B2 JP 2004073724 A JP2004073724 A JP 2004073724A JP 2004073724 A JP2004073724 A JP 2004073724A JP 4424023 B2 JP4424023 B2 JP 4424023B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- phoneme
- synthesizer
- selecting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000010845 search algorithm Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 description 26
- 238000003786 synthesis reaction Methods 0.000 description 26
- 238000004364 calculation method Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Images
Description
この発明は音声合成装置に関し、特に、所定のコスト関数に基づいて音声素片を選択し接続することにより合成器指令に合致した音声合成を行なう素片接続型音声合成装置に関する。 The present invention relates to a speech synthesizer, and more particularly to a unit connection type speech synthesizer that performs speech synthesis that matches a synthesizer command by selecting and connecting speech units based on a predetermined cost function.
音声認識、音声合成は、人間とコンピュータを用いた諸システムとのインターフェースを実現する技術として重要である。これらと人工知能技術とを併用することにより、利用者は相手がコンピュータシステムであることを意識せずに様々なサービスを利用することができる。 Speech recognition and speech synthesis are important technologies for realizing interfaces between humans and various systems using computers. By using these and artificial intelligence technology together, the user can use various services without being aware that the other party is a computer system.
中でも音声合成については、人間に対するシステム出力のためのインターフェースとしてその重要性は大きい。人間は、合成された音声の不自然さを敏感に感じ取る。合成された音声が不自然であると利用者が感じると、発話にも影響を及ぼし、その結果、人間とシステムとの間の対話がうまく行かなくなるおそれもある。 In particular, speech synthesis is very important as an interface for system output to humans. Humans are sensitive to the unnaturalness of synthesized speech. If the user feels that the synthesized speech is unnatural, it will affect the utterance, and as a result, the dialogue between the human and the system may not be successful.
最近の音声合成技術としては、予め人間の発話を多数集めた発話コーパスから音素ごとの音声素片をデータベース化しておき、合成時には、指定された音素に対応する音声素片の中から最も適切と思われるものを選択して接続するものが知られている。これを本明細書では素片接続型音声合成と呼ぶ。 As a recent speech synthesis technology, a speech unit for each phoneme is made into a database from an utterance corpus in which many human utterances are collected in advance, and at the time of synthesis, the most appropriate speech unit corresponding to a specified phoneme There is known what selects and connects what seems to be. This is referred to as segment-connected speech synthesis in this specification.
素片接続型音声合成では、与えられた合成目標を基準として、いかにして適切な音声素片をデータベース中から取出すかが問題となる。 In unit-connected speech synthesis, there is a problem of how to extract an appropriate speech unit from a database based on a given synthesis target.
合成目標を構成するデータは、典型的には音素と、基本周波数(F0)、持続時間、MFCC(Mel−Frequency Cepstrum Coefficient)、及びパワー等の音声特徴量とを含む。これらを以下「合成器指令」と呼ぶ。 The data constituting the synthesis target typically includes a phoneme, and a speech frequency such as a fundamental frequency (F0), a duration, an MFCC (Mel-Frequency Cepstrum Coefficient), and power. These are hereinafter referred to as “synthesizer commands”.
素片接続型音声合成では、合成器指令と音声素片のF0、持続時間、MFCC、パワー等とのずれ、及び接続に伴う自然劣化を表現するための「コスト」と呼ばれる評価関数を定義し、コストを最小とする音声素片を求めることにより、最適な音声素片系列を決定する。 In unit-connected speech synthesis, an evaluation function called “cost” is defined to express the difference between the synthesizer command and the F0, duration, MFCC, power, etc. of speech units, and the natural degradation associated with the connection. Then, an optimum speech unit sequence is determined by obtaining a speech unit that minimizes the cost.
本件出願の出願人は、上記した「コスト」を、それぞれある音声の特徴に対応するような「サブコスト」に分解し、それらを結合したもの(例えば線形和)により定義した素片接続型音声合成を提案している。例えば特許文献1を参照されたい。 The applicant of the present application decomposes the above-mentioned “cost” into “sub-costs” corresponding to certain voice features, and combines them (for example, linear sum) to define a unit-connected speech synthesis. Has proposed. For example, see Patent Document 1.
サブコストは、ターゲットコストと接続コストとの二グループに大きく分類できる。ターゲットコストは、合成器指令と素片候補との間の誤差を表す。接続コストは、合成音声において隣接する素片間の不連続性を表す。 Sub-costs can be broadly classified into two groups: target costs and connection costs. The target cost represents an error between the synthesizer command and the segment candidate. The connection cost represents a discontinuity between adjacent segments in the synthesized speech.
上記したような素片接続型音声合成技術では、音声素片データベースを大きくするほど、合成時にコストを小さくできる候補を見つけることができる可能性が高くなり、音声合成の品質が高くなる。しかし、音声素片データベースが大きい場合には、候補を決定するために必要な計算量が大きくなるという問題がある。 In the unit-connected speech synthesis technology as described above, the larger the speech unit database, the higher the possibility of finding a candidate that can reduce the cost during synthesis, and the quality of speech synthesis increases. However, when the speech unit database is large, there is a problem that the amount of calculation necessary for determining candidates increases.
計算量を小さくするための一つの方策として、コスト計算による素片選択に先立って、より少ない計算量ですむコスト計算を行なって素片候補を予備選択することが考えられる。例えば、接続コストの計算には、素片候補だけでなくその前後の音素との関係も必要になり計算量が多くなる。一方、ターゲットコストの計算には、素片候補が必要なだけである。そこで、接続コストを用いず、ターゲットコストのみを用いて素片候補を予備選択することが考えられる。 As one measure for reducing the amount of calculation, it is conceivable to pre-select a unit candidate by performing a cost calculation that requires a smaller amount of calculation prior to selecting a unit by cost calculation. For example, the calculation of the connection cost requires not only a segment candidate but also a relationship with the phonemes before and after it, which increases the amount of calculation. On the other hand, the target cost calculation only requires a segment candidate. Therefore, it is conceivable to preselect a segment candidate using only the target cost without using the connection cost.
しかしその場合でも、音声素片データベースが大きくなるほど予備選択のための計算量は大きくなるという問題が残る。音声素片データベースのサイズにかかわらず、高速かつ一定した速度で素片選択を行なえるようにすることが望ましい。また、その場合でも品質の劣化が生じることは避けるべきである。 However, even in that case, the problem remains that the amount of calculation for preliminary selection increases as the speech unit database increases. Regardless of the size of the speech segment database, it is desirable to be able to perform segment selection at a high speed and at a constant speed. Even in such a case, it should be avoided that the quality deteriorates.
それゆえに本発明の目的は、大規模な音声コーパスを用いた場合であっても、高速かつ一定した速度で素片選択を行なうことが可能な音声合成装置を提供することである。 Therefore, an object of the present invention is to provide a speech synthesizer capable of performing segment selection at a high speed and at a constant speed even when a large-scale speech corpus is used.
本発明の他の目的は、大規模な音声コーパスを用いた場合であっても、高速かつ一定した速度で素片選択を行ない、かつ合成された音声の品質を高くすることが可能な音声合成装置を提供することである。 Another object of the present invention is to perform speech synthesis capable of performing segment selection at a high speed and a constant speed and improving the quality of synthesized speech even when a large-scale speech corpus is used. Is to provide a device.
本発明に係る素片接続型音声合成装置は、音声素片データベースと、音声素片データベース中の音声素片を、音素ごとに、かつ所定の特徴量の値をキーとしてソートして保持するテーブルとを用いて、音声素片データベース中の音声素片を接続する素片接続型音声合成装置であって、合成音声の目標となる音素ラベルのシーケンスと、各音素ラベルに付随する目標特徴量とを定める合成器指令の入力を受け、合成器指令の音素ラベルにより指定される音素に対応するテーブルを選択するテーブル選択手段と、テーブル選択手段により選択されたテーブルの中で、合成器指令の目標特徴量により特定される所定の特徴量の値を有する音声素片を含む、予め定める基準により定められる範囲に位置する音声素片を予備選択するための予備選択手段と、予備選択手段により予備選択された音声素片の中から、所定の基準に基づいて音声素片を選択するための選択手段と、選択手段により選択された音声素片を合成器指令に従って接続し合成音声波形を出力するための接続手段とを含む。 The unit-connected speech synthesizer according to the present invention includes a speech unit database and a table that stores speech units in the speech unit database sorted for each phoneme and using a predetermined feature value as a key. Is a unit-connected speech synthesizer that connects speech units in a speech unit database, and includes a sequence of phoneme labels that are targets of synthesized speech, and a target feature amount associated with each phoneme label, and A table selection means for selecting a table corresponding to the phoneme specified by the phoneme label of the synthesizer command, and a target of the synthesizer command among the tables selected by the table selection means Preliminary selection means for preliminarily selecting a speech element located in a range defined by a predetermined criterion, including a speech element having a predetermined feature value specified by the feature value A selection unit for selecting a speech unit based on a predetermined criterion from speech units preliminarily selected by the preliminary selection unit, and a speech unit selected by the selection unit is connected in accordance with a synthesizer command. Connecting means for outputting a synthesized speech waveform.
好ましくは、所定の特徴量は音素長であり、予備選択手段は、テーブル選択手段により選択されたテーブルの中で、合成器指令により指定される音素長を含む、予め定める基準により特定される範囲に位置する音声素片を選択するための手段を含む。 Preferably, the predetermined feature amount is a phoneme length, and the preliminary selection unit includes a range specified by a predetermined criterion including the phoneme length specified by the synthesizer command in the table selected by the table selection unit. Means for selecting a speech unit located at.
好ましくは、テーブルには、予め予備選択されるべき音声素片の許容数を特定する許容数情報が付されており、選択するための手段は、テーブル選択手段により選択されたテーブルの中で、合成器指令により指定される音素長を有する音声素片を中心とする、許容数で指定される数の音声素片を選択するための手段を含む。 Preferably, the table is provided with permissible number information for specifying the permissible number of speech segments to be preliminarily selected, and the means for selecting is the table selected by the table selecting means, Means for selecting a number of speech units specified by an allowable number centered on a speech unit having a phoneme length specified by the synthesizer command;
所定の特徴量は量子化された基本周波数(F0)であってもよく、予備選択手段は、テーブル選択手段により選択されたテーブルの中で、合成器指令により指定される基本周波数を含む、予め定める基準により特定される範囲に位置する音声素片を選択するための手段を含んでもよい。 The predetermined feature amount may be a quantized fundamental frequency (F0), and the preliminary selection means includes a fundamental frequency specified by a synthesizer command in a table selected by the table selection means. Means may be included for selecting speech segments located in a range specified by the defined criteria.
テーブルには、予め予備選択されるべき音声素片の許容数を特定する許容数情報が付されており、選択するための手段は、テーブル選択手段により選択されたテーブルの中で、合成器指令により指定される基本周波数を有する音声素片を中心とする、許容数で指定される数の音声素片を選択するための手段を含んでもよい。 The table is preliminarily provided with permissible number information for specifying the permissible number of speech segments to be preselected, and the means for selecting is a synthesizer command in the table selected by the table selecting means. There may be included means for selecting a number of speech units specified by an allowable number centered on a speech unit having a fundamental frequency specified by.
好ましくは、予備選択手段は、テーブル選択手段により選択されたテーブルの中で、合成器指令の目標特徴量により特定される所定の特徴量の値を有する音声素片を、所定の探索アルゴリズムにより探索するための探索手段と、テーブル選択手段により選択されたテーブルの中で、探索手段により探索された音声素片を中心とする、予め定められる範囲に位置する音声素片を選択するための手段とを含む。 Preferably, the preliminary selection means searches for a speech segment having a predetermined feature value specified by the target feature value of the synthesizer command in a table selected by the table selection means by a predetermined search algorithm. And a means for selecting a speech unit located in a predetermined range centered on the speech unit searched for by the search means in the table selected by the table selection means. including.
好ましくは、探索手段は、テーブル選択手段により選択されたテーブルの中で、合成器指令の目標特徴量により特定される所定の特徴量の値を有する音声素片を、2分木探索アルゴリズムにより探索するための2分木探索手段を含む。 Preferably, the search means searches for a speech element having a predetermined feature value specified by the target feature value of the synthesizer command in the table selected by the table selection means, using a binary tree search algorithm. Binary tree search means for doing this.
好ましくは、選択手段は、予備選択手段により予備選択された音声素片候補の中から、当該音声素片の特徴量と、目標特徴量とに基づいて予め定めるコスト計算により算出されるコストが所定の条件を充足する音声素片を選択するための手段を含む。 Preferably, the selection unit has a predetermined cost calculated from a speech unit candidate preliminarily selected by the preliminary selection unit based on a feature amount of the speech unit and a target feature amount. Means for selecting a speech segment that satisfies the above condition.
[第1の実施の形態]
−構成−
図1に、本発明の第1の実施の形態に係る音声合成システム20のブロック図を示す。図1を参照して、この音声合成システム20は、従来と同様の音声素片データベース(DB)30と、音声素片DB30に含まれる各音声素片を音素ごとに分類し、かつ各音素の音素長等、素片選択に必要な情報を抽出してソートした音素別音素長テーブル34を生成するための音素長テーブル作成部32と、合成目標となるテキストを分析した結果得られる合成器指令36を入力として受け、音素別音素長テーブル34を利用して音声素片DB30からほぼ一定量の音声素片を予備選択し、予備選択された素片候補の中から適切な音声素片を接続して合成音声波形40を出力するための音声合成装置38とを含む。
[First Embodiment]
−Configuration−
FIG. 1 shows a block diagram of a
図2に、音素長テーブル作成部32の構成をブロック図形式で示す。図2を参照して、音素長テーブル作成部32は、音声素片DB30から、音声素片DB30内の各素片の音素ラベル、アドレス、音素長、及びその他のコスト計算に必要な情報を抽出し、音素別音素長テーブル82を作成するための音素長抽出部80と、音素別音素長テーブル82を各テーブルごとに音素長の昇順でソートすることにより、ソート済みの音素別音素長テーブル34を作成するためのソート処理部84と、音素別音素長テーブル34ごとに、音素長の分布を調べ、素片候補を予備選択する場合の音素長の許容幅を算出するための許容素片候補数算出部86とを含む。許容素片候補数算出部86の機能については図4を参照して後述する。
FIG. 2 shows the configuration of the phoneme length
再び図1を参照して、音声合成装置38は、合成器指令36を受け、合成器指令36により指定された音素に対応する素片であって、かつ合成器指令36により指定された音素長を中心とした所定の幅の音素長を持つ音素を音素別音素長テーブル34から予備選択し素片候補テーブル62を作成するための予備選択部60と、合成器指令36を受け、素片候補テーブル62に含まれる素片候補の中から、コストの最も小さな素片を選択するための素片選択部64と、素片選択部64により選択された音声素片に対応する音声素片データを音声素片DB30から読出し、互いに接続して合成音声波形40を出力するための接続部66とを含む。
Referring to FIG. 1 again, the
図3を参照して、予備選択部60は、合成器指令36を受け、合成器指令36により指定された音素に対応する音素長テーブル110を音素別音素長テーブル34のうちから選択するためのテーブル選択部100を含む。音素長テーブル110には、許容素片候補数算出部86により算出された許容素片候補数112が付属している。
Referring to FIG. 3,
予備選択部60はさらに、合成器指令36により与えられた音素長と一致する音素長の素片候補を、音素長テーブル110に対する2分木探索により探索するための2分木探索部102と、音素長テーブル110の中で、2分木探索部102により探索された素片候補を中心とする、許容素片候補数112により指定された素片数の素片候補を選択し、素片候補テーブル62を作成するための素片候補選択部104とを含む。
The
素片候補選択部104が素片候補を選択する際の許容素片候補数は、特に厳密な基準を用いて算出する必要はなく、素片候補数をある程度の数に絞ることができるものであればどのようなものでもよい。素片長の分布が正規分布にしたがうと考えられれば、その標準偏差σを算出し、aσ(aは予め定められた数)に入る素片数を用いればよい。
The number of allowable element candidates when the element
実際には、素片長の分布が多峰型を示すことも多い。そうした場合、本実施の形態に係る許容素片候補数算出部86(図2参照)は、図4に示す基準によりこの幅を算出するものとする。 In practice, the segment length distribution is often multimodal. In such a case, the allowable segment candidate number calculation unit 86 (see FIG. 2) according to the present embodiment calculates this width based on the criteria shown in FIG.
図4を参照して、たとえば分布が2峰型の場合には、谷の頂点Aの部分でこの分布曲線に接し、x軸に平行な線を引く。この線が分布曲線と交わる点をそれぞれB,Cとする。BA=w1、AC=w2とする。本実施の形態では、w=α(w1+w2)/2(αは予め定められた数。好ましくは0<α≦1)で求められるwを、許容音素長幅とする。分布曲線が多峰型の場合にも、これと同様な考え方を拡張すればよい。もちろん、これ以外にも様々な方法で許容音素長幅を定めることができる。 Referring to FIG. 4, for example, when the distribution is bimodal, a line parallel to the x axis is drawn in contact with the distribution curve at the apex A of the valley. The points where this line intersects the distribution curve are denoted by B and C, respectively. BA = w 1 and AC = w 2 . In the present embodiment, w obtained by w = α (w 1 + w 2 ) / 2 (α is a predetermined number, preferably 0 <α ≦ 1) is set as an allowable phoneme length width. Even when the distribution curve is multimodal, the same idea may be extended. Of course, the allowable phoneme length width can be determined by various methods other than this.
本実施の形態に係る素片選択部64によるコスト計算では、コストC0は以下のようにしてサブコストから計算される。
In the cost calculation by the
−動作−
この音声合成システム20は以下のように動作する。この音声合成システム20の動作には大きく分けて二つのフェーズがある。第1のフェーズは音素別音素長テーブル34の構築である。第2のフェーズは音声合成装置38による音声合成である。
-Operation-
The
第1のフェーズでは以下のような処理が行なわれる。この処理に先立ち、音声素片DB30が音声コーパスから作成済みであるものとする。音素長テーブル作成部32の音素長抽出部80(図2参照)は、音声素片DB30に含まれる音声素片データの各々から、上記したように音素ラベル、アドレス、音素長、及びその他のコスト計算に必要な情報を抽出し、音素別音素長テーブル82を作成する。音素別音素長テーブル82の各テーブルに含まれる素片データはソートされていない。
In the first phase, the following processing is performed. Prior to this processing, it is assumed that the
ソート処理部84は、各音素別音素長テーブル82を、音素長で昇順にソートする。その結果、音素長によってソート済みの音素別音素長テーブル34が作成される。許容素片候補数算出部86は、この音素別音素長テーブル34の各々に含まれる音声素片の音素長の分布に基づき、許容素片候補数112(図3参照)を算出し、音素別音素長テーブル34の各々に付す。
The
以上の処理が終了すると、音声合成装置38による音声合成が可能となる。音声合成に先立ち、音声合成装置38(コンピュータにより構成される。)は音素別音素長テーブル34をメモリ上に配列として格納し、予備選択を高速に行なうことができるようにしておく。
When the above processing is completed, speech synthesis by the
音声合成時、合成対象のテキスト分析により合成器指令36が得られると、この合成器指令36は予備選択部60のテーブル選択部100に与えられる(図3参照)。テーブル選択部100は、合成器指令36に基づいて、合成器指令36により指定された音素に対応する音素長テーブル110を音素別音素長テーブル34の中から選択する。
At the time of speech synthesis, if a
2分木探索部102は、合成器指令36により与えられた音素長と一致する音素長の音声素片を、音素長テーブル110に対する2分木により探索し、探索された音声素片の音素別音素長テーブル34中でのアドレス(配列のインデックス)を素片候補選択部104に与える。素片候補選択部104は、与えられたインデックスで示される音声素片を中心とし、許容素片候補数112により指定される範囲(中心の前後の所定個数)の音声素片のインデックスを算出し、それら素片データを全て読出して素片候補テーブル62に格納する。
The binary
図1を参照して、素片選択部64は、合成器指令36を受け、素片候補テーブル62に含まれる音声素片のうち、式(1)により算出されるコストが最も小さなものを選択して接続部66に与える。接続部66は、素片選択部64から与えられた音声素片に対応する音声波形データを音声素片DB30から読出し、音声が滑らかになるように変形して接続し合成音声波形40として出力する。
Referring to FIG. 1,
予備選択部60により、許容素片候補数112により定まる数の素片候補を予め選択して素片候補テーブル62に格納し、その中から音声素片を選択するため、素片選択部64が素片選択を行なう際のコスト計算の計算量は少なく、一定量以下で済む。2分木探索部102による2分木探索は高速に行なえることが知られており、また素片候補選択部104による素片候補抽出のためのアドレス計算の計算量も少なくて済む。そのため、音声合成装置38による素片選択のための計算量は全体としても少なくて済む。
The number of segment candidates determined by the allowable
また、素片候補テーブル62は、合成器指令36により指定される音素に対応する音素別音素長テーブル34から、指定された音素長の素片候補を中心とする所定数の素片候補からなるので、ターゲットコストの小さな音声素片を多数含む。そのため、それらの中からコスト最小の音声素片を選択して接続した場合、接続時の変形による品質低下は無視できるほど小さくなる。その結果、最終的に得られる合成音声波形40には、音声素片の接続による品質低下はわずかしか見られない。
The element candidate table 62 is made up of a predetermined number of element candidates centered on the element candidate of the specified phoneme length from the phoneme-specific phoneme length table 34 corresponding to the phoneme specified by the
なお、この実施の形態では、予備選択部60により音素別音素長テーブル34から音素長を基準として所定数の素片を予備的に選択する。しかし本発明はそのような実施の形態には限定されない。たとえば、音素長以外の特徴量、たとえば基本周波数などを基準に音素長テーブルをソートし、予備選択に用いるようにしてもよい。
In this embodiment, the
上記した本発明の実施の形態のシステムでは、予備選択の際に、許容素片候補数を用いて素片候補の数を制限した。しかし本発明はそのような実施の形態には限定されない。たとえば、音素長を基準とするのであれば、探索された素片を中心として所定の音素長幅を有する素片候補を抽出するようにしてもよい。また、上記のように抽出した素片候補に対し、ターゲットコストのみを利用した第2の予備選択を行なうようにしてもよい。 In the system according to the embodiment of the present invention described above, the number of segment candidates is limited using the allowable number of segment candidates at the time of preliminary selection. However, the present invention is not limited to such an embodiment. For example, if the phoneme length is used as a reference, a segment candidate having a predetermined phoneme length width around the searched segment may be extracted. Alternatively, the second preliminary selection using only the target cost may be performed on the segment candidates extracted as described above.
また、上記した実施の形態では、音素長を昇順でソートすることにより音素別音素長テーブル34を作成したが、ソートを降順で行なっても同様の効果が得られることは明らかである。さらに、上記した実施の形態のシステムでは、音素別音素長テーブル34に音素長のみならず他の特徴量も格納することにより、音素選択に音素別音素長テーブル34を用いたが、音素別音素長テーブル34には音素長、音素ラベル、及び音声素片DB30中の当該素片のアドレスのみを格納し、音素別音素長テーブル34を素片の予備選択のみに用いるようにしてもよい。
In the above-described embodiment, the phoneme-specific phoneme length table 34 is created by sorting the phoneme lengths in ascending order. However, it is obvious that the same effect can be obtained even if the sort is performed in descending order. Furthermore, in the system of the above-described embodiment, the phoneme-specific phoneme length table 34 is used for phoneme selection by storing not only the phoneme length in the phoneme-specific phoneme length table 34 but also other feature quantities. Only the phoneme length, the phoneme label, and the address of the unit in the
さらに、上記した実施の形態のシステムでは、予備選択する素片候補の数を、音素別音素長テーブル内の音素長の分布により算出した。しかし本発明はそのような実施の形態には限定されない。たとえば、音素ごとに固定した数を予め定めておき、それを用いてもよい。 Furthermore, in the system of the above-described embodiment, the number of segment candidates to be preliminarily selected is calculated based on the phoneme length distribution in the phoneme-specific phoneme length table. However, the present invention is not limited to such an embodiment. For example, a fixed number for each phoneme may be determined in advance and used.
さらに、上記した実施の形態では、音素長を基準として素片候補をソートし、候補数を制限した。しかし、制限に使用される基準は音素長には限らない。例えば、量子化した基本周波数(F0)を用いてもよい。この場合、合成器指令36で指定された基本周波数と一致する素片候補を2分木探索により探索し、探索された素片候補を含み、その素片候補のF0を中心とした許容される範囲の基本周波数の素片候補、又は所定個数の素片候補を抽出すればよい。
Furthermore, in the above-described embodiment, the segment candidates are sorted based on the phoneme length, and the number of candidates is limited. However, the criteria used for restriction are not limited to phoneme length. For example, a quantized fundamental frequency (F0) may be used. In this case, a segment candidate that matches the fundamental frequency specified by the
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
20 音声合成システム、30 音声素片DB、32 音素長テーブル作成部、34 音素別音素長テーブル、36 合成器指令、38 音声合成装置、60 予備選択部、62 素片候補テーブル、80 音素長抽出部、82 音素別音素長テーブル(未ソート)、84 ソート処理部、86 許容素片候補数算出部、110 音素長テーブル、112 許容素片候補数 20 speech synthesis system, 30 speech segment DB, 32 phoneme length table creation unit, 34 phoneme length table, 36 synthesizer command, 38 speech synthesizer, 60 preliminary selection unit, 62 segment candidate table, 80 phoneme length extraction , 82 Phoneme-specific phoneme length table (unsorted), 84 Sort processing unit, 86 Allowable segment candidate number calculation unit, 110 Phoneme length table, 112 Allowable segment candidate number
Claims (8)
合成音声の目標となる音素ラベルのシーケンスと、各音素ラベルに付随する目標特徴量とを定める合成器指令の入力を受け、前記合成器指令の音素ラベルにより指定される音素に対応する前記テーブルを選択するテーブル選択手段と、
前記テーブル選択手段により選択されたテーブルの中で、前記合成器指令の前記目標特徴量により特定される前記所定の特徴量の値を有する音声素片を含む、予め定める基準により定められる範囲に位置する音声素片を予備選択するための予備選択手段と、
前記予備選択手段により予備選択された音声素片の中から、所定の基準に基づいて音声素片を選択するための選択手段と、
前記選択手段により選択された音声素片を前記合成器指令に従って接続し合成音声波形を出力するための接続手段とを含む、素片接続型音声合成装置。 Using a speech unit database and a table that stores speech units in the speech unit database sorted by phoneme and using predetermined feature values as keys, A unit connection type speech synthesizer for connecting speech units,
The table corresponding to the phoneme specified by the phoneme label of the synthesizer command is received by receiving an input of a synthesizer command defining a sequence of phoneme labels to be a target of synthesized speech and a target feature amount associated with each phoneme label. A table selection means to select;
Within the table selected by the table selection means, the position is within a range determined by a predetermined standard including the speech segment having the predetermined feature value specified by the target feature value of the synthesizer command Pre-selection means for pre-selecting speech segments to be performed;
A selection unit for selecting a speech unit based on a predetermined criterion from the speech units preliminarily selected by the preliminary selection unit;
A unit connection type speech synthesizer comprising: a connection unit configured to connect the speech units selected by the selection unit according to the synthesizer command and output a synthesized speech waveform.
前記予備選択手段は、前記テーブル選択手段により選択されたテーブルの中で、前記合成器指令により指定される音素長を含む、予め定める基準により特定される範囲に位置する音声素片を選択するための手段を含む、請求項1に記載の素片接続型音声合成装置。 The predetermined feature amount is a phoneme length,
The preliminary selection means is for selecting a speech segment located in a range specified by a predetermined criterion, including the phoneme length specified by the synthesizer command, in the table selected by the table selection means. The unit connection type speech synthesizer according to claim 1, comprising:
前記選択するための手段は、前記テーブル選択手段により選択されたテーブルの中で、前記合成器指令により指定される音素長を有する音声素片を中心とする、前記許容数で指定される数の音声素片を選択するための手段を含む、請求項2に記載の素片接続型音声合成装置。 The table is provided with permissible number information for specifying the permissible number of speech segments to be pre-selected in advance,
In the table selected by the table selection means, the means for selecting is a number specified by the allowable number, centered on a speech unit having a phoneme length specified by the synthesizer command. The unit connection type speech synthesizer according to claim 2, comprising means for selecting a speech unit.
前記予備選択手段は、前記テーブル選択手段により選択されたテーブルの中で、前記合成器指令により指定される基本周波数を含む、予め定める基準により特定される範囲に位置する音声素片を選択するための手段を含む、請求項1に記載の素片接続型音声合成装置。 The predetermined feature amount is a quantized fundamental frequency (F0),
The preliminary selection means is for selecting a speech unit located in a range specified by a predetermined criterion, including a fundamental frequency specified by the synthesizer command, in the table selected by the table selection means. The unit connection type speech synthesizer according to claim 1, comprising:
前記選択するための手段は、前記テーブル選択手段により選択されたテーブルの中で、前記合成器指令により指定される基本周波数を有する音声素片を中心とする、前記許容数で指定される数の音声素片を選択するための手段を含む、請求項4に記載の素片接続型音声合成装置。 The table is provided with permissible number information for specifying the permissible number of speech segments to be pre-selected in advance,
In the table selected by the table selecting means, the means for selecting is a number specified by the allowable number centered on a speech unit having a fundamental frequency specified by the synthesizer command. 5. The unit connection type speech synthesizer according to claim 4, further comprising means for selecting a speech unit.
前記テーブル選択手段により選択されたテーブルの中で、前記合成器指令の前記目標特徴量により特定される前記所定の特徴量の値を有する音声素片を、所定の探索アルゴリズムにより探索するための探索手段と、
前記テーブル選択手段により選択されたテーブルの中で、前記探索手段により探索された音声素片を中心とする、予め定められる範囲に位置する音声素片を選択するための手段とを含む、請求項1〜請求項5のいずれかに記載の素片接続型音声合成装置。 The preliminary selection means includes
A search for searching for a speech unit having a value of the predetermined feature amount specified by the target feature amount of the synthesizer command in a table selected by the table selection means by a predetermined search algorithm Means,
And means for selecting a speech element located in a predetermined range centered on the speech element searched by the search means from the table selected by the table selection means. The unit connection type speech synthesizer according to any one of claims 1 to 5.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004073724A JP4424023B2 (en) | 2004-03-16 | 2004-03-16 | Segment-connected speech synthesizer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004073724A JP4424023B2 (en) | 2004-03-16 | 2004-03-16 | Segment-connected speech synthesizer |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005265874A JP2005265874A (en) | 2005-09-29 |
JP4424023B2 true JP4424023B2 (en) | 2010-03-03 |
Family
ID=35090543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004073724A Expired - Lifetime JP4424023B2 (en) | 2004-03-16 | 2004-03-16 | Segment-connected speech synthesizer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4424023B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108172211A (en) * | 2017-12-28 | 2018-06-15 | 云知声(上海)智能科技有限公司 | Adjustable waveform concatenation system and method |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4882569B2 (en) * | 2006-07-19 | 2012-02-22 | Kddi株式会社 | Speech synthesis apparatus, method and program |
WO2008139919A1 (en) * | 2007-05-08 | 2008-11-20 | Nec Corporation | Speech synthesizer, speech synthesizing method, and speech synthesizing program |
-
2004
- 2004-03-16 JP JP2004073724A patent/JP4424023B2/en not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108172211A (en) * | 2017-12-28 | 2018-06-15 | 云知声(上海)智能科技有限公司 | Adjustable waveform concatenation system and method |
CN108172211B (en) * | 2017-12-28 | 2021-02-12 | 云知声(上海)智能科技有限公司 | Adjustable waveform splicing system and method |
Also Published As
Publication number | Publication date |
---|---|
JP2005265874A (en) | 2005-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305634B (en) | Decoding method, decoder and storage medium | |
CN108711422B (en) | Speech recognition method, speech recognition device, computer-readable storage medium and computer equipment | |
US6751595B2 (en) | Multi-stage large vocabulary speech recognition system and method | |
US8249870B2 (en) | Semi-automatic speech transcription | |
US8620662B2 (en) | Context-aware unit selection | |
EP0527650B1 (en) | Speech recognition apparatus | |
US7742918B1 (en) | Active learning for spoken language understanding | |
US20050021330A1 (en) | Speech recognition apparatus capable of improving recognition rate regardless of average duration of phonemes | |
US20110131038A1 (en) | Exception dictionary creating unit, exception dictionary creating method, and program therefor, as well as speech recognition unit and speech recognition method | |
KR100748720B1 (en) | Large-vocabulary speech recognition method and apparatus based on multi-layer central lexicons | |
EP0109190A1 (en) | Monosyllable recognition apparatus | |
CN105654940B (en) | Speech synthesis method and device | |
JP2002507010A (en) | Apparatus and method for simultaneous multi-mode dictation | |
KR980011007A (en) | Speech recognition method, information formation method, speech recognition apparatus and recording medium | |
US6016470A (en) | Rejection grammar using selected phonemes for speech recognition system | |
JP3061114B2 (en) | Voice recognition device | |
Hendy et al. | Emotion recognition using neural network: A comparative study | |
US20040172249A1 (en) | Speech synthesis | |
CN112037764A (en) | Music structure determination method, device, equipment and medium | |
JP5897718B2 (en) | Voice search device, computer-readable storage medium, and voice search method | |
JP4424023B2 (en) | Segment-connected speech synthesizer | |
KR20050032759A (en) | Automatic expansion method and device for foreign language transliteration | |
US6631349B1 (en) | Speech recognition method and system | |
JP4292191B2 (en) | Segment-connected speech synthesizer and computer program | |
JPH1097286A (en) | Word and compound word classifying processing method, compound word extracting method, word and compound word classifying processor, speech recognition system, machine translating device, compound word extracting device, and word and compound word storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070226 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091028 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091110 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4424023 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131218 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |