JP4424023B2 - Segment-connected speech synthesizer - Google Patents

Segment-connected speech synthesizer Download PDF

Info

Publication number
JP4424023B2
JP4424023B2 JP2004073724A JP2004073724A JP4424023B2 JP 4424023 B2 JP4424023 B2 JP 4424023B2 JP 2004073724 A JP2004073724 A JP 2004073724A JP 2004073724 A JP2004073724 A JP 2004073724A JP 4424023 B2 JP4424023 B2 JP 4424023B2
Authority
JP
Japan
Prior art keywords
speech
unit
phoneme
synthesizer
selecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004073724A
Other languages
Japanese (ja)
Other versions
JP2005265874A (en
Inventor
隆志 野見
恒 河井
みちよ 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004073724A priority Critical patent/JP4424023B2/en
Publication of JP2005265874A publication Critical patent/JP2005265874A/en
Application granted granted Critical
Publication of JP4424023B2 publication Critical patent/JP4424023B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

この発明は音声合成装置に関し、特に、所定のコスト関数に基づいて音声素片を選択し接続することにより合成器指令に合致した音声合成を行なう素片接続型音声合成装置に関する。   The present invention relates to a speech synthesizer, and more particularly to a unit connection type speech synthesizer that performs speech synthesis that matches a synthesizer command by selecting and connecting speech units based on a predetermined cost function.

音声認識、音声合成は、人間とコンピュータを用いた諸システムとのインターフェースを実現する技術として重要である。これらと人工知能技術とを併用することにより、利用者は相手がコンピュータシステムであることを意識せずに様々なサービスを利用することができる。   Speech recognition and speech synthesis are important technologies for realizing interfaces between humans and various systems using computers. By using these and artificial intelligence technology together, the user can use various services without being aware that the other party is a computer system.

中でも音声合成については、人間に対するシステム出力のためのインターフェースとしてその重要性は大きい。人間は、合成された音声の不自然さを敏感に感じ取る。合成された音声が不自然であると利用者が感じると、発話にも影響を及ぼし、その結果、人間とシステムとの間の対話がうまく行かなくなるおそれもある。   In particular, speech synthesis is very important as an interface for system output to humans. Humans are sensitive to the unnaturalness of synthesized speech. If the user feels that the synthesized speech is unnatural, it will affect the utterance, and as a result, the dialogue between the human and the system may not be successful.

最近の音声合成技術としては、予め人間の発話を多数集めた発話コーパスから音素ごとの音声素片をデータベース化しておき、合成時には、指定された音素に対応する音声素片の中から最も適切と思われるものを選択して接続するものが知られている。これを本明細書では素片接続型音声合成と呼ぶ。   As a recent speech synthesis technology, a speech unit for each phoneme is made into a database from an utterance corpus in which many human utterances are collected in advance, and at the time of synthesis, the most appropriate speech unit corresponding to a specified phoneme There is known what selects and connects what seems to be. This is referred to as segment-connected speech synthesis in this specification.

素片接続型音声合成では、与えられた合成目標を基準として、いかにして適切な音声素片をデータベース中から取出すかが問題となる。   In unit-connected speech synthesis, there is a problem of how to extract an appropriate speech unit from a database based on a given synthesis target.

合成目標を構成するデータは、典型的には音素と、基本周波数(F0)、持続時間、MFCC(Mel−Frequency Cepstrum Coefficient)、及びパワー等の音声特徴量とを含む。これらを以下「合成器指令」と呼ぶ。   The data constituting the synthesis target typically includes a phoneme, and a speech frequency such as a fundamental frequency (F0), a duration, an MFCC (Mel-Frequency Cepstrum Coefficient), and power. These are hereinafter referred to as “synthesizer commands”.

素片接続型音声合成では、合成器指令と音声素片のF0、持続時間、MFCC、パワー等とのずれ、及び接続に伴う自然劣化を表現するための「コスト」と呼ばれる評価関数を定義し、コストを最小とする音声素片を求めることにより、最適な音声素片系列を決定する。   In unit-connected speech synthesis, an evaluation function called “cost” is defined to express the difference between the synthesizer command and the F0, duration, MFCC, power, etc. of speech units, and the natural degradation associated with the connection. Then, an optimum speech unit sequence is determined by obtaining a speech unit that minimizes the cost.

本件出願の出願人は、上記した「コスト」を、それぞれある音声の特徴に対応するような「サブコスト」に分解し、それらを結合したもの(例えば線形和)により定義した素片接続型音声合成を提案している。例えば特許文献1を参照されたい。   The applicant of the present application decomposes the above-mentioned “cost” into “sub-costs” corresponding to certain voice features, and combines them (for example, linear sum) to define a unit-connected speech synthesis. Has proposed. For example, see Patent Document 1.

サブコストは、ターゲットコストと接続コストとの二グループに大きく分類できる。ターゲットコストは、合成器指令と素片候補との間の誤差を表す。接続コストは、合成音声において隣接する素片間の不連続性を表す。   Sub-costs can be broadly classified into two groups: target costs and connection costs. The target cost represents an error between the synthesizer command and the segment candidate. The connection cost represents a discontinuity between adjacent segments in the synthesized speech.

特開2003−208188号公報(段落0014〜0047)JP 2003-208188 A (paragraphs 0014 to 0047)

上記したような素片接続型音声合成技術では、音声素片データベースを大きくするほど、合成時にコストを小さくできる候補を見つけることができる可能性が高くなり、音声合成の品質が高くなる。しかし、音声素片データベースが大きい場合には、候補を決定するために必要な計算量が大きくなるという問題がある。   In the unit-connected speech synthesis technology as described above, the larger the speech unit database, the higher the possibility of finding a candidate that can reduce the cost during synthesis, and the quality of speech synthesis increases. However, when the speech unit database is large, there is a problem that the amount of calculation necessary for determining candidates increases.

計算量を小さくするための一つの方策として、コスト計算による素片選択に先立って、より少ない計算量ですむコスト計算を行なって素片候補を予備選択することが考えられる。例えば、接続コストの計算には、素片候補だけでなくその前後の音素との関係も必要になり計算量が多くなる。一方、ターゲットコストの計算には、素片候補が必要なだけである。そこで、接続コストを用いず、ターゲットコストのみを用いて素片候補を予備選択することが考えられる。   As one measure for reducing the amount of calculation, it is conceivable to pre-select a unit candidate by performing a cost calculation that requires a smaller amount of calculation prior to selecting a unit by cost calculation. For example, the calculation of the connection cost requires not only a segment candidate but also a relationship with the phonemes before and after it, which increases the amount of calculation. On the other hand, the target cost calculation only requires a segment candidate. Therefore, it is conceivable to preselect a segment candidate using only the target cost without using the connection cost.

しかしその場合でも、音声素片データベースが大きくなるほど予備選択のための計算量は大きくなるという問題が残る。音声素片データベースのサイズにかかわらず、高速かつ一定した速度で素片選択を行なえるようにすることが望ましい。また、その場合でも品質の劣化が生じることは避けるべきである。   However, even in that case, the problem remains that the amount of calculation for preliminary selection increases as the speech unit database increases. Regardless of the size of the speech segment database, it is desirable to be able to perform segment selection at a high speed and at a constant speed. Even in such a case, it should be avoided that the quality deteriorates.

それゆえに本発明の目的は、大規模な音声コーパスを用いた場合であっても、高速かつ一定した速度で素片選択を行なうことが可能な音声合成装置を提供することである。   Therefore, an object of the present invention is to provide a speech synthesizer capable of performing segment selection at a high speed and at a constant speed even when a large-scale speech corpus is used.

本発明の他の目的は、大規模な音声コーパスを用いた場合であっても、高速かつ一定した速度で素片選択を行ない、かつ合成された音声の品質を高くすることが可能な音声合成装置を提供することである。   Another object of the present invention is to perform speech synthesis capable of performing segment selection at a high speed and a constant speed and improving the quality of synthesized speech even when a large-scale speech corpus is used. Is to provide a device.

本発明に係る素片接続型音声合成装置は、音声素片データベースと、音声素片データベース中の音声素片を、音素ごとに、かつ所定の特徴量の値をキーとしてソートして保持するテーブルとを用いて、音声素片データベース中の音声素片を接続する素片接続型音声合成装置であって、合成音声の目標となる音素ラベルのシーケンスと、各音素ラベルに付随する目標特徴量とを定める合成器指令の入力を受け、合成器指令の音素ラベルにより指定される音素に対応するテーブルを選択するテーブル選択手段と、テーブル選択手段により選択されたテーブルの中で、合成器指令の目標特徴量により特定される所定の特徴量の値を有する音声素片を含む、予め定める基準により定められる範囲に位置する音声素片を予備選択するための予備選択手段と、予備選択手段により予備選択された音声素片の中から、所定の基準に基づいて音声素片を選択するための選択手段と、選択手段により選択された音声素片を合成器指令に従って接続し合成音声波形を出力するための接続手段とを含む。   The unit-connected speech synthesizer according to the present invention includes a speech unit database and a table that stores speech units in the speech unit database sorted for each phoneme and using a predetermined feature value as a key. Is a unit-connected speech synthesizer that connects speech units in a speech unit database, and includes a sequence of phoneme labels that are targets of synthesized speech, and a target feature amount associated with each phoneme label, and A table selection means for selecting a table corresponding to the phoneme specified by the phoneme label of the synthesizer command, and a target of the synthesizer command among the tables selected by the table selection means Preliminary selection means for preliminarily selecting a speech element located in a range defined by a predetermined criterion, including a speech element having a predetermined feature value specified by the feature value A selection unit for selecting a speech unit based on a predetermined criterion from speech units preliminarily selected by the preliminary selection unit, and a speech unit selected by the selection unit is connected in accordance with a synthesizer command. Connecting means for outputting a synthesized speech waveform.

好ましくは、所定の特徴量は音素長であり、予備選択手段は、テーブル選択手段により選択されたテーブルの中で、合成器指令により指定される音素長を含む、予め定める基準により特定される範囲に位置する音声素片を選択するための手段を含む。   Preferably, the predetermined feature amount is a phoneme length, and the preliminary selection unit includes a range specified by a predetermined criterion including the phoneme length specified by the synthesizer command in the table selected by the table selection unit. Means for selecting a speech unit located at.

好ましくは、テーブルには、予め予備選択されるべき音声素片の許容数を特定する許容数情報が付されており、選択するための手段は、テーブル選択手段により選択されたテーブルの中で、合成器指令により指定される音素長を有する音声素片を中心とする、許容数で指定される数の音声素片を選択するための手段を含む。   Preferably, the table is provided with permissible number information for specifying the permissible number of speech segments to be preliminarily selected, and the means for selecting is the table selected by the table selecting means, Means for selecting a number of speech units specified by an allowable number centered on a speech unit having a phoneme length specified by the synthesizer command;

所定の特徴量は量子化された基本周波数(F0)であってもよく、予備選択手段は、テーブル選択手段により選択されたテーブルの中で、合成器指令により指定される基本周波数を含む、予め定める基準により特定される範囲に位置する音声素片を選択するための手段を含んでもよい。   The predetermined feature amount may be a quantized fundamental frequency (F0), and the preliminary selection means includes a fundamental frequency specified by a synthesizer command in a table selected by the table selection means. Means may be included for selecting speech segments located in a range specified by the defined criteria.

テーブルには、予め予備選択されるべき音声素片の許容数を特定する許容数情報が付されており、選択するための手段は、テーブル選択手段により選択されたテーブルの中で、合成器指令により指定される基本周波数を有する音声素片を中心とする、許容数で指定される数の音声素片を選択するための手段を含んでもよい。   The table is preliminarily provided with permissible number information for specifying the permissible number of speech segments to be preselected, and the means for selecting is a synthesizer command in the table selected by the table selecting means. There may be included means for selecting a number of speech units specified by an allowable number centered on a speech unit having a fundamental frequency specified by.

好ましくは、予備選択手段は、テーブル選択手段により選択されたテーブルの中で、合成器指令の目標特徴量により特定される所定の特徴量の値を有する音声素片を、所定の探索アルゴリズムにより探索するための探索手段と、テーブル選択手段により選択されたテーブルの中で、探索手段により探索された音声素片を中心とする、予め定められる範囲に位置する音声素片を選択するための手段とを含む。   Preferably, the preliminary selection means searches for a speech segment having a predetermined feature value specified by the target feature value of the synthesizer command in a table selected by the table selection means by a predetermined search algorithm. And a means for selecting a speech unit located in a predetermined range centered on the speech unit searched for by the search means in the table selected by the table selection means. including.

好ましくは、探索手段は、テーブル選択手段により選択されたテーブルの中で、合成器指令の目標特徴量により特定される所定の特徴量の値を有する音声素片を、2分木探索アルゴリズムにより探索するための2分木探索手段を含む。   Preferably, the search means searches for a speech element having a predetermined feature value specified by the target feature value of the synthesizer command in the table selected by the table selection means, using a binary tree search algorithm. Binary tree search means for doing this.

好ましくは、選択手段は、予備選択手段により予備選択された音声素片候補の中から、当該音声素片の特徴量と、目標特徴量とに基づいて予め定めるコスト計算により算出されるコストが所定の条件を充足する音声素片を選択するための手段を含む。   Preferably, the selection unit has a predetermined cost calculated from a speech unit candidate preliminarily selected by the preliminary selection unit based on a feature amount of the speech unit and a target feature amount. Means for selecting a speech segment that satisfies the above condition.

[第1の実施の形態]
−構成−
図1に、本発明の第1の実施の形態に係る音声合成システム20のブロック図を示す。図1を参照して、この音声合成システム20は、従来と同様の音声素片データベース(DB)30と、音声素片DB30に含まれる各音声素片を音素ごとに分類し、かつ各音素の音素長等、素片選択に必要な情報を抽出してソートした音素別音素長テーブル34を生成するための音素長テーブル作成部32と、合成目標となるテキストを分析した結果得られる合成器指令36を入力として受け、音素別音素長テーブル34を利用して音声素片DB30からほぼ一定量の音声素片を予備選択し、予備選択された素片候補の中から適切な音声素片を接続して合成音声波形40を出力するための音声合成装置38とを含む。
[First Embodiment]
−Configuration−
FIG. 1 shows a block diagram of a speech synthesis system 20 according to the first embodiment of the present invention. Referring to FIG. 1, this speech synthesis system 20 classifies speech unit database (DB) 30 similar to the prior art and speech units included in speech unit DB 30 for each phoneme. A phoneme length table creation unit 32 for generating a phoneme length table 34 for each phoneme extracted by extracting information necessary for selecting a segment such as phoneme length, and a synthesizer command obtained as a result of analyzing a text as a synthesis target 36 as an input, the phoneme-specific phoneme length table 34 is used to preselect a substantially constant amount of speech units from the speech unit DB 30, and appropriate speech units are connected from the preselected segment candidates. And a speech synthesizer 38 for outputting a synthesized speech waveform 40.

図2に、音素長テーブル作成部32の構成をブロック図形式で示す。図2を参照して、音素長テーブル作成部32は、音声素片DB30から、音声素片DB30内の各素片の音素ラベル、アドレス、音素長、及びその他のコスト計算に必要な情報を抽出し、音素別音素長テーブル82を作成するための音素長抽出部80と、音素別音素長テーブル82を各テーブルごとに音素長の昇順でソートすることにより、ソート済みの音素別音素長テーブル34を作成するためのソート処理部84と、音素別音素長テーブル34ごとに、音素長の分布を調べ、素片候補を予備選択する場合の音素長の許容幅を算出するための許容素片候補数算出部86とを含む。許容素片候補数算出部86の機能については図4を参照して後述する。   FIG. 2 shows the configuration of the phoneme length table creation unit 32 in the form of a block diagram. Referring to FIG. 2, the phoneme length table creation unit 32 extracts the phoneme label, address, phoneme length, and other information necessary for cost calculation of each unit in the speech unit DB 30 from the speech unit DB 30. Then, the phoneme length extraction unit 80 for creating the phoneme length table 82 for each phoneme and the phoneme length table 82 for each phoneme are sorted in ascending order of the phoneme length for each table, so that the sorted phoneme length table 34 sorted. For each phoneme length table 34 for each of the sort processing unit 84 and the phoneme-specific phoneme length table 34, the allowable segment candidate for calculating the allowable range of the phoneme length when the segment candidate is preliminarily selected A number calculator 86. The function of the allowable segment candidate number calculation unit 86 will be described later with reference to FIG.

再び図1を参照して、音声合成装置38は、合成器指令36を受け、合成器指令36により指定された音素に対応する素片であって、かつ合成器指令36により指定された音素長を中心とした所定の幅の音素長を持つ音素を音素別音素長テーブル34から予備選択し素片候補テーブル62を作成するための予備選択部60と、合成器指令36を受け、素片候補テーブル62に含まれる素片候補の中から、コストの最も小さな素片を選択するための素片選択部64と、素片選択部64により選択された音声素片に対応する音声素片データを音声素片DB30から読出し、互いに接続して合成音声波形40を出力するための接続部66とを含む。   Referring to FIG. 1 again, the speech synthesizer 38 receives the synthesizer command 36, is a segment corresponding to the phoneme specified by the synthesizer command 36, and has the phoneme length specified by the synthesizer command 36. A phoneme having a phoneme length of a predetermined width centered on the phoneme is preliminarily selected from the phoneme-specific phoneme length table 34, and receives a synthesizer command 36 and a synthesizer command 36 to receive a segment candidate. A unit selection unit 64 for selecting the unit with the lowest cost from the unit candidates included in the table 62, and speech unit data corresponding to the speech unit selected by the unit selection unit 64 A connection unit 66 for reading out from the speech unit DB 30 and connecting to each other to output the synthesized speech waveform 40 is included.

図3を参照して、予備選択部60は、合成器指令36を受け、合成器指令36により指定された音素に対応する音素長テーブル110を音素別音素長テーブル34のうちから選択するためのテーブル選択部100を含む。音素長テーブル110には、許容素片候補数算出部86により算出された許容素片候補数112が付属している。   Referring to FIG. 3, preliminary selection unit 60 receives synthesizer command 36 and selects phoneme length table 110 corresponding to the phoneme specified by synthesizer command 36 from phoneme-specific phoneme length table 34. A table selection unit 100 is included. The phoneme length table 110 is attached with the allowable segment candidate count 112 calculated by the allowable segment candidate count calculator 86.

予備選択部60はさらに、合成器指令36により与えられた音素長と一致する音素長の素片候補を、音素長テーブル110に対する2分木探索により探索するための2分木探索部102と、音素長テーブル110の中で、2分木探索部102により探索された素片候補を中心とする、許容素片候補数112により指定された素片数の素片候補を選択し、素片候補テーブル62を作成するための素片候補選択部104とを含む。   The preliminary selection unit 60 further includes a binary tree search unit 102 for searching for a phoneme length candidate corresponding to the phoneme length given by the synthesizer command 36 by a binary tree search for the phoneme length table 110; In the phoneme length table 110, select a segment candidate with the number of segments specified by the allowable segment candidate number 112 centered on the segment candidate searched by the binary tree search unit 102, and select a segment candidate And a segment candidate selection unit 104 for creating the table 62.

素片候補選択部104が素片候補を選択する際の許容素片候補数は、特に厳密な基準を用いて算出する必要はなく、素片候補数をある程度の数に絞ることができるものであればどのようなものでもよい。素片長の分布が正規分布にしたがうと考えられれば、その標準偏差σを算出し、aσ(aは予め定められた数)に入る素片数を用いればよい。   The number of allowable element candidates when the element candidate selection unit 104 selects an element candidate need not be calculated using a particularly strict criterion, and the number of element candidates can be reduced to a certain number. Anything is acceptable. If it is considered that the segment length distribution follows a normal distribution, the standard deviation σ is calculated, and the number of segments that fall within aσ (a is a predetermined number) may be used.

実際には、素片長の分布が多峰型を示すことも多い。そうした場合、本実施の形態に係る許容素片候補数算出部86(図2参照)は、図4に示す基準によりこの幅を算出するものとする。   In practice, the segment length distribution is often multimodal. In such a case, the allowable segment candidate number calculation unit 86 (see FIG. 2) according to the present embodiment calculates this width based on the criteria shown in FIG.

図4を参照して、たとえば分布が2峰型の場合には、谷の頂点Aの部分でこの分布曲線に接し、x軸に平行な線を引く。この線が分布曲線と交わる点をそれぞれB,Cとする。BA=w1、AC=w2とする。本実施の形態では、w=α(w1+w2)/2(αは予め定められた数。好ましくは0<α≦1)で求められるwを、許容音素長幅とする。分布曲線が多峰型の場合にも、これと同様な考え方を拡張すればよい。もちろん、これ以外にも様々な方法で許容音素長幅を定めることができる。 Referring to FIG. 4, for example, when the distribution is bimodal, a line parallel to the x axis is drawn in contact with the distribution curve at the apex A of the valley. The points where this line intersects the distribution curve are denoted by B and C, respectively. BA = w 1 and AC = w 2 . In the present embodiment, w obtained by w = α (w 1 + w 2 ) / 2 (α is a predetermined number, preferably 0 <α ≦ 1) is set as an allowable phoneme length width. Even when the distribution curve is multimodal, the same idea may be extended. Of course, the allowable phoneme length width can be determined by various methods other than this.

本実施の形態に係る素片選択部64によるコスト計算では、コストCは以下のようにしてサブコストから計算される。 In the cost calculation by the segment selection unit 64 according to the present embodiment, the cost C 0 is calculated from the sub cost as follows.

Figure 0004424023
ただし、Ci1(i1=1〜N1)はターゲットサブコスト、Ci2(i2=1〜N)は接続コスト、wi1(i1=1〜N1)はターゲットサブコスト間に定義された重み、wi2(i2=1〜N)は接続サブコスト間に定義された重み、p及びpはそれぞれ、ターゲットコストと接続コスト間に定義された重みである。
Figure 0004424023
Where C i1 (i1 = 1 to N 1 ) is defined between the target subcosts, C i2 (i2 = 1 to N 2 ) is defined as the connection cost, and w i1 (i1 = 1 to N 1 ) is defined between the target subcosts. A weight, w i2 (i2 = 1 to N 2 ) is a weight defined between connection sub-costs, and p 1 and p 2 are weights defined between a target cost and a connection cost, respectively.

−動作−
この音声合成システム20は以下のように動作する。この音声合成システム20の動作には大きく分けて二つのフェーズがある。第1のフェーズは音素別音素長テーブル34の構築である。第2のフェーズは音声合成装置38による音声合成である。
-Operation-
The speech synthesis system 20 operates as follows. The operation of the speech synthesis system 20 is roughly divided into two phases. The first phase is the construction of the phoneme-specific phoneme length table 34. The second phase is speech synthesis by the speech synthesizer 38.

第1のフェーズでは以下のような処理が行なわれる。この処理に先立ち、音声素片DB30が音声コーパスから作成済みであるものとする。音素長テーブル作成部32の音素長抽出部80(図2参照)は、音声素片DB30に含まれる音声素片データの各々から、上記したように音素ラベル、アドレス、音素長、及びその他のコスト計算に必要な情報を抽出し、音素別音素長テーブル82を作成する。音素別音素長テーブル82の各テーブルに含まれる素片データはソートされていない。   In the first phase, the following processing is performed. Prior to this processing, it is assumed that the speech segment DB 30 has been created from the speech corpus. The phoneme length extraction unit 80 (see FIG. 2) of the phoneme length table creation unit 32 obtains the phoneme label, address, phoneme length, and other costs from each of the speech unit data included in the speech unit DB 30 as described above. Information necessary for the calculation is extracted and a phoneme-specific phoneme length table 82 is created. The segment data included in each table of the phoneme-specific phoneme length table 82 is not sorted.

ソート処理部84は、各音素別音素長テーブル82を、音素長で昇順にソートする。その結果、音素長によってソート済みの音素別音素長テーブル34が作成される。許容素片候補数算出部86は、この音素別音素長テーブル34の各々に含まれる音声素片の音素長の分布に基づき、許容素片候補数112(図3参照)を算出し、音素別音素長テーブル34の各々に付す。   The sort processing unit 84 sorts each phoneme-specific phoneme length table 82 in ascending order by phoneme length. As a result, the phoneme length table 34 sorted by phoneme is created. The allowable element candidate number calculation unit 86 calculates the allowable element candidate number 112 (see FIG. 3) based on the distribution of the phoneme lengths of the speech elements included in each of the phoneme length table 34. Attached to each phoneme length table 34.

以上の処理が終了すると、音声合成装置38による音声合成が可能となる。音声合成に先立ち、音声合成装置38(コンピュータにより構成される。)は音素別音素長テーブル34をメモリ上に配列として格納し、予備選択を高速に行なうことができるようにしておく。   When the above processing is completed, speech synthesis by the speech synthesizer 38 becomes possible. Prior to speech synthesis, the speech synthesizer 38 (configured by a computer) stores the phoneme-specific phoneme length table 34 as an array on the memory so that preliminary selection can be performed at high speed.

音声合成時、合成対象のテキスト分析により合成器指令36が得られると、この合成器指令36は予備選択部60のテーブル選択部100に与えられる(図3参照)。テーブル選択部100は、合成器指令36に基づいて、合成器指令36により指定された音素に対応する音素長テーブル110を音素別音素長テーブル34の中から選択する。   At the time of speech synthesis, if a synthesizer command 36 is obtained by analyzing the text to be synthesized, this synthesizer command 36 is given to the table selection unit 100 of the preliminary selection unit 60 (see FIG. 3). Based on the synthesizer command 36, the table selection unit 100 selects the phoneme length table 110 corresponding to the phoneme specified by the synthesizer command 36 from the phoneme-specific phoneme length table 34.

2分木探索部102は、合成器指令36により与えられた音素長と一致する音素長の音声素片を、音素長テーブル110に対する2分木により探索し、探索された音声素片の音素別音素長テーブル34中でのアドレス(配列のインデックス)を素片候補選択部104に与える。素片候補選択部104は、与えられたインデックスで示される音声素片を中心とし、許容素片候補数112により指定される範囲(中心の前後の所定個数)の音声素片のインデックスを算出し、それら素片データを全て読出して素片候補テーブル62に格納する。   The binary tree search unit 102 searches the phoneme length table 110 for a phoneme unit having a phoneme length that matches the phoneme length given by the synthesizer command 36, and determines the phoneme classification of the searched phoneme unit. An address (array index) in the phoneme length table 34 is given to the segment candidate selection unit 104. The segment candidate selection unit 104 calculates the index of speech units in a range (predetermined number before and after the center) specified by the allowable segment candidate number 112 with the speech unit indicated by the given index as the center. All the segment data are read out and stored in the segment candidate table 62.

図1を参照して、素片選択部64は、合成器指令36を受け、素片候補テーブル62に含まれる音声素片のうち、式(1)により算出されるコストが最も小さなものを選択して接続部66に与える。接続部66は、素片選択部64から与えられた音声素片に対応する音声波形データを音声素片DB30から読出し、音声が滑らかになるように変形して接続し合成音声波形40として出力する。   Referring to FIG. 1, unit selection unit 64 receives synthesizer command 36 and selects the speech unit included in unit candidate table 62 that has the lowest cost calculated by equation (1). To the connection portion 66. The connection unit 66 reads out the speech waveform data corresponding to the speech unit given from the unit selection unit 64 from the speech unit DB 30, transforms the speech so that the speech is smooth, connects it, and outputs it as a synthesized speech waveform 40. .

予備選択部60により、許容素片候補数112により定まる数の素片候補を予め選択して素片候補テーブル62に格納し、その中から音声素片を選択するため、素片選択部64が素片選択を行なう際のコスト計算の計算量は少なく、一定量以下で済む。2分木探索部102による2分木探索は高速に行なえることが知られており、また素片候補選択部104による素片候補抽出のためのアドレス計算の計算量も少なくて済む。そのため、音声合成装置38による素片選択のための計算量は全体としても少なくて済む。   The number of segment candidates determined by the allowable segment candidate number 112 is selected in advance by the preliminary selection unit 60 and stored in the segment candidate table 62, and a segment selection unit 64 selects a speech segment from the segment candidates. The amount of cost calculation for selecting a segment is small and less than a certain amount. It is known that the binary tree search by the binary tree search unit 102 can be performed at high speed, and the calculation amount of the address calculation for the segment candidate extraction by the segment candidate selection unit 104 is small. For this reason, the calculation amount for selecting a segment by the speech synthesizer 38 is small as a whole.

また、素片候補テーブル62は、合成器指令36により指定される音素に対応する音素別音素長テーブル34から、指定された音素長の素片候補を中心とする所定数の素片候補からなるので、ターゲットコストの小さな音声素片を多数含む。そのため、それらの中からコスト最小の音声素片を選択して接続した場合、接続時の変形による品質低下は無視できるほど小さくなる。その結果、最終的に得られる合成音声波形40には、音声素片の接続による品質低下はわずかしか見られない。   The element candidate table 62 is made up of a predetermined number of element candidates centered on the element candidate of the specified phoneme length from the phoneme-specific phoneme length table 34 corresponding to the phoneme specified by the synthesizer command 36. Therefore, it contains many speech segments with a small target cost. Therefore, when the speech unit having the lowest cost is selected and connected from among them, the quality deterioration due to the deformation at the time of connection becomes so small that it can be ignored. As a result, the synthesized speech waveform 40 finally obtained shows only a slight deterioration in quality due to the connection of speech units.

なお、この実施の形態では、予備選択部60により音素別音素長テーブル34から音素長を基準として所定数の素片を予備的に選択する。しかし本発明はそのような実施の形態には限定されない。たとえば、音素長以外の特徴量、たとえば基本周波数などを基準に音素長テーブルをソートし、予備選択に用いるようにしてもよい。   In this embodiment, the preliminary selection unit 60 preliminarily selects a predetermined number of segments from the phoneme-specific phoneme length table 34 based on the phoneme length. However, the present invention is not limited to such an embodiment. For example, the phoneme length table may be sorted on the basis of feature quantities other than phoneme length, such as the fundamental frequency, and used for preliminary selection.

上記した本発明の実施の形態のシステムでは、予備選択の際に、許容素片候補数を用いて素片候補の数を制限した。しかし本発明はそのような実施の形態には限定されない。たとえば、音素長を基準とするのであれば、探索された素片を中心として所定の音素長幅を有する素片候補を抽出するようにしてもよい。また、上記のように抽出した素片候補に対し、ターゲットコストのみを利用した第2の予備選択を行なうようにしてもよい。   In the system according to the embodiment of the present invention described above, the number of segment candidates is limited using the allowable number of segment candidates at the time of preliminary selection. However, the present invention is not limited to such an embodiment. For example, if the phoneme length is used as a reference, a segment candidate having a predetermined phoneme length width around the searched segment may be extracted. Alternatively, the second preliminary selection using only the target cost may be performed on the segment candidates extracted as described above.

また、上記した実施の形態では、音素長を昇順でソートすることにより音素別音素長テーブル34を作成したが、ソートを降順で行なっても同様の効果が得られることは明らかである。さらに、上記した実施の形態のシステムでは、音素別音素長テーブル34に音素長のみならず他の特徴量も格納することにより、音素選択に音素別音素長テーブル34を用いたが、音素別音素長テーブル34には音素長、音素ラベル、及び音声素片DB30中の当該素片のアドレスのみを格納し、音素別音素長テーブル34を素片の予備選択のみに用いるようにしてもよい。   In the above-described embodiment, the phoneme-specific phoneme length table 34 is created by sorting the phoneme lengths in ascending order. However, it is obvious that the same effect can be obtained even if the sort is performed in descending order. Furthermore, in the system of the above-described embodiment, the phoneme-specific phoneme length table 34 is used for phoneme selection by storing not only the phoneme length in the phoneme-specific phoneme length table 34 but also other feature quantities. Only the phoneme length, the phoneme label, and the address of the unit in the speech unit DB 30 may be stored in the length table 34, and the phoneme-specific phoneme length table 34 may be used only for preliminary selection of the unit.

さらに、上記した実施の形態のシステムでは、予備選択する素片候補の数を、音素別音素長テーブル内の音素長の分布により算出した。しかし本発明はそのような実施の形態には限定されない。たとえば、音素ごとに固定した数を予め定めておき、それを用いてもよい。   Furthermore, in the system of the above-described embodiment, the number of segment candidates to be preliminarily selected is calculated based on the phoneme length distribution in the phoneme-specific phoneme length table. However, the present invention is not limited to such an embodiment. For example, a fixed number for each phoneme may be determined in advance and used.

さらに、上記した実施の形態では、音素長を基準として素片候補をソートし、候補数を制限した。しかし、制限に使用される基準は音素長には限らない。例えば、量子化した基本周波数(F0)を用いてもよい。この場合、合成器指令36で指定された基本周波数と一致する素片候補を2分木探索により探索し、探索された素片候補を含み、その素片候補のF0を中心とした許容される範囲の基本周波数の素片候補、又は所定個数の素片候補を抽出すればよい。   Furthermore, in the above-described embodiment, the segment candidates are sorted based on the phoneme length, and the number of candidates is limited. However, the criteria used for restriction are not limited to phoneme length. For example, a quantized fundamental frequency (F0) may be used. In this case, a segment candidate that matches the fundamental frequency specified by the synthesizer command 36 is searched by a binary tree search, includes the searched segment candidate, and is allowed centering on F0 of the segment candidate. What is necessary is just to extract the segment candidate of the fundamental frequency of a range, or a predetermined number of segment candidates.

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。   The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.

本発明の一実施の形態に係る音声合成システム20のブロック図である。1 is a block diagram of a speech synthesis system 20 according to an embodiment of the present invention. 図1に示す音素長テーブル作成部32のブロック図である。It is a block diagram of the phoneme length table preparation part 32 shown in FIG. 図1に示す予備選択部60のブロック図である。FIG. 2 is a block diagram of a preliminary selection unit 60 shown in FIG. 1. 許容素片候補数の算出方法を説明するための図である。It is a figure for demonstrating the calculation method of the number of permissible segment candidates.

符号の説明Explanation of symbols

20 音声合成システム、30 音声素片DB、32 音素長テーブル作成部、34 音素別音素長テーブル、36 合成器指令、38 音声合成装置、60 予備選択部、62 素片候補テーブル、80 音素長抽出部、82 音素別音素長テーブル(未ソート)、84 ソート処理部、86 許容素片候補数算出部、110 音素長テーブル、112 許容素片候補数   20 speech synthesis system, 30 speech segment DB, 32 phoneme length table creation unit, 34 phoneme length table, 36 synthesizer command, 38 speech synthesizer, 60 preliminary selection unit, 62 segment candidate table, 80 phoneme length extraction , 82 Phoneme-specific phoneme length table (unsorted), 84 Sort processing unit, 86 Allowable segment candidate number calculation unit, 110 Phoneme length table, 112 Allowable segment candidate number

Claims (8)

音声素片データベースと、前記音声素片データベース中の音声素片を、音素ごとに、かつ所定の特徴量の値をキーとしてソートして保持するテーブルとを用いて、前記音声素片データベース中の音声素片を接続する素片接続型音声合成装置であって、
合成音声の目標となる音素ラベルのシーケンスと、各音素ラベルに付随する目標特徴量とを定める合成器指令の入力を受け、前記合成器指令の音素ラベルにより指定される音素に対応する前記テーブルを選択するテーブル選択手段と、
前記テーブル選択手段により選択されたテーブルの中で、前記合成器指令の前記目標特徴量により特定される前記所定の特徴量の値を有する音声素片を含む、予め定める基準により定められる範囲に位置する音声素片を予備選択するための予備選択手段と、
前記予備選択手段により予備選択された音声素片の中から、所定の基準に基づいて音声素片を選択するための選択手段と、
前記選択手段により選択された音声素片を前記合成器指令に従って接続し合成音声波形を出力するための接続手段とを含む、素片接続型音声合成装置。
Using a speech unit database and a table that stores speech units in the speech unit database sorted by phoneme and using predetermined feature values as keys, A unit connection type speech synthesizer for connecting speech units,
The table corresponding to the phoneme specified by the phoneme label of the synthesizer command is received by receiving an input of a synthesizer command defining a sequence of phoneme labels to be a target of synthesized speech and a target feature amount associated with each phoneme label. A table selection means to select;
Within the table selected by the table selection means, the position is within a range determined by a predetermined standard including the speech segment having the predetermined feature value specified by the target feature value of the synthesizer command Pre-selection means for pre-selecting speech segments to be performed;
A selection unit for selecting a speech unit based on a predetermined criterion from the speech units preliminarily selected by the preliminary selection unit;
A unit connection type speech synthesizer comprising: a connection unit configured to connect the speech units selected by the selection unit according to the synthesizer command and output a synthesized speech waveform.
前記所定の特徴量は音素長であり、
前記予備選択手段は、前記テーブル選択手段により選択されたテーブルの中で、前記合成器指令により指定される音素長を含む、予め定める基準により特定される範囲に位置する音声素片を選択するための手段を含む、請求項1に記載の素片接続型音声合成装置。
The predetermined feature amount is a phoneme length,
The preliminary selection means is for selecting a speech segment located in a range specified by a predetermined criterion, including the phoneme length specified by the synthesizer command, in the table selected by the table selection means. The unit connection type speech synthesizer according to claim 1, comprising:
前記テーブルには、予め予備選択されるべき音声素片の許容数を特定する許容数情報が付されており、
前記選択するための手段は、前記テーブル選択手段により選択されたテーブルの中で、前記合成器指令により指定される音素長を有する音声素片を中心とする、前記許容数で指定される数の音声素片を選択するための手段を含む、請求項2に記載の素片接続型音声合成装置。
The table is provided with permissible number information for specifying the permissible number of speech segments to be pre-selected in advance,
In the table selected by the table selection means, the means for selecting is a number specified by the allowable number, centered on a speech unit having a phoneme length specified by the synthesizer command. The unit connection type speech synthesizer according to claim 2, comprising means for selecting a speech unit.
前記所定の特徴量は量子化された基本周波数(F0)であり、
前記予備選択手段は、前記テーブル選択手段により選択されたテーブルの中で、前記合成器指令により指定される基本周波数を含む、予め定める基準により特定される範囲に位置する音声素片を選択するための手段を含む、請求項1に記載の素片接続型音声合成装置。
The predetermined feature amount is a quantized fundamental frequency (F0),
The preliminary selection means is for selecting a speech unit located in a range specified by a predetermined criterion, including a fundamental frequency specified by the synthesizer command, in the table selected by the table selection means. The unit connection type speech synthesizer according to claim 1, comprising:
前記テーブルには、予め予備選択されるべき音声素片の許容数を特定する許容数情報が付されており、
前記選択するための手段は、前記テーブル選択手段により選択されたテーブルの中で、前記合成器指令により指定される基本周波数を有する音声素片を中心とする、前記許容数で指定される数の音声素片を選択するための手段を含む、請求項4に記載の素片接続型音声合成装置。
The table is provided with permissible number information for specifying the permissible number of speech segments to be pre-selected in advance,
In the table selected by the table selecting means, the means for selecting is a number specified by the allowable number centered on a speech unit having a fundamental frequency specified by the synthesizer command. 5. The unit connection type speech synthesizer according to claim 4, further comprising means for selecting a speech unit.
前記予備選択手段は、
前記テーブル選択手段により選択されたテーブルの中で、前記合成器指令の前記目標特徴量により特定される前記所定の特徴量の値を有する音声素片を、所定の探索アルゴリズムにより探索するための探索手段と、
前記テーブル選択手段により選択されたテーブルの中で、前記探索手段により探索された音声素片を中心とする、予め定められる範囲に位置する音声素片を選択するための手段とを含む、請求項1〜請求項5のいずれかに記載の素片接続型音声合成装置。
The preliminary selection means includes
A search for searching for a speech unit having a value of the predetermined feature amount specified by the target feature amount of the synthesizer command in a table selected by the table selection means by a predetermined search algorithm Means,
And means for selecting a speech element located in a predetermined range centered on the speech element searched by the search means from the table selected by the table selection means. The unit connection type speech synthesizer according to any one of claims 1 to 5.
前記探索手段は、前記テーブル選択手段により選択されたテーブルの中で、前記合成器指令の前記目標特徴量により特定される前記所定の特徴量の値を有する音声素片を、2分木探索アルゴリズムにより探索するための2分木探索手段を含む、請求項6に記載の素片接続型音声合成装置。 The search means is a binary tree search algorithm for a speech element having a value of the predetermined feature value specified by the target feature value of the synthesizer command in the table selected by the table selection means. The unit-connected speech synthesizer according to claim 6, further comprising: a binary tree search means for searching by the above. 前記選択手段は、前記予備選択手段により予備選択された音声素片候補の中から、当該音声素片の特徴量と、前記目標特徴量とに基づいて予め定めるコスト計算により算出されるコストが所定の条件を充足する音声素片を選択するための手段を含む、請求項1〜請求項7のいずれかに記載の素片接続型音声合成装置。 The selection means has a predetermined cost calculated from a speech element candidate preliminarily selected by the preliminary selection means based on a feature value of the speech element and a target feature value. The unit connection type speech synthesizer according to any one of claims 1 to 7, further comprising means for selecting a speech unit that satisfies the above condition.
JP2004073724A 2004-03-16 2004-03-16 Segment-connected speech synthesizer Expired - Lifetime JP4424023B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004073724A JP4424023B2 (en) 2004-03-16 2004-03-16 Segment-connected speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004073724A JP4424023B2 (en) 2004-03-16 2004-03-16 Segment-connected speech synthesizer

Publications (2)

Publication Number Publication Date
JP2005265874A JP2005265874A (en) 2005-09-29
JP4424023B2 true JP4424023B2 (en) 2010-03-03

Family

ID=35090543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004073724A Expired - Lifetime JP4424023B2 (en) 2004-03-16 2004-03-16 Segment-connected speech synthesizer

Country Status (1)

Country Link
JP (1) JP4424023B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108172211A (en) * 2017-12-28 2018-06-15 云知声(上海)智能科技有限公司 Adjustable waveform concatenation system and method

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4882569B2 (en) * 2006-07-19 2012-02-22 Kddi株式会社 Speech synthesis apparatus, method and program
WO2008139919A1 (en) * 2007-05-08 2008-11-20 Nec Corporation Speech synthesizer, speech synthesizing method, and speech synthesizing program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108172211A (en) * 2017-12-28 2018-06-15 云知声(上海)智能科技有限公司 Adjustable waveform concatenation system and method
CN108172211B (en) * 2017-12-28 2021-02-12 云知声(上海)智能科技有限公司 Adjustable waveform splicing system and method

Also Published As

Publication number Publication date
JP2005265874A (en) 2005-09-29

Similar Documents

Publication Publication Date Title
CN108305634B (en) Decoding method, decoder and storage medium
CN108711422B (en) Speech recognition method, speech recognition device, computer-readable storage medium and computer equipment
US6751595B2 (en) Multi-stage large vocabulary speech recognition system and method
US8249870B2 (en) Semi-automatic speech transcription
US8620662B2 (en) Context-aware unit selection
EP0527650B1 (en) Speech recognition apparatus
US7742918B1 (en) Active learning for spoken language understanding
US20050021330A1 (en) Speech recognition apparatus capable of improving recognition rate regardless of average duration of phonemes
US20110131038A1 (en) Exception dictionary creating unit, exception dictionary creating method, and program therefor, as well as speech recognition unit and speech recognition method
KR100748720B1 (en) Large-vocabulary speech recognition method and apparatus based on multi-layer central lexicons
EP0109190A1 (en) Monosyllable recognition apparatus
CN105654940B (en) Speech synthesis method and device
JP2002507010A (en) Apparatus and method for simultaneous multi-mode dictation
KR980011007A (en) Speech recognition method, information formation method, speech recognition apparatus and recording medium
US6016470A (en) Rejection grammar using selected phonemes for speech recognition system
JP3061114B2 (en) Voice recognition device
Hendy et al. Emotion recognition using neural network: A comparative study
US20040172249A1 (en) Speech synthesis
CN112037764A (en) Music structure determination method, device, equipment and medium
JP5897718B2 (en) Voice search device, computer-readable storage medium, and voice search method
JP4424023B2 (en) Segment-connected speech synthesizer
KR20050032759A (en) Automatic expansion method and device for foreign language transliteration
US6631349B1 (en) Speech recognition method and system
JP4292191B2 (en) Segment-connected speech synthesizer and computer program
JPH1097286A (en) Word and compound word classifying processing method, compound word extracting method, word and compound word classifying processor, speech recognition system, machine translating device, compound word extracting device, and word and compound word storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091110

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091130

R150 Certificate of patent or registration of utility model

Ref document number: 4424023

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131218

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250