JP4533255B2 - Speech synthesis apparatus, speech synthesis method, speech synthesis program, and recording medium therefor - Google Patents

Speech synthesis apparatus, speech synthesis method, speech synthesis program, and recording medium therefor Download PDF

Info

Publication number
JP4533255B2
JP4533255B2 JP2005186454A JP2005186454A JP4533255B2 JP 4533255 B2 JP4533255 B2 JP 4533255B2 JP 2005186454 A JP2005186454 A JP 2005186454A JP 2005186454 A JP2005186454 A JP 2005186454A JP 4533255 B2 JP4533255 B2 JP 4533255B2
Authority
JP
Japan
Prior art keywords
information
speech
pattern
voice
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005186454A
Other languages
Japanese (ja)
Other versions
JP2007004011A (en
Inventor
光昭 磯貝
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005186454A priority Critical patent/JP4533255B2/en
Publication of JP2007004011A publication Critical patent/JP2007004011A/en
Application granted granted Critical
Publication of JP4533255B2 publication Critical patent/JP4533255B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a waveform-connecting voice synthesizier/method that can obtain synthesized voices having natural intonations. <P>SOLUTION: This synthesizier stores a voice waveform database and the voice information database, consisting of the entry of voice F<SB>0</SB>pattern detail information and the rhythm information containing the voice F<SB>0</SB>pattern general information in a memory, creates the rhythm information A containing F<SB>0</SB>pattern information from the phoneme sequence obtained by analyzing the inputted text; then calculates the distance scale following the phoneme sequence between the rhythm information A and the rhythm information B of the entry in the voice information database (including the calculation of the cost of the F0 pattern information in the rhythm information A and the F0 pattern general information in the rhythm information B.); chooses the entry having the rhythm information making the calculation result minimum from the voice information database; reads the voice waveform data from the voice waveform database following this chosen entry; and finally synthesizes the voice by connecting them together. <P>COPYRIGHT: (C)2007,JPO&amp;INPIT

Description

本発明は、テキストを入力し、そのテキストに対応した音声を出力する音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体に関し、より詳しくは、音声波形データを選択して接続することで音声合成する波形接続型の音声合成技術に関する。   The present invention relates to a speech synthesizer, a speech synthesis method, a speech synthesis program, and a recording medium for inputting text and outputting speech corresponding to the text, and more specifically, by selecting and connecting speech waveform data. The present invention relates to a waveform connection type speech synthesis technology for speech synthesis.

近年の音声合成技術では、数十分から数十時間の大量の肉声データから音声波形データベースを構成し、入力されたテキストに応じて、適切な基準で音声波形データベースから適切な長さの音声波形を選択し、それらを接続して合成音声を作成する波形接続型音声合成方法が提案されている(特許文献1参照)。   In recent speech synthesis technology, a speech waveform database is constructed from a large amount of real voice data of several tens of minutes to several tens of hours, and a speech waveform of an appropriate length is generated from the speech waveform database on an appropriate basis according to the input text. A waveform-connected speech synthesis method has been proposed in which synthesized speech is created by selecting and connecting them (see Patent Document 1).

このような波形接続型音声合成方法における音声合成装置の構成例を図1に示す。
音声合成装置(1)は、ハードディスクなどの外部記憶装置(2)、テキスト解析部(10)、韻律生成部(11)、音声波形選択部(12)、音声合成部(13)から構成されている。
A configuration example of a speech synthesizer in such a waveform connection type speech synthesis method is shown in FIG.
The speech synthesizer (1) includes an external storage device (2) such as a hard disk, a text analysis unit (10), a prosody generation unit (11), a speech waveform selection unit (12), and a speech synthesis unit (13). Yes.

より詳細に叙述する。音声合成装置(1)は、テキストを入力とし、合成音声を出力する音声合成装置である。外部記憶装置(2)は、音声波形データベース(3)および音声情報データベース(4)を記憶している。音声波形データベース(3)は、単語や文章を読み上げた音声データに対して公知のA/D変換を行い、合成音声を組み立てる上で適切な合成単位(例えば音素)で切出したもの(音声波形素片としての音声波形データ)の集合であり、外部記憶装置(2)の記憶領域に格納される。   Describe in more detail. The speech synthesizer (1) is a speech synthesizer that receives text as input and outputs synthesized speech. The external storage device (2) stores a speech waveform database (3) and a speech information database (4). The speech waveform database (3) performs a well-known A / D conversion on speech data read out from a word or sentence, and is cut out by a suitable synthesis unit (for example, phoneme) when assembling synthesized speech (speech waveform element) Audio waveform data as a piece) and stored in the storage area of the external storage device (2).

音声情報データベース(4)は、例えば図2のように、合成音声を組み立てる上で適切な単位(合成単位)を音素として、これに諸情報が対応付けられたエントリーからなるデータ構造(テーブル)となっており、外部記憶装置(2)の記憶領域に格納される。図2に示す音声情報データベース(4)の各エントリーは、音声波形素片の通し番号である音声波形素片番号、発声内容を示す音素ラベル情報、音素の発声時間長を示す音素継続時間情報、音素区間の平均パワーを正規化して得たパワー情報、音素の音高の時間推移を表したFパターン情報、音声波形データベース(3)の中での音声波形データの位置を示す情報(以下、音声波形データ位置情報という。)から構成される。
音声情報データベース(4)のエントリーと音声波形データベース(3)における(音声波形素片としての)各音声波形データとは、音声情報データベース(4)における音声波形データ位置情報によって対応付けられる。
各エントリーのFパターン微細情報は、肉声の有するFパターンの微細変動をそのまま保持したFパターンを表している。
For example, as shown in FIG. 2, the speech information database (4) has a data structure (table) composed of entries in which a unit (synthesis unit) appropriate for assembling synthesized speech is set as a phoneme and various information is associated with the phoneme. And is stored in the storage area of the external storage device (2). Each entry of the speech information database (4) shown in FIG. 2 includes a speech waveform segment number that is a serial number of the speech waveform segment, phoneme label information that indicates the utterance content, phoneme duration information that indicates the speech duration of the phoneme, and phonemes. Power information obtained by normalizing the average power of the section, F 0 pattern information representing the time transition of the phoneme pitch, and information indicating the position of the speech waveform data in the speech waveform database (3) (hereinafter, speech Called waveform data position information).
An entry of the voice information database (4) and each voice waveform data (as a voice waveform segment) in the voice waveform database (3) are associated with each other by voice waveform data position information in the voice information database (4).
F 0 pattern fine information of each entry represents a F 0 pattern was kept fine variations in F 0 pattern having a real voice.

テキスト解析部(10)は、入力されたテキストを形態素解析し、入力されたテキストに対応した音素列とアクセント型を出力する。   The text analysis unit (10) performs morphological analysis on the input text and outputs a phoneme string and an accent type corresponding to the input text.

韻律生成部(11)は、テキスト解析部(10)が出力した情報を入力として、音素ごとの音声のFパターン(基本周波数パターン)、音素継続時間長(音素の発声の長さ)、パワー情報(音声の大きさ)を推定し、これを出力する。ここで、「推定」とは、音声合成のために必要となる情報(Fパターン、音素継続時間長、パワー情報)として、ある特定のものに決定することを意味する。 Prosody generation unit (11) as input information text analyzer (10) is outputted, phonemes per voice F 0 pattern (fundamental frequency pattern), the phoneme duration (the length of the phoneme uttered), power Estimate information (sound volume) and output it. Here, “estimation” means that information necessary for speech synthesis (F 0 pattern, phoneme duration, power information) is determined to be specific.

音声波形選択部(12)は、テキスト解析部(10)が出力した音素列の並びに従い、韻律生成部(11)で出力した、音素ごとの音声のFパターン、音素継続時間長、パワー情報をターゲットとして、これらターゲットとの歪みが小さく、また、音声波形素片を接続した際の音声波形素片同士での接続歪みが最小になるような音声波形素片の組み合わせ(最適音声波形素片列)を、音声情報データベース(4)から選択して、最適音声波形素片列の各音声波形素片番号(テキスト解析部(10)が出力した音素列の並びに対応している。)を出力する。最適音声波形素片列の決定には動的計画法などを用いる。 Speech waveform selector (12) in accordance with a sequence of phoneme string text analyzer (10) has outputted, and outputs in the prosody generation unit (11), F 0 pattern of phonemes each speech phoneme duration length, power information A combination of speech waveform segments (optimal speech waveform segments) that minimize distortion with these targets and minimize the connection distortion between speech waveform segments when speech waveform segments are connected. Column) is selected from the speech information database (4), and each speech waveform segment number of the optimal speech waveform segment sequence (corresponding to the sequence of phoneme sequences output by the text analysis unit (10)) is output. To do. Dynamic programming or the like is used to determine the optimum speech waveform segment sequence.

音声合成部(13)は、音声波形選択部(12)で選択された最適音声波形素片列の各音声波形素片番号を入力として、この最適音声波形素片列の各音声波形素片番号に対応した音声波形データを(音声波形データ位置情報を参照して)音声波形データベース(3)から読み込み、それら音声波形データを順次接続して連続した音声を生成し、これを合成音声として出力する。
特許2761552号公報
The speech synthesis unit (13) receives each speech waveform segment number of the optimum speech waveform segment sequence selected by the speech waveform selection unit (12) as input, and each speech waveform segment number of this optimum speech waveform segment sequence. Is read from the speech waveform database (3) (refer to the speech waveform data position information), and the speech waveform data is sequentially connected to generate continuous speech, which is output as synthesized speech. .
Japanese Patent No. 2761552

音声波形データベースに格納された音声波形データは肉声である。肉声のFパターンは微細な変動をし、図3に示した模式図のように、特に子音部分(図3では/R/の部分に相当する。)においてFパターン(図3の符号101で示す。)が落ち込むような微細な構造を有することが多い。 The speech waveform data stored in the speech waveform database is a real voice. The real voice F 0 pattern fluctuates finely, and as shown in the schematic diagram of FIG. 3, the F 0 pattern (reference numeral 101 in FIG. 3) particularly in the consonant part (corresponding to the part of / R / in FIG. 3). In many cases, it has a fine structure such that

一方、上記韻律生成部で求められるターゲットのFパターンは、肉声のFパターンにおける微細変動を反映したものではないため、音声波形選択部12における音声波形素片の選択過程において、ターゲットのFパターン(肉声のFパターンにおける微細変動を反映したものではない。)と選択された音声波形素片のFパターン(肉声のFパターンにおける微細変動を反映している。)との間に不一致が生じうる。 On the other hand, F 0 pattern of the target obtained by the prosody generation part, because it is not a reflection of the fine variations in F 0 pattern of real voice, in the selection process of the speech waveform segments in the speech waveform selector 12, the target F Between the 0 pattern (not reflecting the fine fluctuation in the real voice F 0 pattern) and the F 0 pattern of the selected speech waveform segment (reflecting the fine fluctuation in the real voice F 0 pattern). May be inconsistent.

そのためイントネーションの不自然さや音声波形素片間の接続箇所におけるFパターンのギャップ等に起因する音質劣化を引き起こし、聴感上適したイントネーションを有する合成音声が生成されないという問題があった。 Therefore cause sound quality degradation due to a gap or the like of the F 0 patterns in unnatural and connecting points of the speech waveform element pieces intonation, synthesized speech having audibility appropriate intonation there is a problem that not generated.

この典型的な例を、模式図である図4および図5を参照して説明する。図4および図5において符号102はターゲットのFパターンである。ここでは図4に示すような、連続性のあるFパターンを有する音声波形素片(符号103a、103b、103c)が選択されるのが望ましい。なぜなら、接続ギャップが無く滑らか、かつ、肉声に則した微細な構造を有するFパターンを再現した、自然なイントネーションを有する音声が合成可能だと考えられるからである。しかしながら、従来的な音声合成手法によると、ターゲットのFパターンは、肉声のFパターンにおける微細変動を反映したものではないため、子音部分での(肉声の)Fパターンとの距離が大きくなるため、図5に示すような、Fパターンの歪みが小さい反面、Fパターンが不連続な音声波形素片(符号104a、104b、104c)が選択されてしまう。 This typical example will be described with reference to FIGS. 4 and 5 which are schematic diagrams. 4 and 5, reference numeral 102 denotes a target F0 pattern. Here, as shown in FIG. 4, the speech waveform segments with a continuous F 0 pattern (reference numeral 103a, 103b, 103c) is desirably selected. This is because the connection gap is not smooth, and reproduces the F 0 pattern having a fine structure conforming to real voice, because speech having natural intonation is considered a possible synthesis. However, according to conventional speech synthesis method, F 0 pattern of the target, because it is not a reflection of the fine variations in F 0 pattern of real voice, the consonant portion (real voice) distance between F 0 pattern is large becomes therefore, as shown in FIG. 5, although the strain of F 0 pattern is small, F 0 pattern discontinuous voice waveform segments (code 104a, 104b, 104c) from being selected.

上記の問題に鑑みて、本発明は、自然なイントネーションを有する合成音声を得る波形接続型の音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体を提供することを目的とする。   In view of the above problems, an object of the present invention is to provide a waveform-connected speech synthesizer, a speech synthesis method, a speech synthesis program, and a recording medium for obtaining synthesized speech having natural intonation.

上記課題を解決するために、本発明は、音声波形データを集めた音声波形データベースおよび、音声のFパターン情報(肉声のFパターンの微細変動を保持したFパターン微細情報と、Fパターン微細情報における微細変動部分を補正したFパターン概形情報とから構成される。)を含む韻律情報と音声波形データベースにおける音声波形データとの対応を示すエントリーからなる音声情報データベースを記憶手段に記憶しておき、入力されたテキストを解析して音韻系列を生成し、この音韻系列から合成単位ごとの音声のFパターン情報を含む韻律情報Aを生成し、次いで、音韻系列に従って、韻律情報Aと音声情報データベースにおけるエントリーの韻律情報Bとの距離尺度(コスト)を演算し(韻律情報AにおけるFパターン情報と、韻律情報BにおけるFパターン概形情報とのコストの演算を含む。)、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択し、この選択されたエントリーに従って音声波形データベースから音声波形データを読み込み、これら音声波形データを接続して音声を合成するものとする。 In order to solve the above-described problems, the present invention provides a speech waveform database in which speech waveform data is collected, speech F 0 pattern information (F 0 pattern fine information holding minute fluctuations in the real voice F 0 pattern, and F 0. A speech information database comprising entries indicating correspondence between prosodic information including speech waveform data in speech waveform database and F 0 pattern outline information in which fine variation portions in pattern fine information are corrected. Storing and analyzing the input text to generate a phoneme sequence, generating prosody information A including the F 0 pattern information of speech for each synthesis unit from the phoneme sequence, and then prosodic information according to the phoneme sequence A distance measure (cost) between A and the prosodic information B of the entry in the speech information database is calculated (F in prosodic information A Including cost calculation of 0 pattern information and F 0 pattern outline information in prosodic information B.), an entry having prosodic information that minimizes the calculation result is selected from the speech information database, and the selected entry Then, the voice waveform data is read from the voice waveform database, and the voice waveform data is connected to synthesize voice.

また、予めFパターン概形情報を生成しておくのではなく、テキストから合成音声を生成する音声合成処理のたびに、Fパターン概形情報を生成するようにしてもよい。 Further, rather than leave it generates advance F 0 pattern envelope information, each time the speech synthesis process of generating a synthesized speech from the text, may be generated a F 0 pattern approximate shape information.

さらには、韻律情報Aと韻律情報Bとのコストに加え、各エントリー間のコストを演算し(各エントリー間のコストの演算には、少なくとも各エントリーにおけるFパターン微細情報間のコストの演算を含む。)、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択するとしてもよい。 Further, in addition to the costs of prosodic information A and prosodic information B, the cost between each entry is calculated (the cost between each entry is calculated by calculating the cost between at least the F 0 pattern fine information in each entry. In addition, an entry having prosodic information that minimizes the calculation result may be selected from the speech information database.

本発明の音声合成装置をコンピュータ上で機能させる音声合成プログラムによって、コンピュータを音声合成装置として作動処理させることができる。そして、この音声合成プログラムを記録した、コンピュータ読み取り可能なプログラム記録媒体によって、他のコンピュータを音声合成装置として機能させることや、音声合成プログラムを流通させることなどが可能になる。   The computer can be operated as a speech synthesizer by a speech synthesis program that causes the speech synthesizer of the present invention to function on the computer. A computer-readable program recording medium that records this speech synthesis program enables other computers to function as a speech synthesizer or distribute the speech synthesis program.

本発明によれば、テキスト解析で得られた音韻系列から生成された韻律情報Aと音声情報データベースにおけるエントリーの韻律情報Bとの距離尺度(コスト)の演算において、韻律情報AにおけるFパターン情報と、韻律情報BにおけるFパターン概形情報とのコストの演算を含むことによって、ターゲットのFパターンと選択される音声波形素片のFパターンとの間のFパターン形状のミスマッチを避けることができるので、イントネーション、特にアクセント型の不自然さに起因する音質劣化が低減された、自然なイントネーションを有する合成音声を得ることが可能となる。 According to the present invention, in the calculation of the distance measure (cost) between the prosodic information A generated from the phoneme sequence obtained by text analysis and the prosodic information B of the entry in the speech information database, the F 0 pattern information in the prosodic information A When, by including the cost of operation of the F 0 pattern envelope information in prosody information B, and mismatch F 0 pattern between F 0 pattern of the speech waveform segments are selected as target of the F 0 pattern Since it can be avoided, it is possible to obtain a synthesized speech having natural intonation in which sound quality deterioration caused by intonation, particularly accent-type unnaturalness is reduced.

また、韻律情報Aと韻律情報Bとのコストに加え、各エントリー間のコストを演算し、この各エントリー間のコストの演算において、各エントリーにおけるFパターン微細情報間のコストの演算を含めることで、音声波形素片間の接続箇所のFギャップを避けることができるため、Fパターンの不連続に起因する音質劣化が低減された、自然なイントネーションを有する合成音声を得ることが可能となる。 In addition to the cost of the prosodic information A and the prosody information B, it calculates the costs between each entry, in the calculation of the costs between the respective entry, the inclusion of operation costs between F 0 pattern fine information in each entry Thus, it is possible to avoid the F 0 gap at the connection location between the speech waveform segments, and thus it is possible to obtain a synthesized speech having a natural intonation with reduced sound quality degradation caused by discontinuity of the F 0 pattern. Become.

<第1実施形態>
以下、本発明である音声合成装置・方法等の第1実施形態を説明する。
図6は、第1実施形態に係わる音声合成装置のハードウェア構成を例示したハードウェア構成図である。
図7は、第1実施形態に係わる音声合成装置の機能構成を例示した機能構成図である。
図8は、第1実施形態に係わる音声合成の処理フローを示す図である。
図9は、第1実施形態に係わる音声情報データベースのデータ構成を示す図である。
図10は、Fパターン概形情報の生成方法の一例を示す図(その1)である。
図11は、Fパターン概形情報の生成方法の一例を示す図(その2)である。
図12は、Fパターン概形情報の生成方法の一例を示す図(その3)である。
<First Embodiment>
Hereinafter, a first embodiment of a speech synthesizer and method according to the present invention will be described.
FIG. 6 is a hardware configuration diagram illustrating a hardware configuration of the speech synthesizer according to the first embodiment.
FIG. 7 is a functional configuration diagram illustrating the functional configuration of the speech synthesizer according to the first embodiment.
FIG. 8 is a diagram showing a processing flow of speech synthesis according to the first embodiment.
FIG. 9 is a diagram showing a data configuration of the voice information database according to the first embodiment.
FIG. 10 is a diagram (part 1) illustrating an example of a method for generating F 0 pattern outline information.
FIG. 11 is a diagram (part 2) illustrating an example of a method for generating F 0 pattern outline information.
FIG. 12 is a diagram (No. 3) illustrating an example of a method for generating F 0 pattern outline information.

図6に例示するように、音声合成装置(500)は、キーボードなどが接続可能な入力部(51)、液晶ディスプレイなどが接続可能な出力部(52)、音声合成装置(500)外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部(53)、CPU(Central Processing Unit)(54)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(55)、ROM(56)やハードディスクである外部記憶装置(57)並びにこれらの入力部(51)、出力部(52)、通信部(53)、CPU(54)、RAM(55)、ROM(56)、外部記憶装置(57)間のデータのやり取りが可能なように接続するバス(58)を有している。また必要に応じて、音声合成装置(500)に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。   As illustrated in FIG. 6, the speech synthesizer (500) communicates with an input unit (51) to which a keyboard or the like can be connected, an output unit (52) to which a liquid crystal display or the like can be connected, and the speech synthesizer (500). A communication unit (53) to which a possible communication device (for example, a communication cable) can be connected, and a CPU (Central Processing Unit) (54) [may include a cache memory or the like. ], A RAM (55) as a memory, an external storage device (57) as a ROM (56) and a hard disk, and an input unit (51), an output unit (52), a communication unit (53), a CPU (54), The bus (58) is connected so that data can be exchanged between the RAM (55), the ROM (56), and the external storage device (57). If necessary, the speech synthesizer (500) may be provided with a device (drive) that can read and write a storage medium such as a CD-ROM.

音声合成装置(500)に入力されるテキストは、入力部(51)から入力されるものとしてもよいが、この実施形態では、予めテキストが外部記憶装置(57)に記憶されているものとする。また、本発明においてテキストの種類などに格別の限定はなく、この実施形態では、漢字かな混合の日本語テキストとする。   The text input to the speech synthesizer (500) may be input from the input unit (51). In this embodiment, it is assumed that the text is stored in advance in the external storage device (57). . In the present invention, the type of text is not particularly limited. In this embodiment, Japanese text mixed with kanji and kana is used.

音声合成装置(500)の外部記憶装置(57)には、音声合成のためのプログラムおよびこのプログラムの処理において必要となるデータなどが保存記憶されている。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に保存記憶される。   The external storage device (57) of the speech synthesizer (500) stores and stores a program for speech synthesis, data necessary for processing of this program, and the like. Further, data obtained by the processing of these programs is appropriately stored and stored in a RAM or an external storage device.

より具体的に説明すると、外部記憶装置(57)の所定の記憶領域には、プログラムの処理において必要となるデータとして、合成単位(この実施形態では音素とする。その他、例えば音声のピッチやCV音節などを単位とすることも可能である。)ごとの音声波形データを集めた音声波形データベース(571)および、音素ごとの音声のFパターン情報を含む韻律情報と音声波形データベースにおける音声波形データとの対応を示すエントリーからなる音声情報データベース(572)が記憶されている。 More specifically, in a predetermined storage area of the external storage device (57), as data necessary for processing of the program, a synthesis unit (in this embodiment, a phoneme. In addition, for example, a pitch or CV of a voice is used. it is also possible to syllables or the like as a unit.) speech waveform database a collection of audio waveform data for each (571) and the voice waveform data in prosody information and speech waveform database including F 0 pattern information of phonemes each voice A voice information database (572) consisting of entries indicating the correspondence with is stored.

音声波形データベース(571)における(音声波形素片としての)音声波形データは、単語や文章を読み上げた肉声の音声データに対して公知のA/D変換を行い、適宜に窓関数をかけることなどによって音素単位で切出したものである。   Speech waveform data (as a speech waveform segment) in the speech waveform database (571) performs known A / D conversion on real speech data read out from words and sentences, and appropriately applies a window function, etc. Is extracted in units of phonemes.

音声情報データベース(572)は、例えば図9のように、音素を単位として諸情報が対応付けられたエントリーからなるデータ構造(テーブル)となっている。図9に示す音声情報データベース(572)における各エントリーは、音声波形素片の通し番号である音声波形素片番号、発声内容を示す音素ラベル情報、音素の発声時間長を示す音素継続時間情報、当該音素区間の平均パワーを正規化して得たパワー情報、音素の音高(周波数)の時間推移を表したFパターン情報、音声波形データベース(571)の中での音声波形データの位置を示す情報(以下、音声波形データ位置情報という。)から構成されている。音声情報データベース(572)のエントリーと音声波形データベース(571)における(音声波形素片としての)各音声波形データとは、音声情報データベース(572)における音声波形データ位置情報によって対応付けられる。 For example, as shown in FIG. 9, the voice information database (572) has a data structure (table) including entries in which various information is associated with each phoneme as a unit. Each entry in the speech information database (572) shown in FIG. 9 includes a speech waveform segment number that is a serial number of the speech waveform segment, phoneme label information that indicates the utterance content, phoneme duration information that indicates the speech duration of the phoneme, Power information obtained by normalizing the average power of the phoneme section, F 0 pattern information representing the time transition of the phoneme pitch (frequency), and information indicating the position of the speech waveform data in the speech waveform database (571) (Hereinafter referred to as voice waveform data position information). The entry of the speech information database (572) and each speech waveform data (as a speech waveform segment) in the speech waveform database (571) are associated with each other by speech waveform data position information in the speech information database (572).

音声情報データベース(572)における各エントリーのFパターン情報は、Fパターン微細情報およびFパターン概形情報から構成される。Fパターン微細情報は、肉声の有するFパターンの微細変動をそのまま保持したFパターンを表す。一方、Fパターン概形情報は、Fパターン微細情報におけるFパターンの微細変動部分を補正したFパターンを表す。 The F 0 pattern information of each entry in the audio information database (572) is composed of F 0 pattern fine information and F 0 pattern outline information. The F 0 pattern fine information represents an F 0 pattern that retains the fine variation of the F 0 pattern possessed by the real voice as it is. On the other hand, F 0 pattern envelope information indicates F 0 pattern obtained by correcting the fine portion of the change in the F 0 pattern in F 0 pattern fine information.

ここで、Fパターン概形情報の生成方法の一例を図10、11、12を参照して説明する。Fパターン概形情報は、Fパターン微細情報におけるFパターンの微細変動部分を補正して生成するが、より具体的には、Fパターン微細情報におけるFパターンの子音に関わるFパターンの微細変動部分を補正することによって生成する。 Here, an example of a method of generating a F 0 pattern envelope information with reference to FIG. 10, 11 and 12 will be described. F 0 pattern envelope information is generated by correcting the fine portion of the change in the F 0 pattern in F 0 pattern fine information, more specifically, F 0 according to the consonants F 0 pattern in F 0 pattern fine information It is generated by correcting the fine variation portion of the pattern.

以下に、一例として、子音区間(ここでは/R/の区間)のFパターンの変微細動を除去することによって、Fパターン概形情報におけるFパターンを得る処理について説明する。図10の符号201は、ある音声の音素/A//R//U/のFパターンを示している。 Hereinafter, as an example, by removing the variable fine movement of F 0 pattern consonant segment (here / R / interval), it describes the processing of obtaining the F 0 pattern in F 0 pattern approximate shape information. The code | symbol 201 of FIG. 10 has shown the F0 pattern of phoneme / A // R // U / of a certain audio | voice.

まず、子音区間の両側の各母音区間(ここでは/A/および/U/の区間)内で最も高いFパターンの値を示すピーク点を求める。このピーク点は、エントリーにおけるFパターン微細情報および音素継続時間長を参照することによって求めることができる。図11において、/A/の区間では符号202に示す点が、/U/の区間では符号203に示す点が、各母音区間で最も高いFパターンの値のピーク点である。 First, each vowel section of each side of the consonant segment (here / A / and / U / intervals) obtaining a peak point indicating the value of the highest F 0 pattern within. The peak point can be obtained by reference to the F 0 pattern fine information and the phoneme duration in the entry. 11, a / A / interval point indicated by reference numeral 202, the / U / of interval point indicated by reference numeral 203, a peak point of the value of the highest F 0 pattern for each vowel section.

次に、各母音区間で求めたピーク点とピーク点との間の直線補間を行う。この例では、図11の符号204に示す破線が、直線補間を行うことによって得られるFパターンを示している。なお、補正方法を直線補間としたが、これに限定することなく、例えばスプライン補間などによって補正するものでもよい。以上の処理によって、図12に示すようなFパターン(符号205a、205b、205c)を得ることができる。ここで得られたFパターン(符号205a、205b、205c)が、それぞれの音素のFパターン概形情報である。 Next, linear interpolation between the peak points obtained in each vowel section is performed. In this example, the broken line indicated by reference numeral 204 in FIG. 11 shows an F 0 pattern obtained by performing linear interpolation. Although the correction method is linear interpolation, the correction method is not limited to this, and may be corrected by, for example, spline interpolation. Through the above processing, it is possible to obtain F 0 pattern as shown in FIG. 12 (reference numeral 205a, 205b, 205c) a. F 0 pattern obtained here (reference numeral 205a, 205b, 205c) is an F 0 pattern envelope information for each phoneme.

なお、以上の説明からも明らかなとおり、補正されるFパターンは、子音部分のFパターンだけなのではなく、母音部分のFパターンの一部(上記例で云えば、/A/のピーク点から終点にかけてのFパターン部分、/U/の始点からピーク点にかけてのFパターン部分)も補正される場合があることに留意しなければならない。 Incidentally, as is apparent from the above description, F 0 pattern to be corrected, rather than just F 0 pattern consonant portion, a portion of the F 0 pattern vowel portions (As far in the above example, / A / of F 0 pattern portion extending the end point from the peak point, / U / F 0 pattern portion extending the peak point from the beginning of) must also be noted that it may be corrected.

また、音声合成装置(1)の外部記憶装置(57)には、入力されたテキストを解析して音韻系列を生成するテキスト解析部を実現するためのプログラム、音韻系列から、少なくとも音素ごとの音声のFパターン情報を含む韻律情報を生成する韻律生成部を実現するためのプログラム、韻律情報と音声情報データベースにおけるエントリーの韻律情報との距離尺度(コスト)を演算し、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから順次選択する音声波形選択部を実現するためのプログラム、順次選択されたエントリーに従って音声波形データベースから音声波形データを読み込み、これら音声波形データを接続して音声を合成する音声合成部を実現するためのプログラムなどが保存記憶されている。その他、これらのプログラムに基づく処理を制御するための制御プログラムも適宜に保存しておく。 In addition, the external storage device (57) of the speech synthesizer (1) analyzes at least speech for each phoneme from a program for realizing a text analysis unit that analyzes input text and generates a phoneme sequence, and a phoneme sequence. A program for realizing a prosody generation unit that generates prosody information including F 0 pattern information, a distance measure (cost) between the prosody information and the prosodic information of the entry in the speech information database is calculated, and the calculation result is minimized. A program for realizing a speech waveform selection unit that sequentially selects entries having prosodic information from the speech information database, reads speech waveform data from the speech waveform database according to the sequentially selected entries, and connects these speech waveform data to generate speech A program or the like for realizing a speech synthesizer for synthesizing is stored and stored. In addition, a control program for controlling processing based on these programs is also stored as appropriate.

第1実施形態に係る音声合成装置(500)では、外部記憶装置(57)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAM(55)に読み込まれて、CPU(54)で解釈実行・処理される。その結果、CPU(54)が所定の機能(テキスト解析部、韻律生成部、音声波形選択部、音声合成部)を実現することで、音声合成が実現される。   In the speech synthesizer (500) according to the first embodiment, each program stored in the external storage device (57) and data necessary for processing each program are read into the RAM (55) as necessary. Interpretation is executed and processed by the CPU (54). As a result, the CPU (54) realizes predetermined functions (text analysis unit, prosody generation unit, speech waveform selection unit, speech synthesis unit), thereby realizing speech synthesis.

そこで次に、図7、図8を参照して、音声合成装置(500)における音声合成の流れを順次説明する。
第1実施形態の音声合成装置(500)は、テキスト解析部(541)、韻律生成部(542)、音声波形選択部(543)、音声合成部(544)から構成される(図7参照)。
Next, the flow of speech synthesis in the speech synthesizer (500) will be sequentially described with reference to FIGS.
The speech synthesis apparatus (500) of the first embodiment includes a text analysis unit (541), a prosody generation unit (542), a speech waveform selection unit (543), and a speech synthesis unit (544) (see FIG. 7). .

まず、テキスト解析部(541)は、外部記憶装置(57)に記憶されるテキストを読み込み、この読み込んだテキストを形態素解析して、テキストに対応した音素列、アクセント型、呼気段落(フレーズ)位置などを表す音韻系列を出力する(ステップS1)。   First, the text analysis unit (541) reads the text stored in the external storage device (57), morphologically analyzes the read text, and stores the phoneme string, accent type, and exhalation paragraph (phrase) position corresponding to the text. A phoneme sequence representing the above is output (step S1).

形態素解析の概要について説明すると、テキスト解析部(541)は、単語モデル、漢字かな変換モデル、かな音素変換モデルなど(これらも必要に応じて外部記憶装置(57)に記憶しておく。)を参照して、テキストを音素列に変換する。また、テキストが日本語の場合、複数の単語が集まって文節などを構成すると、アクセントが移動・消失するなどの現象が起こるので、予めこれらの規則(アクセント結合規則)をデータとして例えば外部記憶装置(57)に記憶しておき、テキスト解析部(541)は、このアクセント結合規則に従って、テキストのアクセント型を決定する。さらに、テキストが日本語の場合、意味的ないし文法的なまとまり毎にアクセントが1つ付く特徴的傾向があるので、予めこれらの規則(フレーズ規則)をデータとして例えば外部記憶装置(57)に記憶しておき、テキスト解析部(541)は、このフレーズ規則に従って、アクセントの1つ付いたまとまりがいくつか接続したものを呼気段落として決定する。
なお、ここで説明した形態素解析の概要は、形態素解析の一例であって、その他の形態素解析手法を排除する趣旨のものではない。本発明の音声合成装置・方法では、種々の形態素解析を用いることができるが、これらは公知技術によって達成されるので、その詳細を省略する。
The outline of the morphological analysis will be described. The text analysis unit (541) stores a word model, a kanji-kana conversion model, a kana phoneme conversion model, etc. (these are also stored in the external storage device (57) as necessary). Refer to and convert text to phoneme string. In addition, when the text is in Japanese, if a plurality of words are gathered to form a phrase or the like, a phenomenon such as an accent moving or disappearing occurs. Therefore, these rules (accent combining rules) are stored in advance as data, for example, an external storage device (57) and the text analysis unit (541) determines the accent type of the text according to the accent combination rule. Further, when the text is in Japanese, there is a characteristic tendency that one accent is attached to each semantic or grammatical unit, so these rules (phrase rules) are stored in advance as data in, for example, the external storage device (57). In addition, the text analysis unit (541) determines, as an exhalation paragraph, a combination of several groups with one accent according to this phrase rule.
The outline of the morpheme analysis described here is an example of morpheme analysis, and is not intended to exclude other morpheme analysis methods. In the speech synthesizer / method of the present invention, various morphological analysis can be used, but since these are achieved by known techniques, the details thereof are omitted.

韻律生成部(542)は、テキスト解析部(541)が出力した情報(音韻系列)を入力として、音素ごとの音声のFパターン(基本周波数パターン)、音素継続時間長(音素の発声の長さ)、パワー情報(音声の大きさ)を推定し、これを出力する(ステップS2)。音素継続時間長およびパワー情報は、予め規則化された、呼気段落内における音素の位置、発声速度、当該音素の前後の音素環境などに従って適宜に設定する。また、Fパターンについては、いわゆる藤崎モデルなどによって求める。なお、「推定」とは既述のとおり、音声合成のために必要となる情報(Fパターン、音素継続時間長、パワー情報)として、ある特定のものに決定することを意味する。本発明の音声合成装置・方法では、韻律情報の生成には、公知の韻律情報生成手法を用いることができるので、その詳細を省略する。 Prosody generation unit (542) is input with information text analyzer (541) is output (phoneme sequence), F 0 pattern (fundamental frequency pattern) of phonemes each speech phoneme duration (phonemes uttered length The power information (sound volume) is estimated and output (step S2). The phoneme duration length and the power information are appropriately set according to the phoneme position in the exhalation paragraph, the utterance speed, the phoneme environment before and after the phoneme, etc., which are regulated in advance. As for the F 0 pattern, determined by the so-called Fujisaki model. As described above, “estimation” means that information necessary for speech synthesis (F 0 pattern, phoneme duration length, power information) is determined to be specific. In the speech synthesizer / method of the present invention, the prosodic information can be generated by using a known prosodic information generating method, and the details thereof are omitted.

音声波形選択部(543)は、テキスト解析部(541)が出力した音素列の並び順に従って、韻律生成部(542)によって出力された、音素ごとの音声のFパターン、音素継続時間長、パワー情報をターゲットとして、これらターゲットとの歪みが小さく、また、音声波形素片同士を接続した際の音声波形素片同士での接続歪みが最小になるような音声波形素片の組み合わせ(最適音声波形素片列)を、音声情報データベース(572)から選択し、最適音声波形素片列の各音声波形番号(テキスト解析部(541)が出力した音素列の並び順に対応している。)を出力する(ステップS3)。以下、歪みから定義される距離尺度をコストと呼ぶ。コスト最小の最適音声波形素片列の決定には動的計画法などを用いる。 The speech waveform selection unit (543), according to the arrangement order of the phoneme sequence output by the text analysis unit (541), the F 0 pattern of the speech for each phoneme output by the prosody generation unit (542), the phoneme duration length, A combination of speech waveform segments (optimal speech) that uses power information as a target and minimizes distortion with these targets and minimizes connection distortion between speech waveform segments. (Speech segment sequence) is selected from the speech information database (572), and each speech waveform number of the optimal speech waveform segment sequence (corresponding to the order of the phoneme sequence output by the text analysis unit (541)) is selected. Output (step S3). Hereinafter, the distance measure defined from the distortion is referred to as cost. Dynamic programming or the like is used to determine the optimum speech waveform segment sequence with the lowest cost.

音声波形選択部(543)における最適音声波形素片列の選択について、更に詳細を説明する。ここでは、音素単位で最適音声波形素片列の選択をする場合について説明する。また、音声波形選択部(543)には、テキスト解析部(541)によって出力された(テキストに対する)音素列全てではなく、1つの呼気段落に対応する音素列ごとに入力していくとする。これは、ある呼気段落の終点音素と、この呼気段落に接続する次の呼気段落の始点音素との間の接続を考えなくてよいからである。勿論、テキストの長さなどによっては、テキスト解析部(541)によって出力された(テキストに対する)音素列全てを、音声波形選択部(543)の入力としてもよい。   The selection of the optimum speech waveform segment sequence in the speech waveform selection unit (543) will be described in further detail. Here, a case where the optimum speech waveform segment sequence is selected in units of phonemes will be described. Further, it is assumed that not all phoneme strings (for text) output by the text analysis unit (541) are input to the speech waveform selection unit (543) for each phoneme string corresponding to one exhalation paragraph. This is because there is no need to consider the connection between the end phoneme of a certain exhalation paragraph and the start point phoneme of the next exhalation paragraph connected to this exhalation paragraph. Of course, depending on the length of the text and the like, all the phoneme strings (for the text) output by the text analysis unit (541) may be input to the speech waveform selection unit (543).

以下、音声波形選択部(543)に入力される音素列(以下、これをターゲット音素列と呼ぶ。)のうち、i番目のターゲット音素をtと表し、音声情報データベース(572)から読み込んだエントリーの音声波形素片列(以下、これを候補素片列と呼ぶ。)のうち、i番目の候補素片をuと表す。なお、音声情報データベース(572)から読み込む候補素片uは、音声情報データベース(572)の音素ラベルの項目を参照して、ターゲット音素tの音素と同じ音素を有するものとする。 Hereinafter, the speech waveform selector (543) phoneme sequence (hereinafter, the target phoneme string and called.) Input within a represents the i-th target phoneme t i, read from the speech information database (572) Of the speech waveform segment sequences of the entries (hereinafter referred to as candidate segment sequences), the i-th candidate segment is represented by u i . Note that the candidate segment u i read from the speech information database (572) has the same phoneme as the phoneme of the target phoneme t i with reference to the phoneme label item of the speech information database (572).

音声波形選択部(543)は、1つの呼気段落全体で、前記ターゲット音素列と候補素片列との歪みおよび接続する候補素片同士での接続歪みが最小になるような候補素片の組み合わせ(最適候補素片列)を決定するために、音素ごとに、ターゲット音素tと候補素片uの歪みを表す距離尺度をコストC(t,u)として求める。 The speech waveform selection unit (543) is a combination of candidate segments that minimizes the distortion between the target phoneme sequence and the candidate segment sequence and the connection distortion between the candidate segment sequences to be connected in one whole exhalation paragraph. In order to determine (optimum candidate segment sequence), a distance measure representing the distortion between the target phoneme t i and the candidate segment u i is obtained as the cost C (t i , u i ) for each phoneme.

一例として、コストC(t,u)を、後述する各種サブコストの重みつき和として、C(t,u)=Wtf・Stf(t,u)+Wtdur・Stdur(t,u)+Wtpow・Stpow(t,u)+Wcf・Scf(ui−1,u)+Wcpow・Scpow(ui−1,u)+Wcenv・Scenv(ui−1,u)・・・(1)と定義する。 As an example, the cost C (t i, u i) and, as a weighted sum of the later-described various sub-cost, C (t i, u i ) = Wtf · Stf (t i, u i) + Wtdur · Stdur (t i, u i ) + Wtpow · Spow (t i , u i ) + Wcf · Scf (u i−1 , u i ) + Wcpow · Scpow (u i−1 , u i ) + Wcenv · Scenv (u i−1 , u i ).・ ・ Defined as (1).

Stf(t,u)はターゲット音素tのFパターンおよび候補素片uのFパターン概形情報におけるFパターン間の歪みを表し、tのFパターンをFt(t)、uの(Fパターン概形情報における)FパターンをFu(u)としたとき、Ft(t)とFu(u)の差の二乗Stf(t,u)={Ft(t)−Fu(u)}とする。以下これを、ターゲットFサブコストと呼ぶ。
なお、従来においては、Fu(u)は、uのFパターン微細情報におけるFパターンであり、本発明では、uのFパターン概形情報におけるFパターンであることに留意する。
Stf (t i, u i) is the target phoneme t i represents the distortion between F 0 patterns in F 0 pattern envelope information F 0 pattern and the candidate segment u i of the F 0 pattern t i Ft (t i), when the (F 0 pattern envelope) F 0 patterns in information u i Fu and (u i), the difference of the squares Stf of Ft (t i) and Fu (u i) (t i , u i ) = {Ft (t i ) −Fu (u i )} 2 Hereinafter, this is referred to as target F 0 sub-cost.
In the prior art, Fu (u i) is F 0 pattern in F 0 pattern fine information u i, in the present invention, noted that it is F 0 pattern in F 0 pattern envelope information u i To do.

Stdur(t,u)はターゲット音素tと候補素片uの間での継続時間長の歪みを表し、tの継続時間長をDURt(t)、uの継続時間長をDURu(u)としたとき、DURt(t)とDURu(u)の差の二乗Stdur(t,u)={DURt(t)−DURu(u)}とする。以下これを、ターゲット継続時間長サブコストと呼ぶ。 Stdur (t i , u i ) represents the distortion of the duration between the target phoneme t i and the candidate segment u i , the duration of t i is DURt (t i ), and the duration of u i Let DURu (u i ) be the square of the difference between DURt (t i ) and DURu (u i ) Stdur (t i , u i ) = {DURt (t i ) −DURu (u i )} 2 . Hereinafter, this is referred to as a target duration long sub-cost.

Stpow(t,u)はターゲット音素tと候補素片uの間でのパワーの歪みを表し、tのパワーをPOWt(t)、uのパワーをPOWu(u)としたとき、POWt(t)とPOWu(u)の差の二乗Stpow(t,u)={POWt(t)−POWu(u)}とする。以下これを、ターゲットパワーサブコストと呼ぶ。 Stpow (t i, u i) represents the distortion of the power between the target phoneme t i and the candidate segment u i, power the POWt (t i) of t i, POWu power of u i (u i) , It is assumed that the square of the difference between POWt (t i ) and POWu (u i ) is Spow (t i , u i ) = {POWt (t i ) −POWu (u i )} 2 . Hereinafter, this is referred to as a target power sub-cost.

Scf(ui−1,u)は候補素片uと先行する候補素片ui−1との接続点での(それぞれFパターン微細情報における)Fパターンの歪みを表し、uの始点のFパターンの値をFSu(u)、ui−1の終点のFパターンの値をFEu(ui−1)としたとき、FSu(u)とFEu(ui−1)の差の二乗Scf(ui−1,u)={FSu(u)−FEu(ui−1)}とする。以下これを、接続Fサブコストと呼ぶ。
なお、この接続FサブコストにおけるFパターンは、Fパターン微細情報におけるFパターンであることに留意する。
Scf (u i−1 , u i ) represents the distortion of the F 0 pattern (in the F 0 pattern fine information, respectively) at the connection point between the candidate element u i and the preceding candidate element u i−1. the value of F 0 pattern of the start point of the i FSu (u i), when the value of F 0 pattern of the end point of the u i-1 and fEu (u i-1), FSu (u i) and feu (u i −1 ) squared difference Scf (u i−1 , u i ) = {FSu (u i ) −FEu (u i−1 )} 2 Hereinafter, this is referred to as connection F 0 sub-cost.
Incidentally, F 0 pattern in this connection F 0 subcosts is noted that it is F 0 pattern in F 0 pattern fine information.

Scpow(ui−1,u)は候補素片uと、先行する候補素片ui−1の接続点でのパワーの歪みを表し、uの始点のパワーをPOWSu(u)、ui−1の終点のパワーをPOWEu(ui−1)としたとき、POWSu(u)とPOWEu(ui−1)の差の二乗Scpow(ui−1,u)={POWSu(ui)−POWEu(ui−1)}とする。以下これを、接続パワーサブコストと呼ぶ。 Scpow (u i−1 , u i ) represents the power distortion at the connection point between the candidate element u i and the preceding candidate element u i−1 , and the power of the starting point of u i is represented by POWSu (u i ). , U i−1 where the end point power is POWEu (u i−1 ), the square of the difference between POWSu (u i ) and POWEu (u i−1 ) Scow (u i−1 , u i ) = { POWSu (ui) −POWEu (u i−1 )} 2 . This is hereinafter referred to as connection power sub-cost.

Scenv(ui−1,u)は候補素片uと、先行する候補素片ui−1の音素環境の違いを表し、uの先行音素とui−1の後続音素との音響的類似度(例えばスペクトルの類似度)から定義される。以下これを、接続音素環境サブコストと呼ぶ。例えば、uの先行音素とui−1の後続音素とが一致すれば、Scenv(ui−1,u)=0である。例えば、これらの値は音響的類似度データベースとして予め規則化しておき、必要に応じて、この音響的類似度データベースから、uの先行音素とui−1の後続音素との音響的類似度に対応した値を読み込むようにしておく。 Scenv and (u i-1, u i) is the candidate segment u i, represents the difference between the preceding candidate segment u i-1 of the phoneme environment, the u i preceding phoneme and u i-1 of the subsequent phoneme and the It is defined from acoustic similarity (for example, spectral similarity). Hereinafter, this is referred to as a connected phoneme environment sub-cost. For example, if the subsequent phonemes and matching of the preceding phoneme and u i-1 of u i, is Scenv (u i-1, u i) = 0. For example, these values are previously ordered as acoustic similarity database, if necessary, from the acoustic similarity database, acoustic similarity between subsequent phoneme preceding phoneme and u i-1 of u i Read the value corresponding to.

また、WtfはStf(t,u)に対する重み、WtdurはStdur(t,u)に対する重み、WtpowはStpow(t,u)に対する重み、WcfはScf(ui−1,u)に対する重み、WcpowはScpow(ui−1,u)に対する重み、WcenvはScenv(ui−1,u)に対する重みである。 Further, Wtf is Stf (t i, u i) weight for, Wtdur the Stdur (t i, u i) weight for, Wtpow the Stpow (t i, u i) weight for, Wcf is Scf (u i-1, The weight for u i ), Wcpow is the weight for Scoop (u i−1 , u i ), and Wcenv is the weight for Scenv (u i−1 , u i ).

上記各サブコストのうち、Stf(t,u)、Stdur(t,u)、Stpow(t,u)が、韻律生成部(542)で求めたターゲット情報(Fパターン、音素継続時間長、パワー情報)と、候補素片uの有するFパターン、音素継続時間長、パワー情報との差から求められるサブコストである。 Among the sub-costs described above, Stf (t i , u i ), Stdur (t i , u i ), and Stpow (t i , u i ) are the target information (F 0 pattern) obtained by the prosody generation unit (542), Phoneme duration length, power information) and the sub cost obtained from the difference between the F 0 pattern, phoneme duration length, and power information of the candidate unit u i .

また、Scf(ui−1,u)、Scpow(ui−1,u)、Scenv(ui−1,u)が、候補素片間でのFパターン、パワー情報、音素環境の違いから求められるサブコストである。 Scf (u i−1 , u i ), Scpow (u i−1 , u i ), and Scenv (u i−1 , u i ) are F 0 patterns, power information, and phonemes between candidate segments. This is a sub-cost required for environmental differences.

上記各サブコストの計算に必要な候補素片uのFパターン、継続時間長、パワー情報は、音声情報データベース(572)から得ることができる。そして、1つの呼気段落全体の音素列に対するコストCを式(2)によって求める。ここで、Nは1つの呼気段落の音素数を表す。

Figure 0004533255
The F 0 pattern, duration length, and power information of the candidate segment u i necessary for the calculation of each sub-cost can be obtained from the voice information database (572). And the cost C with respect to the phoneme string of one whole exhalation paragraph is calculated | required by Formula (2). Here, N represents the number of phonemes in one exhalation paragraph.
Figure 0004533255

音声波形選択部(543)は、Cが最小となる最適候補素片列を動的計画法などの手法により求めることで、1つの呼気段落のターゲットに対して最適な音声波形素片列を選択し、この最適な音声波形素片列の各音声波形素片番号(音声波形選択部(543)に入力される音素列の並び順に対応している。)を得る。そして、音声波形選択部(543)は、全ての呼気段落(即ち、テキストに対する全ての音素列)について同様の処理を行い、全ての音素列に対応する最適な音声波形素片列(最適音声波形素片列)の各音声波形素片番号を出力する。   The speech waveform selection unit (543) selects an optimal speech waveform segment sequence for a target of one expiratory paragraph by obtaining an optimal candidate segment sequence that minimizes C by a method such as dynamic programming. Then, each speech waveform segment number of the optimal speech waveform segment sequence (corresponding to the arrangement order of the phoneme sequences input to the speech waveform selection unit (543)) is obtained. Then, the speech waveform selection unit (543) performs the same processing for all expiratory paragraphs (that is, all phoneme sequences for text), and optimal speech waveform segment sequences (optimal speech waveforms) corresponding to all phoneme sequences. The number of each speech waveform segment in the segment sequence) is output.

音声合成部(544)は、音声波形選択部(543)で選択された最適音声波形素片列の音声波形素片番号列を入力として、この各番号に対応した音声波形データを(各番号で特定されるエントリーの音声波形データ位置情報を参照して)音声波形データベース(571)から読み込み、それら音声波形データを順次接続して連続した音声を生成し、これを合成音声として出力する(ステップS)。音声合成部(544)における音声合成方法は、例えば波形重畳法などの公知技術によって実現される。   The speech synthesis unit (544) receives the speech waveform segment number sequence of the optimum speech waveform segment sequence selected by the speech waveform selection unit (543) as input, and outputs speech waveform data corresponding to each number (by each number). A voice is read from the voice waveform database (571) with reference to the voice waveform data position information of the identified entry, and the voice waveform data is sequentially connected to generate a continuous voice, which is output as a synthesized voice (step S). ). The speech synthesis method in the speech synthesis unit (544) is realized by a known technique such as a waveform superposition method.

音声波形選択部(543)によるコスト演算のターゲットFサブコストに、候補素片のFパターン概形情報におけるFパターンを用いることによって、図13および図14の模式図に示すように、ターゲットのFパターン(図13の符号301)に近いFパターン概形情報におけるFパターン(図14の符号302a、302b、302c)を有する音声波形素片が選択されやすくなる。 By using the F 0 pattern in the F 0 pattern outline information of the candidate segment as the target F 0 sub cost of the cost calculation by the speech waveform selection unit (543), as shown in the schematic diagrams of FIG. 13 and FIG. Speech waveform segments having F 0 patterns (reference numerals 302a, 302b, and 302c in FIG. 14) in the F 0 pattern outline information close to the F 0 pattern (reference numeral 301 in FIG. 13) can be easily selected.

また、この実施形態のように、サブコストに応じてFパターン情報の種別を使い分ける(つまり、ターゲットFサブコストにはFパターン概形情報におけるFパターンを用い、接続FサブコストにはFパターン微細情報のFパターンを用いる。)ことの利点を、図15および図16を用いて説明する。図15と図16は、それぞれ、同一のターゲットのFパターンに対する音声波形素片の候補を表示したものである。また、図15、図16共に、401はターゲットのFパターンを示す。 Moreover, as in this embodiment, selectively used type of F 0 pattern information in accordance with sub-cost (i.e., the target F 0 subcost using F 0 pattern in F 0 pattern envelope information, connection F 0 to subcost F The advantage of using the 0 pattern fine information F 0 pattern) will be described with reference to FIGS. 15 and 16. FIG. 15 and 16, respectively, and setting the candidate of the speech waveform segment for F 0 pattern of the same target. Further, FIG. 15, both 16, 401 denotes the F 0 pattern of the target.

図15において符号402a、402b、402cは、ある音声波形素片のFパターン微細情報におけるFパターンであり、符号403a、403b、403cは、それぞれ、符号402a、402b、402cのFパターン概形情報におけるFパターンである。また、図16において符号404a、404b、404cはある音声波形素片のFパターン微細情報におけるFパターンであり、符号405a、405b、405cは、それぞれ、符号404a、404b、404cのFパターン概形情報におけるFパターンである。 Code 402a, 402b, 402c in FIG. 15 is a F 0 pattern in F 0 pattern fine information of a voice waveform segments, code 403a, 403b, 403c, respectively, reference numerals 402a, 402b, F 0 pattern outline of 402c This is the F0 pattern in the shape information. Further, a F 0 pattern in the code 404a, 404b, 404c is F 0 pattern fine information of the speech waveform segments with 16, reference numeral 405a, 405 b, 405c, respectively, reference numerals 404a, 404b, F of 404c 0 pattern it is F 0 pattern in approximate shape information.

接続FサブコストにFパターン微細情報におけるFパターンを用いた場合は、符号402a、402b、402c、404a、404b、404cに示すFパターンがサブコストの計算に用いられる。一方、接続FサブコストにFパターン概形情報におけるFパターンを用いた場合は、符号403a、403b、403c、405a、405b、405cに示すFパターンがサブコストの演算に用いられることになる。 In the case of using F 0 pattern in F 0 pattern fine information in connection F 0 sub-cost, reference numeral 402a, 402b, 402c, 404a, 404b, F 0 pattern shown in 404c is used in the calculation of the sub-costs. On the other hand, in the case of using the F 0 pattern in F 0 pattern envelope information in the connection F 0 sub-cost, consists codes 403a, 403b, 403c, 405a, 405 b, that F 0 pattern shown in 405c is used in the calculation of the sub-costs .

この例ではFパターン概形情報におけるFパターンを用いて接続Fサブコストを求めた場合(図15では符号403aと符号403bとの接続点、および、符号403bと符号403cとの接続点。図16では符号405aと符号405bとの接続点、および、符号405bと符号405cとの接続点。)、図15、図16からわかるように、その値は同程度であるが、/U/部分のターゲットに対するFパターンの歪みは図15に示した音声波形素片の方が小さいため、図15に示したFパターン(符号403a、403b、403c)の音声波形素片が選択されてしまう可能性が高い。 In this example, when the connection F 0 sub-cost is obtained using the F 0 pattern in the F 0 pattern outline information (in FIG. 15, the connection point between the reference numerals 403a and 403b and the connection point between the reference numerals 403b and 403c. In FIG. 16, the connection point between reference numeral 405a and reference numeral 405b, and the connection point between reference numeral 405b and reference numeral 405c.) As can be seen from FIGS. 15 and 16, the values are similar, but the / U / part the distortion of the F 0 pattern for the target for smaller for voice waveform segments shown in FIG. 15, F 0 pattern shown in FIG. 15 (reference numeral 403a, 403b, 403c) voice waveform segment from being selected for Probability is high.

そうすると、音声合成部は、符号403a、403b、403cのFパターン(これは、Fパターン概形情報におけるFパターンである。)をFパターン情報に有するエントリーに対応した音声波形データを読み込んで接続することになる。ところが、これら音声波形データは、符号402a、402b、402cのFパターン(これは、Fパターン微細情報におけるFパターンである。)に対応した性質を有するところ、/A/および/R/の音素の間で著しい接続歪みが有り、このような音声波形データで合成された合成音声は、滑らかさを失った不自然なものとなってしまう。つまり、この場合、図16に示した音声波形素片を選択した方が肉声のFパターンの接続点での差が小さいため、合成音声の品質(聴感上の滑らかさや自然さ)が高くなると考えられる。 Then, the speech synthesis unit, reference numeral 403a, 403b, F 0 pattern (which is a F 0 pattern in F 0 pattern approximate shape information.) Of 403c speech waveform data corresponding to the entry having the F 0 pattern information It will read and connect. However, these sound waveform data, the code 402a, 402b, F 0 pattern (which, F is 0 pattern. At F 0 pattern fine information) 402c where with properties corresponding to, / A / and / R / There is a significant connection distortion between the phonemes, and the synthesized speech synthesized with such speech waveform data becomes unnatural with a loss of smoothness. That is, in this case, if the speech waveform segment shown in FIG. 16 is selected, the difference in the connection point of the real voice F 0 pattern is smaller, and therefore the quality of the synthesized speech (smoothness and naturalness) becomes higher. Conceivable.

従って、合成音声の聴感上の滑らかさや自然さを失わないようにするために、接続Fサブコストには、Fパターン微細情報におけるFパターンを用いることとするのである。 Therefore, in order not to lose the smoothness and naturalness of audibility of synthesized speech, the connection F 0 sub-cost, it is to be referred to with the F 0 pattern in F 0 pattern fine information.

<第2実施形態>
第1実施形態では、Fパターン概形情報は、予め音声情報データベース(572)の構成要素として記憶されているとした。これに対し、第2実施形態では、外部記憶装置の記憶容量を節約するなどの観点から、予めFパターン概形情報を生成しておくのではなく、テキストから合成音声を生成する音声合成処理のたびにFパターン概形情報を生成する。
第1実施形態と同じ機能・処理については同一の符号を当てて説明を省略し、第1実施形態と異なる点についてのみ説明を加える。
<Second Embodiment>
In the first embodiment, F 0 pattern envelope information was stored as a component of pre-speech information database (572). On the other hand, in the second embodiment, from the viewpoint of saving the storage capacity of the external storage device, the speech synthesis process for generating synthesized speech from text, instead of generating F 0 pattern outline information in advance. generating a F 0 pattern envelope information for every.
The same functions and processes as those in the first embodiment are assigned the same reference numerals and description thereof is omitted, and only differences from the first embodiment are described.

第2実施形態の音声情報データベース(672)における各エントリーのFパターン情報は、第1実施形態で説明したFパターン微細情報である。第2実施形態においては、第1実施形態で説明したFパターン概形情報は、各エントリーのFパターン情報の構成要素となっていない。即ち、第2実施形態の音声情報データベース(672)は、図2に示すようなデータ構成になっている。 The F 0 pattern information of each entry in the voice information database (672) of the second embodiment is the F 0 pattern fine information described in the first embodiment. In the second embodiment, the F 0 pattern outline information described in the first embodiment is not a component of the F 0 pattern information of each entry. That is, the voice information database (672) of the second embodiment has a data configuration as shown in FIG.

第2実施形態に係わる音声合成装置(600)の外部記憶装置(57)には、第1実施形態で説明したプログラムに加え、各エントリーのFパターン微細情報におけるFパターンから、Fパターン概形情報を得るためのプログラムも保存記憶されている。その他、これらのプログラムに基づく処理を制御するための制御プログラムも適宜に保存しておく。 The external storage device (57) of the speech synthesizer (600) according to the second embodiment, in addition to the program described in the first embodiment, the F 0 pattern in the F 0 pattern fine information of each entry, F 0 pattern A program for obtaining outline information is also stored and stored. In addition, a control program for controlling processing based on these programs is also stored as appropriate.

音声合成装置(600)では、外部記憶装置(57)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAM(55)に読み込まれて、CPU(54)で解釈実行・処理される。その結果、CPU(54)が所定の機能(テキスト解析部、韻律生成部、概形情報生成部、音声波形選択部、音声合成部)を実現することで、音声合成が実現される。   In the speech synthesizer (600), each program stored in the external storage device (57) and data necessary for processing each program are read into the RAM (55) as necessary, and interpreted by the CPU (54). Executed and processed. As a result, the CPU (54) realizes predetermined functions (text analysis unit, prosody generation unit, outline information generation unit, speech waveform selection unit, speech synthesis unit), thereby realizing speech synthesis.

そこで次に、図17〜図19を参照して、音声合成装置(600)における音声合成の流れを順次説明する。
図17は、第2実施形態に係わる音声合成装置の機能構成を例示した機能構成図である。
図18は、第2実施形態に係わる音声合成の処理フローを示す図である。
図19は、Fパターン概形情報を生成する処理フローを示す図である。
Next, the flow of speech synthesis in the speech synthesizer (600) will be sequentially described with reference to FIGS.
FIG. 17 is a functional configuration diagram illustrating the functional configuration of the speech synthesizer according to the second embodiment.
FIG. 18 is a diagram showing a processing flow of speech synthesis according to the second embodiment.
Figure 19 is a diagram depicting a processing flow of generating a F 0 pattern approximate shape information.

第1実施形態の音声合成装置(600)は、テキスト解析部(541)、韻律生成部(542)、概形情報生成部(645)、音声波形選択部(543)、音声合成部(544)から構成される(図17参照)。   The speech synthesis apparatus (600) of the first embodiment includes a text analysis unit (541), a prosody generation unit (542), a rough shape information generation unit (645), a speech waveform selection unit (543), and a speech synthesis unit (544). (See FIG. 17).

ステップS1およびステップS2の処理は第1実施形態と同様であるから説明を省略する。   Since the process of step S1 and step S2 is the same as that of 1st Embodiment, description is abbreviate | omitted.

ステップS2の処理の後、概形情報生成部(645)が、音声情報データベース(672)のエントリーのFパターン情報(Fパターン微細情報)を読み込んで、このFパターン微細情報からFパターン概形情報を生成する(ステップS2a)。Fパターン概形情報の生成は、第1実施形態において説明したとおりであるから、それに即して説明する(図10、図11、図12参照)。 After step S2, outline information generating unit (645), reads the F 0 pattern information entry of a voice information database (672) (F 0 pattern fine information), F 0 from the F 0 pattern fine information Pattern outline information is generated (step S2a). The generation of the F 0 pattern outline information is as described in the first embodiment, and will be described accordingly (see FIGS. 10, 11, and 12).

パターン概形情報は、Fパターン微細情報におけるFパターンの微細変動部分を補正して生成するが、より具体的には、Fパターン微細情報におけるFパターンの子音に関わるFパターンの微細変動部分を補正することによって生成する。そこで一例として、子音区間(/R/の区間)のFパターンの変微細動を除去することによって、Fパターン概形情報におけるFパターンを得る処理について説明する。 F 0 pattern envelope information is generated by correcting the fine portion of the change in the F 0 pattern in F 0 pattern fine information, more specifically, F 0 according to the consonants F 0 pattern in F 0 pattern fine information It is generated by correcting the fine variation portion of the pattern. So as an example, by removing the variable fine movement of F 0 pattern consonant segment (/ R / interval), it describes the processing of obtaining the F 0 pattern in F 0 pattern approximate shape information.

まず、子音区間(/R/の区間)の両側の各母音区間(/A/および/U/の区間)内で最も高いFパターンの値を示すピーク点を求める(ステップS2a1)。このピーク点は、エントリーにおけるFパターン微細情報および音素継続時間長を参照することによって求めることができる。図11において、/A/の区間では符号202に示す点が、/U/の区間では符号203に示す点が、各母音区間で最も高いFパターンの値のピーク点である。 First, the peak points indicating the value of the highest F 0 pattern in both sides of each vowel section (/ A / and / U / interval) of consonant segment (/ R / interval) (step S2A1). The peak point can be obtained by reference to the F 0 pattern fine information and the phoneme duration in the entry. 11, a / A / interval point indicated by reference numeral 202, the / U / of interval point indicated by reference numeral 203, a peak point of the value of the highest F 0 pattern for each vowel section.

次に、求めた各母音区間それぞれのピーク点間の直線補間を行う(ステップS2a2)。なお、補正方法は直線補間に限定することなく、例えばスプライン補間などによって補正するものでもよい。図11における符号204の破線は、各母音区間それぞれのピーク点間で、直線補間を行うことで得られるFパターンを示している。以上の処理によって、図12に示すようなFパターン(符号205a、205b、205c)を得ることができる。ここで得られたFパターン(符号205a、205b、205c)が、それぞれの音素のFパターン概形情報である。 Next, linear interpolation between the peak points of each obtained vowel section is performed (step S2a2). The correction method is not limited to linear interpolation, but may be corrected by, for example, spline interpolation. A broken line 204 in FIG. 11 indicates an F 0 pattern obtained by performing linear interpolation between the peak points of each vowel section. Through the above processing, it is possible to obtain F 0 pattern as shown in FIG. 12 (reference numeral 205a, 205b, 205c) a. F 0 pattern obtained here (reference numeral 205a, 205b, 205c) is an F 0 pattern envelope information for each phoneme.

なお、以上の説明からも明らかなとおり、補正される(Fパターン微細情報における)Fパターンは、子音部分のFパターンだけなのではなく、母音部分のFパターンの一部(上記例で云えば、/A/のピーク点から終点にかけてのFパターン部分、/U/の始点からピーク点にかけてのFパターン部分)も補正される場合があることに留意しなければならない。 Incidentally, as is apparent from the above description, F 0 pattern (F 0 pattern fine information) corrected by, instead of only F 0 pattern consonant portion, a portion of the F 0 pattern of the vowel portion (the above example as far in, / a / F 0 pattern portion extending the end point from the peak point of the, / U / F 0 pattern portion extending the peak point from the beginning of) must also be noted that it may be corrected.

概形情報生成部(645)は、生成したFパターン概形情報を、該当する音素のエントリーのFパターン情報に追加して記憶する(ステップS2a3)。
つまりこの時点で、エントリーのFパターン情報には、Fパターン微細情報およびFパターン概形情報が含まれることになる(図9参照)。
Outline information generating unit (645) the generated F 0 pattern envelope information, stored in addition to F 0 pattern information of the corresponding phoneme entry (step S2a3).
That at this time, the F 0 pattern information entry will include F 0 patterns fine information and F 0 patterns approximate shape information (see FIG. 9).

なお、全てのエントリーのFパターン情報(Fパターン微細情報)を読み込み、各エントリーについてFパターン微細情報からFパターン概形情報を生成するのであっては冗漫の場合もある。そこで、概形情報生成部(645)は、テキスト解析部(541)によって生成された音素列に含まれる音素について、音声情報データベース(572)の音素ラベルの項目を参照して、そのエントリーのFパターン情報(Fパターン微細情報)を読み込み、各音素についてFパターン概形情報を生成するようにしてもよい。 Incidentally, reads the F 0 pattern information of all entries (F 0 pattern fine information), be from F 0 pattern fine information to generate F 0 pattern envelope information is sometimes a tedious for each entry. Therefore, the outline information generation unit (645) refers to the phoneme label item in the speech information database (572) for the phonemes included in the phoneme string generated by the text analysis unit (541), and the F of the entry. It is also possible to read 0 pattern information (F 0 pattern fine information) and generate F 0 pattern outline information for each phoneme.

ステップS3およびステップS4の処理は第1実施形態と同様であるから説明を省略する。   Since the process of step S3 and step S4 is the same as that of 1st Embodiment, description is abbreviate | omitted.

本発明である音声合成装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、音声波形選択部によるコスト演算におけるサブコストとして、ターゲットのFパターンと候補素片のFパターンとの傾きの一致度を示すサブコストも導入し(式(1)の右辺に加算する。)、そのサブコストの計算にFパターン概形情報におけるFパターンを用いるようにしてもよい。また、上記音声合成装置・方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 The speech synthesizer / method according to the present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the gist of the present invention. For example, as a sub cost in the cost calculation by the speech waveform selection unit, a sub cost indicating the degree of coincidence of inclination between the target F 0 pattern and the candidate segment F 0 pattern is also introduced (added to the right side of Expression (1)). , it may be used F 0 pattern in F 0 pattern envelope information in the calculation of its sub-costs. In addition, the processing described in the speech synthesizer / method is not only executed in chronological order according to the order described, but also executed in parallel or individually as required by the processing capability of the device that executes the processing. It is good.

また、上記音声合成装置における処理機能をコンピュータによって実現する場合、音声合成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記音声合成装置における処理機能がコンピュータ上で実現される。   When the processing functions in the speech synthesizer are realized by a computer, the processing contents of the functions that the speech synthesizer should have are described by a program. Then, by executing this program on a computer, the processing functions in the speech synthesizer are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from the portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、音声合成装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In this embodiment, the speech synthesizer is configured by executing a predetermined program on a computer. However, at least a part of the processing contents may be realized by hardware.

本発明の音声合成装置・方法は、テキスト音声変換に有用である。   The speech synthesizer / method of the present invention is useful for text-to-speech conversion.

従来的な音声合成装置の機能構成例を示す図。The figure which shows the function structural example of the conventional speech synthesizer. 音声情報データベースの一例を示す図。The figure which shows an example of an audio | voice information database. パターン微細情報の一例を示す図。F 0 pattern diagram showing an example of fine information. 音声波形素片選択結果のFパターンの一例を示す図。It illustrates an example of a F 0 pattern of the speech waveform segment selection result. 音声波形素片選択結果のFパターンの一例を示す図。It illustrates an example of a F 0 pattern of the speech waveform segment selection result. 第1実施形態に係わる音声合成装置のハードウェア構成を例示したハードウェア構成図。The hardware block diagram which illustrated the hardware configuration of the speech synthesizer concerning 1st Embodiment. 第1実施形態に係わる音声合成装置の機能構成を例示した機能構成図。The function block diagram which illustrated the function structure of the speech synthesizer concerning 1st Embodiment. 第1実施形態に係わる音声合成の処理フローを示す図。The figure which shows the processing flow of the speech synthesis concerning 1st Embodiment. 第1実施形態に係わる音声情報データベースのデータ構成を示す図。The figure which shows the data structure of the audio | voice information database concerning 1st Embodiment. パターン概形情報の生成方法の一例を示す図(その1)。It illustrates an example of a generation method of F 0 pattern outline information (Part 1). パターン概形情報の生成方法の一例を示す図(その2)。It illustrates an example of a generation method of F 0 pattern outline information (Part 2). パターン概形情報の生成方法の一例を示す図(その3)。It illustrates an example of a generation method of F 0 pattern outline information (Part 3). ターゲットのFパターンの一例を示す図。The figure which shows an example of F0 pattern of a target. 音声波形素片選択結果のFパターンの一例を示す図。It illustrates an example of a F 0 pattern of the speech waveform segment selection result. ターゲットのFパターンと音声波形素片選択結果のFパターンとの関係を示す図(その1)。It shows the relationship between F 0 pattern targets F 0 pattern and the voice waveform segments selected result (Part 1). ターゲットのFパターンと音声波形素片選択結果のFパターンとの関係を示す図(その2)。It shows the relationship between F 0 pattern targets F 0 pattern and the voice waveform segments selected results (Part 2). 第2実施形態に係わる音声合成装置の機能構成を例示した機能構成図。The function block diagram which illustrated the function structure of the speech synthesizer concerning 2nd Embodiment. 第2実施形態に係わる音声合成の処理フローを示す図。The figure which shows the processing flow of the speech synthesis concerning 2nd Embodiment. パターン概形情報を生成する処理フローを示す図。It shows a process flow of generating an F 0 pattern approximate shape information.

符号の説明Explanation of symbols

101 音声波形素片のFパターン(Fパターン微細情報)
102 ターゲットのFパターン
103a 音声波形素片のFパターン(Fパターン微細情報)
103b 音声波形素片のFパターン(Fパターン微細情報)
103c 音声波形素片のFパターン(Fパターン微細情報)
104a 音声波形素片のFパターン(Fパターン微細情報)
104b 音声波形素片のFパターン(Fパターン微細情報)
104c 音声波形素片のFパターン(Fパターン微細情報)
201 音声波形素片のFパターン(Fパターン微細情報)
201 Fパターン概形情報の生成方法の一例における、母音区間内でFパターンの値が最も高いピーク点
203 Fパターン概形情報の生成方法の一例における、母音区間内でFパターンの値が最も高いピーク点
204 Fパターン概形情報の生成方法の一例における直線補間結果
205a 生成された音声波形素片のFパターン(Fパターン概形情報)
205b 生成された音声波形素片のFパターン(Fパターン概形情報)
205c 生成された音声波形素片のFパターン(Fパターン概形情報)
301 ターゲットのFパターン
302a 音声波形素片のFパターン(Fパターン概形情報)
302b 音声波形素片のFパターン(Fパターン概形情報)
302c 音声演形素片のFパターン(Fパターン概形情報)
401 ターゲットのFパターン
402a 音声波形素片のFパターン(Fパターン微細情報)
402b 音声波形素片のFパターン(Fパターン微細情報)
402c 音声波形素片のFパターン(Fパターン微細情報)
403a 音声波形素片のFパターン(Fパターン概形情報)
403b 音声波形素片のFパターン(Fパターン概形情報)
403c 音声波形素片のFパターン(Fパターン概形情報)
404a 音声波形素片のFパターン(Fパターン微細情報)
404b 音声波形素片のFパターン(Fパターン微細情報)
404c 音声波形素片のFパターン(Fパターン微細情報)
405a 音声波形素片のFパターン(Fパターン概形情報)
405b 音声波形素片のFパターン(Fパターン概形情報)
405c 音声波形素片のFパターン(Fパターン概形情報)
500 音声合成装置
541 テキスト解析部
542 韻律生成部
543 音声波形選択部
544 音声合成部
571 音声波形データベース
572 音声情報データベース
600 音声合成装置
645 概形情報生成部
672 音声情報データベース
101 F 0 pattern of speech waveform segment (F 0 pattern fine information)
102 target of the F 0 pattern 103a speech waveform segment of the F 0 pattern (F 0 pattern fine information)
103b F 0 pattern of speech waveform segment (F 0 pattern fine information)
103c F 0 pattern of speech waveform segment (F 0 pattern fine information)
104a F 0 pattern of speech waveform segment (F 0 pattern fine information)
104b F 0 pattern of speech waveform segment (F 0 pattern fine information)
104c F 0 pattern of speech waveform segment (F 0 pattern fine information)
201 F 0 pattern of speech waveform segment (F 0 pattern fine information)
In the example of the method for generating 201 F 0 pattern outline information, the peak point 203 having the highest value of the F 0 pattern in the vowel section 203 In the example of the method for generating F 0 pattern outline information, the F 0 pattern in the vowel section is generated. Peak point 204 with the highest value 204 F 0 pattern outline information generation method in one example of linear interpolation result 205a F 0 pattern of generated speech waveform segment (F 0 pattern outline information)
205b F 0 pattern of the generated voice waveform segments (F 0 pattern envelope information)
205c F 0 pattern of generated speech waveform segment (F 0 pattern outline information)
301 target of the F 0 pattern 302a speech waveform segment of the F 0 pattern (F 0 pattern envelope information)
302b F 0 pattern of speech waveform segment (F 0 pattern outline information)
302c voice演形segment of the F 0 pattern (F 0 pattern approximate shape information)
401 target of the F 0 pattern 402a speech waveform segment of the F 0 pattern (F 0 pattern fine information)
402b F 0 pattern of speech waveform segment (F 0 pattern fine information)
402c speech waveform segment of the F 0 pattern (F 0 pattern fine information)
403a F 0 pattern of speech waveform segment (F 0 pattern outline information)
403b F 0 pattern of speech waveform segment (F 0 pattern outline information)
403c F 0 pattern of speech waveform segment (F 0 pattern outline information)
404a F 0 pattern of speech waveform segment (F 0 pattern fine information)
404b speech waveform segment of the F 0 pattern (F 0 pattern fine information)
404c F 0 pattern of speech waveform segment (F 0 pattern fine information)
405a F 0 pattern of speech waveform segment (F 0 pattern outline information)
405b F 0 pattern of speech waveform segment (F 0 pattern outline information)
405c F 0 pattern of speech waveform segment (F 0 pattern outline information)
500 Speech synthesizer 541 Text analysis unit 542 Prosody generation unit 543 Speech waveform selection unit 544 Speech synthesis unit 571 Speech waveform database 572 Speech information database 600 Speech synthesizer 645 Outline information generation unit 672 Speech information database

Claims (8)

入力されたテキストから当該テキストの音韻系列を生成し、合成音声を組み立てる上で適切な単位(合成単位)で、この音韻系列に対応する音声波形データを音声波形データベースから読み込み、これらの音声波形データを接続して音声を合成する音声合成装置であって、
入力されたテキストを解析して当該テキストの音韻系列を生成するテキスト解析手段と、
テキスト解析手段によって生成された音韻系列から、少なくとも合成単位ごとの音声のFパターン情報を含む韻律情報を生成する韻律生成手段と、
合成単位ごとの音声波形データを集めた音声波形データベースおよび、合成単位ごとの音声のFパターン情報を含む韻律情報と音声波形データベースにおける音声波形データとの対応を示すエントリーからなる音声情報データベースを記憶する記憶手段と、
テキスト解析手段によって生成された音韻系列に従い、少なくとも、韻律生成手段によって生成された韻律情報と音声情報データベースにおけるエントリーの韻律情報との距離尺度(コスト)を演算し、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択する音声波形選択手段と、
音声波形選択手段によって選択されたエントリーに従って音声波形データベースから音声波形データを読み込み、これら音声波形データを接続して音声を合成する音声合成手段と
を備え、
音声情報データベースのエントリーにおける合成単位ごとの音声のFパターン情報は、
肉声のFパターンの微細変動を保持したFパターン微細情報および、Fパターン微細情報における子音部分を挟む両側の母音部分それぞれのF パターン微細情報の最大値を示すピーク点間を補間することによって生成したFパターン概形情報から構成され、
音声波形選択手段におけるコストの演算には、少なくとも、韻律生成手段によって生成された韻律情報におけるFパターン情報と、音声情報データベースのエントリーにおけるFパターン概形情報とのコストの演算を含む
ことを特徴とする音声合成装置。
Generates a phoneme sequence of the text from the input text, reads speech waveform data corresponding to this phoneme sequence from the speech waveform database in an appropriate unit (synthesis unit) for assembling the synthesized speech, and extracts these speech waveform data A speech synthesizer that synthesizes speech by connecting
Text analysis means for analyzing the input text and generating a phoneme sequence of the text;
Prosody generation means for generating prosody information including at least F 0 pattern information of speech for each synthesis unit from the phoneme sequence generated by the text analysis means;
Speech waveform database were collected sound waveform data for each synthesis unit and stores voice information database of entries indicating the correspondence between the speech waveform data in the prosodic information and the speech waveform database including F 0 pattern information of the speech for each synthesis unit Storage means for
In accordance with the phoneme sequence generated by the text analysis means, at least the distance measure (cost) between the prosody information generated by the prosody generation means and the prosodic information of the entry in the speech information database is calculated, and the prosody that minimizes the calculation result Voice waveform selection means for selecting an entry having information from a voice information database;
A voice synthesis unit that reads voice waveform data from the voice waveform database according to the entry selected by the voice waveform selection unit, and connects the voice waveform data to synthesize a voice;
The voice F0 pattern information for each synthesis unit in the voice information database entry is
F 0 pattern fine information and holding the fine variation of F 0 pattern of real voice, between the peak point showing the maximum value of F 0 pattern of each vowel portion of both sides of the consonant portion that put the fine information F 0 pattern fine information Consists of F 0 pattern outline information generated by interpolation ,
The cost calculation in the speech waveform selection means includes at least the cost calculation of the F 0 pattern information in the prosodic information generated by the prosody generation means and the F 0 pattern outline information in the entry of the speech information database. A featured voice synthesizer.
入力されたテキストから当該テキストの音韻系列を生成し、合成音声を組み立てる上で適切な単位(合成単位)で、この音韻系列に対応する音声波形データを音声波形データベースから読み込み、これらの音声波形データを接続して音声を合成する音声合成装置であって、
入力されたテキストを解析して当該テキストの音韻系列を生成するテキスト解析手段と、
テキスト解析手段によって生成された音韻系列から、少なくとも合成単位ごとの音声のFパターン情報を含む韻律情報を生成する韻律生成手段と、
合成単位ごとの音声波形データを集めた音声波形データベースおよび、合成単位ごとの音声のFパターン微細情報を含む韻律情報と音声波形データベースにおける音声波形データとの対応を示すエントリーからなる音声情報データベースを記憶する記憶手段と、
音声情報データベースのエントリーにおける合成単位ごとの音声のFパターン微細情報における子音部分を挟む両側の母音部分それぞれのF パターン微細情報の最大値を示すピーク点間を補間することによってF パターン概形情報を生成する概形情報生成手段と、
テキスト解析手段によって生成された音韻系列に従い、少なくとも、韻律生成手段によって生成された韻律情報と音声情報データベースにおけるエントリーの韻律情報との距離尺度(コスト)を演算し、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択する音声波形選択手段と、
音声波形選択手段によって選択されたエントリーに従って音声波形データベースから音声波形データを読み込み、これら音声波形データを接続して音声を合成する音声合成手段と
を備え、
音声波形選択手段におけるコストの演算には、少なくとも、韻律生成手段によって生成された韻律情報におけるFパターン情報と、概形情報生成手段によって生成されたFパターン概形情報とのコストの演算を含む
ことを特徴とする音声合成装置。
Generates a phoneme sequence of the text from the input text, reads speech waveform data corresponding to this phoneme sequence from the speech waveform database in an appropriate unit (synthesis unit) for assembling the synthesized speech, and extracts these speech waveform data A speech synthesizer that synthesizes speech by connecting
Text analysis means for analyzing the input text and generating a phoneme sequence of the text;
Prosody generation means for generating prosody information including at least F 0 pattern information of speech for each synthesis unit from the phoneme sequence generated by the text analysis means;
Speech waveform database were collected sound waveform data for each synthesis unit and a voice information database of entries indicating the correspondence between the speech waveform data in the prosodic information and the speech waveform database including F 0 pattern fine information of the speech for each synthesis unit Storage means for storing;
F 0 pattern by interpolating between peak point showing the maximum value of F 0 pattern fine information of each vowel portion of both sides of the consonant portions in the F 0 pattern fine information of speech each synthesis unit in the entry of the audio information database Outline information generating means for generating outline information;
In accordance with the phoneme sequence generated by the text analysis means, at least the distance measure (cost) between the prosody information generated by the prosody generation means and the prosodic information of the entry in the speech information database is calculated, and the prosody that minimizes the calculation result Voice waveform selection means for selecting an entry having information from a voice information database;
A voice synthesis unit that reads voice waveform data from the voice waveform database according to the entry selected by the voice waveform selection unit, and connects the voice waveform data to synthesize a voice;
The cost of the operation in the audio waveform selecting means, at least, a F 0 pattern information in prosody information generated by the prosody generation means, the cost of operation of the F 0 pattern envelope information generated by the envelope information generator A speech synthesizer comprising:
音声波形選択手段は、
テキスト解析手段によって生成された音韻系列に従い、韻律生成手段によって生成された韻律情報と音声情報データベースにおけるエントリーの韻律情報との距離尺度(コスト)および各エントリー間のコストを演算し、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択するものであり、
各エントリー間のコストの演算には、少なくとも各エントリーにおけるFパターン微細情報間のコストの演算を含む
ことを特徴とする請求項1または2に記載の音声合成装置。
The voice waveform selection means
According to the phoneme sequence generated by the text analysis means, the distance measure (cost) between the prosodic information generated by the prosody generation means and the prosodic information of the entry in the speech information database and the cost between each entry are calculated. The entry having the minimum prosodic information is selected from the speech information database,
The calculation of the cost between each entry, speech synthesis apparatus according to claim 1 or 2, characterized in that it comprises the calculation of the costs between F 0 pattern fine information in at least each entry.
入力されたテキストから当該テキストの音韻系列を生成し、合成音声を組み立てる上で適切な単位(合成単位)で、この音韻系列に対応する音声波形データを音声波形データベースから読み込み、これらの音声波形データを接続して音声を合成する音声合成方法であって、
記憶手段には、合成単位ごとの音声波形データを集めた音声波形データベースおよび、合成単位ごとの音声のFパターン情報を含む韻律情報と音声波形データベースにおける音声波形データとの対応を示すエントリーからなる音声情報データベースを記憶し、
テキスト解析手段が、入力されたテキストを解析して当該テキストの音韻系列を生成するテキスト解析ステップと、
韻律生成手段が、テキスト解析ステップにおいて生成された音韻系列から、少なくとも合成単位ごとの音声のFパターン情報を含む韻律情報を生成する韻律生成ステップと、
音声波形選択手段が、テキスト解析ステップにおいて生成された音韻系列に従い、少なくとも、韻律生成ステップにおいて生成された韻律情報と、記憶手段に記憶される音声情報データベースにおけるエントリーの韻律情報との距離尺度(コスト)を演算し、この演算結果が最小となる韻律情報を有するエントリーを記憶手段に記憶される音声情報データベースから選択する音声波形選択ステップと、
音声合成手段が、音声波形選択ステップにおいて選択されたエントリーに従って記憶手段に記憶される音声波形データベースから音声波形データを読み込み、これら音声波形データを接続して音声を合成する音声合成ステップと
を有し、
記憶手段に記憶される音声情報データベースのエントリーにおける合成単位ごとの音声のFパターン情報は、
肉声のFパターンの微細変動を保持したFパターン微細情報および、Fパターン微細情報における子音部分を挟む両側の母音部分それぞれのF パターン微細情報の最大値を示すピーク点間を補間することによって生成したFパターン概形情報から構成され、
音声波形選択ステップにおけるコストの演算には、少なくとも、韻律生成ステップにおいて生成された韻律情報におけるFパターン情報と、音声情報データベースのエントリーにおけるFパターン概形情報とのコストの演算を含む
ことを特徴とする音声合成方法。
Generates a phoneme sequence of the text from the input text, reads speech waveform data corresponding to this phoneme sequence from the speech waveform database in an appropriate unit (synthesis unit) for assembling the synthesized speech, and extracts these speech waveform data Is a speech synthesis method for synthesizing speech by connecting
The storage unit, and the speech waveform database were collected sound waveform data for each synthesis unit, consisting of an entry showing the correspondence between the speech waveform data in the prosodic information and the speech waveform database including F 0 pattern information of the speech for each synthesis unit Memorize voice information database,
A text analysis step in which the text analysis means analyzes the input text to generate a phoneme sequence of the text;
A prosody generation step in which prosody generation means generates prosody information including at least F 0 pattern information of speech for each synthesis unit from the phoneme sequence generated in the text analysis step;
The speech waveform selection means, according to the phoneme sequence generated in the text analysis step, at least a distance measure (cost) between the prosody information generated in the prosody generation step and the prosodic information of the entry in the speech information database stored in the storage means A speech waveform selection step of selecting an entry having prosodic information that minimizes the computation result from a speech information database stored in the storage means;
The voice synthesis means includes a voice synthesis step of reading voice waveform data from the voice waveform database stored in the storage means according to the entry selected in the voice waveform selection step, and synthesizing voice by connecting the voice waveform data. ,
The voice F 0 pattern information for each synthesis unit in the voice information database entry stored in the storage means is:
F 0 pattern fine information and holding the fine variation of F 0 pattern of real voice, between the peak point showing the maximum value of F 0 pattern of each vowel portion of both sides of the consonant portion that put the fine information F 0 pattern fine information Consists of F 0 pattern outline information generated by interpolation ,
The cost calculation in the speech waveform selection step includes at least the cost calculation of the F 0 pattern information in the prosody information generated in the prosody generation step and the F 0 pattern outline information in the entry of the speech information database. A featured speech synthesis method.
入力されたテキストから当該テキストの音韻系列を生成し、合成音声を組み立てる上で適切な単位(合成単位)で、この音韻系列に対応する音声波形データを音声波形データベースから読み込み、これらの音声波形データを接続して音声を合成する音声合成方法であって、
記憶手段が、合成単位ごとの音声波形データを集めた音声波形データベースおよび、合成単位ごとの音声のFパターン微細情報を含む韻律情報と音声波形データベースにおける音声波形データとの対応を示すエントリーからなる音声情報データベースを記憶し、
テキスト解析手段が、入力されたテキストを解析して当該テキストの音韻系列を生成するテキスト解析ステップと、
韻律生成手段が、テキスト解析ステップにおいて生成された音韻系列から、少なくとも合成単位ごとの音声のFパターン情報を含む韻律情報を生成する韻律生成ステップと、
概形情報生成手段が、記憶手段に記憶される音声情報データベースのエントリーにおける合成単位ごとの音声のFパターン微細情報における子音部分を挟む両側の母音部分それぞれのF パターン微細情報の最大値を示すピーク点間を補間することによってF パターン概形情報を生成する概形情報生成ステップと、
音声波形選択手段が、テキスト解析ステップにおいて生成された音韻系列に従い、少なくとも、韻律生成ステップにおいて生成された韻律情報と、記憶手段に記憶される音声情報データベースにおけるエントリーの韻律情報との距離尺度(コスト)を演算し、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択する音声波形選択ステップと、
音声合成手段が、音声波形選択ステップにおいて選択されたエントリーに従って記憶手段に記憶される音声波形データベースから音声波形データを読み込み、これら音声波形データを接続して音声を合成する音声合成ステップと
を有し、
音声波形選択ステップにおけるコストの演算には、少なくとも、韻律生成ステップにおいて生成された韻律情報におけるFパターン情報と、概形情報生成ステップにおいて生成されたFパターン概形情報とのコストの演算を含む
ことを特徴とする音声合成方法。
Generates a phoneme sequence of the text from the input text, reads speech waveform data corresponding to this phoneme sequence from the speech waveform database in an appropriate unit (synthesis unit) for assembling the synthesized speech, and extracts these speech waveform data Is a speech synthesis method for synthesizing speech by connecting
Storage means, and speech waveform database were collected sound waveform data for each synthesis unit, consisting of an entry showing the correspondence between the speech waveform data in the prosodic information and the speech waveform database including F 0 pattern fine information of the speech for each synthesis unit Memorize voice information database,
A text analysis step in which the text analysis means analyzes the input text to generate a phoneme sequence of the text;
A prosody generation step in which prosody generation means generates prosody information including at least F 0 pattern information of speech for each synthesis unit from the phoneme sequence generated in the text analysis step;
Envelope information generating means, the maximum value of the audio of F 0 pattern of each vowel portion of both sides of the consonant portions in the fine information F 0 pattern fine information for each synthetic unit in the entry of the audio information database stored in the storage means An outline information generation step for generating F 0 pattern outline information by interpolating between peak points indicating
The speech waveform selection means, according to the phoneme sequence generated in the text analysis step, at least a distance measure (cost) between the prosody information generated in the prosody generation step and the prosodic information of the entry in the speech information database stored in the storage means ) And selecting an entry having prosodic information that minimizes the calculation result from the speech information database;
The voice synthesis means includes a voice synthesis step of reading voice waveform data from the voice waveform database stored in the storage means according to the entry selected in the voice waveform selection step, and synthesizing voice by connecting the voice waveform data. ,
The cost of the operation in the speech waveform selecting step, at least, a F 0 pattern information in prosody information generated in the prosody generation step, the cost of operation of the F 0 pattern outline information generated at the approximate shape information generating step A speech synthesis method comprising:
音声波形選択ステップは、
テキスト解析ステップにおいて生成された音韻系列に従い、韻律生成ステップにおいて生成された韻律情報と音声情報データベースにおけるエントリーの韻律情報との距離尺度(コスト)および各エントリー間のコストを演算し、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択するものであり、
各エントリー間のコストの演算には、少なくとも各エントリーにおけるFパターン微細情報間のコストの演算を含む
ことを特徴とする請求項4または5に記載の音声合成方法。
The voice waveform selection step
In accordance with the phoneme sequence generated in the text analysis step, the distance measure (cost) between the prosodic information generated in the prosody generation step and the prosodic information of the entry in the speech information database and the cost between each entry are calculated. The entry having the minimum prosodic information is selected from the speech information database,
The cost of operation between each entry, speech synthesis method according to claim 4 or 5, characterized in that it comprises the calculation of the costs between F 0 pattern fine information in at least each entry.
請求項1から請求項3のいずれかに記載された音声合成装置としてコンピュータを機能させるための音声合成プログラム。 A speech synthesis program for causing a computer to function as the speech synthesizer according to any one of claims 1 to 3 . 請求項7に記載の音声合成プログラムを記録した、コンピュータによって読み取り可能なプログラム記録媒体。 A computer-readable program recording medium on which the speech synthesis program according to claim 7 is recorded.
JP2005186454A 2005-06-27 2005-06-27 Speech synthesis apparatus, speech synthesis method, speech synthesis program, and recording medium therefor Expired - Fee Related JP4533255B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005186454A JP4533255B2 (en) 2005-06-27 2005-06-27 Speech synthesis apparatus, speech synthesis method, speech synthesis program, and recording medium therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005186454A JP4533255B2 (en) 2005-06-27 2005-06-27 Speech synthesis apparatus, speech synthesis method, speech synthesis program, and recording medium therefor

Publications (2)

Publication Number Publication Date
JP2007004011A JP2007004011A (en) 2007-01-11
JP4533255B2 true JP4533255B2 (en) 2010-09-01

Family

ID=37689677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005186454A Expired - Fee Related JP4533255B2 (en) 2005-06-27 2005-06-27 Speech synthesis apparatus, speech synthesis method, speech synthesis program, and recording medium therefor

Country Status (1)

Country Link
JP (1) JP4533255B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292720A (en) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 Speech synthesis method, speech synthesis device, computer readable medium and electronic equipment

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2421827C2 (en) * 2009-08-07 2011-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Speech synthesis method
JP5366919B2 (en) * 2010-12-07 2013-12-11 日本電信電話株式会社 Speech synthesis method, apparatus, and program
JP5411845B2 (en) * 2010-12-28 2014-02-12 日本電信電話株式会社 Speech synthesis method, speech synthesizer, and speech synthesis program
CN113539239A (en) * 2021-07-12 2021-10-22 网易(杭州)网络有限公司 Voice conversion method, device, storage medium and electronic equipment

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097291A (en) * 1996-09-20 1998-04-14 Matsushita Electric Ind Co Ltd Pitch converting method for vcv waveform connection speech, and speech synthesizer
JP2000066695A (en) * 1998-08-18 2000-03-03 Ntt Data Corp Element dictionary, and voice synthesizing method and device therefor
JP2002189489A (en) * 2000-02-18 2002-07-05 Victor Co Of Japan Ltd Speech synthesizer
WO2003019528A1 (en) * 2001-08-22 2003-03-06 International Business Machines Corporation Intonation generating method, speech synthesizing device by the method, and voice server
JP2004109535A (en) * 2002-09-19 2004-04-08 Nippon Hoso Kyokai <Nhk> Method, device, and program for speech synthesis
JP2004126205A (en) * 2002-10-02 2004-04-22 Nippon Telegr & Teleph Corp <Ntt> Method, device, and program for voice synthesis
JP2005091551A (en) * 2003-09-16 2005-04-07 Advanced Telecommunication Research Institute International Voice synthesizer, cost calculating device for it, and computer program

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097291A (en) * 1996-09-20 1998-04-14 Matsushita Electric Ind Co Ltd Pitch converting method for vcv waveform connection speech, and speech synthesizer
JP2000066695A (en) * 1998-08-18 2000-03-03 Ntt Data Corp Element dictionary, and voice synthesizing method and device therefor
JP2002189489A (en) * 2000-02-18 2002-07-05 Victor Co Of Japan Ltd Speech synthesizer
WO2003019528A1 (en) * 2001-08-22 2003-03-06 International Business Machines Corporation Intonation generating method, speech synthesizing device by the method, and voice server
JP2004109535A (en) * 2002-09-19 2004-04-08 Nippon Hoso Kyokai <Nhk> Method, device, and program for speech synthesis
JP2004126205A (en) * 2002-10-02 2004-04-22 Nippon Telegr & Teleph Corp <Ntt> Method, device, and program for voice synthesis
JP2005091551A (en) * 2003-09-16 2005-04-07 Advanced Telecommunication Research Institute International Voice synthesizer, cost calculating device for it, and computer program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292720A (en) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 Speech synthesis method, speech synthesis device, computer readable medium and electronic equipment
CN111292720B (en) * 2020-02-07 2024-01-23 北京字节跳动网络技术有限公司 Speech synthesis method, device, computer readable medium and electronic equipment

Also Published As

Publication number Publication date
JP2007004011A (en) 2007-01-11

Similar Documents

Publication Publication Date Title
US8338687B2 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
EP2270773B1 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
US7454343B2 (en) Speech synthesizer, speech synthesizing method, and program
JP4738057B2 (en) Pitch pattern generation method and apparatus
JP4551803B2 (en) Speech synthesizer and program thereof
US8315871B2 (en) Hidden Markov model based text to speech systems employing rope-jumping algorithm
JP4406440B2 (en) Speech synthesis apparatus, speech synthesis method and program
US8626510B2 (en) Speech synthesizing device, computer program product, and method
JP2007249212A (en) Method, computer program and processor for text speech synthesis
JP2008033133A (en) Voice synthesis device, voice synthesis method and voice synthesis program
JP4533255B2 (en) Speech synthesis apparatus, speech synthesis method, speech synthesis program, and recording medium therefor
JP4247289B1 (en) Speech synthesis apparatus, speech synthesis method and program thereof
JP5512597B2 (en) Speech synthesis apparatus, method and program thereof
JP5874639B2 (en) Speech synthesis apparatus, speech synthesis method, and speech synthesis program
JP3109778B2 (en) Voice rule synthesizer
JP2008015424A (en) Pattern specification type speech synthesis method, pattern specification type speech synthesis apparatus, its program, and storage medium
JP4167084B2 (en) Speech synthesis method and apparatus, and speech synthesis program
JP5393546B2 (en) Prosody creation device and prosody creation method
JP5387410B2 (en) Speech synthesis apparatus, speech synthesis method, and speech synthesis program
EP1589524B1 (en) Method and device for speech synthesis
JP3737788B2 (en) Basic frequency pattern generation method, basic frequency pattern generation device, speech synthesis device, fundamental frequency pattern generation program, and speech synthesis program
JP2006084854A (en) Device, method, and program for speech synthesis
JP2007079019A (en) Method and device for speech synthesis, and computer program
EP1640968A1 (en) Method and device for speech synthesis
JPH1097268A (en) Speech synthesizing device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100611

R150 Certificate of patent or registration of utility model

Ref document number: 4533255

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130618

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140618

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees