JP2007114236A - 音声合成装置および音声合成プログラム - Google Patents
音声合成装置および音声合成プログラム Download PDFInfo
- Publication number
- JP2007114236A JP2007114236A JP2005302440A JP2005302440A JP2007114236A JP 2007114236 A JP2007114236 A JP 2007114236A JP 2005302440 A JP2005302440 A JP 2005302440A JP 2005302440 A JP2005302440 A JP 2005302440A JP 2007114236 A JP2007114236 A JP 2007114236A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- data
- voice
- correlation
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】音声合成装置1は、入力されたテキストデータの音声合成を、音声波形と音声合成する際の探索単位の発話時間とを対応付けた複数の音声データを記憶している音声データ蓄積手段5を用いて行うものであって、探索単位分割手段3と、複数窓幅相互相関音声データ探索手段7と、音声データ連結手段9と、合成音声出力手段11と、を備える。
【選択図】図1
Description
この従来の音声合成装置には、読み上げられた複数の文章(サンプル文章)の音声波形信号が記録されており、且つ、これらの文章を構成する音素の発話時刻が記録されている音声データベースが備えられている。
連結スコアは、分割された音素列同士の基本周波数の差の自乗等を利用して得られたスコアである。
〈音声合成装置(第一実施形態)の構成〉
図1は音声合成装置のブロック図である。この図1に示すように、音声合成装置1は、入力されたテキストデータを、蓄積されている複数の音声データを用いて、音声合成する、つまり、音声合成結果(音声データ列、すなわち、合成音声)を出力するもので、探索単位分割手段3と、音声データ蓄積手段(音声データベース)5と、複数窓幅相互相関音声データ探索手段7と、音声データ連結手段9と、合成音声出力手段11とを備えている。
このように、探索単位が音素である場合、音声データ蓄積手段5に蓄積されている音声データは、音素または複数の音素を接続した音素列を基盤としている。この場合、音声データ蓄積手段5では、複数の音素または音素列からなる複数の文章が構成単位とされ、各文章には文番号が付されており、各音素または各音素列の発話時間が記録されている。
次に、図4に示すフローチャートを参照して、音声合成装置1の動作について説明する(適宜、図1参照)。
まず、音声合成装置1は、探索単位分割手段3によって、入力されたテキストデータを探索単位に分割する(ステップS1)。続いて、音声合成装置1は、複数窓幅相互相関音声データ探索手段7によって、探索単位分割手段3で分割された探索単位について、音声データ蓄積手段5に蓄積されている音声データの中から、音声データ同士の複数窓幅による相互相関の最大値を連結スコアとし、この連結スコアが最大となる音声データの組み合わせを探索する(ステップS2)。この組み合わせが音声データ列として音声データ連結手段9に出力される。
図2は音声合成装置(第二実施形態)のブロック図である。この図2に示すように、音声合成装置1Aは、入力された数値列を音声合成した合成音声を出力するもので、桁分割手段13と、音声データ蓄積手段5aと、複数窓幅相互相関音声データ探索手段7aと、音声データ連結手段9aと、合成音声出力手段11aとを備えている。
次に、図5に示すフローチャートを参照して、音声合成装置1Aの動作について説明する(適宜、図2参照)。
まず、音声合成装置1Aは、桁分割手段13によって、入力された数値列を探索単位に分割する(ステップS11)。続いて、音声合成装置1Aは、複数窓幅相互相関音声データ探索手段7aによって、桁分割手段13で分割された桁分割候補を探索単位とし、この探索単位について、音声データ蓄積手段5aに蓄積されている音声データの中から、音声データ同士の複数窓幅による相互相関の値を連結スコアとし、この連結スコアが最大となる音声データの組み合わせを探索する(ステップS12)。この組み合わせが音声データ列として音声データ連結手段9aに出力される。
図3は音声合成装置(第三実施形態)のブロック図である。この図3に示すように、音声合成装置1Bは、入力されたテキストデータを形態素解析して、音素を探索単位として音声合成を行うもので、形態素解析手段15と、音素クラスタリング手段17と、音素アクセントクラスタリング手段19と、テキストデータ音素列分割手段21と、音声データ蓄積手段5bと、複数窓幅相互相関音声データ探索手段7bと、音声データ連結手段9bと、合成音声出力手段11bとを備えている。
次に、図6に示すフローチャート参照して、音声合成装置1Bの動作について説明する(適宜、図3参照)。
まず、音声合成装置1Bは、入力されたテキストデータを、形態素解析手段15によって、形態素解析し(ステップS21)、音素クラスタリング手段17にアクセント付の音素を出力する。
3 探索単位分割手段
5、5a、5b 音声データ蓄積手段(音声データベース)
7、7a、7b 複数窓幅相互相関音声データ探索手段
9、9a、9b 音声データ連結手段
10、10a、10b 音声データ補正手段
11、11a、11b 合成音声出力手段
13 桁分割手段
15 形態素解析手段
17 音素クラスタリング手段
19 音素アクセントクラスタリング手段
21 テキストデータ音素列分割手段
Claims (7)
- 入力されたテキストデータの音声合成を、音声波形と音声合成する際の探索単位の発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行う音声合成装置であって、
前記音声データベースと、
前記テキストデータを前記探索単位に分割する探索単位分割手段と、
この探索単位分割手段で分割された探索単位について、前記音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる前記音声データの組み合わせを、前記音声データベースから探索する複数窓幅相互相関音声データ探索手段と、
この複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結する音声データ連結手段と、
この音声データ連結手段で連結された音声データ列の音声波形を、合成音声として出力する合成音声出力手段と、
を備えることを特徴とする音声合成装置。 - 入力された複数の数値がならぶ数値列の音声合成を、音声波形と桁区切りごとの発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行う音声合成装置であって、
前記音声データベースと、
前記数値列を、各桁に分割する桁分割手段と、
この桁分割手段で前記数値列が各桁に分割された各桁分割候補を探索単位とし、この探索単位について、前記音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる前記音声データの組み合わせを、前記音声データベースから探索する複数窓幅相互相関音声データ探索手段と、
この複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結する音声データ連結手段と、
この音声データ連結手段で連結された音声データ列の音声波形を、合成音声として出力する合成音声出力手段と、
を備えることを特徴とする音声合成装置。 - 入力されたテキストデータの音声合成を、音声波形と音素の発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行う音声合成装置であって、
前記音声データベースと、
前記テキストデータを形態素解析し、アクセント付の音素に変換する形態素解析手段と、
この形態素解析手段で変換されたアクセント付の音素について、任意の音素と前後に接続された音素とによりクラスタリングを行う音素クラスタリング手段と、
この音素クラスタリング手段でクラスタリングされたクラスタリング音素を、前後に接続した母音のアクセントによりクラスタリングを行う音素アクセントクラスタリング手段と、
この音素アクセントクラスタリング手段で得られたクラスタリングされたテキストデータを、予め登録しておいた登録音素列に従って分割するテキストデータ音素列分割手段と、
このテキストデータ音素列分割手段で分割された音素列を探索単位とし、前記音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる前記音声データの組み合わせを、前記音声データベースから探索する複数窓幅相互相関音声データ探索手段と、
この複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結する音声データ連結手段と、
この音声データ連結手段で連結された音声データの音声波形を、合成音声として出力する合成音声出力手段と、
を備えることを特徴とする音声合成装置。 - 前記複数窓幅相互相関音声データ探索手段における前記音声データ同士の複数窓幅による相互相関の最大値の計算は、
前記音声データの双方が有声音である場合、
接続点前後の音声データを用い、
前記音声データのいずれかが無声音である場合、
接続点直近の有声音の音声データを用いることを特徴とする請求項1から3までのいずれか一項に記載の音声合成装置。 - 前記複数窓幅相互相関音声データ探索手段は、
前記音声データ同士の複数窓幅による相互相関の最大値を予め計算してテーブル化した連結スコアテーブルを用いて、前記音声データの組み合わせを、前記音声データベースから探索することを特徴とする請求項1から4までのいずれか一項に記載の音声合成装置。 - 前記音声データ連結手段は、
前記複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結する際に、当該音声波形の連結箇所における特徴量が連続するように補正する音声データ補正手段を備えることを特徴とする請求項1から5までのいずれか一項に記載の音声合成装置。 - 入力されたテキストデータの音声合成を、音声波形と音声合成する際の探索単位の発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行うために、コンピュータを、
前記テキストデータを前記探索単位に分割する探索単位分割手段、
この探索単位分割手段で分割された探索単位について、前記音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる前記音声データの組み合わせを、前記音声データベースから探索する複数窓幅相互相関音声データ探索手段、
この複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結する音声データ連結手段、
この音声データ連結手段で連結された音声データ列の音声波形を、合成音声として出力する合成音声出力手段、
として機能させることを特徴とする音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005302440A JP4839058B2 (ja) | 2005-10-18 | 2005-10-18 | 音声合成装置および音声合成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005302440A JP4839058B2 (ja) | 2005-10-18 | 2005-10-18 | 音声合成装置および音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007114236A true JP2007114236A (ja) | 2007-05-10 |
JP4839058B2 JP4839058B2 (ja) | 2011-12-14 |
Family
ID=38096533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005302440A Active JP4839058B2 (ja) | 2005-10-18 | 2005-10-18 | 音声合成装置および音声合成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4839058B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0247700A (ja) * | 1988-08-10 | 1990-02-16 | Nippon Hoso Kyokai <Nhk> | 音声合成方法および装置 |
JP2001282278A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理装置及びその方法と記憶媒体 |
JP2002530703A (ja) * | 1998-11-13 | 2002-09-17 | ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ | 音声波形の連結を用いる音声合成 |
JP2004139033A (ja) * | 2002-09-25 | 2004-05-13 | Nippon Hoso Kyokai <Nhk> | 音声合成方法、音声合成装置および音声合成プログラム |
-
2005
- 2005-10-18 JP JP2005302440A patent/JP4839058B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0247700A (ja) * | 1988-08-10 | 1990-02-16 | Nippon Hoso Kyokai <Nhk> | 音声合成方法および装置 |
JP2002530703A (ja) * | 1998-11-13 | 2002-09-17 | ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ | 音声波形の連結を用いる音声合成 |
JP2001282278A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理装置及びその方法と記憶媒体 |
JP2004139033A (ja) * | 2002-09-25 | 2004-05-13 | Nippon Hoso Kyokai <Nhk> | 音声合成方法、音声合成装置および音声合成プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4839058B2 (ja) | 2011-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7890330B2 (en) | Voice recording tool for creating database used in text to speech synthesis system | |
EP2140447B1 (en) | System and method for hybrid speech synthesis | |
JP5208352B2 (ja) | 声調言語用分節声調モデリング | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
US20200365137A1 (en) | Text-to-speech (tts) processing | |
JPH10171484A (ja) | 音声合成方法および装置 | |
JP2004258658A (ja) | 単語間音素情報を利用した連続音声認識方法および装置 | |
JP6127422B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP4225128B2 (ja) | 規則音声合成装置及び規則音声合成方法 | |
JP2013061591A (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
KR100259777B1 (ko) | 텍스트/음성변환기에서의최적합성단위열선정방법 | |
US20070203706A1 (en) | Voice analysis tool for creating database used in text to speech synthesis system | |
JP5328703B2 (ja) | 韻律パターン生成装置 | |
JP4839058B2 (ja) | 音声合成装置および音声合成プログラム | |
JP3109778B2 (ja) | 音声規則合成装置 | |
JP5174392B2 (ja) | アクセント句マッチング事前選択を用いた日本語音声合成方法及びシステム | |
JP4580317B2 (ja) | 音声合成装置および音声合成プログラム | |
Houidhek et al. | Statistical modelling of speech units in HMM-based speech synthesis for Arabic | |
JP2021148942A (ja) | 声質変換システムおよび声質変換方法 | |
JP3854593B2 (ja) | 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム | |
JP3883318B2 (ja) | 音声素片作成方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080606 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110906 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111003 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141007 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4839058 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |