JP4282609B2 - 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム - Google Patents
基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム Download PDFInfo
- Publication number
- JP4282609B2 JP4282609B2 JP2005002920A JP2005002920A JP4282609B2 JP 4282609 B2 JP4282609 B2 JP 4282609B2 JP 2005002920 A JP2005002920 A JP 2005002920A JP 2005002920 A JP2005002920 A JP 2005002920A JP 4282609 B2 JP4282609 B2 JP 4282609B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- accent
- fundamental frequency
- text
- representative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための(あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための)プログラムとしても成立し、該プログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。
(1)第1の代表パターンと、自然音声の基本周波数パターンを、クラスタ内においてアクセント型にかかわらずに少なくともモーラ数が同一になるようクラスタリングすることによって作成された第3の代表パターンとを用いる構成や、
(2)第2の代表パターンと、第3の代表パターンとを用いる構成や、
(3)第1の代表パターンと、第2の代表パターンと、第3の代表パターンとを用いる構成も可能である。
これらの場合にも、代表パターンのクラスタリングや選択に、上記の他に、アクセント句毎の(アクセント型及びモーラ数以外の)言語情報、及び又は、アクセント句毎若しくはフレーズ等の他の単位毎の属性情報にも基づいて行うことも可能である。
Claims (11)
- 複数の音声データから抽出されるアクセント句単位の複数の基本周波数パターンを、同一クラスタ内においてモーラ数にかかわらずに少なくともアクセント型が同じになるようにクラスタリングして得られた、クラスタ毎の代表パターンを記憶する第1のパターン記憶手段と、
複数の音声データから抽出されるアクセント句単位の複数の基本周波数パターンを、同一クラスタ内において少なくともアクセント型が同じになり且つモーラ数が同じになる又は同じ範囲に属するようにクラスタリングして得られた、クラスタ毎の代表パターンを記憶する第2のパターン記憶手段と、
音声合成対象となるテキストを解析することにより得られるアクセント句毎の言語情報であって少なくともアクセント型及びモーラ数を含むものに基づいて、該テキストのアクセント句毎に、前記第1のパターン記憶手段及び前記第2のパターン記憶手段からそれぞれ1又は複数ずつ代表パターンを選択するパターン選択手段と、
前記テキストのアクセント句毎に、選択された前記代表パターンをそれぞれ当該テキストのアクセント句に対応するように配置する配置手段と、
前記テキストのアクセント句毎に、配置された複数の前記代表パターンから1つの基本周波数パターンを生成するパターン融合生成手段と、
前記テキストのアクセント句毎に生成された前記基本周波数パターンを接続して、前記テキストに対応する1つの基本周波数パターンを生成するパターン接続手段とを備えたことを特徴とする基本周波数パターン生成装置。 - 前記第1のパターン記憶手段に記憶された前記代表パターン及び前記第2のパターン記憶手段に記憶された前記代表パターンは、同一クラスタ内において前記アクセント句に係る属性情報も同じになる又は同じ範囲に属するようにクラスタリングして得られたものであり、
前記パターン選択手段は、前記アクセント句に係る属性情報にも基づいて、前記選択を行うことを特徴とする請求項1に記載の基本周波数パターン生成装置。 - 前記属性情報は、プロミネンスに関する情報、発話スタイルの情報、意図を表す情報、心的態度を表す情報のうち少なくとも1つを含むものであることを特徴とする請求項2に記載の基本周波数パターン生成装置。
- 前記第1のパターン記憶手段に記憶された各クラスタの前記代表パターン及び前記第2のパターン記憶手段に記憶された各クラスタの前記代表パターンは、当該クラスタに属する複数の基本周波数パターンに対して統計的な処理を行うことによって生成されたものであり、時系列点での特徴量が統計量で表現されているものであることを特徴とする請求項1に記載の基本周波数パターン生成装置。
- 前記パターン融合生成手段は、前記テキストのアクセント句毎に、配置された複数の前記代表パターンの前記特徴量からそれぞれ基本周波数パターンを生成するパターン生成手段と、前記テキストのアクセント句毎に、生成された複数の前記基本周波数パターンを時間軸上で位置を揃えて重み付け加算することにより、当該アクセント句に対応する1つの基本周波数パターンを生成するパターン融合手段とを含むものであることを特徴とする請求項4に記載の基本周波数パターン生成装置。
- 前記特徴量は、基本周波数、基本周波数の変化の特徴を表す一次動的特徴量又はこの一次動的特徴量の変化の特徴を表す二次動的特徴量のうちの少なくとも1つを含むものであることを特徴とする請求項4または5に記載の基本周波数パターン生成装置。
- 前記動的特徴量は、基本周波数の差分、回帰係又は多項式展開係数であることを特徴とする請求項6に記載の基本周波数パターン生成装置。
- 前記パターン生成手段は、前記特徴量をもとに、エントロピー、尤度最大化、AIC、BIC、BIC*、HQ又は記述長最小化のうちの少なくとも1つの基準を用いた推定を行うことによって、前記基本周波数パターンを生成するものであることを特徴とする請求項4ないし7のいずれか1項に記載の基本周波数パターン生成装置。
- 前記統計量は、平均値、分散値又は標準偏差値のうちの少なくとも1つを含むものであることを特徴とする請求項4ないし8のいずれか1項に記載の基本周波数パターン生成装置。
- 複数の音声データから抽出されるアクセント句単位の複数の基本周波数パターンを、同一クラスタ内においてモーラ数にかかわらずに少なくともアクセント型が同じになるようにクラスタリングして得られた、クラスタ毎の代表パターンを第1のパターン記憶手段に記憶するステップと、
複数の音声データから抽出されるアクセント句単位の複数の基本周波数パターンを、同一クラスタ内において少なくともアクセント型が同じになり且つモーラ数が同じになる又は同じ範囲に属するようにクラスタリングして得られた、クラスタ毎の代表パターンを第2のパターン記憶手段に記憶するステップと、
音声合成対象となるテキストを解析することにより得られるアクセント句毎の言語情報であって少なくともアクセント型及びモーラ数を含むものに基づいて、該テキストのアクセント句毎に、前記第1のパターン記憶手段及び前記第2のパターン記憶手段からそれぞれ1又は複数ずつ代表パターンを選択するステップと、
前記テキストのアクセント句毎に、選択された前記代表パターンをそれぞれ当該テキストのアクセント句に対応するように配置するステップと、
前記テキストのアクセント句毎に、配置された複数の前記代表パターンから1つの基本周波数パターンを生成するステップと、
前記テキストのアクセント句毎に生成された前記基本周波数パターンを接続して、前記テキストに対応する1つの基本周波数パターンを生成するステップとを有することを特徴とする基本周波数パターン生成方法。 - 基本周波数パターン生成装置としてコンピュータを機能させるためのプログラムにおいて、
前記プログラムは、
複数の音声データから抽出されるアクセント句単位の複数の基本周波数パターンを、同一クラスタ内においてモーラ数にかかわらずに少なくともアクセント型が同じになるようにクラスタリングして得られた、クラスタ毎の代表パターンを第1のパターン記憶手段に記憶するステップと、
複数の音声データから抽出されるアクセント句単位の複数の基本周波数パターンを、同一クラスタ内において少なくともアクセント型が同じになり且つモーラ数が同じになる又は同じ範囲に属するようにクラスタリングして得られた、クラスタ毎の代表パターンを第2のパターン記憶手段に記憶するステップと、
音声合成対象となるテキストを解析することにより得られるアクセント句毎の言語情報であって少なくともアクセント型及びモーラ数を含むものに基づいて、該テキストのアクセント句毎に、前記第1のパターン記憶手段及び前記第2のパターン記憶手段からそれぞれ1又は複数ずつ代表パターンを選択するステップと、
前記テキストのアクセント句毎に、選択された前記代表パターンをそれぞれ当該テキストのアクセント句に対応するように配置するステップと、
前記テキストのアクセント句毎に、配置された複数の前記代表パターンから1つの基本周波数パターンを生成するステップと、
前記テキストのアクセント句毎に生成された前記基本周波数パターンを接続して、前記テキストに対応する1つの基本周波数パターンを生成するステップとをコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005002920A JP4282609B2 (ja) | 2005-01-07 | 2005-01-07 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005002920A JP4282609B2 (ja) | 2005-01-07 | 2005-01-07 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006189723A JP2006189723A (ja) | 2006-07-20 |
JP4282609B2 true JP4282609B2 (ja) | 2009-06-24 |
Family
ID=36796989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005002920A Active JP4282609B2 (ja) | 2005-01-07 | 2005-01-07 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4282609B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5025550B2 (ja) * | 2008-04-01 | 2012-09-12 | 株式会社東芝 | 音声処理装置、音声処理方法及びプログラム |
-
2005
- 2005-01-07 JP JP2005002920A patent/JP4282609B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2006189723A (ja) | 2006-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5768093B2 (ja) | 音声処理システム | |
Morgan | Deep and wide: Multiple layers in automatic speech recognition | |
JP4328698B2 (ja) | 素片セット作成方法および装置 | |
JP6523893B2 (ja) | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム | |
US10140972B2 (en) | Text to speech processing system and method, and an acoustic model training system and method | |
JP5457706B2 (ja) | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
JP4738057B2 (ja) | ピッチパターン生成方法及びその装置 | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
US8942983B2 (en) | Method of speech synthesis | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
JP5929909B2 (ja) | 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム | |
JP4632384B2 (ja) | 音声情報処理装置及びその方法と記憶媒体 | |
JPWO2016042659A1 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2006309162A (ja) | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム | |
US10157608B2 (en) | Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
JP2018084604A (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP4282609B2 (ja) | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム | |
JP6314828B2 (ja) | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム | |
JP2011197124A (ja) | データ作成システム及びプログラム | |
JP6523423B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2004226505A (ja) | ピッチパタン生成方法、音声合成方法とシステム及びプログラム | |
JP4787769B2 (ja) | F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体 | |
JP2004272134A (ja) | 音声認識装置及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090303 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090317 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4282609 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120327 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130327 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130327 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140327 Year of fee payment: 5 |