JP4622788B2 - 音韻モデル選択装置,音韻モデル選択方法およびコンピュータプログラム - Google Patents
音韻モデル選択装置,音韻モデル選択方法およびコンピュータプログラム Download PDFInfo
- Publication number
- JP4622788B2 JP4622788B2 JP2005288147A JP2005288147A JP4622788B2 JP 4622788 B2 JP4622788 B2 JP 4622788B2 JP 2005288147 A JP2005288147 A JP 2005288147A JP 2005288147 A JP2005288147 A JP 2005288147A JP 4622788 B2 JP4622788 B2 JP 4622788B2
- Authority
- JP
- Japan
- Prior art keywords
- label information
- model
- phoneme
- phonological
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Description
本発明の第1実施形態にかかる音韻モデル選択装置100について説明する。音韻モデル選択装置100は,テキストから音声を合成する音声合成装置に必要な音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとからなる音韻モデルを,少量の音声データから構築することが可能な装置である。音声合成装置は,入力されたテキスト文書を解析して,テキスト文書の解析結果から,音素持続時間(声の長さ),基本周波数(声の高さ),母音中心のパワー(声の大きさ)等の韻律パラメータの推定を行って,推定された韻律パラメータに最も近い音声を,音素単位に分割可能な自然音声が記録されている音声コーパスから取得して組み合わせることにより音声を合成する装置である。
d1=|200-160|+|150-200|+|25-32|+|300-370|+|110-130|+|130-150|=207
また,第1ラベル情報とグループ2に対応した第2ラベル情報との差分の絶対値d2は,以下のようになる。
d2=|200-150|+|150-130|+|25-25|+|300-310|+|110-110|+|130-130|=80
上記計算式により,第1ラベル情報とグループ2に対応した第2ラベル情報との差分の絶対値d2は,第1ラベル情報とグループ1に対応した第2ラベル情報との差分の絶対値d1よりも小さいことがわかる。したがって,音声データ1023の音響的な特徴および韻律的な特徴は,グループ2の音響モデルの音響的な特徴および韻律モデルの韻律的な特徴に近似していることがわかる。ラベル情報比較部110は,第1ラベル情報と第2ラベル情報との比較結果を音韻モデル選択部112に提供する。
特徴量=cept+Δcept+ΔΔcept+pow+Δpow+ΔΔpow
本実施形態は,第1実施形態と比べ,ラベルごとの第1ラベル情報と第2ラベル情報との差分をそれぞれ算出する点は同じである。算出した差分を第1ラベル情報の誤差値とし,誤差値が所定の閾値以上か否かを判定して,誤差値が所定の閾値以上であるラベル以外の第1ラベル情報と第2ラベル情報との差分値を算出することにより,音声データ1023の音響的な特徴および韻律敵な特徴に近似している音韻モデルを選択する点で第1実施形態と異なっている。
1fileの差分値:d11=|E11-D11|+|E12-D12|+|E13-D13|+|E14-D14|
2fileの差分値:d12=|E21-D21|+|E22-D22|+|E23-D23|+|E24-D24|
3fileの差分値:d13=|E31-D31|+|E32-D32|+|E33-D33|+|E34-D34|
4fileの差分値:d14=|E41-D41|+|E42-D42|+|E43-D43|+|E44-D44|
5fileの差分値:d15=|E51-D51|+|E52-D’52|+|E53-D’53|+|E54-D’54|
上記各ファイルの差分値から,全体の差分値d1が以下のように求められる。
d1=(d11+d12+d13+d14+d15)/5
1fileの差分値:d21=|F11-D11|+|F12-D12|+|F13-D13|+|F14-D14|
2fileの差分値:d22=|F21-D21|+|F22-D22|+|F23-D23|+|F24-D24|
3fileの差分値:d23=|F31-D31|+|F32-D32|+|F33-D33|+|F34-D34|
4fileの差分値:d24=|F41-D41|+|F42-D42|+|F43-D43|+|F44-D44|
5fileの差分値:d25=|F51-D51|+|F52-D’52|+|F53-D’53|+|F54-D’54|
上記各ファイルの差分値から,全体の差分値d2が以下のように求められる。
d2=(d21+d22+d23+d24+d25)/5
d1=(d11+d12+d13+d14)/4
d2=(d21+d22+d23+d24)/4
d1={w1*d11+w2*(d12+d13+d14+d15)}/5
特徴量=cept+Δcept+ΔΔcept+pow+Δpow+ΔΔpow
102 入力データ
1021 第1ラベル情報
1022 ラベル列
1023 音声データ
104 特徴量抽出部
106 第2ラベル情報算出部
108 音韻モデル格納部
110 ラベル情報比較部
112 音韻モデル選択部
114 ラベル誤差値判定部
Claims (8)
- テキストから音声を合成するに際して,テキストの解析結果から音響的な特徴と韻律的な特徴とを推定するために用いられる,音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとからなる音韻モデルを選択する音韻モデル選択装置であって:
入力された音声データを構成する各音素の属性情報を示す第1ラベル情報が存在する前記音声データの特徴量を抽出する特徴量抽出部と;
予め録音された音声を構成する各音素の,音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとの複数の対が記憶されている音韻モデル格納部と;
前記特徴量抽出部により抽出された前記特徴量を基に,前記入力された音声データの各音素に対応する前記音響モデルから,各音素の属性情報を示す第2ラベル情報を算出する第2ラベル情報算出部と;
前記第1ラベル情報と前記第2ラベル情報とを比較するラベル情報比較部と;
前記ラベル情報比較部の比較結果に基づき、前記第2ラベル情報が前記第1ラベル情報に近似している場合に前記第2のラベル情報に対応する音響モデルおよび韻律モデルを前記音韻モデル格納部から選択する音韻モデル選択部と;
を備えることを特徴とする,音韻モデル選択装置。 - 前記第1ラベル情報および前記第2ラベル情報は,音声を構成する各音素の音響的な特徴が現れている時間の情報であって,
前記ラベル情報比較部は,
前記第1ラベル情報と前記第2ラベル情報の差分値により,前記第1ラベル情報と前記第2ラベル情報とを比較することを特徴とする,請求項1に記載の音韻モデル選択装置。 - 前記第1ラベル情報および前記第2ラベル情報は,音声を構成する各音素の音響的な特徴が現れている時間の情報であって,
前記ラベル情報比較部は,
音声を構成する音素ごとに前記第1ラベル情報と前記第2ラベル情報の差分値を算出し,前記算出された差分値が所定の閾値以上である音素以外の音素の前記第1ラベル情報と前記第2ラベル情報との差分値により,前記第1ラベル情報と前記第2ラベル情報とを比較することを特徴とする,請求項1に記載の音韻モデル選択装置。 - 前記音韻モデル格納部には,音声を構成する音素ごとに,前記音響モデルと前記韻律モデルとの対が格納されており,
前記第2ラベル情報算出部は,前記入力された音声データを構成する各音素の特徴量を基に,前記入力された音声データの各音素に対応する前記音響モデルから前記第2ラベル情報を算出することを特徴とする,請求項1に記載の音韻モデル選択装置。 - 前記音韻モデル格納部には,
複数の前記音韻モデルがグループ化されて記憶されていることを特徴とする,請求項1に記載の音韻モデル選択装置。 - 前記第2ラベル情報算出部は,前記グループ化された音韻モデルごとの第2ラベル情報を算出し,
前記ラベル情報比較部は,前記第1ラベル情報と前記グループ化された音韻モデルの第2ラベル情報とを比較し,
前記音韻モデル選択部は,前記ラベル情報比較部の比較結果に応じて,前記音韻モデル格納部から前記グループ化された音韻モデルを選択することを特徴とする,請求項5に記載の音韻モデル選択装置。 - テキストから音声を合成するに際して,テキストの解析結果から音響的な特徴と韻律的な特徴とを推定するために用いられる,音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとからなる音韻モデルを選択する音韻モデル選択方法であって:
入力された音声データを構成する各音素の属性情報を示す第1ラベル情報が存在する前記音声データの特徴量を抽出する方法と;
前記音声データの特徴量を基に,前記入力された音声データの各音素に対応する前記音響モデルから,各音素の属性情報を示す第2ラベル情報を算出する方法と;
前記第1ラベル情報と前記第2ラベル情報とを比較する方法と;
前記第1ラベル情報と前記第2ラベル情報の比較結果に基づき,前記第2ラベル情報が前記第1ラベル情報に近似している場合に、予め録音された音声を構成する各音素の,音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとの複数の対が記憶されている音韻モデル格納部から、前記第2のラベル情報に対応する音響モデルおよび韻律モデルを選択する方法と;
を含むことを特徴とする,音韻モデル選択方法。 - テキストから音声を合成するに際して,テキストの解析結果から音響的な特徴と韻律的な特徴とを推定するために用いられる,音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとからなる音韻モデルを選択する音韻モデル選択装置をして,
入力された音声データを構成する各音素の属性情報を示す第1ラベル情報が存在する前記音声データの特徴量を抽出する処理と;
前記音声データの特徴量を基に,前記入力された音声データの各音素に対応する前記音響モデルから,各音素の属性情報を示す第2ラベル情報を算出する処理と;
前記第1ラベル情報と前記第2ラベル情報とを比較する処理と;
前記第1ラベル情報と前記第2ラベル情報の比較結果に応じて,前記第2ラベル情報が前記第1ラベル情報に近似している場合に、予め録音された音声を構成する各音素の,音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとの複数の対が記憶されている音韻モデル格納部から、前記第2のラベル情報に対応する音響モデルおよび韻律モデルを選択する処理と;
を実行せしめることを特徴とする,コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005288147A JP4622788B2 (ja) | 2005-09-30 | 2005-09-30 | 音韻モデル選択装置,音韻モデル選択方法およびコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005288147A JP4622788B2 (ja) | 2005-09-30 | 2005-09-30 | 音韻モデル選択装置,音韻モデル選択方法およびコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007101632A JP2007101632A (ja) | 2007-04-19 |
JP4622788B2 true JP4622788B2 (ja) | 2011-02-02 |
Family
ID=38028664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005288147A Expired - Fee Related JP4622788B2 (ja) | 2005-09-30 | 2005-09-30 | 音韻モデル選択装置,音韻モデル選択方法およびコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4622788B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111627417B (zh) * | 2019-02-26 | 2023-08-08 | 北京地平线机器人技术研发有限公司 | 播放语音的方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04158397A (ja) * | 1990-10-22 | 1992-06-01 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 声質変換方式 |
JPH07319495A (ja) * | 1994-05-26 | 1995-12-08 | N T T Data Tsushin Kk | 音声合成装置のための合成単位データ生成方式及び方法 |
JP2004117662A (ja) * | 2002-09-25 | 2004-04-15 | Matsushita Electric Ind Co Ltd | 音声合成システム |
-
2005
- 2005-09-30 JP JP2005288147A patent/JP4622788B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04158397A (ja) * | 1990-10-22 | 1992-06-01 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 声質変換方式 |
JPH07319495A (ja) * | 1994-05-26 | 1995-12-08 | N T T Data Tsushin Kk | 音声合成装置のための合成単位データ生成方式及び方法 |
JP2004117662A (ja) * | 2002-09-25 | 2004-04-15 | Matsushita Electric Ind Co Ltd | 音声合成システム |
Also Published As
Publication number | Publication date |
---|---|
JP2007101632A (ja) | 2007-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
EP1835488B1 (en) | Text to speech synthesis | |
TWI471854B (zh) | 引導式語者調適語音合成的系統與方法及電腦程式產品 | |
CN101236743B (zh) | 生成高质量话音的系统和方法 | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
JP5269668B2 (ja) | 音声合成装置、プログラム、及び方法 | |
JP4586615B2 (ja) | 音声合成装置,音声合成方法およびコンピュータプログラム | |
WO2013018294A1 (ja) | 音声合成装置および音声合成方法 | |
JP5411845B2 (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
JP2006285254A (ja) | 音声速度測定方法及び装置並びに録音装置 | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP6669081B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
Szekrényes | Prosotool, a method for automatic annotation of fundamental frequency | |
Monzo et al. | Discriminating expressive speech styles by voice quality parameterization | |
JP5152588B2 (ja) | 声質変化判定装置、声質変化判定方法、声質変化判定プログラム | |
JP3846300B2 (ja) | 録音原稿作成装置および方法 | |
JP4622788B2 (ja) | 音韻モデル選択装置,音韻モデル選択方法およびコンピュータプログラム | |
JP4247289B1 (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP4532862B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP6756607B2 (ja) | アクセント型判定装置及びプログラム | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP4640063B2 (ja) | 音声合成方法,音声合成装置,およびコンピュータプログラム | |
WO2008056604A1 (fr) | Système de collecte de son, procédé de collecte de son et programme de traitement de collecte | |
JP4150645B2 (ja) | 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム | |
JP6523423B2 (ja) | 音声合成装置、音声合成方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071025 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100525 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100722 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101005 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101018 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4622788 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131112 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131112 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131112 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |