JP4260071B2 - 音声合成方法、音声合成プログラム及び音声合成装置 - Google Patents
音声合成方法、音声合成プログラム及び音声合成装置 Download PDFInfo
- Publication number
- JP4260071B2 JP4260071B2 JP2004193094A JP2004193094A JP4260071B2 JP 4260071 B2 JP4260071 B2 JP 4260071B2 JP 2004193094 A JP2004193094 A JP 2004193094A JP 2004193094 A JP2004193094 A JP 2004193094A JP 4260071 B2 JP4260071 B2 JP 4260071B2
- Authority
- JP
- Japan
- Prior art keywords
- filler
- speech
- prosody
- text
- speech waveform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
図1は本発明の音声合成装置の第1の実施の形態を示すもので、図中、1は汎用テキスト解析辞書、2はフィラー辞書、3は汎用韻律規則、4はフィラー韻律データベース、5は汎用音声波形インデックス、6はフィラー音声波形インデックス、7は汎用音声波形データベース、8はフィラー音声波形データベース、9はテキスト解析部、10は韻律生成部、11は音声波形選択部、12は音声信号生成部である。
「はい、えーと、1時からです。」
であり、フィラー辞書2に「えーと」が登録されていれば、フィラー辞書2とのマッチングにより「えーと」がフィラー部分として抽出される。
図3は本発明の音声合成装置の第2の実施の形態、ここではテキスト情報として一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報を含むもの、もしくはこれに加えてフィラー部分の韻律パラメータを明示的に制御する韻律制御情報を含むものを用いる場合に対応する形態を示すもので、図中、第1の実施の形態と同一構成部分は同一符号をもって表す。即ち、1は汎用テキスト解析辞書、2はフィラー辞書、3は汎用韻律規則、4はフィラー韻律データベース、5は汎用音声波形インデックス、6はフィラー音声波形インデックス、7は汎用音声波形データベース、8はフィラー音声波形データベース、11は音声波形選択部、12は音声信号生成部、21はテキスト解析部、22は韻律生成部である。
「はい、<filler>えーと</filler>、1時からです。」
であり、フィラー部分指定情報がタグ<filler>及び</filler>であって、このタグ<filler>とタグ</filler>とで挟まれた部分が指定されたフィラー部分であるとすると、「えーと」の部分がフィラー部分として抽出される。
「はい、<filler>えーと</filler:500,600,1.0,+10,+5>、1時からです。」
のようにコロンの後に、フィラー部分の前のポーズ長、フィラー部分の後ろのポーズ長、話速、ピッチの値、パワーの値、のように記述する。
「はい、<filler>えーと</filler:,,,200,-4>、1時からです。」
のように、ポーズ長やピッチ、パワーの指定の有無、絶対値や相対値での指定は混在させて指定することもできる。この例では、前後のポーズ長と話速はフィラー韻律データベース4に格納されている平均値を用い、ピッチは絶対値で200Hz、パワーは相対値で−(マイナス)4dB、のように指定している。
「<filler>えーと</filler:,500,600,1.0,200,-4>、1時からです。」
のように、フィラー部分に先行するテキストが存在しない場合もある。この例では、500ミリ秒のポーズを空けてから発声が開始されるような合成音声が生成される。また、相対値の計算は、後続のアクセント句との平均値で求められる。これとは逆に、先行するテキストのみがあり、後続のテキストが存在しない場合には先行するアクセント句の平均値との相対値となる。また、前後ともにテキストが存在しない場合は、ピッチやパワーを相対値で指定したならば、音声合成装置に標準値として設定された平均ピッチやパワーとの相対値となる。
「はい<filler>えーと</filler:500,600,1.0,+10,+5>1時からです。」
のように、フィラー部分の前もしくは後に読点がないテキストを入力した場合には、ポーズ長の指定値を無視して連続してポーズなしで合成される。あるいはポーズ長の指定を優先して、フィラー部分の前もしくは後に読点がないテキストであってもポーズを挿入して合成をするようにしても良い。
「はい、<filler>あー</filler:500,,,-10,><filler>えーと</filler:,600,, +10,+5>1時からです。」
のように、フィラー部分を連続して指定するようなテキスト情報の平均ピッチやパワーが相対値で指定された場合、基本的にはフィラーが連続する部分の前後の、一般的なテキストのアクセント句の平均ピッチや平均パワーとの相対値として処理すれば良い。
Claims (7)
- 一般的なテキストの辞書情報を格納したテキスト解析辞書と、一般的なテキストの韻律生成規則を格納した汎用韻律規則と、一般的なテキストの音声波形データを格納した汎用音声波形データベースとを用い、計算機が、テキスト解析辞書を参照して入力されたテキストの音韻系列を決定し、前記音韻系列に基づいて汎用韻律規則を参照して韻律パラメータを生成し、前記音韻系列及び韻律パラメータに基づいて汎用音声波形データベースから音声波形データを選択して読み出し、合成音声信号を生成する音声合成方法において、
主として話し言葉における発話の一部を埋める言葉であるフィラーの辞書情報を格納したフィラー辞書と、
フィラー辞書に格納されたフィラーの韻律パラメータを格納したフィラー韻律データベースと、
フィラー辞書に格納されたフィラーの音声波形データを格納したフィラー音声波形データベースとを用い、
計算機が、前記に加え、
一般的なテキストとともにフィラーとして合成したいフィラー部分を含むテキスト情報を入力として受け付け、フィラー辞書を参照して前記テキスト情報からフィラー部分を抽出し、その音韻系列を決定する過程と、
フィラー韻律データベースから前記抽出したフィラー部分に対応する韻律パラメータを読み出し、当該フィラー部分の韻律パラメータをこれに隣接するポーズ区間部分の韻律パラメータを含めて設定する過程と、
前記抽出したフィラー部分のうち、予め指定したモーラ数以上あるいは音節数以上のフィラー部分についてはその音韻系列及び韻律パラメータに基づいてフィラー音声波形データベースから音声波形データを選択し、前記予め指定したモーラ数未満あるいは音節数未満のフィラー部分についてはその音韻系列及び韻律パラメータに基づいて汎用音声波形データベースから音声波形データを選択する過程と、
前記選択した音声波形データをフィラー音声波形データベースもしくは汎用音声波形データベースから読み出し、フィラーの合成音声信号を生成する過程とを含む
ことを特徴とする音声合成方法。 - 一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報を含むテキスト情報を入力として受け付け、該フィラー部分指定情報に基づいて前記テキスト情報からフィラー部分を抽出する過程と、
フィラー辞書を参照して前記抽出したフィラー部分に対応する音声波形データがフィラー音声波形データベースに存在するか否かをチェックし、存在しない場合は以後、前記フィラー部分を一般的なテキストとして扱うように設定し、存在する場合はフィラー辞書を参照してその音韻系列を決定する過程とを含む
ことを特徴とする請求項1に記載の音声合成方法。 - 一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報並びに該フィラー部分の韻律パラメータを明示的に制御する韻律制御情報を含むテキスト情報を入力として受け付け、該フィラー部分指定情報に基づいて前記テキスト情報からフィラー部分及びそれに対応する韻律制御情報を抽出する過程と、
フィラー辞書を参照して前記抽出したフィラー部分に対応する音声波形データがフィラー音声波形データベースに存在するか否かをチェックし、存在しない場合は以後、前記フィラー部分を一般的なテキストとして扱うように設定し、存在する場合はフィラー辞書を参照してその音韻系列を決定する過程と、
フィラー韻律データベースから前記抽出したフィラー部分に対応する韻律パラメータを読み出し、当該フィラー部分の韻律パラメータをこれに隣接するポーズ区間部分の韻律パラメータを含めて設定し、さらに前記フィラー部分の韻律制御情報に基づいて変更する過程とを含む
ことを特徴とする請求項1に記載の音声合成方法。 - 請求項1乃至3いずれかに記載の音声合成方法の各過程を、音声合成装置として機能させるコンピュータに実行させることを特徴とする音声合成プログラム。
- 一般的なテキストの辞書情報を格納したテキスト解析辞書と、一般的なテキストの韻律生成規則を格納した汎用韻律規則と、一般的なテキストの音声波形データを格納した汎用音声波形データベースと、テキスト解析辞書を参照して入力されたテキストの音韻系列を決定するテキスト解析部と、前記音韻系列に基づいて汎用韻律規則を参照して韻律パラメータを生成する韻律生成部と、前記音韻系列及び韻律パラメータに基づいて汎用音声波形データベースから音声波形データを選択する音声波形選択部と、前記選択した音声波形データを汎用音声波形データベースから読み出し、合成音声信号を生成する音声信号生成部とを備えた音声合成装置において、
主として話し言葉における発話の一部を埋める言葉であるフィラーの辞書情報を格納したフィラー辞書と、
フィラー辞書に格納されたフィラーの韻律パラメータを格納したフィラー韻律データベースと、
フィラー辞書に格納されたフィラーの音声波形データを格納したフィラー音声波形データベースとを設け、
テキスト解析部は、前記に加え、一般的なテキストとともにフィラーとして合成したいフィラー部分を含むテキスト情報を入力として受け付け、フィラー辞書を参照して前記テキスト情報からフィラー部分を抽出し、その音韻系列を決定する機能を備え、
韻律生成部は、前記に加え、フィラー韻律データベースから前記抽出したフィラー部分に対応する韻律パラメータを読み出し、当該フィラー部分の韻律パラメータをこれに隣接するポーズ区間部分の韻律パラメータを含めて設定する機能を備え、
音声波形選択部は、前記に加え、前記抽出したフィラー部分のうち、予め指定したモーラ数以上あるいは音節数以上のフィラー部分についてはその音韻系列及び韻律パラメータに基づいてフィラー音声波形データベースから音声波形データを選択し、前記予め指定したモーラ数未満あるいは音節数未満のフィラー部分についてはその音韻系列及び韻律パラメータに基づいて汎用音声波形データベースから音声波形データを選択する機能を備え、
音声信号生成部は、前記に加え、前記選択した音声波形データをフィラー音声波形データベースもしくは汎用音声波形データベースから読み出し、フィラーの合成音声信号を生成する機能を備えた
ことを特徴とする音声合成装置。 - テキスト解析部は、前記に加え、一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報を含むテキスト情報を入力として受け付け、該フィラー部分指定情報に基づいて前記テキスト情報からフィラー部分を抽出する機能と、フィラー辞書を参照して前記抽出したフィラー部分に対応する音声波形データがフィラー音声波形データベースに存在するか否かをチェックし、存在しない場合は以後、前記フィラー部分を一般的なテキストとして扱うように設定し、存在する場合はフィラー辞書を参照してその音韻系列を決定する機能とを備えた
ことを特徴とする請求頂5に記載の音声合成装置。 - テキスト解析部は、前記に加え、一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報並びに該フィラー部分の韻律パラメータを明示的に制御する韻律制御情報を含むテキスト情報を入力として受け付け、該フィラー部分指定情報に基づいて前記テキスト情報からフィラー部分及びそれに対応する韻律制御情報を抽出する機能と、フィラー辞書を参照して前記抽出したフィラー部分に対応する音声波形データがフィラー音声波形データベースに存在するか否かをチェックし、存在しない場合は以後、前記フィラー部分を一般的なテキストとして扱うように設定し、存在する場合はフィラー辞書を参照してその音韻系列を決定する機能とを備え、
韻律生成部は、前記に加え、フィラー韻律データベースから前記抽出したフィラー部分に対応する韻律パラメータを読み出し、当該フィラー部分の韻律パラメータをこれに隣接するポーズ区間部分の韻律パラメータを含めて設定し、さらに前記フィラー部分の韻律制御情報に基づいて変更する機能を備えた
ことを特徴とする請求項5に記載の音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004193094A JP4260071B2 (ja) | 2004-06-30 | 2004-06-30 | 音声合成方法、音声合成プログラム及び音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004193094A JP4260071B2 (ja) | 2004-06-30 | 2004-06-30 | 音声合成方法、音声合成プログラム及び音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006017819A JP2006017819A (ja) | 2006-01-19 |
JP4260071B2 true JP4260071B2 (ja) | 2009-04-30 |
Family
ID=35792188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004193094A Expired - Fee Related JP4260071B2 (ja) | 2004-06-30 | 2004-06-30 | 音声合成方法、音声合成プログラム及び音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4260071B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5398295B2 (ja) | 2009-02-16 | 2014-01-29 | 株式会社東芝 | 音声処理装置、音声処理方法及び音声処理プログラム |
JP6289950B2 (ja) * | 2014-03-19 | 2018-03-07 | 株式会社東芝 | 読み上げ装置、読み上げ方法及びプログラム |
JP2017021125A (ja) * | 2015-07-09 | 2017-01-26 | ヤマハ株式会社 | 音声対話装置 |
-
2004
- 2004-06-30 JP JP2004193094A patent/JP4260071B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006017819A (ja) | 2006-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7979274B2 (en) | Method and system for preventing speech comprehension by interactive voice response systems | |
US7739113B2 (en) | Voice synthesizer, voice synthesizing method, and computer program | |
JPH10153998A (ja) | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 | |
JPH1138989A (ja) | 音声合成装置及び方法 | |
JP4260071B2 (ja) | 音声合成方法、音声合成プログラム及び音声合成装置 | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JPH05100692A (ja) | 音声合成装置 | |
JP3575919B2 (ja) | テキスト音声変換装置 | |
EP1589524B1 (en) | Method and device for speech synthesis | |
JPH0580791A (ja) | 音声規則合成装置および方法 | |
JP3113101B2 (ja) | 音声合成装置 | |
JP2703253B2 (ja) | 音声合成装置 | |
JP4056647B2 (ja) | 波形接続型音声合成装置および方法 | |
JP2002304186A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
EP1640968A1 (en) | Method and device for speech synthesis | |
JP2573586B2 (ja) | 規則型音声合成装置 | |
JP3297221B2 (ja) | 音韻継続時間長制御方式 | |
JPH1063287A (ja) | 発音訓練装置 | |
Juergen | Text-to-Speech (TTS) Synthesis | |
JPH09292897A (ja) | 音声合成装置 | |
JPH0363696A (ja) | テキスト音声合成装置 | |
JP2001166787A (ja) | 音声合成装置および自然言語処理方法 | |
JPH08160990A (ja) | 音声合成装置 | |
JPH08328578A (ja) | テキスト音声合成装置 | |
JPH11327594A (ja) | 音声合成辞書作成システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060718 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090203 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |