JP2008191221A - 音声合成方法、音声合成プログラム、音声合成装置 - Google Patents
音声合成方法、音声合成プログラム、音声合成装置 Download PDFInfo
- Publication number
- JP2008191221A JP2008191221A JP2007022886A JP2007022886A JP2008191221A JP 2008191221 A JP2008191221 A JP 2008191221A JP 2007022886 A JP2007022886 A JP 2007022886A JP 2007022886 A JP2007022886 A JP 2007022886A JP 2008191221 A JP2008191221 A JP 2008191221A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- phoneme
- volume
- silence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】音声素片を格納した音声コーパス200を用いて音声合成を行う方法であって、合成する音声の音素列を受け取る入力ステップと、音素列に対応した音声素片、音素環境を音声コーパス200から選択する選択ステップと、入力ステップで受け取った音素列の中から、母音素片であって直後に無音が続く箇所で、選択ステップで選択した音声素片、音素環境を抽出する抽出ステップと、抽出ステップで抽出した母音素片の終端部分に音量フェードアウト処理を施す音量調節ステップと、を有する。
【選択図】図4
Description
また、『リアルタイムに入力される演奏データに基づいて人歌唱に近似した自然な歌唱合成を可能にする。』ことを目的とした技術として、『子音sから母音aへの音韻遷移に対応するアタック遷移Attackを表わす遷移状態情報と、母音aから母音iへの音韻遷移に対応するノート遷移NtNを表わす遷移状態情報と、母音aから無音Silへの音韻遷移に対応するリリース遷移Releaseを表わす遷移状態情報とを生成する。歌唱音声発生時には、各遷移状態情報に応じて歌唱音声の対応する音韻遷移部に音高、振幅等の微小変化を付加するように音源制御を行なう。ビブラートトラックの制御情報に応じて歌唱音声にビブラート効果を付加してもよい。』というものが提案されている(特許文献2)。
この技術の概略を説明すると、音声素片を格納した音声コーパスをあらかじめ構築しておき、入力テキストから音声合成を行う際に、音声コーパスから好適な音声素片を選択して、波形接続処理により合成音声を得る、というものである。
一般に、母音素片の音声波形は振幅が大きく、その直後に無音(振幅0)の波形を単純に接続すると、大きな振幅の波形から急激に振幅0の波形に変化することになるため、これがノイズの原因となって、聴取した際の音質劣化を引き起こす場合があった。
そのため、上述のような音質劣化を低減することのできる音声合成方法、音声合成プログラム、音声合成装置が望まれていた。
音声素片を格納した音声コーパスを用いて音声合成を行う方法であって、
合成する音声の音素列を受け取る入力ステップと、
前記音素列に対応した音声素片、音素環境を前記音声コーパスから選択する選択ステップと、
前記入力ステップで受け取った音素列の中から、母音素片であって直後に無音が続く箇所で、前記選択ステップで選択した音声素片、音素環境を抽出する抽出ステップと、
前記抽出ステップで抽出した母音素片の終端部分に音量フェードアウト処理を施す音量調節ステップと、
を有することを特徴とするものである。
図1は、本発明の実施の形態1に係る音声合成装置100の機能ブロック図である。
音声合成装置100は、テキスト処理部101、韻律推定部102、素片選択部103、音量調節部104、素片接続部105を備える。
韻律推定部102は、テキスト処理部101の解析処理に基づく音素記号、アクセント記号、形態素解析結果を受け取り、これらから得られる品詞情報を用いて、音素持続時間(声の長さ)、基本周波数(声の高さF0)、母音中心のパワー(声の大きさ)等を推定する。
素片選択部103は、韻律推定部102が推定した音素持続時間、基本周波数、母音中心のパワー等に最も近い音声素片を、音声コーパス200から選択する。このとき、音声素片を接続したときの歪みが最も小さくなるような音声素片を選択する。選択方法は、例えば動的計画法などを用いることができる。
音量調節部104は、素片選択部103が選択した音声素片と、対応する音素記号列(音素環境)を受け取り、音声素片の音量調節処理を行う。処理の詳細は後述する。
素片接続部105は、音量調節部104より音量調節された音声素片を受け取り、波形接続処理により合成音声400を生成して出力する。
例えば、入力テキスト300をネットワークパケットとして受け取る場合には、LANインターフェース等のネットワークインターフェースを備える。
また、音声400を音声データとして出力する場合には、同じくLANインターフェースや記憶装置への接続端子などのデータ出力インターフェースを備える。あるいは、音声信号として出力する場合には、その信号フォーマットに対応した端子を備える。
また、「入力部」は、テキスト処理部101、韻律推定部102がこれに相当する。
ここで、入力テキスト300の内容は「本日は、晴天なり。」とし、図2では読点「、」の周辺の音声波形を図示している。
図2において、アルファベットは音声波形に対応する音素記号を表す。「pau」は文中ポーズを表し、その区間は無音に相当すると考えればよい。縦線で区切られた各音声波形に相当する音声素片は、あらかじめ音声コーパス200に格納されているものとする。
一般に、音声コーパス200に格納されている「a」の音声素片は、必ずしもその次に無音区間が続くことを想定しているとは限らない。このような音声素片を選択してしまった場合は、母音の音声波形は振幅が大きい場合が多いゆえに、「a」の終端部の音量も高くなっている。
上記のような状態で、「a」の後ろに無音を単純に接続した場合、音声波形が急激に音量0に変化するため、これが原因となってノイズ等の音質劣化を生じる場合がある。
音声コーパス200から、音素記号「a」に対応した音声素片を選択する際に、必ずしもその後に無音区間が続くことを想定した素片が選択されるとは限らないことは、先に述べた通りである。
そこで、音声素片「a」の終端から時間長L遡った部分に、減衰フィルタFを掛け合わせてフェードアウト処理を施すことにより、図3(1)と同様の、徐々に音量が減衰している音声波形を得ることができる。
図3(1)のように終端部分が最初からフェードアウトしている場合には、フィルタFを掛け合わせる必要はない。
音素環境とは、音素同士のつながりを音素記号で表したものである。例えば、音素環境を「h−a+pau」のように表せば、「a」の次に無音が続くことを想定した音声素片であることが分かる。一方、「h−a+r」のように表せば、「a」の次に「r」が続くことを想定した音声素片であることが分かる。
即ち、音声素片「a」の音素環境を調べれば、次にいかなる音素が続くことを想定しているかが分かるので、図3で説明したように、終端部分がフェードアウトしているか否かも分かるのである。
後述の図4におけるステップS402で、この判定を行っている。
音量調節部104は、入力テキストの音素列の音素環境に基づき、母音音素の直後に無音が続いている箇所に対して、素片選択部103から受け取った音声素片、音素環境を抽出する。ここでいう無音とは、文中ポーズ、文末無音、閉鎖区間、促音などを指す。
本ステップにより、音量フェードアウトを行うべき可能性のある区間と、これに対応した母音素片とを抽出することができる。
(S402)
音量調節部104は、ステップS401で抽出した箇所について、その箇所に対応する母音素片の音素環境を調べる。
次に無音が続くことを想定したもの(音量フェードアウト処理を施す必要はない)であれば、以後の処理は行わずに終了する。次に無音が続くことを想定していないもの(音量フェードアウト処理を施す必要がある)であれば、ステップS403へ進む。
(S403)
音量調節部104は、上述の区間Lを設定し、その区間における母音素片波形を抽出する。
なお、この区間Lの設定は、例えば、(1)母音素片の音長を任意の個数に等分割し、最後の区間をフェードアウト判定の対象とする、(2)母音素片の末尾から所定の時間長遡った区間をフェードアウト判定の対象とする、といった方法で設定すればよい。
(S404)
音量調節部104は、音量フェードアウト処理区間Lの始点を調整して、音量フェードアウトにより音量0になった区間と、次に続く無音波形とが、スムーズに接続されるようにする。
適切な始点は、上述の区間Lの範囲内、もしくはその前後などの適当な範囲内で任意の手法により探索すればよい。
(S405)
音量調節部104は、上述の区間Lにおける母音素片の波形に、減衰フィルタFを掛け合わせ、その結果を素片接続部105に出力する。
例えば、音声素片の波形から音声認識処理を行って、その音声素片が母音であるか否か、また、母音音素の直後が無音であるか否かを判定することもできる。
図5は、本発明の実施の形態2に係る音声合成装置100の機能ブロック図である。
図5において、音量調節部104と素片接続部105の間に、新たに無音長調節部106を設けた。その他の構成は、実施の形態1で説明した図1と同様であるため、説明を省略する。
無音長調節部106は、その機能を実現する回路デバイス等のハードウェアで構成することもできるし、CPUやマイコン等の演算装置上で実行されるソフトウェアとして構成することもできる。
実施の形態1で説明したように、音量調節部104が、減衰フィルタFにより母音素片の終端部で音量フェードアウトを行うが、減衰により音量が0に達する時点と、母音素片の終端は、必ずしも一致するとは限らない。
もし、母音素片の終端よりも前で音量が0に達すると、その後に続く無音と合わせて、無音時間がそれだけ間延びすることになる。
これにより、合成音声のテンポを崩すことがなくなるという効果が得られる。
無音長調節部106は、音量調節部104から受け取った素片波形のうち、音量調節部104が音量フェードアウト処理を施した母音素片について、その終端部分の無音区間の長さを検出する。
検出方法は、例えば所定の音量閾値をあらかじめ設定しておき、音量がこれを下回る時間が一定以上である場合に、その区間を無音と判断する、といった方法が考えられる。もちろん、その他の適当な方法を用いてもよい。
(S702)
無音長調節部106は、音量調節部104が音量フェードアウト処理を施した母音素片の直後の無音区間について、ステップS701で検出した無音区間の長さと同じ時間、継続時間を短くする。
音量フェードアウト処理を施す対象となる母音素片は、このように母音音素単独で素片を構成している場合に限らない。例えば、より長い単語を音読している素片であって、末尾が母音となっているようなものも、音量フェードアウト処理を施す対象となり得る。
Claims (7)
- 音声素片を格納した音声コーパスを用いて音声合成を行う方法であって、
合成する音声の音素列を受け取る入力ステップと、
前記音素列に対応した音声素片、音素環境を前記音声コーパスから選択する選択ステップと、
前記入力ステップで受け取った音素列の中から、母音素片であって直後に無音が続く箇所で、前記選択ステップで選択した音声素片、音素環境を抽出する抽出ステップと、
前記抽出ステップで抽出した母音素片の終端部分に音量フェードアウト処理を施す音量調節ステップと、
を有することを特徴とする音声合成方法。 - 前記音量調節ステップで音量フェードアウト処理を施した母音素片の直後に続く無音の時間長を、音量フェードアウト処理により無音区間となった時間長と同じ時間短くする、無音長調節ステップを有する
ことを特徴とする請求項1に記載の音声合成方法。 - 前記音量調節ステップでは、
前記抽出ステップで抽出した母音素片の音素環境を確認し、
その音素環境が、直後に無音が続くことを想定していない音素環境になっている場合に限り、前記音量フェードアウト処理を施す
ことを特徴とする請求項1又は請求項2に記載の音声合成方法。 - 請求項1ないし請求項3のいずれかに記載の音声合成方法をコンピュータに実行させることを特徴とする音声合成プログラム。
- 音声素片を格納した音声コーパスを用いて音声合成を行う装置であって、
合成する音声の音素列を受け取る入力部と、
前記音素列に対応した音声素片、音素環境を前記音声コーパスから選択する選択部と、
前記入力部で受け取った音素列の中から、母音素片であって直後に無音が続く箇所で、前記選択部で選択した音声素片、音素環境を抽出する抽出部と、
前記抽出部が抽出した母音素片の終端部分に音量フェードアウト処理を施す音量調節部と、
を備えることを特徴とする音声合成装置。 - 前記音量調節部が音量フェードアウト処理を施した母音素片の直後に続く無音の時間長を、音量フェードアウト処理により無音区間となった時間長と同じ時間短くする、無音長調節部を備える
ことを特徴とする請求項5に記載の音声合成装置。 - 前記音量調節部は、
前記抽出部が抽出した母音素片の音素環境を確認し、
その音素環境が、直後に無音が続くことを想定していない音素環境になっている場合に限り、前記音量フェードアウト処理を施す
ことを特徴とする請求項5又は請求項6に記載の音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007022886A JP4872690B2 (ja) | 2007-02-01 | 2007-02-01 | 音声合成方法、音声合成プログラム、音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007022886A JP4872690B2 (ja) | 2007-02-01 | 2007-02-01 | 音声合成方法、音声合成プログラム、音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008191221A true JP2008191221A (ja) | 2008-08-21 |
JP4872690B2 JP4872690B2 (ja) | 2012-02-08 |
Family
ID=39751416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007022886A Expired - Fee Related JP4872690B2 (ja) | 2007-02-01 | 2007-02-01 | 音声合成方法、音声合成プログラム、音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4872690B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150056276A (ko) * | 2013-11-15 | 2015-05-26 | 현대모비스 주식회사 | 음성 인식을 위한 전처리 장치 및 그 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001013982A (ja) * | 1999-04-28 | 2001-01-19 | Victor Co Of Japan Ltd | 音声合成装置 |
JP2002351483A (ja) * | 2001-05-24 | 2002-12-06 | Nec Corp | 音声合成装置および音声合成方法 |
-
2007
- 2007-02-01 JP JP2007022886A patent/JP4872690B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001013982A (ja) * | 1999-04-28 | 2001-01-19 | Victor Co Of Japan Ltd | 音声合成装置 |
JP2002351483A (ja) * | 2001-05-24 | 2002-12-06 | Nec Corp | 音声合成装置および音声合成方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150056276A (ko) * | 2013-11-15 | 2015-05-26 | 현대모비스 주식회사 | 음성 인식을 위한 전처리 장치 및 그 방법 |
KR102238979B1 (ko) | 2013-11-15 | 2021-04-12 | 현대모비스 주식회사 | 음성 인식을 위한 전처리 장치 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP4872690B2 (ja) | 2012-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS62160495A (ja) | 音声合成装置 | |
JP4406440B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP6561499B2 (ja) | 音声合成装置および音声合成方法 | |
JPH031200A (ja) | 規則型音声合成装置 | |
JP2009047957A (ja) | ピッチパターン生成方法及びその装置 | |
JP2006030575A (ja) | 音声合成装置およびプログラム | |
JP5398295B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
JP2001109500A (ja) | 音声合成装置および方法 | |
JP3728173B2 (ja) | 音声合成方法、装置および記憶媒体 | |
JP2016118722A (ja) | 音声合成装置、方法、およびプログラム | |
JP2017167526A (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP4872690B2 (ja) | 音声合成方法、音声合成プログラム、音声合成装置 | |
JP4963345B2 (ja) | 音声合成方法及び音声合成プログラム | |
JP2011141470A (ja) | 素片情報生成装置、音声合成システム、音声合成方法、及び、プログラム | |
JP5106274B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP2008058379A (ja) | 音声合成システム及びフィルタ装置 | |
JP3081300B2 (ja) | 残差駆動型音声合成装置 | |
JP2987089B2 (ja) | 音声素片作成方法および音声合成方法とその装置 | |
JP5089473B2 (ja) | 音声合成装置及び音声合成方法 | |
JP3853923B2 (ja) | 音声合成装置 | |
JP4619469B2 (ja) | 音声合成装置及び音声合成方法並びに音声合成プログラムを記録した記録媒体 | |
JP6159436B2 (ja) | 読み記号列編集装置および読み記号列編集方法 | |
JP2001312300A (ja) | 音声合成装置 | |
JP2006133559A (ja) | 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体 | |
JP2004004952A (ja) | 音声合成装置および音声合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111025 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111107 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141202 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4872690 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |