JP5106274B2 - 音声処理装置、音声処理方法及びプログラム - Google Patents
音声処理装置、音声処理方法及びプログラム Download PDFInfo
- Publication number
- JP5106274B2 JP5106274B2 JP2008170973A JP2008170973A JP5106274B2 JP 5106274 B2 JP5106274 B2 JP 5106274B2 JP 2008170973 A JP2008170973 A JP 2008170973A JP 2008170973 A JP2008170973 A JP 2008170973A JP 5106274 B2 JP5106274 B2 JP 5106274B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- speech
- segment
- fusion
- formant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Description
本発明の第1の実施形態に係るテキスト音声合成装置(音声処理装置)について説明する。
まず、情報入力部41は、韻律制御部3から入力された音韻系列・韻律情報を、素片選択部44へ出力する。音韻系列は、例えば、音韻記号の系列である。また、韻律情報は、例えば、基本周波数、音韻継続時間長、パワーなどである。
次に、素片記憶部42には、合成音声を生成するときに用いられる音声の単位(以下、「合成単位」と称する。)で、音声素片が大量に蓄積されている。
次に、図2の音声合成部4の動作を詳しく説明する。
素片融合部44は、それぞれのセグメント毎に、素片選択部43から入力された複数個の音声素片を融合して、新たな音声素片を生成する。
さて、上記のように融合によって生成された音声素片の音声波形は、融合の影響によって、融合元の音声素片の波形よりもスペクトル包絡がなまってしまい、いくつかのフォルマントが弱められてしまった結果、明瞭感が下がってしまうことが多い。そこで、フォルマント強調フィルタ部45は、素片融合部44から入力された融合素片に対して、フォルマントを強調するためのフィルタリングを行い、素片編集・接続部47に出力する。
フォルマント強調度合い推定部46は、素片選択部43や素片融合部44から与えられた融合素片や融合元の複数の音声素片の情報を元に、融合素片に対して適切なフォルマント強調度合いを推定し、推定したフォルマント強調度合いをフォルマント強調フィルタ部45に出力する。
素片編集・接続部47は、フォルマント強調部45から渡されたセグメント毎の音声素片を、入力韻律情報に従って変形して接続することによって、合成音声の音声波形を生成する。
本発明の第2の実施形態に係るテキスト音声合成を行うテキスト音声合成装置(音声処理装置)について説明する。
本発明の第3の実施形態に係るテキスト音声合成装置について説明する。
本発明の第4の実施形態に係るテキスト音声合成装置について説明する。
また、本実施形態は、コンピュータに所定の手順を実行させるための、あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるためのプログラムとして実施することもできる。加えて該プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。
Claims (18)
- 目標音声に対応する音韻系列を合成単位で区切って得られる複数のセグメントを取得する第1の取得部と、
前記目標音声に対応する各々の前記セグメントの韻律情報を取得する第2の取得部と、
各々の前記セグメントごとに、当該セグメントに対し、当該セグメントの前記韻律情報に基づいて、予め用意された複数の音声素片のうちから、複数個の音声素片を選択する選択部と、
各々の前記セグメントごとに、当該セグメントに対して選択された複数個の前記音声素片を融合することによって、融合素片を生成する融合部と、
各々の前記セグメントごとに、前記選択部により選択された複数個の前記音声素片のスペクトル包絡に関連する特徴量と、前記融合部により生成された前記融合素片のスペクトル包絡に関連する特徴量とに基づいて、前記融合によるスペクトル包絡の鈍化の程度を推定し、該推定したスペクトル包絡の鈍化の程度に応じて、当該セグメントに係る前記融合素片に対して行うべきフォルマント強調における強調度合いを決定する推定部と、
各々の前記セグメントごとに、当該セグメントに係る前記融合素片に対して、前記推定部が決定した前記強調度合いに基づくフォルマント強調を行うフォルマント強調フィルタ部とを備えたことを特徴とする音声処理装置。 - 前記推定部は、各々の前記セグメントごとに、前記融合部により生成された前記融合素片のスペクトル包絡が、前記選択部により選択された前記音声素片のスペクトル包絡から、どの程度鈍ったかを推定し、推定されたスペクトル包絡の鈍り具合が大きいセグメントほど、強めのフォルマント強調度合いになるように、前記決定を行うことを特徴とする請求項1に記載の音声処理装置。
- 前記推定部は、各々の前記セグメントごとに、前記融合部により生成された前記融合素片のスペクトル包絡と、前記選択部により選択された前記音声素片のスペクトル包絡の形状との差を推定し、推定されたスペクトル包絡の形状の差が大きいセグメントほど、強めのフォルマント強調度合いになるように、前記決定を行うことを特徴とする請求項1に記載の音声処理装置。
- 前記推定部は、前記複数のセグメントのそれぞれに対して、フォルマントごと又は複数に分割した周波数帯域ごとにフォルマント強調度合いを求め、
前記フォルマント強調フィルタ部は、それぞれのフォルマント又は周波数帯域に対して求められたフォルマント強調度合いに従って、フォルマント又は周波数帯域間で異なる強さのフォルマント強調を行うことを特徴とする請求項1に記載の音声処理装置。 - 目標音声に対応する音韻系列を合成単位で区切って得られる複数のセグメントを取得する第1の取得部と、
前記目標音声に対応する各々の前記セグメントの韻律情報を取得する第2の取得部と、
各々の前記セグメントごとに、当該セグメントに対し、当該セグメントの前記韻律情報に基づいて、予め用意された複数の音声素片のうちから、複数個の音声素片を選択する選択部と、
各々の前記セグメントごとに、当該セグメントに対して選択された複数個の前記音声素片を融合することによって、融合素片を生成する融合部と、
各々の前記セグメントごとに、目標音声に対する前記融合部により生成された前記融合素片による音声の歪みの度合いを用いて、前記融合によるスペクトル包絡の鈍化の程度を推定し、該推定したスペクトル包絡の鈍化の程度に応じて、当該セグメントに係る前記融合素片に対して行うべきフォルマント強調における強調度合いを決定する推定部と、
各々の前記セグメントごとに、当該セグメントに係る前記融合素片に対して、前記推定部が決定した前記強調度合い基づくフォルマント強調を行うフォルマント強調フィルタ部とを備えたことを特徴とする音声処理装置。 - 前記推定部は、各々の前記セグメントごとに、前記歪みの度合いを、当該セグメントの目標音声に対応する韻律情報と前記選択部により選択された前記音声素片の韻律情報とから推定し、該歪みの度合いが大きいセグメントほど、強めのフォルマント強調度合いになるように、前記決定を行うことを特徴とする請求項5に記載の音声処理装置。
- 各々の前記セグメントについて前記フォルマント強調フィルタ部によりそれぞれ得られたフォルマント強調された前記融合素片に係る音声波形をもとにして、合成音声を生成する生成部を更に備えたことを特徴とする請求項1ないし6のいずれか1項に記載の音声処理装置。
- 各々の前記セグメントについて前記フォルマント強調フィルタ部によりそれぞれ得られたフォルマント強調された前記融合素片をそのまま出力する出力部を更に備えたことを特徴とする請求項1ないし6のいずれか1項に記載の音声処理装置。
- 前記出力部は、前記融合素片を、テキスト音声合成に供するための音声素片を記憶する記憶部に出力することを特徴とする請求項8に記載の音声処理装置。
- 前記予め用意された複数の音声素片を記憶する音声素片記憶部を更に備えたことを特徴とする請求項1ないし9いずれか1項に記載の音声処理装置。
- 第1の取得部、第2の取得部、選択部、融合部、推定部及びフォルマント強調フィルタ部を備えた音声処理装置の音声処理方法であって、
前記第1の取得部が、目標音声に対応する音韻系列を合成単位で区切って得られる複数のセグメントを取得するステップと、
前記第2の取得部が、前記目標音声に対応する各々の前記セグメントの韻律情報を取得するステップと、
前記選択部が、各々の前記セグメントごとに、当該セグメントに対し、当該セグメントの前記韻律情報に基づいて、予め用意された複数の音声素片のうちから、複数個の音声素片を選択するステップと、
前記融合部が、各々の前記セグメントごとに、当該セグメントに対して選択された複数個の前記音声素片を融合することによって、融合素片を生成するステップと、
前記推定部が、各々の前記セグメントごとに、前記選択部により選択された複数個の前記音声素片のスペクトル包絡に関連する特徴量と、前記融合部により生成された前記融合素片のスペクトル包絡に関連する特徴量とに基づいて、前記融合によるスペクトル包絡の鈍化の程度を推定し、該推定したスペクトル包絡の鈍化の程度に応じて、当該セグメントに係る前記融合素片に対して行うべきフォルマント強調における強調度合いを決定するステップと、
前記フォルマント強調フィルタ部が、各々の前記セグメントごとに、当該セグメントに係る前記融合素片に対して、前記推定部が決定した前記強調度合いに基づくフォルマント強調を行うステップとを有することを特徴とする音声処理方法。 - 第1の取得部、第2の取得部、選択部、融合部、推定部及びフォルマント強調フィルタ部を備えた音声処理装置の音声処理方法であって、
前記第1の取得部が、目標音声に対応する音韻系列を合成単位で区切って得られる複数のセグメントを取得するステップと、
前記第2の取得部が、前記目標音声に対応する各々の前記セグメントの韻律情報を取得するステップと、
前記選択部が、各々の前記セグメントごとに、当該セグメントに対し、当該セグメントの前記韻律情報に基づいて、予め用意された複数の音声素片のうちから、複数個の音声素片を選択するステップと、
前記融合部が、各々の前記セグメントごとに、当該セグメントに対して選択された複数個の前記音声素片を融合することによって、融合素片を生成するステップと、
前記推定部が、各々の前記セグメントごとに、目標音声に対する前記融合部により生成された前記融合素片による音声の歪みの度合いを用いて、前記融合によるスペクトル包絡の鈍化の程度を推定し、該推定したスペクトル包絡の鈍化の程度に応じて、当該セグメントに係る前記融合素片に対して行うべきフォルマント強調における強調度合いを決定するステップと、
前記フォルマント強調フィルタ部が、各々の前記セグメントごとに、当該セグメントに係る前記融合素片に対して、前記推定部が決定した前記強調度合いに基づくフォルマント強調を行うステップとを有することを特徴とする音声処理方法。 - 前記音声処理装置は、生成部を更に備えるものであり、
前記音声処理方法は、前記生成部が、各々の前記セグメントについて前記フォルマント強調フィルタ部によりそれぞれ得られたフォルマント強調された前記融合素片に係る音声波形をもとにして、合成音声を生成するステップを更に含むことを特徴とする請求項11または12に記載の音声処理方法。 - 前記音声処理装置は、出力部を更に備えるものであり、
前記音声処理方法は、前記出力部が、各々の前記セグメントについて前記フォルマント強調フィルタ部によりそれぞれ得られたフォルマント強調された前記融合素片をそのまま出力するステップを更に含むことを特徴とする請求項11または12に記載の音声処理方法。 - 第1の取得部、第2の取得部、選択部、融合部、推定部及びフォルマント強調フィルタ部を備えた音声処理装置としてコンピュータを機能させるためのプログラムであって、
前記第1の取得部が、目標音声に対応する音韻系列を合成単位で区切って得られる複数のセグメントを取得するステップと、
前記第2の取得部が、前記目標音声に対応する各々の前記セグメントの韻律情報を取得するステップと、
前記選択部が、各々の前記セグメントごとに、当該セグメントに対し、当該セグメントの前記韻律情報に基づいて、予め用意された複数の音声素片のうちから、複数個の音声素片を選択するステップと、
前記融合部が、各々の前記セグメントごとに、当該セグメントに対して選択された複数個の前記音声素片を融合することによって、融合素片を生成するステップと、
前記推定部が、各々の前記セグメントごとに、前記選択部により選択された複数個の前記音声素片のスペクトル包絡に関連する特徴量と、前記融合部により生成された前記融合素片のスペクトル包絡に関連する特徴量とに基づいて、前記融合によるスペクトル包絡の鈍化の程度を推定し、該推定したスペクトル包絡の鈍化の程度に応じて、当該セグメントに係る前記融合素片に対して行うべきフォルマント強調における強調度合いを決定するステップと、
前記フォルマント強調フィルタ部が、各々の前記セグメントごとに、当該セグメントに係る前記融合素片に対して、前記推定部が決定した前記強調度合いに基づくフォルマント強調を行うステップとをコンピュータに実行させるためのプログラム。 - 第1の取得部、第2の取得部、選択部、融合部、推定部及びフォルマント強調フィルタ部を備えた音声処理装置としてコンピュータを機能させるためのプログラムであって、
前記第1の取得部が、目標音声に対応する音韻系列を合成単位で区切って得られる複数のセグメントを取得するステップと、
前記第2の取得部が、前記目標音声に対応する各々の前記セグメントの韻律情報を取得するステップと、
前記選択部が、各々の前記セグメントごとに、当該セグメントに対し、当該セグメントの前記韻律情報に基づいて、予め用意された複数の音声素片のうちから、複数個の音声素片を選択するステップと、
前記融合部が、各々の前記セグメントごとに、当該セグメントに対して選択された複数個の前記音声素片を融合することによって、融合素片を生成するステップと、
前記推定部が、各々の前記セグメントごとに、目標音声に対する前記融合部により生成された前記融合素片による音声の歪みの度合いを用いて、前記融合によるスペクトル包絡の鈍化の程度を推定し、該推定したスペクトル包絡の鈍化の程度に応じて、当該セグメントに係る前記融合素片に対して行うべきフォルマント強調における強調度合いを決定するステップと、
前記フォルマント強調フィルタ部が、各々の前記セグメントごとに、当該セグメントに係る前記融合素片に対して、前記推定部が決定した前記強調度合いに基づくフォルマント強調を行うステップとをコンピュータに実行させるためのプログラム。 - 前記音声処理装置は、生成部を更に備えるものであり、
前記プログラムは、前記生成部が、各々の前記セグメントについて前記フォルマント強調フィルタ部によりそれぞれ得られたフォルマント強調された前記融合素片に係る音声波形をもとにして、合成音声を生成するステップを更にコンピュータに実行させることを特徴とする請求項15または16に記載のプログラム。 - 前記音声処理装置は、出力部を更に備えるものであり、
前記プログラムは、前記出力部が、各々の前記セグメントについて前記フォルマント強調フィルタ部によりそれぞれ得られたフォルマント強調された前記融合素片をそのまま出力するステップを更にコンピュータに実行させることを特徴とする請求項15または16に記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008170973A JP5106274B2 (ja) | 2008-06-30 | 2008-06-30 | 音声処理装置、音声処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008170973A JP5106274B2 (ja) | 2008-06-30 | 2008-06-30 | 音声処理装置、音声処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010008922A JP2010008922A (ja) | 2010-01-14 |
JP5106274B2 true JP5106274B2 (ja) | 2012-12-26 |
Family
ID=41589465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008170973A Expired - Fee Related JP5106274B2 (ja) | 2008-06-30 | 2008-06-30 | 音声処理装置、音声処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5106274B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7496559B2 (ja) | 2022-07-11 | 2024-06-07 | 株式会社ユニテック | 鋼管部材の連結構造および鋼管部材の連結方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011170261A (ja) * | 2010-02-22 | 2011-09-01 | Oki Electric Industry Co Ltd | 音声強調装置及び音声強調プログラム |
WO2012001457A1 (en) * | 2010-06-28 | 2012-01-05 | Kabushiki Kaisha Toshiba | Method and apparatus for fusing voiced phoneme units in text-to-speech |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208395A (ja) * | 1992-10-30 | 1994-07-26 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | ホルマント検出装置及び音声加工装置 |
JP3321971B2 (ja) * | 1994-03-10 | 2002-09-09 | ソニー株式会社 | 音声信号処理方法 |
JP3281281B2 (ja) * | 1996-03-12 | 2002-05-13 | 株式会社東芝 | 音声合成方法及び装置 |
JP2008033133A (ja) * | 2006-07-31 | 2008-02-14 | Toshiba Corp | 音声合成装置、音声合成方法および音声合成プログラム |
-
2008
- 2008-06-30 JP JP2008170973A patent/JP5106274B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7496559B2 (ja) | 2022-07-11 | 2024-06-07 | 株式会社ユニテック | 鋼管部材の連結構造および鋼管部材の連結方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2010008922A (ja) | 2010-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5159325B2 (ja) | 音声処理装置及びそのプログラム | |
JP4551803B2 (ja) | 音声合成装置及びそのプログラム | |
JP4080989B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP4469883B2 (ja) | 音声合成方法及びその装置 | |
JP3913770B2 (ja) | 音声合成装置および方法 | |
EP2881947B1 (en) | Spectral envelope and group delay inference system and voice signal synthesis system for voice analysis/synthesis | |
JP2008033133A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JPH031200A (ja) | 規則型音声合成装置 | |
CN114464208A (zh) | 语音处理装置、语音处理方法以及存储介质 | |
WO2011151956A1 (ja) | 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム | |
JP2008249808A (ja) | 音声合成装置、音声合成方法及びプログラム | |
US20110046957A1 (en) | System and method for speech synthesis using frequency splicing | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP5106274B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP4225128B2 (ja) | 規則音声合成装置及び規則音声合成方法 | |
JP2009133890A (ja) | 音声合成装置及びその方法 | |
JP2904279B2 (ja) | 音声合成方法および装置 | |
JP3281266B2 (ja) | 音声合成方法及び装置 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP5075865B2 (ja) | 音声処理装置、方法、及びプログラム | |
JP4476855B2 (ja) | 音声合成装置及びその方法 | |
JP2003208188A (ja) | 日本語テキスト音声合成方法 | |
JP5275470B2 (ja) | 音声合成装置およびプログラム | |
JP3727885B2 (ja) | 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110323 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120528 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120605 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120802 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120904 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121002 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151012 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |