JP5269668B2 - 音声合成装置、プログラム、及び方法 - Google Patents
音声合成装置、プログラム、及び方法 Download PDFInfo
- Publication number
- JP5269668B2 JP5269668B2 JP2009074849A JP2009074849A JP5269668B2 JP 5269668 B2 JP5269668 B2 JP 5269668B2 JP 2009074849 A JP2009074849 A JP 2009074849A JP 2009074849 A JP2009074849 A JP 2009074849A JP 5269668 B2 JP5269668 B2 JP 5269668B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- synthesized sound
- target sentence
- target
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 41
- 238000003786 synthesis reaction Methods 0.000 title claims description 33
- 238000000034 method Methods 0.000 title description 24
- 238000006467 substitution reaction Methods 0.000 claims abstract description 7
- 230000014509 gene expression Effects 0.000 claims description 34
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000001308 synthesis method Methods 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 9
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 239000000470 constituent Substances 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- LFYJSSARVMHQJB-QIXNEVBVSA-N bakuchiol Chemical compound CC(C)=CCC[C@@](C)(C=C)\C=C\C1=CC=C(O)C=C1 LFYJSSARVMHQJB-QIXNEVBVSA-N 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
第1の実施の形態では、それぞれの文章が類似する複数の雛形文章の非定型部分を置換語句に置換して複数の目標文章を生成し、生成した複数の目標文章の中から定型合成音と規則合成音との接続境界の不連続値が最小となる目標文章を選択し、選択した目標文章の定型合成音と規則合成音とを接続して合成音声を出力する例について説明する。
次に、第2の実施の形態では、単一の雛型文章から目標文章、及び目標文章と意味的に等価な代替目標文章を生成し、生成した目標文章及び代替目標文章の中から定型合成音と規則合成音との接続境界の不連続値が最小となる文章を選択し、選択した文章の定型合成音と規則合成音とを接続して合成音声を出力する例について説明する。
なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。
例えば、上記実施の形態の演算部60、1060は、音響的特徴を表すスペクトルの時間変化が接続境界において不連続であると自然性劣化の原因となることから、スペクトルパラメータに関する不連続度合いを表すスペクトル距離の総和をスペクトル歪みとして考慮して、不連続値を演算してもよい。
また、上記実施の形態の演算部60、1060は、抑揚特徴を表す基本周波数の時間変化が接続境界において不連続であると自然性劣化の原因となることから、基本周波数に関する不連続度合を表す基本周波数距離の総和を基本周波数歪みとして考慮して、不連続値を演算してもよい。
また、上記実施の形態の演算部60、1060は、規則音声合成方式では規則作成時の低頻度の共起音韻は高頻度の共起音韻と比べ自然性に劣る場合が多いことから、音韻環境に関する共起確率の逆数を音韻共起歪みとして考慮して、不連続値を演算してもよい。
また、上記実施の形態の演算部60、1060は、同一の目標文章が頻繁に用いられると自然性に欠けることから、過去に高頻度で用いられた目標文章があまり用いられないよう、演算済みの不連続値である演算済不連続値に選択部65、1065による目標文書の選択頻度に伴う重み付けを行い、この重み付けされた演算済不連続値を考慮して不連続値を演算してもよい。なお、重み付けされた演算済不連続値としては、例えば、目標文書の演算済不連続値に当該目標文書の選択頻度を乗じたものなどが挙げられる。
また、上記実施の形態では、入力部10から入力された雛形文章と置換語句を取得する例について説明したが、雛形文章及び置換語句を予め記憶部30に記憶しておき、取得部40、1040が記憶部30から雛形文章及び置換語句を取得するようにしてもよい。
また第2の実施の形態では、単一の雛型文章から目標文章、及び代替目標文章を生成する例について説明したが、第2の実施の形態においても複数の雛型文章から複数の目標文章、及び複数の代替目標文章を生成するようにしてもよい。
また第2の実施の形態では、雛型文章中の語句の入れ替え等を行った後に非定型部分を置換して代替目標文章を生成する例について説明したが、雛型文章の非定型部分を置換して目標文章を生成した後に、目標文章の語句の入れ替え等を行って代替目標文章を生成するようにしてもよい。
45 文章生成部
50、1050 定型合成音生成部
55、1055 規則合成音生成部
60、1060 演算部
65、1065 選択部
70、1070 接続部
Claims (9)
- 他の語句に置換されない定型部分と他の語句に置換される非定型部分とを含む意味的に等価な複数の雛形文章と、前記非定型部分を置換する置換語句とを取得する取得部と、
前記雛形文章それぞれに対し、前記非定型部分を前記置換語句で置換して複数の目標文章を生成する文章生成部と、
前記目標文章それぞれに対し、前記定型部分の合成音である第1合成音を生成する第1合成音生成部と、
前記目標文章それぞれに対し、前記置換語句の合成音である第2合成音を生成する第2合成音生成部と、
前記目標文章それぞれに対し、前記第1合成音と前記第2合成音との接続境界の不連続値を演算する演算部と、
複数の前記目標文章の中から、前記不連続値が最小となる前記目標文章を選択する選択部と、
選択された前記目標文章の前記第1合成音及び前記第2合成音を接続する接続部と、
を備えることを特徴とする音声合成装置。 - 他の語句に置換されない定型部分と他の語句に置換される非定型部分とを含む雛形文章と、前記非定型部分を置換する置換語句とを取得する取得部と、
前記非定型部分を前記置換語句で置換して目標文章を生成する第1文章生成部と、
前記目標文章との類似度が閾値を超える代替目標文章を生成する第2文章生成部と、
前記目標文章及び前記代替目標文章に対し、前記定型部分の合成音である第1合成音を生成する第1合成音生成部と、
前記目標文章及び前記代替目標文章に対し、前記置換語句の合成音である第2合成音を生成する第2合成音生成部と、
前記目標文章及び前記代替目標文章に対し、前記第1合成音と前記第2合成音との接続境界の不連続値を演算する演算部と、
前記目標文章及び前記代替目標文章の中から、前記不連続値が最小となる前記目標文章又は前記代替目標文章を選択する選択部と、
選択された前記目標文章又は前記代替目標文章の前記第1合成音及び前記第2合成音を接続する接続部と、
を備えることを特徴とする音声合成装置。 - 前記第2文章生成部は、前記雛形文章中の語句の語順の入れ替え、前記雛形文章中の語句の同義語との入れ換え、及び前記雛形文章中の表現の別表現との入れ替えの少なくともいずれかを行うとともに、前記非定型部分を前記置換語句で置換して、前記代替目標文章を生成することを特徴とする請求項2に記載の音声合成装置。
- 前記演算部は、前記第1合成音と前記第2合成音との接続境界のスペクトル歪み、基本周波数歪み、音韻共起歪みの少なくともいずれかを考慮して前記不連続値を演算することを特徴とする請求項1乃至請求項3のいずれか1項に記載の音声合成装置。
- 前記演算部は、演算済みの前記不連続値である演算済不連続値に、前記選択部による前記目標文書の選択頻度に伴う重み付けを行い、重み付けが行われた前記演算済不連続値を考慮して前記不連続値を演算することを特徴とする請求項1乃至請求項4のいずれか1項に記載の音声合成装置。
- 取得部が、他の語句に置換されない定型部分と他の語句に置換される非定型部分とを含む意味的に等価な複数の雛形文章と、前記非定型部分を置換する置換語句とを取得する取得ステップと、
文章生成部が、前記雛形文章それぞれに対し、前記非定型部分を前記置換語句で置換して複数の目標文章を生成する文章生成ステップと、
第1合成音生成部が、前記目標文章それぞれに対し、前記定型部分の合成音である第1合成音を生成する第1合成音生成ステップと、
第2合成音生成部が、前記目標文章それぞれに対し、前記置換語句の合成音である第2合成音を生成する第2合成音生成ステップと、
演算部が、前記目標文章それぞれに対し、前記第1合成音と前記第2合成音との接続境界の不連続値を演算する演算ステップと、
選択部が、複数の前記目標文章の中から、前記不連続値が最小となる前記目標文章を選択する選択ステップと、
接続部が、選択された前記目標文章の前記第1合成音及び前記第2合成音を接続する接続ステップと、
をコンピュータに実行させるための音声合成プログラム。 - 取得部が、他の語句に置換されない定型部分と他の語句に置換される非定型部分とを含む雛形文章と、前記非定型部分を置換する置換語句とを取得する取得ステップと、
第1文章生成部が、前記非定型部分を前記置換語句で置換して目標文章を生成する第1文章生成ステップと、
第2文章生成部が、前記目標文章との類似度が閾値を超える代替目標文章を生成する第2文章生成ステップと、
第1合成音生成部が、前記目標文章及び前記代替目標文章に対し、前記定型部分の合成音である第1合成音を生成する第1合成音生成ステップと、
第2合成音生成部が、前記目標文章及び前記代替目標文章に対し、前記置換語句の合成音である第2合成音を生成する第2合成音生成ステップと、
演算部が、前記目標文章及び前記代替目標文章に対し、前記第1合成音と前記第2合成音との接続境界の不連続値を演算する演算ステップと、
選択部が、前記目標文章及び前記代替目標文章の中から、前記不連続値が最小となる前記目標文章又は前記代替目標文章を選択する選択ステップと、
接続部が、選択された前記目標文章又は前記代替目標文章の前記第1合成音及び前記第2合成音を接続する接続ステップと、
をコンピュータに実行させるための音声合成プログラム。 - 取得部が、他の語句に置換されない定型部分と他の語句に置換される非定型部分とを含む意味的に等価な複数の雛形文章と、前記非定型部分を置換する置換語句とを取得する取得ステップと、
文章生成部が、前記雛形文章それぞれに対し、前記非定型部分を前記置換語句で置換して複数の目標文章を生成する文章生成ステップと、
第1合成音生成部が、前記目標文章それぞれに対し、前記定型部分の合成音である第1合成音を生成する第1合成音生成ステップと、
第2合成音生成部が、前記目標文章それぞれに対し、前記置換語句の合成音である第2合成音を生成する第2合成音生成ステップと、
演算部が、前記目標文章それぞれに対し、前記第1合成音と前記第2合成音との接続境界の不連続値を演算する演算ステップと、
選択部が、複数の前記目標文章の中から、前記不連続値が最小となる前記目標文章を選択する選択ステップと、
接続部が、選択された前記目標文章の前記第1合成音及び前記第2合成音を接続する接続ステップと、
を含むことを特徴とする音声合成方法。 - 取得部が、他の語句に置換されない定型部分と他の語句に置換される非定型部分とを含む雛形文章と、前記非定型部分を置換する置換語句とを取得する取得ステップと、
第1文章生成部が、前記非定型部分を前記置換語句で置換して目標文章を生成する第1文章生成ステップと、
第2文章生成部が、前記目標文章との類似度が閾値を超える代替目標文章を生成する第2文章生成ステップと、
第1合成音生成部が、前記目標文章及び前記代替目標文章に対し、前記定型部分の合成音である第1合成音を生成する第1合成音生成ステップと、
第2合成音生成部が、前記目標文章及び前記代替目標文章に対し、前記置換語句の合成音である第2合成音を生成する第2合成音生成ステップと、
演算部が、前記目標文章及び前記代替目標文章に対し、前記第1合成音と前記第2合成音との接続境界の不連続値を演算する演算ステップと、
選択部が、前記目標文章及び前記代替目標文章の中から、前記不連続値が最小となる前記目標文章又は前記代替目標文章を選択する選択ステップと、
接続部が、選択された前記目標文章又は前記代替目標文章の前記第1合成音及び前記第2合成音を接続する接続ステップと、
を含むことを特徴とする音声合成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009074849A JP5269668B2 (ja) | 2009-03-25 | 2009-03-25 | 音声合成装置、プログラム、及び方法 |
US12/559,844 US8626510B2 (en) | 2009-03-25 | 2009-09-15 | Speech synthesizing device, computer program product, and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009074849A JP5269668B2 (ja) | 2009-03-25 | 2009-03-25 | 音声合成装置、プログラム、及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010230699A JP2010230699A (ja) | 2010-10-14 |
JP5269668B2 true JP5269668B2 (ja) | 2013-08-21 |
Family
ID=42785347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009074849A Active JP5269668B2 (ja) | 2009-03-25 | 2009-03-25 | 音声合成装置、プログラム、及び方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8626510B2 (ja) |
JP (1) | JP5269668B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5398295B2 (ja) * | 2009-02-16 | 2014-01-29 | 株式会社東芝 | 音声処理装置、音声処理方法及び音声処理プログラム |
US9031834B2 (en) * | 2009-09-04 | 2015-05-12 | Nuance Communications, Inc. | Speech enhancement techniques on the power spectrum |
GB2492753A (en) * | 2011-07-06 | 2013-01-16 | Tomtom Int Bv | Reducing driver workload in relation to operation of a portable navigation device |
US9135237B2 (en) * | 2011-07-13 | 2015-09-15 | Nuance Communications, Inc. | System and a method for generating semantically similar sentences for building a robust SLM |
US8996377B2 (en) * | 2012-07-12 | 2015-03-31 | Microsoft Technology Licensing, Llc | Blending recorded speech with text-to-speech output for specific domains |
JP6063218B2 (ja) * | 2012-11-20 | 2017-01-18 | 日本放送協会 | 音声合成装置およびそのプログラム |
JP5949607B2 (ja) * | 2013-03-15 | 2016-07-13 | ヤマハ株式会社 | 音声合成装置 |
JP6234134B2 (ja) * | 2013-09-25 | 2017-11-22 | 三菱電機株式会社 | 音声合成装置 |
CN105096934B (zh) * | 2015-06-30 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 构建语音特征库的方法、语音合成方法、装置及设备 |
US10235989B2 (en) * | 2016-03-24 | 2019-03-19 | Oracle International Corporation | Sonification of words and phrases by text mining based on frequency of occurrence |
JPWO2023276347A1 (ja) * | 2021-06-29 | 2023-01-05 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0360276A (ja) | 1989-07-28 | 1991-03-15 | Fuji Xerox Co Ltd | 画情報読取り装置 |
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
JPH07210194A (ja) * | 1994-01-18 | 1995-08-11 | Hitachi Ltd | 音声出力装置 |
JPH07253987A (ja) * | 1994-03-16 | 1995-10-03 | Toshiba Corp | 文書検索システムと文書検索方法 |
JP3060276B2 (ja) | 1994-08-19 | 2000-07-10 | 富士通株式会社 | 音声合成装置 |
CN1328321A (zh) * | 2000-05-31 | 2001-12-26 | 松下电器产业株式会社 | 通过语音提供信息的装置和方法 |
JP2007212884A (ja) * | 2006-02-10 | 2007-08-23 | Fujitsu Ltd | 音声合成装置、音声合成方法、及びコンピュータプログラム |
JP2008185805A (ja) * | 2007-01-30 | 2008-08-14 | Internatl Business Mach Corp <Ibm> | 高品質の合成音声を生成する技術 |
JP2008225254A (ja) * | 2007-03-14 | 2008-09-25 | Canon Inc | 音声合成装置及び方法並びにプログラム |
JP5097007B2 (ja) * | 2007-07-11 | 2012-12-12 | キヤノン株式会社 | 音声処理装置及び方法 |
-
2009
- 2009-03-25 JP JP2009074849A patent/JP5269668B2/ja active Active
- 2009-09-15 US US12/559,844 patent/US8626510B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US8626510B2 (en) | 2014-01-07 |
JP2010230699A (ja) | 2010-10-14 |
US20100250254A1 (en) | 2010-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5269668B2 (ja) | 音声合成装置、プログラム、及び方法 | |
JP5038995B2 (ja) | 声質変換装置及び方法、音声合成装置及び方法 | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
WO2013018294A1 (ja) | 音声合成装置および音声合成方法 | |
JP5929909B2 (ja) | 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム | |
Ekpenyong et al. | Statistical parametric speech synthesis for Ibibio | |
Bellegarda et al. | Statistical prosodic modeling: from corpus design to parameter estimation | |
JP4533255B2 (ja) | 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 | |
JP4247289B1 (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP2011059146A (ja) | 音声変換装置および音声変換方法 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP4829605B2 (ja) | 音声合成装置および音声合成プログラム | |
Ni et al. | Quantitative and structural modeling of voice fundamental frequency contours of speech in Mandarin | |
WO2008056604A1 (fr) | Système de collecte de son, procédé de collecte de son et programme de traitement de collecte | |
JP5294700B2 (ja) | 音声認識及び合成システム、プログラム及び方法 | |
JP4640063B2 (ja) | 音声合成方法,音声合成装置,およびコンピュータプログラム | |
JP2008015424A (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
JP2004226505A (ja) | ピッチパタン生成方法、音声合成方法とシステム及びプログラム | |
JP4787769B2 (ja) | F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体 | |
JP3737788B2 (ja) | 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
Dong et al. | A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese. | |
JP3821131B2 (ja) | 音声合成装置および音声合成方法 | |
JP2003330482A (ja) | 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム | |
JPH1185193A (ja) | 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110916 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120807 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121005 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130508 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5269668 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |