JP4586615B2 - 音声合成装置,音声合成方法およびコンピュータプログラム - Google Patents
音声合成装置,音声合成方法およびコンピュータプログラム Download PDFInfo
- Publication number
- JP4586615B2 JP4586615B2 JP2005113806A JP2005113806A JP4586615B2 JP 4586615 B2 JP4586615 B2 JP 4586615B2 JP 2005113806 A JP2005113806 A JP 2005113806A JP 2005113806 A JP2005113806 A JP 2005113806A JP 4586615 B2 JP4586615 B2 JP 4586615B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- speech
- reading
- unit
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Description
読み上げ特徴指定部は,読み上げ特徴入力部に入力された識別情報に基づいて,該識別情報に対応する読み上げ特徴情報を読み上げ情報記憶部から取得するようにしてもよい。かかる構成によれば,読み上げ特徴情報の指定をユーザの入力に基づいて行うため,合成音声の作成の際にどの自然音声を採用するかをユーザの希望に応じて決定することができる。また,ユーザは,識別情報を入力すれば済むため,簡単に読み上げ特徴情報を指定することができる。
本発明の第1実施形態にかかる音声合成装置10について説明する。音声合成装置10は,ユーザから文章をテキスト入力されるとともに,その文章を読み上げる際の発話に関する特徴をユーザから指定されて,ユーザから指定された特徴に近い特徴を持ち,かつ,自然性が高く品質の良い合成音声によりユーザから入力された文章を読み上げる。音声合成装置10は,ハードディスク,RAM(Randam Access Memory),ROM(Read Only Memory)等の記憶手段と,音声合成装置10が行う処理を制御するCPU,ユーザからの入力を受け付ける入力手段,情報の出力を行う出力手段などを備える。また,外部のコンピュータと通信を行う通信手段を備えても良い。音声合成装置10としては,パーソナルコンピュータ,電子辞書,カーナビゲーションシステム,携帯電話,音声を発するロボットなどを例示できる。
話者特徴情報の各サブ項目の値:C平常,C喜び,C悲しみ,・・C温かい,・・C東北弁
誤差=(U平常−C平常)2+(U喜び−C喜び)2+(U悲しみ−C悲しみ)2+・・+(U温かい−C温かい)2+・・+(U東北弁−C東北弁)2
2.音韻記号とアクセント記号列,および形態素解析結果から得られる文章の品詞情報に基づき,音声記憶部122に記憶されている音声から構築されたHMM記憶部124に記憶されている統計的に学習されたHMMを用いて,特徴点である音韻継続時間長,基本周波数およびメルケプストラム等の推定を行う。
3.コスト関数により算出されたコスト値に基づいて,文章の先頭からコスト値が最小となる合成単位(音素片)の組み合わせを,動的計画法を用いて選択する。
4.上記で選択した音素片の組み合わせに従って,音素片の接続を行い,合成音声を作成する。
本発明の第2実施形態にかかる音声合成装置20について説明する。音声合成装置20は,ユーザから文章をテキスト入力されるとともに,その文章を読み上げる際の発話に関する特徴をユーザから指定されて,ユーザから指定された特徴に近い特徴を持ち,かつ,自然性が高く品質の良い合成音声によりユーザから入力された文章を読み上げる。さらに音声合成装置20は,より確実にユーザからの指定に近い特徴をもつ合成音声により文章を読み上げる。音声合成装置20のハードウェア構成は,第1実施形態にかかる音声合成装置10とほぼ同様であるため,説明を省略する。
本発明の第3実施形態にかかる音声合成装置について説明する。本実施形態にかかる音声合成装置は,ユーザから文章をテキスト入力されるとともに,その文章を読み上げる際の発話に関する特徴をユーザから指定されて,ユーザから指定された特徴に近い特徴を持ち,かつ,自然性が高く品質の良い合成音声によりユーザから入力された文章を読み上げる。さらに本実施形態にかかる音声合成装置は,ユーザによる自由な特徴情報の指定を可能にする。音声合成装置のハードウェア構成は,第1実施形態にかかる音声合成装置10とほぼ同様であるため,説明を省略する。
102 読み上げ特徴入力部
104 読み上げ特徴指定部
106 照合部
108 話者選択部
110 音声合成部
112,212 合成音声選択部
114 文章入力部
116 合成音声出力部
118 読み上げ情報記憶部
120 特徴情報記憶部
122 音声記憶部
124 HMM記憶部
202 類似度取得部
204 類似度記憶部
Claims (12)
- 予め録音された音声を用いて,文章を読み上げる音声を作成する音声合成装置において:
複数の話者の音声を話者ごとに記憶する音声記憶部と;
前記音声から特定される,前記話者の発話に関する特徴を示す話者特徴情報を,前記話者ごとに記憶する特徴情報記憶部と;
文章読み上げ時の発話に関する特徴を示す読み上げ特徴情報を指定する読み上げ特徴指定部と:
前記読み上げ特徴指定部により指定された読み上げ特徴情報と,前記特徴情報記憶部に記憶されている前記話者特徴情報との間の類似の程度を示す誤差を算出する照合部と;
前記照合部により導出された誤差に基づいて,該誤差が最も小さい値をもつ話者を選択する話者選択部と;
前記話者選択部の選択した話者の音声を前記音声記憶部から取得し、該音声に基づいて前記文章を読み上げる合成音声を作成する音声合成部と:
を備えることを特徴とする音声合成装置。 - 前記読み上げ特徴情報を複数記憶し,各々に識別情報が付与されている読み上げ情報記憶部と;
前記識別情報を入力される読み上げ特徴入力部と;を備え,
前記読み上げ特徴指定部は,前記読み上げ特徴入力部に入力された前記識別情報に基づいて,該識別情報に対応する前記読み上げ特徴情報を前記読み上げ情報記憶部から取得することを特徴とする,請求項1に記載の音声合成装置。 - 前記文章を入力する文章入力部を備えることを特徴とする,請求項1または2のいずれかに記載の音声合成装置。
- 前記読み上げ特徴情報および前記話者特徴情報には,発話を特徴付ける複数の項目と,前記項目ごとに設定される特徴に応じた数値が含まれることを特徴とする,請求項1〜3のいずれか1項に記載の音声合成装置。
- 前記発話を特徴づける複数の項目を表示手段に表示させ,各項目に対するユーザからの設定値を受け付ける読み上げ特徴入力部を備えることを特徴とする,請求項1〜4のいずれか1項に記載の音声合成装置。
- 予め録音された音声を用いて文章を読み上げる音声を作成する音声合成装置をして:
文章読み上げ時の発話に関する特徴を示す読み上げ特徴情報を指定する読み上げ特徴指定処理と:
音声から特定される,話者の発話に関する特徴を示す話者特徴情報が前記話者ごとに記憶されている特徴情報記憶部内の前記話者特徴情報と,前記読み上げ特徴指定処理により指定された前記読み上げ特徴情報と,の間の類似の程度を示す誤差を算出する照合処理と:
前記照合処理により算出された誤差に基づいて,該誤差が最も小さい値をもつ話者を選択する話者選択処理と:
前記話者選択処理により選択された話者の音声を,複数の話者の音声が話者ごとに記憶されている音声記憶部から取得し,該音声に基づいて前記文章を読み上げる合成音声を作成する音声合成処理と:
を実行せしめることを特徴とするコンピュータプログラム。 - 予め録音された音声を用いて,文章を読み上げる音声を作成する音声合成方法において:
複数の話者の音声を話者ごとに記憶手段に記憶する音声記憶ステップと;
前記音声から特定される,前記話者の発話に関する特徴を示す話者特徴情報を,前記話者ごとに記憶手段に記憶する特徴情報記憶ステップと;
文章読み上げ時の発話に関する特徴を示す読み上げ特徴情報を指定する読み上げ特徴指定ステップと:
前記読み上げ特徴指定ステップにより指定された読み上げ特徴情報と,前記記憶手段に記憶されている前記話者特徴情報との間の類似の程度を示す誤差を算出する照合ステップと;
前記照合ステップにより算出された誤差に基づいて,該誤差が最も小さい値をもつ話者を選択する話者選択ステップと;
前記話者選択ステップにより選択された話者の音声を,前記記憶手段から取得し,該音声に基づいて前記文章を読み上げる合成音声を作成する音声合成ステップと:
を含むことを特徴とする音声合成方法。 - 予め録音された音声を用いて,文章を読み上げる音声を作成する音声合成装置において:
複数の話者の音声を話者ごとに記憶する音声記憶部と;
前記音声から特定される,前記話者の発話に関する特徴を示す話者特徴情報を,前記話者ごとに記憶する特徴情報記憶部と;
文章読み上げ時の発話に関する特徴を示す読み上げ特徴情報を指定する読み上げ特徴指定部と:
前記読み上げ特徴指定部により指定された読み上げ特徴情報と,前記特徴情報記憶部に記憶されている前記話者特徴情報とに基づいて,前記読み上げ特徴指定部により指定された特徴に対する前記話者の発話に関する特徴の類似の程度を導出する照合部と;
前記照合部により導出された類似の程度に基づいて,所定の条件を満たす複数の話者を選択する話者選択部と;
前記話者選択部によって選択された複数の話者の各々の音声に基づいて複数の合成音声を作成する音声合成部と;
前記音声合成部によって作成された複数の合成音声から,出力する合成音声を選択する合成音声選択部と;
を備えることを特徴とする音声合成装置。 - 前記合成音声選択部は,前記合成音声の自然性の程度を示す値に基づいて,前記出力する合成音声を選択することを特徴とする,請求項8に記載の音声合成装置。
- 前記読み上げ情報記憶部に記憶されている前記読み上げ特徴情報に対応する文章読み上げ時の発話に関する特徴と,前記音声記憶部に記憶されている音声から特定される前記話者の発話に関する特徴と,の類似度を記憶する類似度記憶部と;
前記読み上げ特徴指定部により指定された前記読み上げ特徴情報に対応する文章読み上げ時の発話に関する特徴と,前記話者選択部により選択された複数の話者の発話に関する特徴との類似度を,前記類似度記憶部から取得する類似度取得部と;
を備え,
前記合成音声選択部は,前記合成音声の自然性の程度を示す値および前記類似度取得部により取得された類似度に基づいて,出力する合成音声を選択することを特徴とする,請求項8に記載の音声合成装置。 - 前記合成音声選択部は,前記合成音声の自然性の程度を示す値および前記類似度に重み付けをすることを特徴とする,請求項10に記載の音声合成装置。
- 前記類似の程度は,前記話者特徴情報と前記読み上げ特徴情報との誤差を算出することによって導出され,
前記所定の条件は,前記誤差が所定の値以下であることを特徴とする,請求項10または11のいずれかに記載の音声合成装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005113806A JP4586615B2 (ja) | 2005-04-11 | 2005-04-11 | 音声合成装置,音声合成方法およびコンピュータプログラム |
US11/399,410 US20060229874A1 (en) | 2005-04-11 | 2006-04-07 | Speech synthesizer, speech synthesizing method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005113806A JP4586615B2 (ja) | 2005-04-11 | 2005-04-11 | 音声合成装置,音声合成方法およびコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006293026A JP2006293026A (ja) | 2006-10-26 |
JP4586615B2 true JP4586615B2 (ja) | 2010-11-24 |
Family
ID=37084162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005113806A Expired - Fee Related JP4586615B2 (ja) | 2005-04-11 | 2005-04-11 | 音声合成装置,音声合成方法およびコンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20060229874A1 (ja) |
JP (1) | JP4586615B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8234116B2 (en) * | 2006-08-22 | 2012-07-31 | Microsoft Corporation | Calculating cost measures between HMM acoustic models |
US20080059190A1 (en) * | 2006-08-22 | 2008-03-06 | Microsoft Corporation | Speech unit selection using HMM acoustic models |
US8150695B1 (en) * | 2009-06-18 | 2012-04-03 | Amazon Technologies, Inc. | Presentation of written works based on character identities and attributes |
JP5411845B2 (ja) * | 2010-12-28 | 2014-02-12 | 日本電信電話株式会社 | 音声合成方法、音声合成装置及び音声合成プログラム |
JP5842452B2 (ja) * | 2011-08-10 | 2016-01-13 | カシオ計算機株式会社 | 音声学習装置及び音声学習プログラム |
JP2013072957A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 文書読み上げ支援装置、方法及びプログラム |
CN103377651B (zh) * | 2012-04-28 | 2015-12-16 | 北京三星通信技术研究有限公司 | 语音自动合成装置及方法 |
JP2014066916A (ja) * | 2012-09-26 | 2014-04-17 | Brother Ind Ltd | 音声合成装置 |
CN106601228B (zh) * | 2016-12-09 | 2020-02-04 | 百度在线网络技术(北京)有限公司 | 基于人工智能韵律预测的样本标注方法及装置 |
JP7125608B2 (ja) * | 2018-10-05 | 2022-08-25 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、及びプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08248971A (ja) * | 1995-03-09 | 1996-09-27 | Hitachi Ltd | テキスト朗読読み上げ装置 |
JP2001265374A (ja) * | 2000-03-14 | 2001-09-28 | Omron Corp | 音声合成装置及び記録媒体 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2782147B2 (ja) * | 1993-03-10 | 1998-07-30 | 日本電信電話株式会社 | 波形編集型音声合成装置 |
US5930755A (en) * | 1994-03-11 | 1999-07-27 | Apple Computer, Inc. | Utilization of a recorded sound sample as a voice source in a speech synthesizer |
US6366883B1 (en) * | 1996-05-15 | 2002-04-02 | Atr Interpreting Telecommunications | Concatenation of speech segments by use of a speech synthesizer |
US5850629A (en) * | 1996-09-09 | 1998-12-15 | Matsushita Electric Industrial Co., Ltd. | User interface controller for text-to-speech synthesizer |
JPH10153998A (ja) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 |
CA2354871A1 (en) * | 1998-11-13 | 2000-05-25 | Lernout & Hauspie Speech Products N.V. | Speech synthesis using concatenation of speech waveforms |
US20030028380A1 (en) * | 2000-02-02 | 2003-02-06 | Freeland Warwick Peter | Speech system |
US7165030B2 (en) * | 2001-09-17 | 2007-01-16 | Massachusetts Institute Of Technology | Concatenative speech synthesis using a finite-state transducer |
US7483832B2 (en) * | 2001-12-10 | 2009-01-27 | At&T Intellectual Property I, L.P. | Method and system for customizing voice translation of text to speech |
US6950799B2 (en) * | 2002-02-19 | 2005-09-27 | Qualcomm Inc. | Speech converter utilizing preprogrammed voice profiles |
US6988069B2 (en) * | 2003-01-31 | 2006-01-17 | Speechworks International, Inc. | Reduced unit database generation based on cost information |
US8005677B2 (en) * | 2003-05-09 | 2011-08-23 | Cisco Technology, Inc. | Source-dependent text-to-speech system |
US7454348B1 (en) * | 2004-01-08 | 2008-11-18 | At&T Intellectual Property Ii, L.P. | System and method for blending synthetic voices |
-
2005
- 2005-04-11 JP JP2005113806A patent/JP4586615B2/ja not_active Expired - Fee Related
-
2006
- 2006-04-07 US US11/399,410 patent/US20060229874A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08248971A (ja) * | 1995-03-09 | 1996-09-27 | Hitachi Ltd | テキスト朗読読み上げ装置 |
JP2001265374A (ja) * | 2000-03-14 | 2001-09-28 | Omron Corp | 音声合成装置及び記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
US20060229874A1 (en) | 2006-10-12 |
JP2006293026A (ja) | 2006-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4586615B2 (ja) | 音声合成装置,音声合成方法およびコンピュータプログラム | |
US10741169B1 (en) | Text-to-speech (TTS) processing | |
JP4025355B2 (ja) | 音声合成装置及び音声合成方法 | |
JP4125362B2 (ja) | 音声合成装置 | |
US8015011B2 (en) | Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
US10699695B1 (en) | Text-to-speech (TTS) processing | |
JP2007140002A (ja) | 音声合成装置,音声合成方法,およびコンピュータプログラム | |
JP5148026B1 (ja) | 音声合成装置および音声合成方法 | |
JP5039865B2 (ja) | 声質変換装置及びその方法 | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
JP5411845B2 (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP5152588B2 (ja) | 声質変化判定装置、声質変化判定方法、声質変化判定プログラム | |
JP4648878B2 (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
JP6436806B2 (ja) | 音声合成用データ作成方法、及び音声合成用データ作成装置 | |
JP6523423B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2004279436A (ja) | 音声合成装置及びコンピュータプログラム | |
JP4793776B2 (ja) | イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム | |
JP5301376B2 (ja) | 音声合成装置およびプログラム | |
Huang et al. | Hierarchical prosodic pattern selection based on Fujisaki model for natural mandarin speech synthesis | |
JP4297496B2 (ja) | 音声合成方法及びその装置 | |
JP5012444B2 (ja) | 韻律生成装置、韻律生成方法、および、韻律生成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071009 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100507 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100810 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100823 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130917 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130917 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130917 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |