JP6251219B2 - 合成辞書作成装置、合成辞書作成方法および合成辞書作成プログラム - Google Patents
合成辞書作成装置、合成辞書作成方法および合成辞書作成プログラム Download PDFInfo
- Publication number
- JP6251219B2 JP6251219B2 JP2015174870A JP2015174870A JP6251219B2 JP 6251219 B2 JP6251219 B2 JP 6251219B2 JP 2015174870 A JP2015174870 A JP 2015174870A JP 2015174870 A JP2015174870 A JP 2015174870A JP 6251219 B2 JP6251219 B2 JP 6251219B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- waveform
- user
- dictionary
- recording
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 claims description 119
- 238000003786 synthesis reaction Methods 0.000 claims description 119
- 230000002194 synthesizing Effects 0.000 claims description 119
- 238000011156 evaluation Methods 0.000 claims description 31
- 230000003044 adaptive Effects 0.000 claims description 8
- 230000000875 corresponding Effects 0.000 claims 1
- 239000002131 composite material Substances 0.000 description 17
- 238000000034 method Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006011 modification reaction Methods 0.000 description 2
- 230000003595 spectral Effects 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000004301 light adaptation Effects 0.000 description 1
- 230000000877 morphologic Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Description
第1の実施形態の合成辞書作成装置は、文を読み上げたユーザの音声を録音し、この録音波形を使ってユーザにカスタマイズした音声合成辞書を作成する装置である。本装置で作成した音声合成辞書を利用した音声合成により、ユーザは自分の声質で任意の文を読上げることができる。
本実施形態の合成辞書作成装置は、図2に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するCPU(Central Processing Unit)等の制御部201と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部202と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部203と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部204と、外部装置との通信を制御する通信部205と、ユーザの発声を取得するマイク206と、合成波形を再生して再生音を発生させるスピーカ207と、映像を表示するディスプレイ209と、これらを接続するバス208とを備えている。
文記憶部109は、予め決められたN個(Nは自然数、N≧2)の文を記憶部202あるいは外部記憶部203に記憶する。N個の文は、前後の音素環境、文を形態素解析することで得られる韻律情報、アクセント句のモーラ数・アクセント型・言語情報などのカバレッジを考慮して作成する。これにより、Nが少ない場合でも、音質の高い音声合成辞書を生成することができる。
提示部110は、文記憶部109に記憶されたN個の文から順次文を選択し、選択された文を第1の文としてユーザに提示する。ユーザに提示する際は、ディスプレイ209に第1の文を表示する。本実施形態の提示部110は、音質評価部108において、音声合成部107で生成された合成波形の音質に問題がないと評価されると、ユーザへの第1の文の提示を停止することができる。
録音部101は、第1の文を読上げたユーザの音声を録音し、この録音波形を第1の文と対応付けて記憶部202あるいは外部記憶部203に記憶する。ユーザの音声はマイク206で取得する。本実施形態の録音部101は、音質評価部108において、音声合成部107で生成された合成波形の音質に問題がないと評価されると、音声の録音を停止することができる。
特徴抽出部102は、録音部101で記憶された録音波形およびそれに対応づけられた第1の文から特徴量を抽出する。具体的には、特徴抽出部102は、録音波形毎又は音声単位毎に韻律情報を抽出する。ここで、音声単位として、単語、音節、アクセント句が挙げられる。また、韻律情報として、ケプストラム、ベクトル量子化データ、基本周波数(F0)、パワー、継続時間が挙げられる。
特徴量記憶部103は、特徴抽出部102で抽出された韻律情報、音素ラベル情報、言語属性情報などの特徴量を記憶部202あるいは外部記憶部203に記憶する。
要否判別部104は、音声合成辞書の作成要否を判別する。具体的には、録音部101においてM個(Mは自然数、1≦M<N)の第1の文の録音波形が記憶された状態で、つまり、予め決められたN個の文の読み上げ音声の録音が完了していない状態で、ユーザからの音声合成辞書の作成指示、上記変数M、録音部101に記憶された全ての録音波形のデータ量の少なくとも1つに基づいて、音声合成辞書の作成要否を判別する。
辞書作成部105は、要否判別部104で音声合成辞書の作成要否が「要」と判別された場合、特徴量記憶部103に記憶された特徴量を用いて音声合成辞書を作成する。本実施形態の辞書作成部105は、要否判別部104で作成要否が「要」と判別されるたびに音声合成辞書を作成する。これにより、後述する辞書記憶部106には、常に最新の録音波形を利用して作成された音声合成辞書を記憶することができる。
辞書記憶部106は、辞書作成部105で作成された音声合成辞書を記憶部202あるいは外部記憶部203に記憶する。
音声合成部107は、操作部204を介したユーザからの要求に応じて、辞書記憶部106に記憶された音声合成辞書を用いて、第2の文を合成波形に変換する。音声合成部107が生成した合成波形は、スピーカ207から再生される。本実施形態における第2の文には、音声合成での波形生成が難しい文など予め決められた文を用いる。
音質評価部108は、音声合成部107で生成された合成波形の音質を評価する。評価の結果、音質に問題がない場合、音質評価部108は、提示部110にユーザへの第1の文の提示を停止する信号を、録音部101に音声の録音を停止する信号をそれぞれ送信することができる。
図3のフローチャートを利用して、本実施形態にかかる合成辞書作成装置の処理を説明する。
図4に、本実施形態の合成辞書作成装置のインタフェースの一例を示す。
1.録音波形の音声区間における平均パワーが所定の閾値を下回る
2.録音波形の短時間パワーの最大値が所定の閾値を上回る/音声区間における録音波形の短時間パワーの最小値が所定の閾値を下回る
3.録音波形の長さが所定の時間長(例えば、20ms)より短い
その他の場合は、録音状態が適切と判別する。
図5は、第2の実施形態にかかる合成辞書作成装置500を示すブロック図である。第1の実施形態にかかる音声合成作成装置100との違いは、音質評価部501が、録音部101に記憶された録音波形と音声合成部107が生成した合成波形との類似度に基づいて、合成波形の音質を評価する点である。
本実施形態の音声合成辞書作成装置では、予め決められたN個の文から順次選択された第1の文をユーザに提示していたが、ユーザに提示する第1の文は複数の文であってもよい。つまり、複数の第1の文からなる文章をユーザに提示してもよい。また、N個の文も複数の文からなる文章として文記憶部109に記憶してもよい。
以上述べた少なくとも一つの実施形態の合成辞書作成装置によれば、音声合成辞書の作成要否の判別結果に基づいて、録音の途中段階でも、それまでに記憶された録音波形を用いて音声合成辞書を作成する。これにより、ユーザは、予め決められた文全てを読上げる前に、音声合成辞書で生成された合成波形の音質を確認することができる。
101 録音部
102 特徴抽出部
103 特徴量記憶部
104 要否判別部
105 辞書作成部
106 辞書記憶部
107 音声合成部
108、501 音質評価部
109 文記憶部
110 提示部
201 制御部
202 記憶部
203 外部記憶部
204 操作部
205 通信部
206 マイク
207 スピーカ
208 バス
401 メッセージ表示欄
402 読み上げ文表示欄
404 録音開始ボタン
405 録音終了ボタン
406 合成音確認ボタン
Claims (8)
- 予め決められたN個(Nは自然数、N≧2)の文を記憶する文記憶手段と、
前記文記憶手段に記憶された前記N個の文から第1の文をユーザに提示する提示手段と
、
前記第1の文を読上げたユーザの音声を録音し、この録音波形を前記第1の文と対応付
けて記憶する波形記憶手段と、
前記波形記憶手段においてM個(Mは自然数、1≦M<N)の前記第1の文の録音波形
が記憶された状態において前記録音波形およびそれに対応付けられた前記第1の文を用い
、ユーザからの音声合成辞書の作成指示、前記M、前記波形記憶手段に記憶された全ての
前記録音波形のデータ量の少なくとも1つに基づいて、音声合成辞書を作成する辞書作成
手段と、
前記辞書作成手段で作成された音声合成辞書を用いて、第2の文を合成波形に変換する
音声合成手段と、
前記合成波形の音質を評価する音質評価手段と、
を備え、
前記音質評価手段において前記合成波形の音質に問題がないと評価された場合、前記提
示手段が前記第1の文をユーザに提示することを停止し、前記波形記憶手段が前記ユーザ
の音声の録音を停止する合成辞書作成装置。 - 前記音声合成手段における前記第2の文が、前記文記憶手段に記憶された前記N個の文
の何れかの文であり、
前記音質評価手段が、前記波形記憶手段に記憶された前記第2の文に対応する前記録音
波形と前記合成波形との類似度に基づいて、前記合成波形の音質を評価する請求項1記載
の合成辞書作成装置。 - 前記音質評価手段が、前記合成波形を試聴したユーザからの前記合成波形の評価を取得
する請求項1記載の合成辞書作成装置。 - 前記辞書作成手段が、前記Mもしくは前記データ量に基づいて、音声合成辞書の作成方
法を切り替える請求項1記載の合成辞書作成装置。 - 前記辞書作成手段が、前記Mもしくは前記データ量が所定の閾値を下回る場合、適応方
式を用いて音声合成辞書を作成する請求項4記載の合成辞書作成装置。 - 前記波形記憶手段が、前記ユーザの音声の録音状態を判別し、適切に録音されたと判別
された録音波形を前記第1の文と対応付けて記憶する請求項1記載の合成辞書作成装置。 - 文記憶手段に記憶されたN個(Nは自然数、N≧2)の文から第1の文をユーザに提示
する提示ステップと、
前記第1の文を読上げたユーザの音声を録音し、この録音波形を前記第1の文と対応付
けて記憶する波形記憶ステップと、
前記波形記憶ステップにおいてM個(Mは自然数、1≦M<N)の前記第1の文の録音
波形が記憶された状態において前記録音波形およびそれに対応付けられた前記第1の文を
用い、ユーザからの音声合成辞書の作成指示、前記M、波形記憶手段に記憶された全ての
前記録音波形のデータ量の少なくとも1つに基づいて、音声合成辞書を作成する辞書作成
ステップと、
前記辞書作成ステップで作成された音声合成辞書を用いて、第2の文を合成波形に変換
する音声合成ステップと、
前記合成波形の音質を評価する音質評価ステップと、
を備え、
前記音質評価ステップにおいて前記合成波形の音質に問題がないと評価された場合、前
記提示ステップが前記第1の文をユーザに提示することを停止し、前記波形記憶ステップ
が前記ユーザの音声の録音を停止することをコンピュータが実行する合成辞書作成方法。 - 予め決められたN個(Nは自然数、N≧2)の文を記憶する文記憶手段と、
前記文記憶手段に記憶された前記N個の文から第1の文をユーザに提示する提示手段と、
前記第1の文を読上げたユーザの音声を録音し、この録音波形を前記第1の文と対応付
けて記憶する波形記憶手段と、
前記波形記憶手段においてM個(Mは自然数、1≦M<N)の前記第1の文の録音波形
が記憶された状態において前記録音波形およびそれに対応付けられた前記第1の文を用い
、ユーザからの音声合成辞書の作成指示、前記M、前記波形記憶手段に記憶された全ての
前記録音波形のデータ量の少なくとも1つに基づいて、音声合成辞書を作成する辞書作成
手段と、
前記辞書作成手段で作成された音声合成辞書を用いて、第2の文を合成波形に変換する
音声合成手段と、
前記合成波形の音質を評価する音質評価手段と、
を備える合成辞書作成装置に、
前記音質評価手段において前記合成波形の音質に問題がないと評価された場合、前記提
示手段が前記第1の文をユーザに提示することを停止し、前記波形記憶手段が前記ユーザ
の音声の録音を停止することを実現させるための合成辞書作成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015174870A JP6251219B2 (ja) | 2015-09-04 | 2015-09-04 | 合成辞書作成装置、合成辞書作成方法および合成辞書作成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015174870A JP6251219B2 (ja) | 2015-09-04 | 2015-09-04 | 合成辞書作成装置、合成辞書作成方法および合成辞書作成プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date | |
---|---|---|---|---|
JP2011209989A Division JP2013072903A (ja) | 2011-09-26 | 2011-09-26 | 合成辞書作成装置および合成辞書作成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016006541A JP2016006541A (ja) | 2016-01-14 |
JP6251219B2 true JP6251219B2 (ja) | 2017-12-20 |
Family
ID=55224966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015174870A Active JP6251219B2 (ja) | 2015-09-04 | 2015-09-04 | 合成辞書作成装置、合成辞書作成方法および合成辞書作成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6251219B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3598434A4 (en) | 2017-03-13 | 2020-04-22 | Sony Corporation | LEARNING DEVICE, LEARNING METHOD, LANGUAGE SYNTHETIZER AND LANGUAGE SYNTHESIS METHOD |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003333203A (ja) * | 2002-05-13 | 2003-11-21 | Canon Inc | 音声合成システム、サーバ装置および情報処理方法ならびに記録媒体、プログラム |
JP5062178B2 (ja) * | 2006-11-06 | 2012-10-31 | 日本電気株式会社 | 音声収録システム、音声収録方法、および収録処理プログラム |
JP2009216724A (ja) * | 2008-03-06 | 2009-09-24 | Advanced Telecommunication Research Institute International | 音声生成装置及びコンピュータプログラム |
-
2015
- 2015-09-04 JP JP2015174870A patent/JP6251219B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016006541A (ja) | 2016-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9830904B2 (en) | Text-to-speech device, text-to-speech method, and computer program product | |
US7869999B2 (en) | Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis | |
US8566098B2 (en) | System and method for improving synthesized speech interactions of a spoken dialog system | |
US7280968B2 (en) | Synthetically generated speech responses including prosodic characteristics of speech inputs | |
US9064489B2 (en) | Hybrid compression of text-to-speech voice data | |
Qian et al. | A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS | |
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
JP2013072903A (ja) | 合成辞書作成装置および合成辞書作成方法 | |
JP5750380B2 (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
JP3588302B2 (ja) | 連結型音声合成のための単位重複領域の識別方法および連結型音声合成方法 | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
US9978359B1 (en) | Iterative text-to-speech with user feedback | |
EP2140447A1 (en) | System and method for hybrid speech synthesis | |
JP5148026B1 (ja) | 音声合成装置および音声合成方法 | |
US20180130462A1 (en) | Voice interaction method and voice interaction device | |
RU2692051C1 (ru) | Способ и система для синтеза речи из текста | |
JP2007140200A (ja) | 語学学習装置およびプログラム | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
KR20180045782A (ko) | 모바일 단말기를 이용한 언어 자가학습 서비스 제공방법, 이를 실행하는 모바일 단말기 및 이를 실행하기 위한 애플리케이션을 저장하는 기록매체 | |
JP2004212665A (ja) | 話速可変装置及び話速変換方法 | |
JP6251219B2 (ja) | 合成辞書作成装置、合成辞書作成方法および合成辞書作成プログラム | |
KR102072627B1 (ko) | 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법 | |
JP2006139162A (ja) | 語学学習装置 | |
JP5875504B2 (ja) | はなし言葉分析装置とその方法とプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161104 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161219 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20170220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170519 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171027 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171124 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6251219 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |