JP2016105210A - 読み記号列編集装置および読み記号列編集方法 - Google Patents
読み記号列編集装置および読み記号列編集方法 Download PDFInfo
- Publication number
- JP2016105210A JP2016105210A JP2016042762A JP2016042762A JP2016105210A JP 2016105210 A JP2016105210 A JP 2016105210A JP 2016042762 A JP2016042762 A JP 2016042762A JP 2016042762 A JP2016042762 A JP 2016042762A JP 2016105210 A JP2016105210 A JP 2016105210A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- symbol string
- editing
- reading symbol
- reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
Description
第1の実施形態の読み記号列編集装置は、テキスト音声合成においてテキストから自動推定された読み記号列のうちアクセント型を対話的に編集する装置である。この読み記号列編集装置は、高音質な音声波形を得る第1の音声合成部と、音声波形の品質は劣るが音声合成に要する処理時間の短い第2の音声合成部とを有する。読み記号列の編集中においては、第2の音声合成部を用いて編集中の読み記号列を音声波形に変換することにより、ユーザは音声波形に対応する再生音を短時間で試聴・確認しながら編集作業を行うことができる。一方、読み記号列の編集が終了した後は、第1の音声合成部を使用して編集済みの読み記号列を音声波形に変換することで、高音質な音声波形を得ることができる。
図1は、第1の実施形態にかかる読み記号列編集装置を示すブロック図である。本実施形態の読み記号列編集装置は、合成対象となるテキストを入力するテキスト入力部101と、テキスト入力部101で入力されたテキストに言語処理を行って音声を合成するための読み記号列を生成する言語処理部102と、言語処理部102で生成された読み記号列を記憶する読み記号列記憶部103と、読み記号列記憶部103に記憶された読み記号列を対話的に編集する読み記号列編集部104と、読み記号列記憶部103に記憶された読み記号列を音声波形に変換する第1の音声合成部105と、読み記号列編集部104で編集中の読み記号列を音声波形に変換する第2の音声合成部106と、音声合成部105が変換した音声波形をファイルに保存する音声出力部107と、音声合成部105あるいは音声合成部106が変換した音声波形を再生して再生音を発生させるスピーカ108とを備える。
本実施形態の読み記号列編集装置は、図2に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するCPU(Central Processing Unit)等の制御部201と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部202と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部203と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部204と、外部装置との通信を制御する通信部205と、音声波形を再生して再生音を発生させるスピーカ108と、映像を表示するディスプレイ207と、これらを接続するバス208とを備えている。
テキスト入力部101は、操作部204のキーボードを介して合成対象となるテキストを入力する。この他にも、外部記憶部203に記憶されたファイルからテキストを入力したり、通信部205と接続された外部装置からテキストを受信したりすることもできる。
言語処理部102は、テキスト入力部101に入力されたテキストから読み記号列を生成する。具体的には、単語の表層・読み・アクセント・品詞などから成る言語辞書データを参照して、テキストに対して形態素解析や読みの付与、アクセント推定などを行って、読み記号列を生成する。読み記号列とは、読みやアクセント句境界、アクセント核位置、ポーズの位置と長さなどの情報を記号化したものである。このような読み記号列としては、電子情報技術産業協会(JEITA)が規格化した「IT-4002日本語テキスト音声合成用記号」や「TT-6004 ITS車載機器用音声合成記号」などを用いることができる。読み記号列の例は後述する。
読み記号列記憶部103は、言語処理部102で生成された読み記号列を記憶する。読み記号列記憶部103には、記憶部202や外部記憶部203を用いることができる。
読み記号列編集部104は、ディスプレイ207と操作部204を用いて読み記号列記憶部103に記憶された読み記号列を編集する。本実施形態では、読み記号列のアクセント型の編集について説明する。ディスプレイ207に表示された概観の一部を図3(a)に示す。編集ウィンドウ301は、全文試聴ボタン302と、音声ファイル保存ボタン303と、編集開始ボタン309と、編集終了ボタン310を備え、読み記号列記憶部103に記憶されている読み記号列304を表示する。全文試聴ボタン302は、読み記号列304全体を音声波形に変換してスピーカ108から再生する際に使用する。編集終了ボタン310の押下前は、全文試聴ボタン302を押下すると音声合成部106で音声合成が行われる。一方、編集終了ボタン310の押下後は、全文試聴ボタン302を押下すると音声合成部105で音声合成が行われる。また、音声ファイル保存ボタン303を押下すると、音声合成部105で変換された音声波形がユーザ指定のファイルに保存される。なお、この例では読み記号列としてTT-6004の音声合成記号を用いており、カタカナが読みを、「%」が母音の無声化を、「'」がアクセント核位置を、「:」が文中の短いポーズを、スペースがアクセント区切りを、「.」が文末ポーズをそれぞれ表している。この例は、「あれが私の彼氏です。」というテキストから生成された読み記号列である。
音声合成部105及び音声合成部106について述べる。音声合成部105は、読み記号列編集部104で編集が終了した読み記号列を音声波形に変換する。一方、音声合成部106は、編集開始前あるいは読み記号列編集部104で編集中の読み記号列を音声波形に変換する。ここで、音声合成部105と音声合成部106は、処理時間と発話速度をそれぞれ個別に設定することができる。処理時間は、入力した読み記号列を音声波形に変換してスピーカ108あるいは音声出力部107に出力する際に要する時間長を表している。長い処理時間が使える程、音声波形の音質を向上させることができる。本実施形態では、音声合成部106における音声合成の処理時間が音声合成部105における音声合成の処理時間よりも短くなるように、後述する処理時間のパラメータを予め設定する。発話速度は合成された音声波形の話速を表しており、音声合成部106で変換された音声波形の発話速度が音声合成部105で変換された音声波形の発話速度よりも速くなるように、後述する発話速度のパラメータを予め設定する。
図5は、本実施形態にかかる読み記号列生成装置のフローチャートである。まず、テキスト入力部101は、操作部204のキーボードから合成対象となるテキストを入力する(ステップS51)。次に、言語処理部102は、入力されたテキストを読み記号列に変換し、読み記号列記憶部103に記憶する(ステップS52)。次に、音声合成部106は、ユーザの試聴のために、読み記号列記憶部103に記憶された読み記号列全体を音声波形に変換し、スピーカ108は当該音声波形を再生して再生音を発生させる(ステップS53)。ユーザは、再生音を試聴して編集が必要なアクセント句を特定する。編集が必要なアクセント句がある場合、ユーザは編集開始ボタン309を押下する(ステップS54のYesの分岐)。編集開始ボタン309が押下されると、読み記号列編集部104はアクセント句の候補を編集ウィンドウ301に提示し、ユーザに選択されたアクセント句の候補を取得する(ステップS55)。次に、音声合成部106は当該アクセント句の候補を含む読み記号列を音声波形に変換し、スピーカ108は当該音声波形を再生して再生音を発生させる(ステップS56)。ここで、ユーザは、再生音を試聴してアクセント型の自然性を確認する。選択されたアクセント句の候補に問題がある場合、ステップS55に戻り別のアクセント句の候補を取得する(ステップS57のYesの分岐)。一方、選択されたアクセント句の候補に問題がない場合、編集前のアクセント句をこのアクセント句候補に置換して読み記号列記憶部103に記憶する(ステップS58)。そして、ステップS54に戻り、他のアクセント句の編集の必要性を確認する(ステップS57のNoの分岐)。以上の処理の繰り返しにより、全てのアクセント句の編集が終了すると、ユーザは編集終了ボタン310を押下する(ステップS54のNoの分岐)。そして、ユーザが全文試聴ボタン302を押下すると、編集が終了したアクセント句を含む読み記号列全体が音声合成部105で音声波形に変換され、スピーカ108は当該音声波形を再生して再生音を発生させる(ステップS59)。また、ユーザが音声ファイル保存ボタン303を押下すると、音声出力部107を介して、音声合成部105で変換された音声波形がユーザ指定のファイルに保存される(ステップS60)。
視覚障害者向けの音声波形を生成する場合、発話速度を通常の数倍の速さに設定することがある。このように、発話速度が速い音声波形の読み記号列を健聴者が編集する場合、そのままの発話話速ではアクセント型の自然性の確認が難しく、編集にかえって時間を要することがあった。このような場合は、音声合成部106の発話速度のパラメータ403を音声合成部105の発話速度のパラメータ401より遅く設定することで、編集者がアクセント型を聞き取れる程度の発話速度で編集を行うことができる。このように、編集者の試聴能力に合致した発話速度を音声合成部106で設定することにより、編集に要する時間を短縮することができる。
本実施形態では、計算量と音質のトレードオフを制御するパラメータを用いて、音声合成部105と音声合成部106の処理時間を設定したが、そもそも処理時間が異なる複数の方式で実装した音声合成部を用いるようにしてもよい。例えば、音声合成部106は、アクセント型の自然性を確認できれば良く、必ずしも音韻が聞き取れる必要は無いため、1種類の音節だけで音声を合成してもよいし、ピッチ変化をつけた断続的なブザー音のようなものを用いてもよい。例えば、「カレシデ'ス%」をごうせいする代わりに、「タタタタ'タ」を合成することで、音声素片選択に要する計算量を削減し、処理時間を短くすることができる。
本実施形態では、編集開始前の読み記号列全体の音声合成に音声合成部106を用いたが、編集開始前の読み記号列全体の音声合成に音声合成部105を用いてもよい。
図6は、第2の実施形態にかかる読み記号列生成装置の構成を示すブロック図である。第2の実施形態にかかる読み記号列生成装置は、ユーザの手元にあるクライアント計算機601と当該クライアント計算機601とネットワーク610を介して接続するサーバ計算機602で構成される。クライアント計算機601は、テキスト入力部101と、読み記号列記憶部103と、読み記号列編集部104と、第2の音声合成部106と、音声出力部107と、スピーカ108と、サーバ計算機602と通信する通信部205aとを備える。一方、サーバ計算機602は、言語処理部102と、第1の音声合成部105と、ローカル計算機601と通信する通信部205bとを備える。ここで、サーバ計算機602は、複数台のコンピュータで構成することができ、クライアント計算機601と比較して大容量のメモリや高速なCPUを利用できる。なお、本実施形態の音声合成部105の処理時間は、通信部205bおよび通信部205aを介した通信の遅延を含むものとする。
第1の実施形態において、第2の音声合成部106は、アクセント句単位の読み記号列から当該アクセント句の音声を合成するものであった。このように、アクセント句単位で合成した場合の抑揚は、1文全体を入力して合成した場合の当該アクセント句抑揚と異なる場合がある。これは、アクセント型は同一でも、前後のコンテキストが異なる場合、ピッチの変化パターンが異なることに起因する。本実施形態は、この問題を解決する方法を提供する。
102 言語処理部
103 読み記号列記憶部
104 読み記号列編集部
105 第1の音声合成部
106 第2の音声合成部
107 音声出力部
108 スピーカ
201 制御部
202 記憶部
203 外部記憶部
204 操作部
205 通信部
207 ディスプレイ
208 バス
301 編集ウィンドウ
302 全文試聴ボタン
303 音声ファイル保存ボタン
304 読み記号列
305 フォーカス
306 次候補表示ウィンドウ
307 フォーカス
309 編集開始ボタン
310 編集終了ボタン
401 音声合成部105の発話速度を設定するパラメータ
402 音声合成部105の処理時間を設定するパラメータ
403 音声合成部106の発話速度を設定するパラメータ
404 音声合成部106の処理時間を設定するパラメータ
205a 通信部
205b 通信部
601 クライアント計算機
602 サーバ計算機
610 ネットワーク
701 韻律生成部
702 アクセント句抽出部
703 波形生成部
901 読み記号列
902 フォーカス
Claims (7)
- テキストを音声合成するための読み記号列を生成する生成手段と、
前記読み記号列から第1の音声を合成する第1の音声合成手段と、
前記読み記号列を編集するための編集手段と、
前記編集手段で編集中の読み記号列から第2の音声を合成する第2の音声合成手段と、
前記第2の音声合成手段が前記第2の音声を合成するまでに要する処理時間が前記第1の音声合成手段が前記第1の音声を合成するまでに要する処理時間よりも短い、あるいは、前記第2の音声合成手段で合成された前記第2の音声の発話速度が前記第1の音声合成手段で合成された前記第1の音声の発話速度とは異なるよう設定するための設定手段とを備え、
前記第1の音声合成手段が、前記編集手段における編集が終了した後の読み記号列から前記第1の音声を合成する読み記号列編集装置。 - 前記第2の音声合成手段が、前記読み記号列の一部分である部分記号列から前記第2の音声を合成する請求項1記載の読み記号列編集装置。
- 前記第2の音声合成手段で合成された前記第2の音声のピッチパターンが、前記部分記号列に少なくとも先行または後続のいずれかのアクセント句を付加して音声を合成した場合の前記部分記号列に相当する部分のピッチパターンと同じになるように、前記第2の音声合成手段で前記部分記号列から前記第2の音声を合成する請求項2記載の読み記号列編集装置。
- 前記読み記号列が、アクセント型、アクセント句境界位置、母音無声化の有無、長音化の有無、区切り記号の種類、アクセントの強弱、文末のイントネーションのうちの少なくとも1つまたはその組み合わせである請求項1から請求項3の何れか1項に記載の読み記号列編集装置。
- 前記第1の音声合成手段が動作するサーバ計算機と前記第2の音声合成手段が動作するクライアント計算機とがネットワークを介して接続される請求項1から請求項4の何れか1項に記載の読み記号列編集装置。
- テキストを音声合成するための読み記号列を生成する生成工程と、
前記読み記号列から第1の音声を合成する第1の音声合成工程と、
前記読み記号列を編集するための編集工程と、
前記編集工程で編集中の読み記号列から第2の音声を合成する第2の音声合成工程と、
前記第2の音声合成工程が前記第2の音声を合成するまでに要する処理時間が前記第1の音声合成工程が前記第1の音声を合成するまでに要する処理時間よりも短い、あるいは、前記第2の音声合成工程で合成された前記第2の音声の発話速度が前記第1の音声合成工程で合成された前記第1の音声の発話速度とは異なるよう設定するための設定工程とを備え、
前記第1の音声合成工程が、前記編集工程における編集が終了した後の読み記号列から前記第1の音声を合成する読み記号列編集方法。 - 読み記号列編集装置に、
テキストを音声合成するための読み記号列を生成する生成工程と、前記読み記号列から第1の音声を合成する第1の音声合成工程と、を利用させ、
前記読み記号列を編集するための編集工程と、
前記編集工程で編集中の読み記号列から第2の音声を合成する第2の音声合成工程と、
前記第2の音声合成工程が前記第2の音声を合成するまでに要する処理時間が前記第1の音声合成工程が前記第1の音声を合成するまでに要する処理時間よりも短い、あるいは、前記第2の音声合成工程で合成された前記第2の音声の発話速度が前記第1の音声合成工程で合成された前記第1の音声の発話速度とは異なるよう設定するための設定工程とを実現させ、
前記第1の音声合成工程が、前記編集工程における編集が終了した後の読み記号列から前記第1の音声を合成することを実現させるための読み記号列編集プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016042762A JP6159436B2 (ja) | 2016-03-04 | 2016-03-04 | 読み記号列編集装置および読み記号列編集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016042762A JP6159436B2 (ja) | 2016-03-04 | 2016-03-04 | 読み記号列編集装置および読み記号列編集方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011023363A Division JP2012163721A (ja) | 2011-02-04 | 2011-02-04 | 読み記号列編集装置および読み記号列編集方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016105210A true JP2016105210A (ja) | 2016-06-09 |
JP6159436B2 JP6159436B2 (ja) | 2017-07-05 |
Family
ID=56102454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016042762A Active JP6159436B2 (ja) | 2016-03-04 | 2016-03-04 | 読み記号列編集装置および読み記号列編集方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6159436B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0628900U (ja) * | 1992-09-10 | 1994-04-15 | 日本電信電話株式会社 | 音声メッセージ編集装置 |
JP2002023781A (ja) * | 2000-07-12 | 2002-01-25 | Sanyo Electric Co Ltd | 音声合成装置、音声合成装置におけるフレーズ単位修正方法、音声合成装置における韻律パターン編集方法、音声合成装置における音設定方法および音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体 |
WO2007141993A1 (ja) * | 2006-06-05 | 2007-12-13 | Panasonic Corporation | 音声合成装置 |
JP2008129434A (ja) * | 2006-11-22 | 2008-06-05 | Oki Electric Ind Co Ltd | 音声合成サーバシステム |
-
2016
- 2016-03-04 JP JP2016042762A patent/JP6159436B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0628900U (ja) * | 1992-09-10 | 1994-04-15 | 日本電信電話株式会社 | 音声メッセージ編集装置 |
JP2002023781A (ja) * | 2000-07-12 | 2002-01-25 | Sanyo Electric Co Ltd | 音声合成装置、音声合成装置におけるフレーズ単位修正方法、音声合成装置における韻律パターン編集方法、音声合成装置における音設定方法および音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体 |
WO2007141993A1 (ja) * | 2006-06-05 | 2007-12-13 | Panasonic Corporation | 音声合成装置 |
JP2008129434A (ja) * | 2006-11-22 | 2008-06-05 | Oki Electric Ind Co Ltd | 音声合成サーバシステム |
Also Published As
Publication number | Publication date |
---|---|
JP6159436B2 (ja) | 2017-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Isewon et al. | Design and implementation of text to speech conversion for visually impaired people | |
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
EP2140447B1 (en) | System and method for hybrid speech synthesis | |
CA2351842C (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
US9978359B1 (en) | Iterative text-to-speech with user feedback | |
JPH0833744B2 (ja) | 音声合成装置 | |
JP2018146803A (ja) | 音声合成装置及びプログラム | |
JP2008249808A (ja) | 音声合成装置、音声合成方法及びプログラム | |
US6832192B2 (en) | Speech synthesizing method and apparatus | |
JP2006313176A (ja) | 音声合成装置 | |
Mengko et al. | Indonesian Text-To-Speech system using syllable concatenation: Speech optimization | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP6159436B2 (ja) | 読み記号列編集装置および読み記号列編集方法 | |
JPH08335096A (ja) | テキスト音声合成装置 | |
Kasparaitis | Diphone Databases for Lithuanian Text‐to‐Speech Synthesis | |
JP3109778B2 (ja) | 音声規則合成装置 | |
JP2007163667A (ja) | 音声合成装置および音声合成プログラム | |
JP2012163721A (ja) | 読み記号列編集装置および読み記号列編集方法 | |
JP3681111B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2008058379A (ja) | 音声合成システム及びフィルタ装置 | |
JP2006349787A (ja) | 音声合成方法および装置 | |
JPH08248993A (ja) | 音韻時間長制御方法 | |
Dong et al. | A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese. | |
JP3081300B2 (ja) | 残差駆動型音声合成装置 | |
Sudhakar et al. | Development of Concatenative Syllable-Based Text to Speech Synthesis System for Tamil |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160304 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20170220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170424 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170609 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6159436 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |