JP2012163721A - 読み記号列編集装置および読み記号列編集方法 - Google Patents
読み記号列編集装置および読み記号列編集方法 Download PDFInfo
- Publication number
- JP2012163721A JP2012163721A JP2011023363A JP2011023363A JP2012163721A JP 2012163721 A JP2012163721 A JP 2012163721A JP 2011023363 A JP2011023363 A JP 2011023363A JP 2011023363 A JP2011023363 A JP 2011023363A JP 2012163721 A JP2012163721 A JP 2012163721A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- symbol string
- reading symbol
- editing
- reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
【解決手段】読み記号列編集装置は、読み記号列を生成する言語処理手段と、前記読み記号列を記憶する読み記号列記憶手段と、前記読み記号列記憶手段の読み記号列を第1の音声波形に変換する第1の音声合成手段と、前記読み記号列記憶手段の読み記号列を第2の音声波形に変換する第2の音声合成手段と、前記第2の音声合成手段を利用して、前記読み記号列記憶手段の読み記号列の少なくともアクセント型を編集する読み記号列編集手段とを備える。前記第2の音声合成手段の処理時間は、前記第1の音声合成手段の処理時間よりも短い、あるいは、前記第2の音声合成手段で変換された前記第2の音声波形の発話速度は、前記第1の音声合成手段で変換された前記第1の音声波形の発話速度とは異なる。
【選択図】図1
Description
第1の実施形態の読み記号列編集装置は、テキスト音声合成においてテキストから自動推定された読み記号列のうちアクセント型を対話的に編集する装置である。この読み記号列編集装置は、高音質な音声波形を得る第1の音声合成部と、音声波形の品質は劣るが音声合成に要する処理時間の短い第2の音声合成部とを有する。読み記号列の編集中においては、第2の音声合成部を用いて編集中の読み記号列を音声波形に変換することにより、ユーザは音声波形に対応する再生音を短時間で試聴・確認しながら編集作業を行うことができる。一方、読み記号列の編集が終了した後は、第1の音声合成部を使用して編集済みの読み記号列を音声波形に変換することで、高音質な音声波形を得ることができる。
図1は、第1の実施形態にかかる読み記号列編集装置を示すブロック図である。本実施形態の読み記号列編集装置は、合成対象となるテキストを入力するテキスト入力部101と、テキスト入力部101で入力されたテキストに言語処理を行って音声を合成するための読み記号列を生成する言語処理部102と、言語処理部102で生成された読み記号列を記憶する読み記号列記憶部103と、読み記号列記憶部103に記憶された読み記号列を対話的に編集する読み記号列編集部104と、読み記号列記憶部103に記憶された読み記号列を音声波形に変換する第1の音声合成部105と、読み記号列編集部104で編集中の読み記号列を音声波形に変換する第2の音声合成部106と、音声合成部105が変換した音声波形をファイルに保存する音声出力部107と、音声合成部105あるいは音声合成部106が変換した音声波形を再生して再生音を発生させるスピーカ108とを備える。
本実施形態の読み記号列編集装置は、図2に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するCPU(Central Processing Unit)等の制御部201と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部202と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部203と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部204と、外部装置との通信を制御する通信部205と、音声波形を再生して再生音を発生させるスピーカ108と、映像を表示するディスプレイ207と、これらを接続するバス208とを備えている。
テキスト入力部101は、操作部204のキーボードを介して合成対象となるテキストを入力する。この他にも、外部記憶部203に記憶されたファイルからテキストを入力したり、通信部205と接続された外部装置からテキストを受信したりすることもできる。
言語処理部102は、テキスト入力部101に入力されたテキストから読み記号列を生成する。具体的には、単語の表層・読み・アクセント・品詞などから成る言語辞書データを参照して、テキストに対して形態素解析や読みの付与、アクセント推定などを行って、読み記号列を生成する。読み記号列とは、読みやアクセント句境界、アクセント核位置、ポーズの位置と長さなどの情報を記号化したものである。このような読み記号列としては、電子情報技術産業協会(JEITA)が規格化した「IT-4002日本語テキスト音声合成用記号」や「TT-6004 ITS車載機器用音声合成記号」などを用いることができる。読み記号列の例は後述する。
読み記号列記憶部103は、言語処理部102で生成された読み記号列を記憶する。読み記号列記憶部103には、記憶部202や外部記憶部203を用いることができる。
読み記号列編集部104は、ディスプレイ207と操作部204を用いて読み記号列記憶部103に記憶された読み記号列を編集する。本実施形態では、読み記号列のアクセント型の編集について説明する。ディスプレイ207に表示された概観の一部を図3(a)に示す。編集ウィンドウ301は、全文試聴ボタン302と、音声ファイル保存ボタン303と、編集開始ボタン309と、編集終了ボタン310を備え、読み記号列記憶部103に記憶されている読み記号列304を表示する。全文試聴ボタン302は、読み記号列304全体を音声波形に変換してスピーカ108から再生する際に使用する。編集終了ボタン310の押下前は、全文試聴ボタン302を押下すると音声合成部106で音声合成が行われる。一方、編集終了ボタン310の押下後は、全文試聴ボタン302を押下すると音声合成部105で音声合成が行われる。また、音声ファイル保存ボタン303を押下すると、音声合成部105で変換された音声波形がユーザ指定のファイルに保存される。なお、この例では読み記号列としてTT-6004の音声合成記号を用いており、カタカナが読みを、「%」が母音の無声化を、「'」がアクセント核位置を、「:」が文中の短いポーズを、スペースがアクセント区切りを、「.」が文末ポーズをそれぞれ表している。この例は、「あれが私の彼氏です。」というテキストから生成された読み記号列である。
音声合成部105及び音声合成部106について述べる。音声合成部105は、読み記号列編集部104で編集が終了した読み記号列を音声波形に変換する。一方、音声合成部106は、編集開始前あるいは読み記号列編集部104で編集中の読み記号列を音声波形に変換する。ここで、音声合成部105と音声合成部106は、処理時間と発話速度をそれぞれ個別に設定することができる。処理時間は、入力した読み記号列を音声波形に変換してスピーカ108あるいは音声出力部107に出力する際に要する時間長を表している。長い処理時間が使える程、音声波形の音質を向上させることができる。本実施形態では、音声合成部106における音声合成の処理時間が音声合成部105における音声合成の処理時間よりも短くなるように、後述する処理時間のパラメータを予め設定する。発話速度は合成された音声波形の話速を表しており、音声合成部106で変換された音声波形の発話速度が音声合成部105で変換された音声波形の発話速度よりも速くなるように、後述する発話速度のパラメータを予め設定する。
図5は、本実施形態にかかる読み記号列生成装置のフローチャートである。まず、テキスト入力部101は、操作部204のキーボードから合成対象となるテキストを入力する(ステップS51)。次に、言語処理部102は、入力されたテキストを読み記号列に変換し、読み記号列記憶部103に記憶する(ステップS52)。次に、音声合成部106は、ユーザの試聴のために、読み記号列記憶部103に記憶された読み記号列全体を音声波形に変換し、スピーカ108は当該音声波形を再生して再生音を発生させる(ステップS53)。ユーザは、再生音を試聴して編集が必要なアクセント句を特定する。編集が必要なアクセント句がある場合、ユーザは編集開始ボタン309を押下する(ステップS54のYesの分岐)。編集開始ボタン309が押下されると、読み記号列編集部104はアクセント句の候補を編集ウィンドウ301に提示し、ユーザに選択されたアクセント句の候補を取得する(ステップS55)。次に、音声合成部106は当該アクセント句の候補を含む読み記号列を音声波形に変換し、スピーカ108は当該音声波形を再生して再生音を発生させる(ステップS56)。ここで、ユーザは、再生音を試聴してアクセント型の自然性を確認する。選択されたアクセント句の候補に問題がある場合、ステップS55に戻り別のアクセント句の候補を取得する(ステップS57のYesの分岐)。一方、選択されたアクセント句の候補に問題がない場合、編集前のアクセント句をこのアクセント句候補に置換して読み記号列記憶部103に記憶する(ステップS58)。そして、ステップS54に戻り、他のアクセント句の編集の必要性を確認する(ステップS57のNoの分岐)。以上の処理の繰り返しにより、全てのアクセント句の編集が終了すると、ユーザは編集終了ボタン310を押下する(ステップS54のNoの分岐)。そして、ユーザが全文試聴ボタン302を押下すると、編集が終了したアクセント句を含む読み記号列全体が音声合成部105で音声波形に変換され、スピーカ108は当該音声波形を再生して再生音を発生させる(ステップS59)。また、ユーザが音声ファイル保存ボタン303を押下すると、音声出力部107を介して、音声合成部105で変換された音声波形がユーザ指定のファイルに保存される(ステップS60)。
視覚障害者向けの音声波形を生成する場合、発話速度を通常の数倍の速さに設定することがある。このように、発話速度が速い音声波形の読み記号列を健聴者が編集する場合、そのままの発話話速ではアクセント型の自然性の確認が難しく、編集にかえって時間を要することがあった。このような場合は、音声合成部106の発話速度のパラメータ403を音声合成部105の発話速度のパラメータ401より遅く設定することで、編集者がアクセント型を聞き取れる程度の発話速度で編集を行うことができる。このように、編集者の試聴能力に合致した発話速度を音声合成部106で設定することにより、編集に要する時間を短縮することができる。
本実施形態では、計算量と音質のトレードオフを制御するパラメータを用いて、音声合成部105と音声合成部106の処理時間を設定したが、そもそも処理時間が異なる複数の方式で実装した音声合成部を用いるようにしてもよい。例えば、音声合成部106は、アクセント型の自然性を確認できれば良く、必ずしも音韻が聞き取れる必要は無いため、1種類の音節だけで音声を合成してもよいし、ピッチ変化をつけた断続的なブザー音のようなものを用いてもよい。例えば、「カレシデ'ス%」をごうせいする代わりに、「タタタタ'タ」を合成することで、音声素片選択に要する計算量を削減し、処理時間を短くすることができる。
本実施形態では、編集開始前の読み記号列全体の音声合成に音声合成部106を用いたが、編集開始前の読み記号列全体の音声合成に音声合成部105を用いてもよい。
図6は、第2の実施形態にかかる読み記号列生成装置の構成を示すブロック図である。第2の実施形態にかかる読み記号列生成装置は、ユーザの手元にあるクライアント計算機601と当該クライアント計算機601とネットワーク610を介して接続するサーバ計算機602で構成される。クライアント計算機601は、テキスト入力部101と、読み記号列記憶部103と、読み記号列編集部104と、第2の音声合成部106と、音声出力部107と、スピーカ108と、サーバ計算機602と通信する通信部205aとを備える。一方、サーバ計算機602は、言語処理部102と、第1の音声合成部105と、ローカル計算機601と通信する通信部205bとを備える。ここで、サーバ計算機602は、複数台のコンピュータで構成することができ、クライアント計算機601と比較して大容量のメモリや高速なCPUを利用できる。なお、本実施形態の音声合成部105の処理時間は、通信部205bおよび通信部205aを介した通信の遅延を含むものとする。
第1の実施形態において、第2の音声合成部106は、アクセント句単位の読み記号列から当該アクセント句の音声を合成するものであった。このように、アクセント句単位で合成した場合の抑揚は、1文全体を入力して合成した場合の当該アクセント句抑揚と異なる場合がある。これは、アクセント型は同一でも、前後のコンテキストが異なる場合、ピッチの変化パターンが異なることに起因する。本実施形態は、この問題を解決する方法を提供する。
102 言語処理部
103 読み記号列記憶部
104 読み記号列編集部
105 第1の音声合成部
106 第2の音声合成部
107 音声出力部
108 スピーカ
201 制御部
202 記憶部
203 外部記憶部
204 操作部
205 通信部
207 ディスプレイ
208 バス
301 編集ウィンドウ
302 全文試聴ボタン
303 音声ファイル保存ボタン
304 読み記号列
305 フォーカス
306 次候補表示ウィンドウ
307 フォーカス
309 編集開始ボタン
310 編集終了ボタン
401 音声合成部105の発話速度を設定するパラメータ
402 音声合成部105の処理時間を設定するパラメータ
403 音声合成部106の発話速度を設定するパラメータ
404 音声合成部106の処理時間を設定するパラメータ
205a 通信部
205b 通信部
601 クライアント計算機
602 サーバ計算機
610 ネットワーク
701 韻律生成部
702 アクセント句抽出部
703 波形生成部
901 読み記号列
902 フォーカス
Claims (7)
- テキストを言語処理して音声を合成するための読み記号列を生成する言語処理手段と、
前記言語処理手段で生成された読み記号列を記憶する読み記号列記憶手段と、
前記読み記号列記憶手段に記憶された読み記号列を第1の音声波形に変換する第1の音声合成手段と、
前記読み記号列記憶手段に記憶された読み記号列を第2の音声波形に変換する第2の音声合成手段と、
前記第2の音声合成手段を利用して、前記読み記号列記憶手段に記憶された読み記号列の少なくともアクセント型を編集する読み記号列編集手段とを備え、
前記第2の音声合成手段が前記第2の音声波形を得るまでに要する処理時間が前記第1の音声合成手段が前記第1の音声波形を得るまでに要する処理時間よりも短い、あるいは、前記第2の音声合成手段で変換された前記第2の音声波形の発話速度が前記第1の音声合成手段で変換された前記第1の音声波形の発話速度とは異なる読み記号列編集装置。 - 前記第1の音声合成手段が、前記読み記号列編集手段における編集が終了した後の読み記号列を前記第1の音声波形に変換する請求項1記載の読み記号列編集装置。
- 前記第2の音声合成手段が、前記読み記号列の一部分である部分記号列を第2の音声波形に変換する請求項1乃至請求項2記載の読み記号列編集装置。
- 前記第2の音声合成手段で変換された第2の音声波形のピッチパターンが、前記部分記号列に少なくとも先行または後続のいずれかのアクセント句を付加して音声波形を変換した場合の前記部分記号列に相当する部分のピッチパターンと同じになるように、前記第2の音声合成手段で前記部分記号列を第2の音声波形に変換する請求項3記載の読み記号列編集装置。
- 前記読み記号列編集手段が、前記アクセント型に加えて、アクセント句境界位置、母音無声化の有無、長音化の有無、区切り記号の種類、アクセントの強弱、文末のイントネーションのうちの少なくとも1つまたはその組み合わせを編集する請求項1から請求項4の何れか1項に記載の読み記号列編集装置。
- 前記第1の音声合成手段が動作する第1の計算機と前記第2の音声合成手段が動作する第2の計算機とがネットワークを介して接続される請求項1から請求項5の何れか1項に記載の読み記号列編集装置。
- テキストを言語処理して音声を合成するための読み記号列を生成して読み記号列記憶手段に記憶する言語処理工程と、
前記読み記号列記憶手段に記憶された読み記号列を第1の音声波形に変換する第1の音声合成工程と、
前記読み記号列記憶手段に記憶された読み記号列を第2の音声波形に変換する第2の音声合成工程と、
前記第2の音声合成工程を利用して、前記読み記号列記憶手段に記憶された読み記号列の少なくともアクセント型を編集する読み記号列編集工程とを備え、
前記読み記号列編集工程での読み記号列の編集が終了した後に前記第1の音声合成工程を実行するとともに、
前記第2の音声合成工程が前記第2の音声波形を得るまでに要する処理時間が前記第1の音声合成工程が前記第1の音声波形を得るまでに要する処理時間よりも短い、あるいは、前記第2の音声合成工程で変換された前記第2の音声波形の発話速度が前記第1の音声合成工程で変換された前記第1の音声波形の発話速度とは異なる読み記号列編集方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011023363A JP2012163721A (ja) | 2011-02-04 | 2011-02-04 | 読み記号列編集装置および読み記号列編集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011023363A JP2012163721A (ja) | 2011-02-04 | 2011-02-04 | 読み記号列編集装置および読み記号列編集方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016042762A Division JP6159436B2 (ja) | 2016-03-04 | 2016-03-04 | 読み記号列編集装置および読み記号列編集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012163721A true JP2012163721A (ja) | 2012-08-30 |
Family
ID=46843171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011023363A Abandoned JP2012163721A (ja) | 2011-02-04 | 2011-02-04 | 読み記号列編集装置および読み記号列編集方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012163721A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013205638A (ja) * | 2012-03-28 | 2013-10-07 | Yamaha Corp | 音声合成装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0628900U (ja) * | 1992-09-10 | 1994-04-15 | 日本電信電話株式会社 | 音声メッセージ編集装置 |
WO2007141993A1 (ja) * | 2006-06-05 | 2007-12-13 | Panasonic Corporation | 音声合成装置 |
-
2011
- 2011-02-04 JP JP2011023363A patent/JP2012163721A/ja not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0628900U (ja) * | 1992-09-10 | 1994-04-15 | 日本電信電話株式会社 | 音声メッセージ編集装置 |
WO2007141993A1 (ja) * | 2006-06-05 | 2007-12-13 | Panasonic Corporation | 音声合成装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013205638A (ja) * | 2012-03-28 | 2013-10-07 | Yamaha Corp | 音声合成装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Isewon et al. | Design and implementation of text to speech conversion for visually impaired people | |
EP2140447B1 (en) | System and method for hybrid speech synthesis | |
CA2351842C (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
US9978359B1 (en) | Iterative text-to-speech with user feedback | |
JPH0833744B2 (ja) | 音声合成装置 | |
Mache et al. | Review on text-to-speech synthesizer | |
JP2008249808A (ja) | 音声合成装置、音声合成方法及びプログラム | |
US20110046957A1 (en) | System and method for speech synthesis using frequency splicing | |
US9020821B2 (en) | Apparatus and method for editing speech synthesis, and computer readable medium | |
JP2006313176A (ja) | 音声合成装置 | |
Mengko et al. | Indonesian Text-To-Speech system using syllable concatenation: Speech optimization | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP6159436B2 (ja) | 読み記号列編集装置および読み記号列編集方法 | |
JP3109778B2 (ja) | 音声規則合成装置 | |
Kasparaitis | Diphone Databases for Lithuanian Text‐to‐Speech Synthesis | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP2007163667A (ja) | 音声合成装置および音声合成プログラム | |
JP2012163721A (ja) | 読み記号列編集装置および読み記号列編集方法 | |
JP3681111B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP6314828B2 (ja) | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム | |
JP2006349787A (ja) | 音声合成方法および装置 | |
JP2008058379A (ja) | 音声合成システム及びフィルタ装置 | |
Sudhakar et al. | Development of Concatenative Syllable-Based Text to Speech Synthesis System for Tamil | |
JP3081300B2 (ja) | 残差駆動型音声合成装置 | |
Dong et al. | A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131025 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140812 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140919 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141117 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20150216 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150706 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160205 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20160308 |