JP5482042B2 - 合成音声テキスト入力装置及びプログラム - Google Patents
合成音声テキスト入力装置及びプログラム Download PDFInfo
- Publication number
- JP5482042B2 JP5482042B2 JP2009209409A JP2009209409A JP5482042B2 JP 5482042 B2 JP5482042 B2 JP 5482042B2 JP 2009209409 A JP2009209409 A JP 2009209409A JP 2009209409 A JP2009209409 A JP 2009209409A JP 5482042 B2 JP5482042 B2 JP 5482042B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- input
- synthesized speech
- time length
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004364 calculation method Methods 0.000 claims description 110
- 238000000034 method Methods 0.000 claims description 65
- 230000008569 process Effects 0.000 claims description 50
- 238000012545 processing Methods 0.000 claims description 50
- 230000015572 biosynthetic process Effects 0.000 claims description 46
- 238000003786 synthesis reaction Methods 0.000 claims description 46
- 230000008859 change Effects 0.000 claims description 25
- 230000004048 modification Effects 0.000 claims description 14
- 238000012986 modification Methods 0.000 claims description 14
- 230000001360 synchronised effect Effects 0.000 claims description 8
- 238000013459 approach Methods 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims description 4
- 238000004904 shortening Methods 0.000 claims description 3
- 238000003780 insertion Methods 0.000 description 34
- 230000037431 insertion Effects 0.000 description 34
- 238000010586 diagram Methods 0.000 description 29
- 230000007704 transition Effects 0.000 description 16
- 239000000463 material Substances 0.000 description 13
- 230000006870 function Effects 0.000 description 9
- 230000003247 decreasing effect Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008602 contraction Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 241000617482 Kiwa Species 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
- G11B27/034—Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Description
本実施形態にかかる合成音声テキスト入力装置は、例えば、ユーザが読み上げ用のテキストを入力するのに用いられる装置である。合成音声テキスト入力装置は、入力部と、テキスト量計算部と、テキスト量出力部を備える。入力部は、合成音声の設定時間長と、合成音声のテキストとの入力を受付ける。テキスト量計算部は、入力部で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出する。テキスト量出力部は、入力部が前記合成音声のテキストを受付ける際に、テキスト量計算部で算出されたテキストの量を出力する。
図1は、本実施形態における合成音声テキスト入力装置の構成例を示す機能ブロック図である。図1に示す合成音声テキスト入力装置1は、入力部101、音声合成部102、音声出力部103、テキスト量出力部104およびテキスト量計算部105を備える。合成音声テキスト入力装置1は、例えば、プロセッサおよびメモリを備えるコンピュータにより構成される。コンピュータには、キーボードやマウス等の入力装置と、ディスプレイ、スピーカ、プリンタ等の出力装置が接続される。入力部101、音声合成部102、音声出力部103、テキスト量出力部104およびテキスト量計算部105の各部は、コンピュータのプロセッサがメモリに記録された所定のプログラムを実行することによって実現される機能部である。
図2は、第1の実施形態における合成音声テキスト入力装置1の動作例を示すフローチャートである。図2に示す例は、まず、設定時間長が入力部101に入力されると(S601でYes)、入力部101は、発話速度を獲得する(S602)。
このように、上記例では、1文字あたりの平均モーラ数mや、有音区間の割合rなど、設定時間長をテキストの量に変換するための値と、入力部101が受付けた設定時間長と発話速度を、所定の計算式に代入することにより、入力可能テキスト量を計算している。なお、設定時間長をテキストの量に変換するための値および計算式は、上記例に限られない。
図3A〜図3Dは、図2に示した動作例においてディスプレイに表示される画面の遷移例を示す図である。図3Aに示す画面では、画面上部に映像データのサムネイル画像T1が配置されている。これらのサムネイル画像T1は、映像データから一定の時間間隔で切り出した静止画を、縮小して時間順に配置したものである。ユーザは、サムネイル画像T1をスクロールすることによって、映像データの全体を見ることができる。ユーザは、映像データの中で合成音声を付与したい区間があれば、合成音声挿入区間(合成音声挿入区間)としてマウス等のポインティングデバイスを用いて指定する。挿入区間は矩形K1で表示され、矩形K1の横幅が設定時間長を表している。
日本語ではテキストの長さを文字数によって表現することが一般的なため、上記の合成音声テキスト入力装置1は、設定時間長に応じた入力可能文字数を予測し、その文字数に応じたテキストボックスを画面に表示している。英語の場合は、テキストの量(長さ)を単語数によって表現するのが一般的である。したがって、設定時間長に応じた単語数を記述するのに適した幅のテキストボックスを表示することが好ましい。
例えば、発話速度が200単語/分、音声全体に占める有音区間の割合rを0.7、1単語あたりの平均文字数mを8、1文字あたりの平均フォント幅wを1.5mmとするとき、設定時間長が30秒(=0.5分)であれば、入力可能テキストの幅は、0.5×0.7×200×8×1.5=840mmとなる。テキストボックスの1行あたりの長さを100mmとすれば、8.4行のテキストボックスが表示されることになる。
図4は、第2の実施形態にかかる合成音声テキスト入力装置1aの構成例を示す機能ブロック図である。合成音声テキスト入力装置1aでは、音声合成部102は、言語処理部201、韻律生成部202および波形生成部203を含む。言語処理部201は、入力部101で入力された合成音声のテキストを解析して、当該テキストの読み情報を含む中間表記を生成する。韻律生成部202は、言語処理部201で生成された前記中間表記から、テキストに対応する合成音声の時間長と、テキストに相当する合成音声の高さの変化パターンであるピッチパターンを生成する。波形生成部203は、韻律生成部202が生成した、テキストに対応する合成音声の時間長と、テキストに相当する合成音声の高さの変化パターンであるピッチパターンから合成音声を生成する。テキスト量計算部204は、音声合成部の韻律生成部202が計算した合成音声の時間長をさらに用いて、設定時間長の合成音声として入力可能なテキストの量を算出する。
図5は、第2の実施形態にかかる合成音声テキスト入力装置1aの動作例を示すフローチャートである。図5に示す例では、まず、入力部101が、ユーザから設定時間長の入力を受付けると(S701でYes)、入力部101は、発話速度を獲得し(S702)、入力テキストを初期化する(S703)。音声合成部102の言語処理部201では、現時点ですでに入力されているテキスト(既入力テキスト)の形態素解析、構文解析などの言語処理を行い、テキストに対する表音文字列を生成する。表音文字列は、テキストの読みを示す文字列であり、例えば、テキストの読み方、アクセント、フレーズやポーズなどの境界の入れ方などを示す情報が含まれる。表音文字列は、音声合成における中間表記の一例である。
・・・(3)
テキスト量出力部104は、以上のようにして求められた入力可能文字数を、入力可能文字数に応じたテキストボックスの表示などの方法でユーザに提示する(S706)。入力部101において、例えば、ユーザからの指示により、設定時間長が変更されれば(S707でYes)、S705にもどり、テキスト量計算部204が、変更された設定時間長について、入力可能文字数の予測値を再計算する。テキスト量出力部104は、再計算された入力可能文字数をユーザに提示する。また、入力テキストが追加変更された場合(S708でYes)、S704にもどり、言語処理部201、韻律生成部202によって追加変更されたテキストに対する合成時間長が求められる。その後、テキスト量計算部204が、入力可能文字数を再計算し(S705)、テキスト量出力部104が、ユーザへの再提示を行う(S706)。以上の処理を、ユーザがテキストを確定する(S709でYes)まで繰り返す。テキストが確定されれば、波形生成部203が、テキストの音声を合成し(S710)、音声出力部103が合成された音声を出力する(S711)。
図6A〜図6Fは、図5に示した動作例においてディスプレイに表示される画面の遷移例を示す図である。図6Aでは、画面上部に映像データのサムネイル画像T1が配置されている。ユーザが指定した、映像データの中で合成音声を付与したい区間、すなわち挿入区間は、矩形K1で表示され、矩形K1の横幅が設定時間長となる。
英語の場合でも日本語と同様に、入力可能テキスト幅の予測に、統計的に求めた有音区間の割合を用いることができる。しかし、例えば、テキストにカンマやピリオドが多ければ、合成音声にポーズ(無音区間)が多くなるし、テキストが通常の文章である場合と箇条書きのリストである場合を比べると、後者の方が、ポーズが多いなど、テキストのスタイルによって有音区間の割合が統計値とは異なる場合がある。また、綴り字の文字数と発音の長さは完全に対応が取れているわけでない。例えば、"wait"と“weight"のように、同じ発音で時間長が同じであっても、文字数は4文字と6文字のように異なる場合などがある。すなわち、同じ音声時間長であってもテキストを構成する単語によって、合成テキストの幅は短くて済む場合もあれば長くなる場合もある。そこで、合成音声が英語の場合でも、ユーザがテキストを入力している間にも、すでに入力されているテキストについて実際の合成音声の時間長を随時計算し、入力可能テキスト幅を随時修正して表示することで、ユーザが、最終的に合成される音声の時間長に合わせるように入力テキストを調整することができる。
入力可能テキストの幅(予測値) = k + ( D − t ) × r × n × m × w
・・・(4)
このように、合成音声およびテキストが英語やその他の言語である場合も、同様にして、音声合成部102で計算された既入力テキストの時間長を用いて、入力可能なテキストの量を計算することができる。
図7A〜図7Fは、合成音声および入力テキストが英語の場合に、ディスプレイに表示される画面の遷移例を示す図である。図7Aでは、図6Aと同様に、サムネイル画像T1および挿入区間を示す矩形K1で表示されている。矩形K1の横幅が設定時間長となる。
図8は、第3の実施形態にかかる合成音声テキスト入力装置1bの構成例を示す機能ブロック図である。合成音声テキスト入力装置1bでは、音声合成部102は、言語処理部201、韻律生成部202および波形生成部203を含む。また、合成音声テキスト入力装置1bは、計算式変更部301をさらに備える。
入力可能文字数(予測値)= k +( D − t )× r’× n/ m’・・・ (5)
図9は、第3の実施形態にかかる合成音声テキスト入力装置1bの動作例を示すフローチャートである。図9に示す例において、S701〜S704の処理は図5に示すS701〜S704の処理と同様にすることができる。
例えば、入力テキストが"Rain showers in the evening becoming more intermittent overnight."であるとき、言語処理部201で計算される1単語あたりの平均文字数は6.2文字/単語となる。また、韻律生成部202は、この入力テキストの音声を実際に合成させてみると、全体時間長に占める音声区間の割合が例えば0.85と算出する。これは、予め記録された1単語あたりの平均文字数8文字/単語や、音声区間の割合0.7と異なることになる。計算式変更部301は、このように、予め記録された値を、言語処理部201および韻律生成部202で計算される値に置き換えることで、計算式を修正することができる。
入力可能テキストの幅(予測値)= D × r’× n×m’× w ・・・ (6)
(第4の実施形態)
図10は、第4の実施形態にかかる合成音声テキスト入力装置1cの構成例を示す機能ブロック図である。合成音声テキスト入力装置1cにおいて、テキスト量計算部402は、設定時間長の合成音声として入力可能なテキストの量の上限および下限を算出する。テキスト量出力部401は、テキスト量計算部402が算出した上限および下限で表される、入力可能なテキストの量の範囲を出力する。このように、入力可能なテキストの量の範囲を出力することで、ユーザが入力できるテキスト量の幅を広げることができる。
図11は、合成音声テキスト入力装置1cの動作例を示すフローチャートである。図11のS601、S602の処理は、図2のS601、S602の処理と同様に実行することができる。S901において、テキスト量計算部402は、入力可能文字列の上限および下限を計算する。
入力可能文字数上限(予測値)=D×r×(1+ Rr)×n×(1+Rn)/m ・・・(7)
入力可能文字数下限(予測値)=D×r/(1+ Rr)×n/(1+Rn)/m ・・・(8)
例えば、有音区間の割合を変更できる比率Rrを10%、発声速度を変更できる比率Rnを5%とすると、入力可能文字列の上限および下限は、以下のように計算される。
入力可能文字数上限(予測値)=D×r×1.1×n×1.05/m
入力可能文字数下限(予測値)=D×r/1.1×n/1.05/m
テキスト量計算部402は、上記式(7)(8)を用いて、入力可能文字列の上限および下限を計算すると、テキスト量出力部401は、上限および下限で表される入力可能文字数範囲をユーザに提示する(S902)。以降のS605〜S607の処理は、図2のS605〜S607の処理と同様に実行することができる。
図12は、テキスト量出力部401により出力される、入力可能文字数範囲を示す画面の例である。図12に示す例では、1文字目から入力可能文字数の下限値までは入力が必須であるので、標準入力可能文字数区間TB3−1として白いマス目で表示されている。下限値から上限値までの間は入力が任意であるから、調整可能文字区間TB3−2として薄いグレーで表示される。なお、後述するように、入力テキストが入力可能文字数の上限を超えていても、発声速度を速くしたり、ポーズを少なくしたり、あるいは映像データを伸長するなどの方法で、音声と映像を同期させることも可能であるから、ユーザが文字入力をすることが可能なように余分なマス目を表示しても良い。この場合、余分なマス目は、例えば、図12に示すように、調整困難文字区間TB3−3として濃いグレーで表示することで、ユーザが識別可能な状態で表示することができる。
合成音声および入力テキストが英語の場合、テキスト量計算部402は、例えば、下記のように、入力可能なテキスト量の範囲を計算することができる。発話速度は、n単語/分のように合成音声テキスト入力装置1cに予め記録することができる。音声全体に占める有音区間の割合をr、1単語あたりの平均文字数をm、1文字あたりの平均フォント幅をwとする。合成音声を聴取したときに違和感のない範囲で発声速度を変更できる比率をRnとし、ポーズの回数や時間長を伸縮させることによって有音区間の割合を変更できる比率をRrとする。設定時間長がDであるとき、入力可能テキスト幅の下限および上限は、例えば、下記式(9)、(10)で算出できる。
入力可能テキスト幅上限(予測値)=D×r×(1+Rr)×n×(1+Rn)×m×w ・・・(9)
入力可能テキスト幅下限(予測値)=D×r/(1+Rr)×n/(1+Rn)×m×w ・・・(10)
例えば、有音区間の割合を変更できる比率Rrを10%、発声速度を変更できる比率Rnを5%とすると、以下のようになる。
入力可能テキスト幅上限(予測値)=D×r×1.1×n×1.05×m×w
入力可能テキスト幅下限(予測値)=D×r/1.1×n/1.05×m×w
図14は、第5の実施形態にかかる合成音声テキスト入力装置1dの構成例を示す機能ブロック図である。合成音声テキスト入力装置1dでは、音声合成部102は、言語処理部201、韻律生成部202、韻律修正部501および波形生成部203を含む。言語処理部201は、入力部101で入力された合成音声のテキストを解析して、当該テキストの読み情報を含む中間表記を生成する。韻律生成部202は、言語処理部201で生成された中間表記から、テキストに対応する合成音声の時間長と、テキストに相当する合成音声の高さの変化パターンであるピッチパターンを生成する。波形生成部203は、韻律生成部202が生成したテキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンから合成音声を合成する。
図15は、合成音声テキスト入力装置1dの動作例を示すフローチャートである。図15のS601〜S605の処理は、図2のS601〜S605の処理と同様に実行することができる。テキスト量出力部104が出力した入力可能文字数に応じて、ユーザが入力したテキストが確定すると(S605でYES)、ユーザが入力したテキストについて、言語処理部201が表音文字列を作成し、韻律生成部202が合成時間長を生成する(S1101)。
図16A〜図16Fは、第5の実施形態においてディスプレイに表示される画面の遷移例を示す図である。図16Aおよび図16Bは、図3Aおよび図3Bと同様である。図16Cに示す画面は、ユーザが、入力可能文字数よりも少ない文字数を入力した段階で、確定キーを押したときの画面例である。図16Dでは、横幅が設定時間長、すなわち合成音声の挿入区間の長さを表す矩形K1と、実際に合成された音声波形H1とを並べて表示している。これにより、ユーザは、挿入区間の長さにくらべて実際に合成された音声が短いことを知ることができる。この場合、画面には、合成音声を設定時間長(挿入区間の長さ)に合わせるように伸長するか否かのダイアログウィンドウW1が表示される。このダイアログウィンドウW1により、韻律修正部501による合成音声の時間長調整の可否がユーザに対して質問される。
図17は、第6の実施形態にかかる合成音声テキスト入力装置1eの構成例を示す機能ブロック図である。合成音声テキスト入力装置1eは、入力部101で受付けたテキストの合成音声と同期させる区間を含む映像データを入力する映像データ入力部601と、音声合成部102で生成される合成音声の時間長が設定時間長に近づくように、映像データを編集する映像音声同期部602とを備える。この構成により、映像データを合成音声の時間長にあわせるように調整することができる。
図18は、合成音声テキスト入力装置1eの動作例を示すフローチャートである。図18のS601〜S605の処理は、図2のS601〜S605の処理と同様に実行することができる。図18のS1101の処理は、図15のS1101の処理と同様に実行することができる。すなわち、ユーザが入力したテキストが確定すると(S605でYES)、ユーザが入力したテキストについて、言語処理部201が表音文字列を作成し、韻律生成部202が合成音声の時間長を生成する(S1101)。
図19A〜図19Eは、第6の実施形態においてディスプレイに表示される画面の遷移例を示す図である。図19A〜図19Cは、図16A〜図16Cと同様である。すなわち、本例は、図19Cに示すように、ユーザは、入力可能文字数よりも少ない文字数を入力した段階で、確定キーを押したときの例である。
図20は、上記第1の実施形態における合成音声テキスト入力装置1を含むスライド編集システム10の構成例を示す機能ブロック図である。図20に示す例では、スライド編集システム10は、合成音声テキスト入力装置1に加えて、スライド素材入力部801、スライド音声関連付け部802およびスライド再生部803をさらに備える。スライド素材入力部801は、例えば、ユーザからの指示に従い、記録装置に記録されたスライド素材データを読み込むことで、スライド編集システム10でスライド素材データを編集可能な状態にする。音声関連付け部802は、スライド素材データと、音声合成部102が合成した合成音声とを関連付けて記録する。スライド再生部803は、合成音声の再生と同期して、スライドを再生する。
図21は、スライド編集システム10において、表示される画面の例を示す図である。図21に示す例では、画面の左欄S1に、全スライドが、縦に順番に表示されている。図21では、上から3番目のスライドが選択されており、選択されたスライドが画面中央の編集領域E1に大きく表示され、編集可能な状態になっている。入力部101は、GUIを介して、編集領域E1の下に、設定時間長を入力するための入力フォームF1を表示装置に表示させている。さらに、入力部101は、スライドの下に、スライドと関連付ける合成音声のテキストを入力するためのテキストボックスTB4も表示装置に表示させる。
図22は、上記第1〜6の実施形態における合成音声テキスト入力装置1a〜1eを含む映像編集装置が実装されるコンピュータの構成例を示す図である。装置の処理を制御するCPU1301、一時的にデータを格納するRAM1302、映像や編集のためのGUIを表示するCRTやLCDなどの表示装置1303、合成音声を出力するスピーカ、ヘッドホンなどの音響装置1304、ユーザが映像編集装置への操作を入力するためのキーボード、マウス、ポインティングデバイスなどの入力装置1305および記憶部1306を備える。
10 スライド編集システム
101 入力部
102 音声合成部
103 音声出力部
104、401 テキスト量出力部
105、204、402 テキスト量計算部
301 計算式変更部
501 韻律修正部
601 映像データ入力部
602 映像音声同期部
603 映像データ出力部
801 スライド素材入力部
802 音声関連付け部
803 スライド再生部
Claims (12)
- 合成する音声をおさめる時間である設定時間長と、合成音声のテキストとの入力を受付ける入力部と、
前記入力部で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算部と、
前記入力部が前記合成音声のテキストを受付ける際に、前記テキスト量計算部で算出された前記テキストの量を出力するテキスト量出力部と、
前記入力部で入力された前記合成音声のテキストを合成音声に変換する音声合成部を備え、
前記音声合成部は、前記設定時間長の合成音声として、すでに前記入力部が受付けた部分のテキストに対応する部分合成音声の時間長を計算し、
前記テキスト量計算部は、前記音声合成部が計算した前記部分合成音声の時間長を用いて、前記設定時間長の合成音声として入力可能なテキストの量を修正する、合成音声テキスト入力装置。 - 合成する音声をおさめる時間である設定時間長と、合成音声のテキストとの入力を受付ける入力部と、
前記入力部で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算部と、
前記入力部が前記合成音声のテキストを受付ける際に、前記テキスト量計算部で算出された前記テキストの量を出力するテキスト量出力部と、
前記入力部で入力された合成音声のテキストを合成音声に変換する音声合成部を備え、
前記音声合成部は、前記入力部で入力された合成音声のテキストを解析して、当該テキストの読み情報を含む中間表記を生成する言語処理部と、
前記言語処理部で生成された前記中間表記から、前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンを生成する韻律生成部と、
前記韻律生成部が生成した前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンから合成音声を生成する波形生成部とを含み、
前記テキスト量計算部は、前記音声合成部の韻律生成部が計算した前記合成音声の時間長をさらに用いて、前記設定時間長の合成音声として入力可能なテキストの量を算出する、合成音声テキスト入力装置。 - 合成する音声をおさめる時間である設定時間長と、合成音声のテキストとの入力を受付ける入力部と、
前記入力部で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算部と、
前記入力部が前記合成音声のテキストを受付ける際に、前記テキスト量計算部で算出された前記テキストの量を出力するテキスト量出力部と、
前記入力部で入力された合成音声のテキストを合成音声に変換する音声合成部と、
計算式変更部とを備え、
前記音声合成部は、前記設定時間長の合成音声として、すでに前記入力部が受付けた部分のテキストの部分読み情報および当該テキストに対応する部分合成音声の時間長を生成し、
前記テキスト量計算部は、設定時間をテキストの量に変換するための値を含む計算式に、前記設定時間長を代入することにより、前記設定時間長の合成音声として入力可能なテキストの量を算出し、
前記計算式変更部は、前記音声合成部が生成した前記部分読み情報および前記部分合成音声の時間長の少なくともいずれかに基づいて、前記計算式の前記値を変更する、合成音声テキスト入力装置。 - 前記音声合成部は、前記入力部で入力された合成音声のテキストを解析して、当該テキストの読み情報を含む中間表記を生成する言語処理部と、
前記言語処理部で生成された前記中間表記から、前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンを生成する韻律生成部と、
前記韻律生成部が生成した前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンから合成音声を生成する波形生成部とを含み、
前記韻律生成部により生成された前記合成音声の時間長が前記設定時間長に近づくように、前記合成音声の時間長を伸長または短縮するか、あるいは、合成音声の中に含まれるポーズの時間長を伸長または短縮する韻律修正部をさらに備える、請求項1〜3のいずれか1項に記載の合成音声テキスト入力装置。 - 前記入力部は、前記合成音声の発話速度の入力をさらに受付け、
前記テキスト量計算部は、前記入力部で受付けられた発話速度をさらに用いて、前記設定時間長の合成音声として入力可能なテキストの量を算出する、請求項1〜4のいずれか1項に記載の合成音声テキスト入力装置。 - 前記テキスト量計算部は、前記設定時間長の合成音声として入力可能なテキストの量の上限および下限を算出し、
前記テキスト量出力部は、前記テキスト量計算部が算出した上限および下限で表される、入力可能なテキストの量の範囲を出力する、請求項1〜5のいずれか1項に記載の、合成音声テキスト入力装置。 - 前記入力部は、映像データの少なくとも一部の区間の指定をユーザから受付け、指定された区間に相当する時間を前記設定時間長とする、請求項1〜6のいずれか1項に記載の合成音声テキスト入力装置。
- 前記入力部で入力された合成音声のテキストを合成音声に変換する音声合成部と、
前記入力部で受付けたテキストの合成音声と同期させる区間を含む映像データを入力する映像データ入力部と、
前記音声合成部で変換される合成音声の時間長が前記設定時間長に近づくように、映像データを編集する映像音声同期部とを備える、請求項1〜7のいずれか1項に記載の合成音声テキスト入力装置。 - 合成音声合成する音声をおさめる時間である設定時間長と、合成音声のテキストとの入力を受付ける入力処理と、
前記入力処理で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算処理と、
前記入力処理で前記合成音声のテキストを受付ける際に、前記テキスト量計算処理で算出された前記テキストの量を出力するテキスト量出力処理と、
前記入力処理で入力された前記合成音声のテキストを合成音声に変換する音声合成処理とをコンピュータに実行させ、
前記音声合成処理は、前記設定時間長の合成音声として、すでに前記入力処理で受付けた部分のテキストに対応する部分合成音声の時間長を計算し、
前記テキスト量計算処理は、前記音声合成処理で計算した前記部分合成音声の時間長を用いて、前記設定時間長の合成音声として入力可能なテキストの量を修正する、合成音声テキスト入力プログラム。 - 合成音声合成する音声をおさめる時間である設定時間長と、合成音声のテキストとの入力を受付ける入力処理と、
前記入力処理で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算処理と、
前記入力処理で前記合成音声のテキストを受付ける際に、前記テキスト量計算処理で算出された前記テキストの量を出力するテキスト量出力処理と、
前記入力処理で入力された合成音声のテキストを合成音声に変換する音声合成処理とをコンピュータに実行させ、
前記音声合成処理は、前記入力処理で入力された合成音声のテキストを解析して、当該テキストの読み情報を含む中間表記を生成する言語処理と、
前記言語処理で生成された前記中間表記から、前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンを生成する韻律生成処理と、
前記韻律生成処理で生成された前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンから合成音声を生成する波形生成処理とを含み、
前記テキスト量計算処理は、前記韻律生成処理で計算された前記合成音声の時間長をさらに用いて、前記設定時間長の合成音声として入力可能なテキストの量を算出する、合成音声テキスト入力プログラム。 - 合成音声合成する音声をおさめる時間である設定時間長と、合成音声のテキストとの入力を受付ける入力処理と、
前記入力処理で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算処理と、
前記入力処理で前記合成音声のテキストを受付ける際に、前記テキスト量計算処理で算出された前記テキストの量を出力するテキスト量出力処理と、
前記入力処理で入力された合成音声のテキストを合成音声に変換する音声合成処理と、
計算式変更処理とをコンピュータに実行させ、
前記音声合成処理は、前記設定時間長の合成音声として、すでに前記入力処理で受付けた部分のテキストの部分読み情報および当該テキストに対応する部分合成音声の時間長を生成し、
前記テキスト量計算処理は、設定時間をテキストの量に変換するための値を含む計算式に、前記設定時間長を代入することにより、前記設定時間長の合成音声として入力可能なテキストの量を算出し、
前記計算式変更処理は、前記音声合成処理で生成された前記部分読み情報および前記部分合成音声の時間長の少なくともいずれかに基づいて、前記計算式の前記値を変更する、合成音声テキスト入力プログラム。 - 前記音声合成処理は、前記入力処理で入力された合成音声のテキストを解析して、当該テキストの読み情報を含む中間表記を生成する言語処理と、
前記言語処理で生成された前記中間表記から、前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンを生成する韻律生成処理と、
前記韻律生成処理で生成された前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンから合成音声を生成する波形生成処理とを含み、
前記韻律生成処理により生成された前記合成音声の時間長が前記設定時間長に近づくように、前記合成音声の時間長を伸長または短縮するか、あるいは、合成音声の中に含まれるポーズの時間長を伸長または短縮する韻律修正処理をさらにコンピュータに実行させる、請求項9〜11のいずれか1項に記載の合成音声テキスト入力プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009209409A JP5482042B2 (ja) | 2009-09-10 | 2009-09-10 | 合成音声テキスト入力装置及びプログラム |
US12/879,299 US8504368B2 (en) | 2009-09-10 | 2010-09-10 | Synthetic speech text-input device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009209409A JP5482042B2 (ja) | 2009-09-10 | 2009-09-10 | 合成音声テキスト入力装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011059412A JP2011059412A (ja) | 2011-03-24 |
JP5482042B2 true JP5482042B2 (ja) | 2014-04-23 |
Family
ID=43648399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009209409A Expired - Fee Related JP5482042B2 (ja) | 2009-09-10 | 2009-09-10 | 合成音声テキスト入力装置及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8504368B2 (ja) |
JP (1) | JP5482042B2 (ja) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8438032B2 (en) * | 2007-01-09 | 2013-05-07 | Nuance Communications, Inc. | System for tuning synthesized speech |
JP2012088969A (ja) * | 2010-10-20 | 2012-05-10 | Sharp Corp | 入力表示装置、入力表示方法、コンピュータプログラム及び記録媒体 |
US10019995B1 (en) * | 2011-03-01 | 2018-07-10 | Alice J. Stiebel | Methods and systems for language learning based on a series of pitch patterns |
US9489121B2 (en) * | 2011-11-02 | 2016-11-08 | Microsoft Technology Licensing, Llc | Optimal display and zoom of objects and text in a document |
JP6127371B2 (ja) * | 2012-03-28 | 2017-05-17 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP2013218406A (ja) * | 2012-04-05 | 2013-10-24 | Nippon Telegraph & Telephone West Corp | タイミング編集装置、タイミング編集方法及びコンピュータプログラム |
US9570090B2 (en) * | 2015-05-26 | 2017-02-14 | Google Inc. | Dialog system with automatic reactivation of speech acquiring mode |
US10339406B2 (en) * | 2013-03-15 | 2019-07-02 | Orcam Technologies Ltd. | Apparatus and method for using background change to determine context |
JP5913394B2 (ja) * | 2014-02-06 | 2016-04-27 | Psソリューションズ株式会社 | 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム |
US9625943B2 (en) * | 2014-08-15 | 2017-04-18 | Masami Sakita | Mobile keyboard |
US9794842B2 (en) * | 2015-05-21 | 2017-10-17 | At&T Mobility Ii Llc | Facilitation of handover coordination based on voice activity data |
JP2017116710A (ja) * | 2015-12-24 | 2017-06-29 | 大日本印刷株式会社 | 音声配信システムおよび文書配信システム |
US10692494B2 (en) * | 2017-05-10 | 2020-06-23 | Sattam Dasgupta | Application-independent content translation |
JP7215033B2 (ja) * | 2018-09-18 | 2023-01-31 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置およびプログラム |
JP2020053832A (ja) * | 2018-09-27 | 2020-04-02 | ヤマハ株式会社 | 情報処理方法および情報処理装置 |
EP3921770A4 (en) * | 2019-02-05 | 2022-11-09 | Igentify Ltd. | SYSTEM AND METHOD FOR MODULATION OF DYNAMIC GAPS IN SPEECH |
US10929596B2 (en) * | 2019-05-15 | 2021-02-23 | International Business Machines Corporation | Pattern based electronic dictionary modification and presentation |
US11017157B2 (en) | 2019-05-15 | 2021-05-25 | International Business Machines Corporation | Group pattern based electronic dictionary modification and presentation |
US11276419B2 (en) * | 2019-07-30 | 2022-03-15 | International Business Machines Corporation | Synchronized sound generation from videos |
JP7128222B2 (ja) | 2019-10-28 | 2022-08-30 | ネイバー コーポレーション | 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム |
CN110769167A (zh) * | 2019-10-30 | 2020-02-07 | 合肥名阳信息技术有限公司 | 一种基于文字转语音技术进行视频配音的方法 |
US11302300B2 (en) * | 2019-11-19 | 2022-04-12 | Applications Technology (Apptek), Llc | Method and apparatus for forced duration in neural speech synthesis |
KR102465870B1 (ko) * | 2021-03-17 | 2022-11-10 | 네이버 주식회사 | 이미지에 대한 음성합성에 기반하여 영상 컨텐츠를 생성하는 방법 및 시스템 |
CN113674731A (zh) * | 2021-05-14 | 2021-11-19 | 北京搜狗科技发展有限公司 | 语音合成处理方法、装置和介质 |
CN113345408B (zh) * | 2021-06-02 | 2022-12-27 | 云知声智能科技股份有限公司 | 中英文语音混合合成方法、装置、电子设备和存储介质 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06131148A (ja) | 1992-10-15 | 1994-05-13 | Fujitsu Ltd | 音声合成装置 |
JPH06195094A (ja) | 1992-12-25 | 1994-07-15 | Canon Inc | 表音文字列表示方法及び音声合成装置 |
US5842172A (en) * | 1995-04-21 | 1998-11-24 | Tensortech Corporation | Method and apparatus for modifying the play time of digital audio tracks |
JP3976811B2 (ja) * | 1996-01-10 | 2007-09-19 | キヤノン株式会社 | 文書処理装置及び文書処理装置における文書処理方法 |
US6226614B1 (en) * | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
JP3741524B2 (ja) * | 1997-09-11 | 2006-02-01 | 日本放送協会 | ナレーション作成収録支援装置 |
JP3426957B2 (ja) | 1998-04-22 | 2003-07-14 | 日本電信電話株式会社 | 映像中への音声録音支援表示方法及び装置及びこの方法を記録した記録媒体 |
JP2001027996A (ja) * | 1999-07-13 | 2001-01-30 | Sony Corp | 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体 |
US20030014253A1 (en) * | 1999-11-24 | 2003-01-16 | Conal P. Walsh | Application of speed reading techiques in text-to-speech generation |
US6757362B1 (en) * | 2000-03-06 | 2004-06-29 | Avaya Technology Corp. | Personal virtual assistant |
JP2001282279A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理方法及び装置及び記憶媒体 |
JP4067762B2 (ja) * | 2000-12-28 | 2008-03-26 | ヤマハ株式会社 | 歌唱合成装置 |
JP3879402B2 (ja) * | 2000-12-28 | 2007-02-14 | ヤマハ株式会社 | 歌唱合成方法と装置及び記録媒体 |
US6661418B1 (en) * | 2001-01-22 | 2003-12-09 | Digital Animations Limited | Character animation system |
JP2003216173A (ja) | 2002-01-28 | 2003-07-30 | Toshiba Corp | 合成音声及び映像の同期制御方法、装置及びプログラム |
US7299182B2 (en) * | 2002-05-09 | 2007-11-20 | Thomson Licensing | Text-to-speech (TTS) for hand-held devices |
WO2004027754A1 (en) * | 2002-09-17 | 2004-04-01 | Koninklijke Philips Electronics N.V. | A method of synthesizing of an unvoiced speech signal |
CN1813285B (zh) * | 2003-06-05 | 2010-06-16 | 株式会社建伍 | 语音合成设备和方法 |
JP4080989B2 (ja) * | 2003-11-28 | 2008-04-23 | 株式会社東芝 | 音声合成方法、音声合成装置および音声合成プログラム |
WO2005088634A1 (en) * | 2004-03-17 | 2005-09-22 | Lg Electronics Inc. | Recording medium, method, and apparatus for reproducing text subtitle streams |
JP2005309173A (ja) | 2004-04-23 | 2005-11-04 | Nippon Hoso Kyokai <Nhk> | 音声合成制御装置、その方法、そのプログラムおよび音声合成用データ生成装置 |
EP1835488B1 (en) * | 2006-03-17 | 2008-11-19 | Svox AG | Text to speech synthesis |
US7693717B2 (en) * | 2006-04-12 | 2010-04-06 | Custom Speech Usa, Inc. | Session file modification with annotation using speech recognition or text to speech |
JP5029167B2 (ja) * | 2007-06-25 | 2012-09-19 | 富士通株式会社 | 音声読み上げのための装置、プログラム及び方法 |
JP4973337B2 (ja) | 2007-06-28 | 2012-07-11 | 富士通株式会社 | 音声読み上げのための装置、プログラム及び方法 |
US8620662B2 (en) * | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US8244546B2 (en) * | 2008-05-28 | 2012-08-14 | National Institute Of Advanced Industrial Science And Technology | Singing synthesis parameter data estimation system |
-
2009
- 2009-09-10 JP JP2009209409A patent/JP5482042B2/ja not_active Expired - Fee Related
-
2010
- 2010-09-10 US US12/879,299 patent/US8504368B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US8504368B2 (en) | 2013-08-06 |
US20110060590A1 (en) | 2011-03-10 |
JP2011059412A (ja) | 2011-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5482042B2 (ja) | 合成音声テキスト入力装置及びプログラム | |
JP4539537B2 (ja) | 音声合成装置,音声合成方法,およびコンピュータプログラム | |
JP4973337B2 (ja) | 音声読み上げのための装置、プログラム及び方法 | |
KR101005949B1 (ko) | 음성 읽어내기를 위한 장치, 기록 매체 및 방법 | |
JPH10153998A (ja) | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 | |
JP2008249808A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP2008083239A (ja) | 中間言語編集装置、中間言語編集方法および中間言語編集プログラム | |
JP2010128103A (ja) | 音声合成装置、音声合成方法、および音声合成プログラム | |
JP2003337592A (ja) | 音声合成方法及び音声合成装置及び音声合成プログラム | |
JP4744338B2 (ja) | 合成音声生成装置 | |
JP2009133890A (ja) | 音声合成装置及びその方法 | |
JP2009157220A (ja) | 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法 | |
JP2009216724A (ja) | 音声生成装置及びコンピュータプログラム | |
JP6486582B2 (ja) | 電子機器、音声制御方法、およびプログラム | |
JP2009216723A (ja) | 類似音声選択装置、音声生成装置及びコンピュータプログラム | |
JP6727477B1 (ja) | ピッチパターン補正装置、プログラム及びピッチパターン補正方法 | |
JP6762454B1 (ja) | ピッチパターン補正装置、プログラム及びピッチパターン補正方法 | |
JP5620776B2 (ja) | 話速調整装置、音声合成システム、およびプログラム | |
JP6340839B2 (ja) | 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム | |
JP7004872B2 (ja) | ピッチパターン補正装置、プログラム及びピッチパターン補正方法 | |
JP2003330482A (ja) | 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム | |
JP6159436B2 (ja) | 読み記号列編集装置および読み記号列編集方法 | |
JP2016122033A (ja) | 記号列生成装置、音声合成装置、音声合成システム、記号列生成方法、及びプログラム | |
JP2004054063A (ja) | 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120510 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130513 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130819 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20130821 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5482042 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |