JP5482042B2

JP5482042B2 - 合成音声テキスト入力装置及びプログラム

Info

Publication number: JP5482042B2
Application number: JP2009209409A
Authority: JP
Inventors: 伸之片江; 健太郎村瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-09-10
Filing date: 2009-09-10
Publication date: 2014-04-23
Anticipated expiration: 2029-09-10
Also published as: US8504368B2; US20110060590A1; JP2011059412A

Description

本発明は、合成音声の基となるテキストをユーザが入力するための合成音声テキスト入力装置及びプログラムに関する。

テレビ番組などの映像コンテンツにおいて、ナレーションの音声、およびアニメーションや吹き替えでの台詞の音声などに、ナレーターや声優の録音音声に代わって音声合成が使われ始めている。

映像コンテンツの制作では、撮影または録音した映像素材や音声素材を編集してひとつの作品としてまとめるポストプロダクションと呼ばれる映像編集作業が行われる。現在、ポストプロダクションは、コンピュータを使用したノンリニア編集が一般的である。この編集は、ハードディスク等の記憶装置上に置かれた映像素材や音声素材を、映像編集用のハードウェアやソフトウェア（以降、映像編集システム）を用いて、非線形（ノンリニア）に追加・削除・修正・並べ替えすることにより行なわれる。これにより、効率的に映像コンテンツを作成することができる。このような映像編集システムを用いた編集では、制作者は、映像と音声を同期させながら所望の時刻位置に配置する必要がある。音声素材として合成音声を用いる場合に、映像と音声を同期させる方法、装置、プログラムについては、これまでにもいくつかの公知例がある（例えば、特許文献１〜３参照）。

特許文献１では、所定の表示時間の映像信号に合成音声を容易に同期させることが可能な音声合成制御装置が開示されている。この音声合成制御装置は、読み上げ用のテキストにおける発話開始位置および発話開始時刻を発話開始タイミングとして取得して音声合成装置に出力することにより、音声合成の開始を制御する。

特許文献２では、合成音声とコンピュータグラフィックスのような映像を互いに同期させる同期制御装置が開示されている。これは、テキスト情報及び映像の基本動作を指定する動作指定情報を含む入力データに基づき合成音声の韻律を制御する韻律データを生成し、入力データおよび韻律データに基づいて、動作指定情報およびこれにより指定される動作に関連付ける時刻情報を含む映像制御データを生成するものである。

特許文献３は、映像コンテンツ用の録音音声による音声素材を用意する際に、合成音声を間接的に使用する例である。特許文献３に開示の方法においては、音声を入力したい映像区間に対し、録音したい音声のテキスト情報を付加して、合成音声を作成する。合成音声の長さ、高さ、イントネーション、声色、発声のタイミング等を加工したのち、発声者に対して加工合成音声を再生し、音声の発声タイミングを表示する。発声者が発声した音声と加工合成音声の一致具合を比較して、録音音声の採用を決定し、採用の決定された録音音声を映像区間に組み合わせる。

特開２００５−３０９１７３号公報特開２００３−２１６１７３号公報特開平１１−３０８５６５号公報

例えば、映像編集システムにおいて、入力テキストから合成音声を作成して映像と同期させるとき、ユーザは、合成される音声の長さが直感的に分からないため、所望の音声の時間長に対して多すぎる、あるいは少なすぎるテキストを与えてしまう場合がある。その結果、テキストから合成される音声が長すぎたり短すぎたりして、映像と同期させることが難しくなる。

特許文献１では、発話開始位置と発話開始時刻が設定されたテキストを用意して映像と同期をとる。この構成において、例えば、ひとつの発話開始位置とその次の発話開始位置に挟まれた時間区間に対して、過剰なテキストが記述されていれば、この時間区間にテキストを納めるために高速な合成音声を用意することになる。また、時間区間に対して僅かなテキストしか記述されていなければ、低速の間延びした音声か、ポーズをたくさんとった不自然な音声を用意することになる。

特許文献２に開示の同期制御は、あらかじめ固定の時間長の映像データが用意されており、その長さに合わせた音声を用意する必要がある場合には適用できない。

特許文献３に開示の方法では、そもそも合成するテキストが映像に対して少なすぎる場合には間延びした音声しか作成できないし、合成するテキストが映像に対して多すぎる場合には、高速の音声を作成せざるを得ない。結果として、不自然な音声しか用意できないことになる。

このように、従来の技術では、入力テキストから合成される音声の長さがユーザに直感的に分かるようにする仕組みがないために、映像と音声との同期をとることが難しくなる問題が生じていた。なお、この問題は、映像と音声との同期をとる場合に限られず、その他、所望の時間長に対応する合成音声のテキストをユーザが入力しようとする場合に問題となる。

ゆえに、本発明は、所望の時間長に適応する入力テキストの量をユーザがわかるようにすることができる合成音声テキスト入力装置を提供することを目的とする。

本願開示の合成音声テキスト入力装置は、合成音声の設定時間長と、合成音声のテキストとの入力を受付ける入力部と、前記入力部で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算部と、前記入力部が前記合成音声のテキストを受付ける際に、前記テキスト量計算部で算出された前記テキストの量を出力するテキスト量出力部とを備える。

本願明細書の開示によれば、音声を合成するための所望の時間長に適応する入力テキストの量をユーザがわかるようにすることができる。

図１は、第１の実施形態における合成音声テキスト入力装置の構成例を示す機能ブロック図である。図２は、第１の実施形態における合成音声テキスト入力装置の動作例を示すフローチャートである。図３Ａ〜図３Ｄは、図２の動作例においてディスプレイに表示される画面の遷移例を示す図である。図４は、第２の実施形態にかかる合成音声テキスト入力装置の構成例を示す機能ブロック図である。図５は、第２の実施形態にかかる合成音声テキスト入力装置の動作例を示すフローチャートである。図６Ａ〜図６Ｆは、図５の動作例においてディスプレイに表示される画面の遷移例を示す図である。図７Ａ〜図７Ｆは、英語の場合にディスプレイに表示される画面の遷移例を示す図である。図８は、第３の実施形態にかかる合成音声テキスト入力装置の構成例を示す機能ブロック図である。図９は、第３の実施形態にかかる合成音声テキスト入力装置の動作例を示すフローチャートである。図１０は、第４の実施形態にかかる合成音声テキスト入力装置の構成例を示す機能ブロック図である。図１１は、第４の実施形態にかかる合成音声テキスト入力装置の動作例を示すフローチャートである。図１２は、入力可能文字数範囲を示す画面の例である。図１３は、英語の入力可能テキスト幅の範囲を示す画面の例である。図１４は、第５の実施形態にかかる合成音声テキスト入力装置の構成例を示す機能ブロック図である。図１５は、合成音声テキスト入力装置の動作例を示すフローチャートである。図１６Ａ〜図１６Ｆは、第５の実施形態においてディスプレイに表示される画面の遷移例を示す図である。図１７は、第６の実施形態にかかる合成音声テキスト入力装置の構成例を示す機能ブロック図である。図１８は、合成音声テキスト入力装置の動作例を示すフローチャートである。図１９Ａ〜図１９Ｅは、第６の実施形態においてディスプレイに表示される画面の遷移例を示す図である。図２０は、第７の実施形態におけるスライド編集システムの構成例を示す機能ブロック図である。図２１は、スライド編集システムにおいて表示される画面の例を示す図である。図２２は、上記第１〜６の実施形態における合成音声テキスト入力装置を含む映像編集装置が実装されるコンピュータの構成例を示す図である。

（第１の実施形態）
本実施形態にかかる合成音声テキスト入力装置は、例えば、ユーザが読み上げ用のテキストを入力するのに用いられる装置である。合成音声テキスト入力装置は、入力部と、テキスト量計算部と、テキスト量出力部を備える。入力部は、合成音声の設定時間長と、合成音声のテキストとの入力を受付ける。テキスト量計算部は、入力部で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出する。テキスト量出力部は、入力部が前記合成音声のテキストを受付ける際に、テキスト量計算部で算出されたテキストの量を出力する。

ここで、合成音声の設定時間長は、入力テキストに基づいて音声を合成した時に、合成音声が納まるべき時間であり、例えば、ユーザにより指定された時間である。上記構成においては、テキスト量計算部が設定時間長から算出した入力可能なテキストの量を、合成音声のテキスト入力を受付ける際に出力する。そのため、合成音声のテキストを入力するユーザは、設定時間長に対応する入力可能なテキストの量を知ることができる。

本実施形態において、入力部は、合成音声の発話速度の入力をさらに受付け、テキスト量計算部は、入力部で受付けられた発話速度をさらに用いて、前記設定時間長の合成音声として入力可能なテキストの量を算出してもよい。これにより、ユーザは、発話速度も加味された入力可能なテキスト量を知ることができる。

テキスト量計算部は、例えば、単位時間あたりのテキスト量を示す値または単位テキストあたりの時間を示す値を用いて、設定時間長に対応するテキストの量を計算することができる。また、設定時間長における音声区間またはポーズ区間の比率を示す値を上記計算にさらに用いることもできる。これらの計算に用いる値は、予め記録されていてもよいし、入力部で受付けた情報（例えば、発話速度等）に基づいて決定されてもよい。テキストの量の表現形式は特に限定されないが、例えば、文字数、ワード数、文字列や文の長さ等によりテキストの量を表すことができる。また、漢字等がテキストに含まれて入力すると、その読みが長い場合は、音声合成している時間が延びるので、音声の発音量をテキスト量としてもよい。また、テキスト量は、句読点などによる無音部分も含めて計算することができる。

テキスト量出力部は、ユーザからの合成音声のテキスト入力を受付ける際に、設定時間長に対応する入力可能なテキストの量をユーザが認識可能となるように出力する。出力形式は、特に限定されないが、例えば、ディスプレイ画面に表示される、合成音声のテキスト入力領域の大きさを変化させることで、入力可能なテキスト量をユーザに知らせることができる。

［装置の構成例］
図１は、本実施形態における合成音声テキスト入力装置の構成例を示す機能ブロック図である。図１に示す合成音声テキスト入力装置１は、入力部１０１、音声合成部１０２、音声出力部１０３、テキスト量出力部１０４およびテキスト量計算部１０５を備える。合成音声テキスト入力装置１は、例えば、プロセッサおよびメモリを備えるコンピュータにより構成される。コンピュータには、キーボードやマウス等の入力装置と、ディスプレイ、スピーカ、プリンタ等の出力装置が接続される。入力部１０１、音声合成部１０２、音声出力部１０３、テキスト量出力部１０４およびテキスト量計算部１０５の各部は、コンピュータのプロセッサがメモリに記録された所定のプログラムを実行することによって実現される機能部である。

合成音声テキスト入力装置１は、例えば、映像編集システムにおいて、映像データに同期させて付与する合成音声を、ユーザがテキストで入力するための装置として用いることができる。本実施形態では、一例として、合成音声テキスト入力装置１が、映像データのうち指定された区間に付加する合成音声のテキストを入力するのに用いられる場合について説明する。

入力部１０１は、入力デバイスおよびＧＵＩを介して、ユーザからのデータ入力を受付ける。本実施形態では、ユーザから受付ける情報には、テキスト、設定時間長および発話速度が含まれる。入力部１０１は、設定時間長の入力を受付ける場合、例えば、映像データの少なくとも一部の区間の指定をユーザから受付け、指定された区間に相当する時間を設定時間長とすることができる。これにより、ユーザは、映像データの区間を指定することにより、合成音声の設定時間長を入力することが可能になる。なお、設定時間長入力の形態はこれに限られず、例えば、ユーザから設定時間長を示す数値の入力を受付けることもできる。

テキスト量計算部１０５は、入力部１０１が受付けた設定時間長および発話速度を用いて、当該設定時間長の合成音声として入力可能なテキストの量を算出する。ここでのテキスト量は、通常の音声出力のスピードを前提にしている。テキスト量計算部１０５は、例えば、入力部１０１が受付けた設定時間長および発話速度に加えて、発話における音声区間またはポーズ区間の比率、1文字あたりの音節数またはモーラ数から、与えられた音声時間長に相当する文字数を計算することができる。

ここで、音節とは１個の母音と１個以上の子音から構成される音声のまとまりである。日本語の場合は音節の定義は必ずしも明確ではない場合がある。例えば、「関東」という単語で、音節を「かん」「とー」の２音節にカウントする場合と、「か」「ん」「と」「ー」の４音節にカウントする場合がある。一方、モーラとは日本語などの言語においてリズムを構成する単位であり、日本語では、ひらがな１文字が１モーラに相当する（ただし、「きゃ」「きゅ」「きょ」などの拗音は２文字で1モーラである）。単語「関東」は、「か」「ん」「と」「ー」の４モーラである。本実施形態では、テキスト量計算部１０５の計算に、モーラが用いられる場合について説明する。

テキスト量出力部１０４は、テキスト量計算部１０５が計算した入力可能なテキスト量を出力し、ユーザが認識可能な状態にする。例えば、テキスト量計算部１０５が計算した入力可能な文字数に応じたサイズのテキストボックスをディスプレイの画面に表示することにより、設定時間長に適応する入力テキストの文字数をユーザに直感的にわかるように示すことができる。これにより、適切な文字数のテキストをユーザが設定することが可能になる。

音声合成部１０２は、入力部１０１で入力された合成音声のテキストを合成音声に変換する。すなわち、音声合成部１０２は、入力部１０１で入力されたテキストに基づいて、音声波形信号を合成する。テキストから音声波形信号を生成する機能には、例えば、波形編集方式(コーパスベース方式)、ＬＰＣ方式、ＰＡＲＣＯＲ方式、ＬＳＰ方式など公知の技術を用いることができる。音声出力部１０３は、音声合成部１０２が生成した合成音声をスピーカ等に出力する。

図１に示す合成音声テキスト入力装置１は、ユーザが設定した設定時間長と発話速度をもとに、入力可能なテキストの文字数を予測してユーザに提示し、その文字数にあわせたテキスト入力をユーザに促すものである。なお、合成音声テキスト入力装置１が、映像編集システムに用いられる場合は、ひとつのコンテンツを通して発話速度が一定であることが多いため、あらかじめ設定された発話速度設定値を用いることができる。すなわち、発話速度は、入力部１０１で受付けた値を用いてもよいし、予め設定された値を用いてもよい。

［動作例］
図２は、第１の実施形態における合成音声テキスト入力装置１の動作例を示すフローチャートである。図２に示す例は、まず、設定時間長が入力部１０１に入力されると(Ｓ６０１でＹｅｓ)、入力部１０１は、発話速度を獲得する(Ｓ６０２)。

テキスト量計算部１０５は、設定時間長と発話速度から、合成可能（入力可能）な文字数の予測値を算出する(Ｓ６０３)。発話速度は、例えば、ｎモーラ／秒のように、単位時間あたりのモーラ数で表される。ここでは、テキスト量計算部１０５が、合成音声における有音区間の割合を示す値と、１文字あたりのモーラ数とを用いて、入力可能な文字数を計算する例を説明する。一般的に、音声全体に占める有音区間（音声区間）と無音区間（ポーズ区間）の比率は音声データベース等から統計的に求めることができる。例えば、統計的に求められた、音声全体に占める有音区間の割合rを予め記録しておくことができる。また、漢字、ひらがな、カタカナ、記号、アルファベット等あらゆる種類の文字を含むテキストの１文字あたりの平均モーラ数もあらかじめ統計的に求めて設定しておくことができる。ここでは、テキスト１文字あたりの平均モーラ数をｍとする。設定時間長をＤ秒とすると、入力可能な文字数の予測値は、例えば、下式（１）で算出することができる。

入力可能文字数（予測値）＝ D × ｒ × ｎ／ｍ・・・（１）
このように、上記例では、１文字あたりの平均モーラ数ｍや、有音区間の割合ｒなど、設定時間長をテキストの量に変換するための値と、入力部１０１が受付けた設定時間長と発話速度を、所定の計算式に代入することにより、入力可能テキスト量を計算している。なお、設定時間長をテキストの量に変換するための値および計算式は、上記例に限られない。

テキスト量出力部１０４は、以上のように求められた入力可能文字数をユーザに提示する。例えば、入力可能文字数に応じたテキストボックスを画面に表示する(Ｓ６０４)。これにより、直感的にわかりやすい表示が可能になる。入力部１０１において、ユーザがテキストボックスにテキストを入力し、確定キー（確定ボタン）が押下されたことを検知すると(Ｓ６０５でＹｅｓ)、音声合成部１０２は、当該テキストの音声を発話速度で合成し(Ｓ６０６)、音声出力部１０３が合成された音声を出力する(Ｓ６０７)。

[画面遷移例]
図３Ａ〜図３Ｄは、図２に示した動作例においてディスプレイに表示される画面の遷移例を示す図である。図３Ａに示す画面では、画面上部に映像データのサムネイル画像Ｔ１が配置されている。これらのサムネイル画像Ｔ１は、映像データから一定の時間間隔で切り出した静止画を、縮小して時間順に配置したものである。ユーザは、サムネイル画像Ｔ１をスクロールすることによって、映像データの全体を見ることができる。ユーザは、映像データの中で合成音声を付与したい区間があれば、合成音声挿入区間（合成音声挿入区間）としてマウス等のポインティングデバイスを用いて指定する。挿入区間は矩形Ｋ１で表示され、矩形Ｋ１の横幅が設定時間長を表している。

合成音声挿入区間が指定されると、合成音声挿入区間の設定時間長に応じて、上述したように、テキスト量計算部１０５により入力可能文字数が計算される。例えば、図３Ｂに示すように、計算された文字数のマス目をもったテキストボックスＴＸ１が表示される（図２のＳ６０４）。すなわち、設定時間長に応じた大きさのテキスト入力領域が表示される。

ユーザは、テキストボックスＴＸ１にテキストを入力していき、すべてのテキストの入力を終えると、確定キーＢ１を押す（クリックする）（図３Ｃ参照）。確定キーＢ１が押されると（図２のＳ６０５でＹｅｓ）、テキストボックスＴＸ１に入力されたテキストの合成音声が生成され、音声データとして映像データに対応付けられて記録される。すなわち、合成音声は、映像データと同期して記憶される。図３Ｄに示す画面上には、生成された合成音声の音声波形Ｈ１が表示されている。なお、音声波形Ｈ１を囲む矩形をクリックすると、図３Ｃに示す画面に戻って、テキストを変更できるような機能をもたせることも可能である。

[英語の場合の例]
日本語ではテキストの長さを文字数によって表現することが一般的なため、上記の合成音声テキスト入力装置１は、設定時間長に応じた入力可能文字数を予測し、その文字数に応じたテキストボックスを画面に表示している。英語の場合は、テキストの量（長さ）を単語数によって表現するのが一般的である。したがって、設定時間長に応じた単語数を記述するのに適した幅のテキストボックスを表示することが好ましい。

英語の場合、発声速度は、例えば、１分当たりの単語数（Word per minute : WPS）で表される。朗読音声などで聞き取りやすい発声速度は１５０〜１６０単語／分であり、テレビ番組のニュースなどはこれよりは速く、約２００単語／分以上と言われている。本実施形態において、合成音声テキスト入力装置１が、映像に同期させて付与する合成音声の設定時間長の入力を受付けると、発話速度、発話における音声区間またはポーズ区間の比率から、例えば、与えられた設定時間長に相当する単語数を計算することができる。さらに、１単語あたりの文字数とフォントサイズを用いて、音声時間長に応じた大きさのテキストボックスをユーザに示すことが可能である。

ここで、合成音声が英語である場合の、テキスト量計算部１０５によるテキスト量計算の例を説明する。ここで、発話速度は、例えば、ｎ単語／分のようにＷＰＳで設定される。音声全体に占める有音区間の割合r、１単語あたりの平均文字数ｍ、および１文字あたりの平均フォント幅ｗは予め合成音声テキスト入力装置１に記録される。設定時間長をＤ分とすると、入力可能テキストの幅は、例えば、下式（２）を用いて算出することができる。

入力可能テキストの幅（予測値）＝ D × ｒ × ｎ × ｍ × w ・・・（２）
例えば、発話速度が２００単語／分、音声全体に占める有音区間の割合ｒを０．７、１単語あたりの平均文字数ｍを８、１文字あたりの平均フォント幅ｗを１．５ｍｍとするとき、設定時間長が３０秒(=０．５分)であれば、入力可能テキストの幅は、０．５×０．７×２００×８×１．５＝８４０ｍｍとなる。テキストボックスの1行あたりの長さを１００ｍｍとすれば、８．４行のテキストボックスが表示されることになる。

このように、合成音声テキスト入力装置１が取り扱うことのできる言語は特に限定されない。日本語および英語以外の言語であっても、その言語の性質や文字に応じたテキスト量の計算方法および表示方法を採用することができる。

以上のとおり、本実施形態によれば、ユーザが所望の設定時間長に適応する入力テキストの分量を、ユーザのテキスト入力の際に、ユーザに直感的にわかるように示すので、適切な分量のテキストをユーザが設定することができる。そのため、ユーザは、例えば、映像と同期する合成音声を容易に作成することができる。

（第２の実施形態）
図４は、第２の実施形態にかかる合成音声テキスト入力装置１ａの構成例を示す機能ブロック図である。合成音声テキスト入力装置１ａでは、音声合成部１０２は、言語処理部２０１、韻律生成部２０２および波形生成部２０３を含む。言語処理部２０１は、入力部１０１で入力された合成音声のテキストを解析して、当該テキストの読み情報を含む中間表記を生成する。韻律生成部２０２は、言語処理部２０１で生成された前記中間表記から、テキストに対応する合成音声の時間長と、テキストに相当する合成音声の高さの変化パターンであるピッチパターンを生成する。波形生成部２０３は、韻律生成部２０２が生成した、テキストに対応する合成音声の時間長と、テキストに相当する合成音声の高さの変化パターンであるピッチパターンから合成音声を生成する。テキスト量計算部２０４は、音声合成部の韻律生成部２０２が計算した合成音声の時間長をさらに用いて、設定時間長の合成音声として入力可能なテキストの量を算出する。

上記構成では、入力部１０１ですでに入力されたテキストの合成音声の時間を用いて、入力可能なテキストの量を算出する。そのため、すでに入力されたテキストについて実際の時間長が計算され、この時間長を使って入力可能なテキストの量が調整される。その結果、ユーザは、テキストの入力状況に応じた、入力可能なテキストの量を知ることができる。

[動作例]
図５は、第２の実施形態にかかる合成音声テキスト入力装置１ａの動作例を示すフローチャートである。図５に示す例では、まず、入力部１０１が、ユーザから設定時間長の入力を受付けると(Ｓ７０１でＹｅｓ)、入力部１０１は、発話速度を獲得し(Ｓ７０２)、入力テキストを初期化する(Ｓ７０３)。音声合成部１０２の言語処理部２０１では、現時点ですでに入力されているテキスト（既入力テキスト）の形態素解析、構文解析などの言語処理を行い、テキストに対する表音文字列を生成する。表音文字列は、テキストの読みを示す文字列であり、例えば、テキストの読み方、アクセント、フレーズやポーズなどの境界の入れ方などを示す情報が含まれる。表音文字列は、音声合成における中間表記の一例である。

韻律生成部２０２は、表音文字列をもとに、各モーラ、または各モーラを構成する各音素の時間長を計算し、さらに声の高さの変化パターンであるピッチパターンを生成する。なおこの段階でテキスト量を計算するためには、時間長は必要であるがピッチパターンは不要なので、時間長を求めるのみでもよい。ここで、韻律生成部２０２は、計算された各モーラまたは各音素の時間長を合計すると既入力テキストに相当する合成時間長を求めることができる(Ｓ７０４)。なお、初期状態ではテキストは入力されていないので、合成時間長は０である。テキスト量計算部２０４では、設定時間長、発話速度、既入力テキストの合成時間長から、入力可能文字数の予測値を算出する(Ｓ７０５)。ここで、上記第１の実施形態と同様に、発話速度をｎモーラ／秒、音声全体に占める有音区間の割合をｒ、テキスト１文字あたりの平均モーラ数をｍ、音声時間長設定値をＤ秒とし、さらに、既入力テキストの文字数をｋ、その合成時間長をｔとすると、入力可能文字数の予測値は、例えば、下式（３）で算出することができる。

入力可能文字数（予測値）＝ｋ＋（ D − ｔ） × ｒ × ｎ／ｍ
・・・（３）
テキスト量出力部１０４は、以上のようにして求められた入力可能文字数を、入力可能文字数に応じたテキストボックスの表示などの方法でユーザに提示する(Ｓ７０６)。入力部１０１において、例えば、ユーザからの指示により、設定時間長が変更されれば(Ｓ７０７でＹｅｓ)、Ｓ７０５にもどり、テキスト量計算部２０４が、変更された設定時間長について、入力可能文字数の予測値を再計算する。テキスト量出力部１０４は、再計算された入力可能文字数をユーザに提示する。また、入力テキストが追加変更された場合(Ｓ７０８でＹｅｓ)、Ｓ７０４にもどり、言語処理部２０１、韻律生成部２０２によって追加変更されたテキストに対する合成時間長が求められる。その後、テキスト量計算部２０４が、入力可能文字数を再計算し（Ｓ７０５）、テキスト量出力部１０４が、ユーザへの再提示を行う（Ｓ７０６）。以上の処理を、ユーザがテキストを確定する(Ｓ７０９でＹｅｓ)まで繰り返す。テキストが確定されれば、波形生成部２０３が、テキストの音声を合成し(Ｓ７１０)、音声出力部１０３が合成された音声を出力する(Ｓ７１１)。

以上の処理により、すでに入力されているテキストについて実際の合成音声の時間長を随時計算し、入力可能文字数を随時修正してユーザに表示することができる。そのため、ユーザは、最終的に合成される音声の時間長に合わせるように入力テキストを調整することが可能になる。

なお、テキスト量計算部２０４によるテキスト量の計算は、上記式（３）を用いた方法に限られない。例えば、テキスト量計算部２０４は、まず、テキストが入力されていない初期状態において、上記第１の実施形態と同様にして、入力可能テキスト文字数の初期値を計算する。テキストが入力されると、設定時間長から入力されたテキストのモーラ数に対応する時間長を引いた時間に対応する文字数を、入力可能テキスト文字数として計算することができる。

このように、音声合成部１０２は、設定時間長の合成音声として、すでに入力部１０１が受付けた部分のテキストに対応する部分合成音声の時間長を計算し、テキスト量計算部２０４は、音声合成部１０２が計算した部分合成音声の時間長を用いて、設定時間長の合成音声として入力可能なテキストの量を修正することができる。これにより、ユーザのテキスト入力に応じて入力可能なテキストの量を随時修正して表示することができ、より正確な入力可能テキスト量をユーザに示すことが可能になる。

［画面遷移例］
図６Ａ〜図６Ｆは、図５に示した動作例においてディスプレイに表示される画面の遷移例を示す図である。図６Ａでは、画面上部に映像データのサムネイル画像Ｔ１が配置されている。ユーザが指定した、映像データの中で合成音声を付与したい区間、すなわち挿入区間は、矩形Ｋ１で表示され、矩形Ｋ１の横幅が設定時間長となる。

挿入区間が設定されると、挿入区間の設定時間長に応じて、入力可能文字数が計算され、その文字数のマス目をもったテキストボックスＴＢ１が表示される（図６Ｂ参照）。

図６Ｃに示すように、ユーザは、例えば、矩形Ｋ１の横幅をマウス等で引き伸ばすことにより、挿入区間の長さを変更することができる。挿入区間が変更されると、設定時間長が変化するので、変化後の設定時間長について入力可能文字数が再計算され、テキストボックスＴＢ１のマス目の数も変化する（図５のＳ７０７でＹＥＳの場合の処理相当）。すなわち、挿入区間を変更すると、テキストボックスＴＢ１のサイズが変わる。図６Ｄに示すように、ユーザが、テキストボックスにテキストを入力していくと、入力可能文字数が随時再計算され、それに応じてテキストボックスのマス目の数も変化する（図５のＳ７０８でＹＥＳの場合に相当）。なお、入力可能文字数の再計算のタイミングは、上記図５に示す例に限られない。例えば、あらかじめ決められた一定数の文字が入力されたときとか、あらかじめ決められた時間が経過したときとか、その他様々なタイミングで再計算することができる。

ユーザは、すべてのテキストの入力を終えて確定キーＢ１を押す（図６Ｅ参照）。確定キーが押されると（図５のＳ７０９でＹＥＳ）、入力されたテキストの合成音声が作成され、映像データと同期して記録される。図６Ｆに示すように、画面上には音声波形Ｈ１が表示されてもよい。音声波形Ｈ１を囲む矩形をクリックすると、再度、図６Ｅに示す画面に戻ってテキストを変更できるような機能をもたせることも可能である。

上記の画面遷移例でも示されるように、本実施形態では、ユーザが入力したテキストに応じて、入力可能なテキストの文字数が再計算されて更新される。これにより、ユーザに対して、より正確な入力可能テキスト量を表示することができる。

ここで、上記効果についてさらに詳細に説明する。テキスト量計算部２０４で計算される入力可能なテキストの量は計算値であり、実際に入力できるテキスト量とは異なる場合がある。例えば、テキスト量計算部が、設定時間長と発話速度から計算した入力可能なテキストの文字数のテキストをユーザが入力した場合、入力したテキストによっては、設定時間長と実際にテキストから合成される音声の時間長とに差が生じる場合がある。テキスト量計算部は、上述のように、入力可能文字数の計算に、統計的に求められた有音区間の割合を用いているが、この割合は実際の合成音声とは異なる場合がある。例えば、テキストに句読点が多ければ、合成音声にポーズ（無音区間）が多くなるし、テキストが通常の文章である場合と箇条書きのリストである場合とを比べると、後者の方が、ポーズが多くなる傾向がある。このように、テキストのスタイルによって合成音声の有音区間の割合が統計値とは異なる場合がある。また、入力可能文字数の予測に用いる１文字当たり平均モーラ数についても、一般的に漢字は１文字が１〜数モーラを示すのに対して、ひらがなは１文字が１モーラ以下（上述のように、基本的に１文字は１モーラだが、拗音は２文字で１モーラである）なので、漢字の多いテキストとひらがなの多いテキストでは同じ文字数でも合成音声の時間長は異なる。そこで、本実施形態では、ユーザがテキストを入力している間にも、すでに入力されているテキストについて実際の合成音声の時間長を随時計算し、入力可能文字数を随時修正して示すことで、予測値を実際の値に近づけることができる。すなわち、ユーザが入力するテキストによって、設定時間長と、実際に合成される音声の時間長との差を少なくすることができる。例えば、ユーザが、テキスト入力時において、最終的に合成される音声の時間長に合わせるように入力テキストを調整することが可能になる。

［英語の場合の例］
英語の場合でも日本語と同様に、入力可能テキスト幅の予測に、統計的に求めた有音区間の割合を用いることができる。しかし、例えば、テキストにカンマやピリオドが多ければ、合成音声にポーズ（無音区間）が多くなるし、テキストが通常の文章である場合と箇条書きのリストである場合を比べると、後者の方が、ポーズが多いなど、テキストのスタイルによって有音区間の割合が統計値とは異なる場合がある。また、綴り字の文字数と発音の長さは完全に対応が取れているわけでない。例えば、"wait"と“weight"のように、同じ発音で時間長が同じであっても、文字数は４文字と６文字のように異なる場合などがある。すなわち、同じ音声時間長であってもテキストを構成する単語によって、合成テキストの幅は短くて済む場合もあれば長くなる場合もある。そこで、合成音声が英語の場合でも、ユーザがテキストを入力している間にも、すでに入力されているテキストについて実際の合成音声の時間長を随時計算し、入力可能テキスト幅を随時修正して表示することで、ユーザが、最終的に合成される音声の時間長に合わせるように入力テキストを調整することができる。

例えば、発話速度をｎ単語／分、音声全体に占める有音区間の割合をr、１単語あたりの平均文字数をｍ、１文字あたりの平均フォント幅をｗ、音声時間長設定値をＤ分とし、さらに、既入力テキストのテキスト幅をｋ、その合成時間をｔとすると、入力可能テキストの幅は下式（４）で算出することができる。
入力可能テキストの幅（予測値）＝ｋ + ( D − t ) × ｒ × ｎ × ｍ × w
・・・（４）
このように、合成音声およびテキストが英語やその他の言語である場合も、同様にして、音声合成部１０２で計算された既入力テキストの時間長を用いて、入力可能なテキストの量を計算することができる。

［英語の場合の画面遷移例］
図７Ａ〜図７Ｆは、合成音声および入力テキストが英語の場合に、ディスプレイに表示される画面の遷移例を示す図である。図７Ａでは、図６Ａと同様に、サムネイル画像Ｔ１および挿入区間を示す矩形Ｋ１で表示されている。矩形Ｋ１の横幅が設定時間長となる。

挿入区間が設定されると、挿入区間の設定時間長に応じて、入力可能なテキスト幅が計算され、その幅をもったテキストボックスＴＢ２が表示される（図７Ｂ参照）。

図７Ｃに示すように、ユーザが、例えば、矩形Ｋ１の横幅をマウス等で引き伸ばすことにより、挿入区間の設定時間長を変更すると、変更後の設定時間長について入力可能テキスト幅が再計算され、テキストボックスＴＢ２の幅も変化する。図７Ｄに示すように、ユーザが、テキストボックスにテキストを入力していくと、入力可能テキスト幅が随時再計算され、それに応じてテキストボックスＴＢ２の幅も変化する。

ユーザは、すべてのテキストの入力を終えて「ＳＥＴ」キーＢ１を押す（図７Ｅ参照）と、入力されたテキストの合成音声が作成され、映像データと同期して記録される。図７Ｆに示すように、画面上には音声波形Ｈ１が表示されてもよい。

（第３の実施形態）
図８は、第３の実施形態にかかる合成音声テキスト入力装置１ｂの構成例を示す機能ブロック図である。合成音声テキスト入力装置１ｂでは、音声合成部１０２は、言語処理部２０１、韻律生成部２０２および波形生成部２０３を含む。また、合成音声テキスト入力装置１ｂは、計算式変更部３０１をさらに備える。

音声合成部１０２は、前記入力部で入力された合成音声のテキストを合成音声に変換する。また、音声合成部１０２は、設定時間長の合成音声として、すでに前記入力部が受付けた部分のテキストの部分読み情報および当該テキストに対応する部分合成音声の時間長を生成する。

テキスト量計算部２０４は、予め決められた計算式に、設定時間長を代入することにより、設定時間長の合成音声として入力可能なテキストの量を算出する。計算式変更部３０１は、音声合成部１０２が生成した前記部分読み情報および前記部分合成音声の時間長の少なくともいずれかに基づいて、テキスト量計算部２０４が使う計算式を変更する。

上記構成において、入力可能なテキストの量を計算するのに用いる計算式を、すでに入力されているテキストを用いて調整することで、算出される入力可能なテキスト量の予測精度を高めることができる。

本実施形態では、テキスト量計算部２０４は、設定時間長に対応する合成音声として、入力可能なテキストの量を計算するために、設定時間長をテキストの量に変換するための計算式を用いる。この計算式には、例えば、１文字あたりのモーラ数や、音声全体に占める有音区間の割合など、設定時間長をテキストの量に変換するための値が含まれる。これらの値は、音声合成部１０２により計算される既入力テキストの読み情報や時間長などに基づいて、計算式変更部３０１により変更可能される。

読み情報は、例えば、入力されたテキストの読み方を表す文字列や記号列などで表される。音声合成部１０２または計算式変更部３０１は、この読み情報から、入力テキストの分量に対して、読み情報の文字列や記号列がどの程度の分量になるかを計算することができる。計算式変更部３０１は、このように読み情報から求められる、読み情報量と入力テキスト量との関係を示す値を、計算式の値に採用することができる。例えば、既入力テキストの読み情報から、テキストの１文字あたりの読み情報の文字列量（例えば、モーラ数）を示す値を求めることができ、この値を計算式の値として用いることができる。

既入力テキストの時間長からも、テキスト量と合成音声の時間との関係を示す値を求めることができる。計算式変更部３０１は、この値を計算式に採用することで、計算式を変更することができる。

一例として、言語処理部２０１は、既に入力されているテキストについての表音文字列を生成する。計算式変更部３０１は、表音文字列で示されるモーラ数を入力テキストの文字数で割ることによって、１文字あたりのモーラ数を求めるができる。また、韻律生成部２０２において、表音文字列から各モーラの時間長を求めると同時に、ポーズの時間長も求められるので、これを基に、計算式変更部３０１は、既入力テキストについての音声全体に占める有音区間の割合を求めることができる（Ｓ８０１）。

例えば、入力テキストが「本日の天気は、曇りのち雨です。」であれば、表音文字列は「ホ’ンジツノテ’ンキワ，クモリ’ノチア’メデス．」となり、入力テキスト１５文字に対して表音文字列は１８モーラになるので、１文字あたりのモーラ数は、１８／１５＝１．２モーラと計算することができる。なお、１文字あたりのモーラ数の計算は、言語処理部２０１が実行してもよいし、計算式変更部３０１が実行してもよい。

また、韻律生成部において、このテキストのうち「本日の天気は」「曇りのち雨です」の有音区間の合成時間長が２．１秒、句読点に相当する無音区間が１．５秒と算出されたとすると、有音区間の割合は、２．１／（２．１＋１．５）≒０．５８と計算することができる。なお、有音区間の割合の計算は、韻律生成部２０２が実行してもよいし、計算式変更部３０１が実行してもよい。

計算式変更部３０１は、このようにして、読み情報から求められた１文字あたりのモーラ数や、有音区間の割合を計算式に代入することによって、計算式を修正することができる。具体例として、発話速度をｎモーラ／秒、設定時間長をD秒、既入力テキストの文字数をｋ、その合成時間長をｔとし、上述のように、既入力テキストから求められた1文字あたりのモーラ数をｍ’、有音区間の割合をｒ’とすると、入力可能文字数の予測値は、例えば、下式（５）のように修正される。
入力可能文字数(予測値）＝ｋ＋（ D − ｔ）× ｒ’× ｎ／ｍ’・・・ (5)

既入力テキスト以降も同様なスタイルで合成テキストが入力される可能性が高いので、既入力テキストから求められた１文字あたりモーラ数や有音区間の割合は、あらかじめ統計的に求められたものよりも信頼性が高く、入力可能文字数の予測精度を高めることができる。

［動作例］
図９は、第３の実施形態にかかる合成音声テキスト入力装置１ｂの動作例を示すフローチャートである。図９に示す例において、Ｓ７０１〜Ｓ７０４の処理は図５に示すＳ７０１〜Ｓ７０４の処理と同様にすることができる。

Ｓ８０１において、計算式変更部３０１は、例えば、入力部１０１において、入力テキストボックスに入力された既入力テキストについて、１文字あたりモーラ数ｍ’と有音区間の割合ｒ’を算出する。１文字あたりのモーラ数ｍ’は、言語処理部２０１が求めた既入力テキストの表音文字列を用いて計算される。有音区間の割合ｒ’は、韻律生成部２０２が求めた既入力テキストの時間長およびポーズの時間長を用いて計算される。計算式変更部３０１は、入力可能文字数の計算式を、１文字あたりのモーラ数ｍ’および有音区間の割合ｒ’を含むものに修正する。例えば、計算式変更部３０１は、合成音声テキスト入力装置１ｂの記録部に記録された計算式の項を示すデータを更新することにより、計算式を修正することができる。Ｓ７０５〜Ｓ７１１の処理は図５に示すＳ７０５〜Ｓ７１１の処理と同様にすることができる。

以上のように、計算式変更部３０１は、計算式に含まれる、時間を文字数に変換するためのパラメータを変更することで、テキスト量計算部２０４で入力可能テキスト量の精度を高めることができる。なお、計算式変更部３０１が更新する値は、上記例に限られない。例えば、英語の場合は、１文字あたりのモーラ数ｍ’の代わりに、１単語あたりの平均文字数を用いることができる。

［英語の場合の例］
例えば、入力テキストが"Rain showers in the evening becoming more intermittent overnight."であるとき、言語処理部２０１で計算される１単語あたりの平均文字数は６．２文字／単語となる。また、韻律生成部２０２は、この入力テキストの音声を実際に合成させてみると、全体時間長に占める音声区間の割合が例えば０．８５と算出する。これは、予め記録された１単語あたりの平均文字数８文字／単語や、音声区間の割合０．７と異なることになる。計算式変更部３０１は、このように、予め記録された値を、言語処理部２０１および韻律生成部２０２で計算される値に置き換えることで、計算式を修正することができる。

例えば、発話速度をｎ単語／分、１文字あたりの平均フォント幅をｗとするとき、設定時間長をＤ分とし、さらに上述のように、入力テキストから求められた、音声全体に占める有音区間の割合をｒ’、１単語あたりの平均文字数をｍ’とすると、入力可能テキストの幅の計算式は、例えば、下式（６）のように修正される。
入力可能テキストの幅（予測値）＝ D × ｒ’× ｎ×ｍ’× w ・・・ (6)
（第４の実施形態）
図１０は、第４の実施形態にかかる合成音声テキスト入力装置１ｃの構成例を示す機能ブロック図である。合成音声テキスト入力装置１ｃにおいて、テキスト量計算部４０２は、設定時間長の合成音声として入力可能なテキストの量の上限および下限を算出する。テキスト量出力部４０１は、テキスト量計算部４０２が算出した上限および下限で表される、入力可能なテキストの量の範囲を出力する。このように、入力可能なテキストの量の範囲を出力することで、ユーザが入力できるテキスト量の幅を広げることができる。

例えば、聞く人に違和感のない範囲であれば、合成音声の発話速度や有音区間の割合は変更しても差し支えはない。具体的には、合成音声では、発声速度をわずかに速くまたは遅くしたり、ポーズの回数を増減したり、ポーズの時間長を若干伸縮させたりして、全体の合成時間長をある程度調整することが可能である。そこで、テキスト量計算部４０２は、入力可能文字数を１つの値ではなく、文字数の上限値から下限値までの範囲で算出する。

［動作例］
図１１は、合成音声テキスト入力装置１ｃの動作例を示すフローチャートである。図１１のＳ６０１、Ｓ６０２の処理は、図２のＳ６０１、Ｓ６０２の処理と同様に実行することができる。Ｓ９０１において、テキスト量計算部４０２は、入力可能文字列の上限および下限を計算する。

例えば、発話速度はｎモーラ／秒のように合成音声テキスト入力装置１ｃに予め記録することができる。音声全体に占める有音区間の割合をr、テキスト１文字あたりの平均モーラ数をｍとする。合成音声を聴取したときに違和感のない範囲で発声速度を変更できる比率をＲnとし、ポーズの回数の増減やポーズの時間長を伸縮させることによって有音区間の割合を変更できる比率をRｒとすると、設定時間長がＤであるとき、入力可能文字数の下限および上限は、例えば、下記式（７）、（８）で算出できる。
入力可能文字数上限（予測値）＝D×ｒ×（1+ Rr）×ｎ×（1+Rn）／ｍ・・・（７）
入力可能文字数下限（予測値）＝D×ｒ／（1+ Rr）×ｎ／（1+Rn）／ｍ・・・（８）
例えば、有音区間の割合を変更できる比率Rrを１０％、発声速度を変更できる比率Rnを５％とすると、入力可能文字列の上限および下限は、以下のように計算される。
入力可能文字数上限（予測値）＝D×ｒ×1.1×ｎ×1.05／ｍ
入力可能文字数下限（予測値）＝D×ｒ／1.1×ｎ／1.05／ｍ
テキスト量計算部４０２は、上記式（７）（８）を用いて、入力可能文字列の上限および下限を計算すると、テキスト量出力部４０１は、上限および下限で表される入力可能文字数範囲をユーザに提示する（Ｓ９０２）。以降のＳ６０５〜Ｓ６０７の処理は、図２のＳ６０５〜Ｓ６０７の処理と同様に実行することができる。

［表示画面例］
図１２は、テキスト量出力部４０１により出力される、入力可能文字数範囲を示す画面の例である。図１２に示す例では、１文字目から入力可能文字数の下限値までは入力が必須であるので、標準入力可能文字数区間ＴＢ３−１として白いマス目で表示されている。下限値から上限値までの間は入力が任意であるから、調整可能文字区間ＴＢ３−２として薄いグレーで表示される。なお、後述するように、入力テキストが入力可能文字数の上限を超えていても、発声速度を速くしたり、ポーズを少なくしたり、あるいは映像データを伸長するなどの方法で、音声と映像を同期させることも可能であるから、ユーザが文字入力をすることが可能なように余分なマス目を表示しても良い。この場合、余分なマス目は、例えば、図１２に示すように、調整困難文字区間ＴＢ３−３として濃いグレーで表示することで、ユーザが識別可能な状態で表示することができる。

このように、テキスト量出力部４０１は、入力可能文字数に応じたテキストボックスを表示するのが、ユーザにとって直感的にわかりやすいので好ましい。なお、表示画面は上記例に限られない。

［英語の場合の例］
合成音声および入力テキストが英語の場合、テキスト量計算部４０２は、例えば、下記のように、入力可能なテキスト量の範囲を計算することができる。発話速度は、ｎ単語／分のように合成音声テキスト入力装置１ｃに予め記録することができる。音声全体に占める有音区間の割合をr、１単語あたりの平均文字数をｍ、１文字あたりの平均フォント幅をwとする。合成音声を聴取したときに違和感のない範囲で発声速度を変更できる比率をＲnとし、ポーズの回数や時間長を伸縮させることによって有音区間の割合を変更できる比率をRｒとする。設定時間長がＤであるとき、入力可能テキスト幅の下限および上限は、例えば、下記式（９）、（１０）で算出できる。
入力可能テキスト幅上限（予測値）＝D×ｒ×（1+Rr）×ｎ×（1+Rn）×ｍ×w ・・・（９）
入力可能テキスト幅下限（予測値）＝D×ｒ／（1+Rr）×ｎ／（1+Rn）×ｍ×w ・・・（１０）
例えば、有音区間の割合を変更できる比率Rrを１０％、発声速度を変更できる比率Rnを５％とすると、以下のようになる。
入力可能テキスト幅上限（予測値）＝D×ｒ×1.1×ｎ×1.05×ｍ×w
入力可能テキスト幅下限（予測値）＝D×ｒ／1.1×ｎ／1.05×ｍ×w

図１３は、英語の場合の入力可能テキスト幅の範囲を示す画面の例である。図１３に示す例では、１文字目から入力可能文字数の下限値までは標準入力可能文字数区間ＴＢ３−１として背景が白く、マス目数のないテキストボックスで表示されている。下限値から上限値までの間は入力が任意である調整可能文字区間ＴＢ３−２として薄いグレーで表示される。さらに、入力テキストが入力可能文字数の上限を超えた好ましくない範囲は、調整困難文字区間ＴＢ３−３として濃いグレーで表示することができる。このように、合成音声および入力テキストが英語の場合は、マス目数のないテキストボックスを表示し、テキストボックス内を、標準入力可能文字数区間、調整可能文字区間および調整困難文字区間で色分けするなど区別可能な態様で表示することができる。

以上、説明した本実施形態は、上記第１〜３の実施形態と組み合わせて実施することも可能である。

（第５の実施形態）
図１４は、第５の実施形態にかかる合成音声テキスト入力装置１ｄの構成例を示す機能ブロック図である。合成音声テキスト入力装置１ｄでは、音声合成部１０２は、言語処理部２０１、韻律生成部２０２、韻律修正部５０１および波形生成部２０３を含む。言語処理部２０１は、入力部１０１で入力された合成音声のテキストを解析して、当該テキストの読み情報を含む中間表記を生成する。韻律生成部２０２は、言語処理部２０１で生成された中間表記から、テキストに対応する合成音声の時間長と、テキストに相当する合成音声の高さの変化パターンであるピッチパターンを生成する。波形生成部２０３は、韻律生成部２０２が生成したテキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンから合成音声を合成する。

韻律修正部５０１は、韻律生成部２０２により生成された合成音声の時間長が設定時間長に近づくように、合成音声の時間長を伸長または短縮するか、あるいは、合成音声の中に含まれるポーズの時間長を伸長または短縮する。この構成では、韻律修正部５０１によって、合成される合成音声の時間長が、設定時間長に近づくように調整される。そのため、例えば、ユーザが、入力可能文字数より少ない、あるいは、多い文字数のテキストを入力した場合でも、合成音声の時間長が設定時間長に合うように調整することができる。

［動作例］
図１５は、合成音声テキスト入力装置１ｄの動作例を示すフローチャートである。図１５のＳ６０１〜Ｓ６０５の処理は、図２のＳ６０１〜Ｓ６０５の処理と同様に実行することができる。テキスト量出力部１０４が出力した入力可能文字数に応じて、ユーザが入力したテキストが確定すると（Ｓ６０５でＹＥＳ）、ユーザが入力したテキストについて、言語処理部２０１が表音文字列を作成し、韻律生成部２０２が合成時間長を生成する（Ｓ１１０１）。

韻律生成部２０２は、例えば、表音文字列に対応する音素および音素の時間長を、予め記録された辞書や規則に基づいて決定する。このように、韻律生成部２０２は、入力テキストを構成する音声単位（例えば、音素）を決定し、音声単位ごとに時間長を決定することができる。この場合、音声単位の時間長の合計を、入力テキストの合成時間長とすることができる。

韻律修正部５０１は、設定時間長と実際に合成される音声の時間長の差が閾値より大きいと判断した場合（Ｓ１１０２でＹＥＳ）、合成時間長が音声時間長設定値に近づくように、生成された各モーラの時間長または各モーラを構成する各音素の時間長を伸縮する（Ｓ１１０３）。例えば、韻律修正部５０１は、各モーラまたは各音素の時間長に同じ係数をかけることによって等倍に伸縮することもできるし、あらかじめ音素の種類ごとに伸縮可能な係数の範囲を設定しておき、その範囲内で伸縮することもできる。過剰に伸縮すると合成音声が不自然になるので、伸縮係数には上限と下限を設けておき、それを超えない範囲で時間長を伸縮することが好ましい。

各モーラまたは各音素の時間長を限度まで伸長してもなお、音声時間長設定値と実際に合成される音声の時間長の差が閾値より大きい場合（Ｓ１１０４でＹＥＳ）、韻律修正部５０１は、ポーズの位置を加減する、または、ポーズの時間長を伸縮することで、音声時間長設定値に近づけることができる（Ｓ１１０５）。ポーズの位置の加減は、例えば、言語処理部２０１が生成した表音文字列において、ポーズがなかったフレーズや、句の境界に新たにポーズを追加する処理、あるいは、表音文字列におけるポーズを削除する処理により行なわれる。ポーズの時間長の伸縮は、例えば、韻律生成部２０２によって設定されたポーズの時間長を伸長または圧縮する処理であってもよい。

Ｓ１１０１〜Ｓ１１０５の処理により合成時間長が調整され、さらにそれに合わせてピッチパターンが修正されると、波形生成部２０３は合成音声を生成し（Ｓ６０６）、音声出力部１０３が合成音声を出力する（Ｓ６０７）。

［画面遷移例］
図１６Ａ〜図１６Ｆは、第５の実施形態においてディスプレイに表示される画面の遷移例を示す図である。図１６Ａおよび図１６Ｂは、図３Ａおよび図３Ｂと同様である。図１６Ｃに示す画面は、ユーザが、入力可能文字数よりも少ない文字数を入力した段階で、確定キーを押したときの画面例である。図１６Ｄでは、横幅が設定時間長、すなわち合成音声の挿入区間の長さを表す矩形Ｋ１と、実際に合成された音声波形Ｈ１とを並べて表示している。これにより、ユーザは、挿入区間の長さにくらべて実際に合成された音声が短いことを知ることができる。この場合、画面には、合成音声を設定時間長（挿入区間の長さ）に合わせるように伸長するか否かのダイアログウィンドウＷ１が表示される。このダイアログウィンドウＷ１により、韻律修正部５０１による合成音声の時間長調整の可否がユーザに対して質問される。

ユーザが「はい」を選択すると、韻律修正部５０１は、合成音声が設定時間長と同じ長さになるように、各モーラまたは各音素の時間長を伸長するように再計算を行う。各モーラまたは各音素の時間長が伸長されると、伸長後の時間長にあうようにピッチパターンも修正され、波形生成部２０３が合成音声を再生成する。再合成された音声波形が表示される（図１６Ｅ参照）。図１６Ｅに示す例では、合成音声が設定時間長と同じになるように各音声単位（ここでは、一例として各音素）の時間長が伸長された合成音声の音声波形Ｈ２が表示されている。

なお、韻律修正部５０１は、ダイアログウィンドウＷ１でユーザが「はい」を選択した場合に、ポーズの時間長を伸ばすことによって、合成音声が設定した設定時間長と同じ長さになるように調整することも可能である。図１６Ｆは、合成音声が設定時間長と同じになるように、ポーズの時間長が伸長された合成音声の音声波形Ｈ３が表示された場合の例を示す図である。

本例では、ユーザの入力したテキストが少なかった場合を示したが、ユーザが入力したテキストが入力可能文字数よりも多い場合には、各モーラまたは各音素の時間長を短縮する処理、あるいはポーズの時間長を短縮する処理の少なくともいずれかを実行することによって、合成音声が設定時間長と同じ長さになるように調整することができる。なお、韻律修正部５０１は、合成音声の長さと設定時間長とが厳密に同じ長さ同じになるまで調整する必要は必ずしもない。

（第６の実施形態）
図１７は、第６の実施形態にかかる合成音声テキスト入力装置１ｅの構成例を示す機能ブロック図である。合成音声テキスト入力装置１ｅは、入力部１０１で受付けたテキストの合成音声と同期させる区間を含む映像データを入力する映像データ入力部６０１と、音声合成部１０２で生成される合成音声の時間長が設定時間長に近づくように、映像データを編集する映像音声同期部６０２とを備える。この構成により、映像データを合成音声の時間長にあわせるように調整することができる。

例えば、映像編集装置（映像編集システム）で用いる合成音声のテキスト入力に、合成音声テキスト入力装置１ｅを用いる場合、ユーザが、設定時間長に応じた入力可能文字数または文字数範囲に対して、少ない、あるいは多い文字数のテキストを入力したとき、映像音声同期部６０２により、映像データの方を合成音声に同期させるように伸縮することが可能になる。

本実施形態において、入力部１０１は、映像データの少なくとも一部の区間の指定をユーザから受付け、指定された区間に相当する時間を設定時間長とすることができる。この場合、ユーザは、例えば、映像データ中で音声を挿入する挿入区間を指定することができる。音声合成部１０２は、映像データ中で挿入区間の位置を示す情報を用いて、合成した音声と、映像データとを同期して記録する。また、映像音声同期部６０２は、映像データ中で挿入区間の位置を示す情報により、映像データ中で編集する位置を特定することができる。

映像音声同期部６０２は、例えば、映像データの挿入区間の時間長を縮めるかまたは延ばす処理を実行することにより、挿入区間の時間長を合成音声の時間長に合わせる。例えば、映像データの挿入区間におけるフレームの一部を間引くことで、挿入区間の時間長を縮めることができ、挿入区間にフレームを挿入することで、挿入区間を延ばすことができる。

［動作例］
図１８は、合成音声テキスト入力装置１ｅの動作例を示すフローチャートである。図１８のＳ６０１〜Ｓ６０５の処理は、図２のＳ６０１〜Ｓ６０５の処理と同様に実行することができる。図１８のＳ１１０１の処理は、図１５のＳ１１０１の処理と同様に実行することができる。すなわち、ユーザが入力したテキストが確定すると（Ｓ６０５でＹＥＳ）、ユーザが入力したテキストについて、言語処理部２０１が表音文字列を作成し、韻律生成部２０２が合成音声の時間長を生成する（Ｓ１１０１）。

映像音声同期部６０２は、映像データへ音声を挿入する挿入区間の長さ（すなわち、設定時間長）と、合成音声の合成音声の時間長との差が閾値より大きいと判断した場合（Ｓ１２０１でＹＥＳ）、映像データの挿入区間の時間長を伸縮して合成時間長とあわせる（Ｓ１２０２）。映像データの伸縮には、例えば、映像の繰り返しや間引きなどの方法があるが。必ずしもそれに限定するものではない。波形生成部２０３は、合成音声を生成し、映像データと同期させて記録する。同期後の合成音声を、音声出力部１０３が出力するとともに（Ｓ６０７）、同期後の映像データを映像データ出力部６０３が出力する（Ｓ１２０３）。

［画面遷移例］
図１９Ａ〜図１９Ｅは、第６の実施形態においてディスプレイに表示される画面の遷移例を示す図である。図１９Ａ〜図１９Ｃは、図１６Ａ〜図１６Ｃと同様である。すなわち、本例は、図１９Ｃに示すように、ユーザは、入力可能文字数よりも少ない文字数を入力した段階で、確定キーを押したときの例である。

図１９Ｄでは、横幅が設定時間長、すなわち合成音声の挿入区間の長さを表す矩形Ｋ１と、実際に合成された音声波形Ｈ１とが並べて表示されている。これにより、ユーザは、挿入区間の長さにくらべて実際に合成された音声が短いことが知ることができる。この場合、画面には、映像データにおける音声の挿入区間を、合成音声に合わせるように編集するか否かのダイアログウィンドウＷ１が表示される。

ユーザが「はい」を選択すると、映像音声同期部６０２は、映像データを適宜間引くなどの方法によって短縮し、挿入区間の時間長を音声の長さに合わせる。図１９Ｅは、短縮された映像のサムネイルＴ１ａが表示された画面の例である。なお、本例では、ユーザの入力したテキストが、設定時間長に対して少ない場合を示したが、ユーザが入力したテキストが入力可能文字数よりも多い場合には、映像音声同期部６０２は、例えば、映像データを適宜繰り返すなどの方法によって映像データの挿入区間を伸長し、音声の長さに合わせることができる。

（第７の実施形態）
図２０は、上記第１の実施形態における合成音声テキスト入力装置１を含むスライド編集システム１０の構成例を示す機能ブロック図である。図２０に示す例では、スライド編集システム１０は、合成音声テキスト入力装置１に加えて、スライド素材入力部８０１、スライド音声関連付け部８０２およびスライド再生部８０３をさらに備える。スライド素材入力部８０１は、例えば、ユーザからの指示に従い、記録装置に記録されたスライド素材データを読み込むことで、スライド編集システム１０でスライド素材データを編集可能な状態にする。音声関連付け部８０２は、スライド素材データと、音声合成部１０２が合成した合成音声とを関連付けて記録する。スライド再生部８０３は、合成音声の再生と同期して、スライドを再生する。

［画面例］
図２１は、スライド編集システム１０において、表示される画面の例を示す図である。図２１に示す例では、画面の左欄Ｓ１に、全スライドが、縦に順番に表示されている。図２１では、上から３番目のスライドが選択されており、選択されたスライドが画面中央の編集領域Ｅ１に大きく表示され、編集可能な状態になっている。入力部１０１は、ＧＵＩを介して、編集領域Ｅ１の下に、設定時間長を入力するための入力フォームＦ１を表示装置に表示させている。さらに、入力部１０１は、スライドの下に、スライドと関連付ける合成音声のテキストを入力するためのテキストボックスＴＢ４も表示装置に表示させる。

ユーザは、編集領域Ｅ１のスライドを説明するための音声を合成音声で作成する場合、この入力フォームＦ１に再生時間、すなわち設定時間長を入力する。設定時間長が入力されると、テキスト量計算部１０５は、設定時間長に応じた入力可能文字数を計算する。テキスト量出力部１０４は、計算された入力可能文字数に応じたマス目を持ったテキストボックスＴＢ４をＧＵＩを介して表示装置へ表示させる。ユーザは、このテキストボックスＴＢ４にテキストを入力し、確定キーＢ１を押すことによってテキストを確定させる。テキストが確定すると、音声合成部１０２は、合成音声を生成し、音声関連付け部８０２は、編集領域Ｅ１のスライドのデータと関連付けて、合成音声を記録する。これにより、スライドに合成音声が添付される。その結果、スライド再生時に同期して合成音声を再生することが可能になる。

本実施形態のスライド編集システムによれば、ユーザは、スライドの再生時間を指定すると、この再生時間に再生することのできる発話のテキスト量を知ることができる。そのため、スライドの再生時間に合わせた合成音声のテキストを、効率よく入力することが可能になる。なお、第２〜６の実施形態にかかる合成音声テキスト入力装置も、同様に、スライド編集システムに組み込むことができる。

［ハードウェア構成の例］
図２２は、上記第１〜６の実施形態における合成音声テキスト入力装置１ａ〜１ｅを含む映像編集装置が実装されるコンピュータの構成例を示す図である。装置の処理を制御するＣＰＵ１３０１、一時的にデータを格納するＲＡＭ１３０２、映像や編集のためのＧＵＩを表示するＣＲＴやＬＣＤなどの表示装置１３０３、合成音声を出力するスピーカ、ヘッドホンなどの音響装置１３０４、ユーザが映像編集装置への操作を入力するためのキーボード、マウス、ポインティングデバイスなどの入力装置１３０５および記憶部１３０６を備える。

記憶部１３０６には、ハードディスク等の記録装置であり、例えば、合成音声テキスト入力装置１ａ〜１ｅの各機能を実現するためのプログラムおよびデータが記録される。このようなプログラムとして、例えば、動画表示プログラム、テキスト量計算プログラム、言語解析プログラム、韻律生成プログラム、波形生成プログラム、音声−動画同期プログラム等が記録される。

テキスト量計算プログラムは、上述した入力部、テキスト量計算部およびテキスト量出力部の処理をコンピュータに実行させるためのプログラムの一例である。言語解析プログラム、韻律生成プログラムおよび波形生成プログラムは、コンピュータを音声合成部として機能させるためのプログラムの一例である。ＣＰＵ１３０１は、各プログラムを読み込み、各プログラムに従って処理を実行することにより、コンピュータが合成音声テキスト入力装置として機能する。このようなプログラムおよびプログラムを記録した記録媒体も本発明の実施形態に含まれる。なお、スライド編集システムを構築する場合は、例えば、スライド表示プログラムや、上記音声関連付け部８０２等の機能を実現するための音声貼り付けプログラムなどが記録部に記録されてもよい。また、記憶部１３０６は、編集前の映像素材データや音声素材データ、さらに編集後の映像コンテンツ作品データ、あるいはスライド素材データ等を格納する目的にも使用される。

上記第１〜６の実施形態では、合成音声テキスト入力装置が映像編集またはスライド編集における合成音声テキストの入力に用いられる場合を説明したが、合成音声テキスト入力装置の用途は、上記例に限られない。その他の合成音声や読み上げ音声用のテキストの入力に用いられてもよい。

なお、上記第１〜第６の実施形態における合成音声テキスト入力装置は、音声合成装置、映像編集装置またはスライド編集装置の一部に用いることができる。したがって、上記実施形態の合成音声テキスト入力装置の機能を含む音声合成装置、映像編集装置およびスライド編集装置も本発明の実施形態に含まれる。

１、１ａ〜１ｅ合成音声テキスト入力装置
１０スライド編集システム
１０１入力部
１０２音声合成部
１０３音声出力部
１０４、４０１テキスト量出力部
１０５、２０４、４０２テキスト量計算部
３０１計算式変更部
５０１韻律修正部
６０１映像データ入力部
６０２映像音声同期部
６０３映像データ出力部
８０１スライド素材入力部
８０２音声関連付け部
８０３スライド再生部

Claims

合成する音声をおさめる時間である設定時間長と、合成音声のテキストとの入力を受付ける入力部と、
前記入力部で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算部と、
前記入力部が前記合成音声のテキストを受付ける際に、前記テキスト量計算部で算出された前記テキストの量を出力するテキスト量出力部と、
前記入力部で入力された前記合成音声のテキストを合成音声に変換する音声合成部を備え、
前記音声合成部は、前記設定時間長の合成音声として、すでに前記入力部が受付けた部分のテキストに対応する部分合成音声の時間長を計算し、
前記テキスト量計算部は、前記音声合成部が計算した前記部分合成音声の時間長を用いて、前記設定時間長の合成音声として入力可能なテキストの量を修正する、合成音声テキスト入力装置。
合成する音声をおさめる時間である設定時間長と、合成音声のテキストとの入力を受付ける入力部と、
前記入力部で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算部と、
前記入力部が前記合成音声のテキストを受付ける際に、前記テキスト量計算部で算出された前記テキストの量を出力するテキスト量出力部と、
前記入力部で入力された合成音声のテキストを合成音声に変換する音声合成部を備え、
前記音声合成部は、前記入力部で入力された合成音声のテキストを解析して、当該テキストの読み情報を含む中間表記を生成する言語処理部と、
前記言語処理部で生成された前記中間表記から、前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンを生成する韻律生成部と、
前記韻律生成部が生成した前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンから合成音声を生成する波形生成部とを含み、
前記テキスト量計算部は、前記音声合成部の韻律生成部が計算した前記合成音声の時間長をさらに用いて、前記設定時間長の合成音声として入力可能なテキストの量を算出する、合成音声テキスト入力装置。
合成する音声をおさめる時間である設定時間長と、合成音声のテキストとの入力を受付ける入力部と、
前記入力部で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算部と、
前記入力部が前記合成音声のテキストを受付ける際に、前記テキスト量計算部で算出された前記テキストの量を出力するテキスト量出力部と、
前記入力部で入力された合成音声のテキストを合成音声に変換する音声合成部と、
計算式変更部とを備え、
前記音声合成部は、前記設定時間長の合成音声として、すでに前記入力部が受付けた部分のテキストの部分読み情報および当該テキストに対応する部分合成音声の時間長を生成し、
前記テキスト量計算部は、設定時間をテキストの量に変換するための値を含む計算式に、前記設定時間長を代入することにより、前記設定時間長の合成音声として入力可能なテキストの量を算出し、
前記計算式変更部は、前記音声合成部が生成した前記部分読み情報および前記部分合成音声の時間長の少なくともいずれかに基づいて、前記計算式の前記値を変更する、合成音声テキスト入力装置。
前記音声合成部は、前記入力部で入力された合成音声のテキストを解析して、当該テキストの読み情報を含む中間表記を生成する言語処理部と、
前記言語処理部で生成された前記中間表記から、前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンを生成する韻律生成部と、
前記韻律生成部が生成した前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンから合成音声を生成する波形生成部とを含み、
前記韻律生成部により生成された前記合成音声の時間長が前記設定時間長に近づくように、前記合成音声の時間長を伸長または短縮するか、あるいは、合成音声の中に含まれるポーズの時間長を伸長または短縮する韻律修正部をさらに備える、請求項１〜３のいずれか１項に記載の合成音声テキスト入力装置。
前記入力部は、前記合成音声の発話速度の入力をさらに受付け、
前記テキスト量計算部は、前記入力部で受付けられた発話速度をさらに用いて、前記設定時間長の合成音声として入力可能なテキストの量を算出する、請求項１〜４のいずれか１項に記載の合成音声テキスト入力装置。
前記テキスト量計算部は、前記設定時間長の合成音声として入力可能なテキストの量の上限および下限を算出し、
前記テキスト量出力部は、前記テキスト量計算部が算出した上限および下限で表される、入力可能なテキストの量の範囲を出力する、請求項１〜５のいずれか１項に記載の、合成音声テキスト入力装置。
前記入力部は、映像データの少なくとも一部の区間の指定をユーザから受付け、指定された区間に相当する時間を前記設定時間長とする、請求項１〜６のいずれか１項に記載の合成音声テキスト入力装置。
前記入力部で入力された合成音声のテキストを合成音声に変換する音声合成部と、
前記入力部で受付けたテキストの合成音声と同期させる区間を含む映像データを入力する映像データ入力部と、
前記音声合成部で変換される合成音声の時間長が前記設定時間長に近づくように、映像データを編集する映像音声同期部とを備える、請求項１〜７のいずれか１項に記載の合成音声テキスト入力装置。
合成音声合成する音声をおさめる時間である設定時間長と、合成音声のテキストとの入力を受付ける入力処理と、
前記入力処理で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算処理と、
前記入力処理で前記合成音声のテキストを受付ける際に、前記テキスト量計算処理で算出された前記テキストの量を出力するテキスト量出力処理と、
前記入力処理で入力された前記合成音声のテキストを合成音声に変換する音声合成処理とをコンピュータに実行させ、
前記音声合成処理は、前記設定時間長の合成音声として、すでに前記入力処理で受付けた部分のテキストに対応する部分合成音声の時間長を計算し、
前記テキスト量計算処理は、前記音声合成処理で計算した前記部分合成音声の時間長を用いて、前記設定時間長の合成音声として入力可能なテキストの量を修正する、合成音声テキスト入力プログラム。
合成音声合成する音声をおさめる時間である設定時間長と、合成音声のテキストとの入力を受付ける入力処理と、
前記入力処理で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算処理と、
前記入力処理で前記合成音声のテキストを受付ける際に、前記テキスト量計算処理で算出された前記テキストの量を出力するテキスト量出力処理と、
前記入力処理で入力された合成音声のテキストを合成音声に変換する音声合成処理とをコンピュータに実行させ、
前記音声合成処理は、前記入力処理で入力された合成音声のテキストを解析して、当該テキストの読み情報を含む中間表記を生成する言語処理と、
前記言語処理で生成された前記中間表記から、前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンを生成する韻律生成処理と、
前記韻律生成処理で生成された前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンから合成音声を生成する波形生成処理とを含み、
前記テキスト量計算処理は、前記韻律生成処理で計算された前記合成音声の時間長をさらに用いて、前記設定時間長の合成音声として入力可能なテキストの量を算出する、合成音声テキスト入力プログラム。
合成音声合成する音声をおさめる時間である設定時間長と、合成音声のテキストとの入力を受付ける入力処理と、
前記入力処理で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算処理と、
前記入力処理で前記合成音声のテキストを受付ける際に、前記テキスト量計算処理で算出された前記テキストの量を出力するテキスト量出力処理と、
前記入力処理で入力された合成音声のテキストを合成音声に変換する音声合成処理と、
計算式変更処理とをコンピュータに実行させ、
前記音声合成処理は、前記設定時間長の合成音声として、すでに前記入力処理で受付けた部分のテキストの部分読み情報および当該テキストに対応する部分合成音声の時間長を生成し、
前記テキスト量計算処理は、設定時間をテキストの量に変換するための値を含む計算式に、前記設定時間長を代入することにより、前記設定時間長の合成音声として入力可能なテキストの量を算出し、
前記計算式変更処理は、前記音声合成処理で生成された前記部分読み情報および前記部分合成音声の時間長の少なくともいずれかに基づいて、前記計算式の前記値を変更する、合成音声テキスト入力プログラム。
前記音声合成処理は、前記入力処理で入力された合成音声のテキストを解析して、当該テキストの読み情報を含む中間表記を生成する言語処理と、
前記言語処理で生成された前記中間表記から、前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンを生成する韻律生成処理と、
前記韻律生成処理で生成された前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンから合成音声を生成する波形生成処理とを含み、
前記韻律生成処理により生成された前記合成音声の時間長が前記設定時間長に近づくように、前記合成音声の時間長を伸長または短縮するか、あるいは、合成音声の中に含まれるポーズの時間長を伸長または短縮する韻律修正処理をさらにコンピュータに実行させる、請求項９〜１１のいずれか1項に記載の合成音声テキスト入力プログラム。