JP5482042B2 - 合成音声テキスト入力装置及びプログラム - Google Patents

合成音声テキスト入力装置及びプログラム Download PDF

Info

Publication number
JP5482042B2
JP5482042B2 JP2009209409A JP2009209409A JP5482042B2 JP 5482042 B2 JP5482042 B2 JP 5482042B2 JP 2009209409 A JP2009209409 A JP 2009209409A JP 2009209409 A JP2009209409 A JP 2009209409A JP 5482042 B2 JP5482042 B2 JP 5482042B2
Authority
JP
Japan
Prior art keywords
text
input
synthesized speech
time length
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009209409A
Other languages
English (en)
Other versions
JP2011059412A (ja
Inventor
伸之 片江
健太郎 村瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009209409A priority Critical patent/JP5482042B2/ja
Priority to US12/879,299 priority patent/US8504368B2/en
Publication of JP2011059412A publication Critical patent/JP2011059412A/ja
Application granted granted Critical
Publication of JP5482042B2 publication Critical patent/JP5482042B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Description

本発明は、合成音声の基となるテキストをユーザが入力するための合成音声テキスト入力装置及びプログラムに関する。
テレビ番組などの映像コンテンツにおいて、ナレーションの音声、およびアニメーションや吹き替えでの台詞の音声などに、ナレーターや声優の録音音声に代わって音声合成が使われ始めている。
映像コンテンツの制作では、撮影または録音した映像素材や音声素材を編集してひとつの作品としてまとめるポストプロダクションと呼ばれる映像編集作業が行われる。現在、ポストプロダクションは、コンピュータを使用したノンリニア編集が一般的である。この編集は、ハードディスク等の記憶装置上に置かれた映像素材や音声素材を、映像編集用のハードウェアやソフトウェア(以降、映像編集システム)を用いて、非線形(ノンリニア)に追加・削除・修正・並べ替えすることにより行なわれる。これにより、効率的に映像コンテンツを作成することができる。このような映像編集システムを用いた編集では、制作者は、映像と音声を同期させながら所望の時刻位置に配置する必要がある。音声素材として合成音声を用いる場合に、映像と音声を同期させる方法、装置、プログラムについては、これまでにもいくつかの公知例がある(例えば、特許文献1〜3参照)。
特許文献1では、所定の表示時間の映像信号に合成音声を容易に同期させることが可能な音声合成制御装置が開示されている。この音声合成制御装置は、読み上げ用のテキストにおける発話開始位置および発話開始時刻を発話開始タイミングとして取得して音声合成装置に出力することにより、音声合成の開始を制御する。
特許文献2では、合成音声とコンピュータグラフィックスのような映像を互いに同期させる同期制御装置が開示されている。これは、テキスト情報及び映像の基本動作を指定する動作指定情報を含む入力データに基づき合成音声の韻律を制御する韻律データを生成し、入力データおよび韻律データに基づいて、動作指定情報およびこれにより指定される動作に関連付ける時刻情報を含む映像制御データを生成するものである。
特許文献3は、映像コンテンツ用の録音音声による音声素材を用意する際に、合成音声を間接的に使用する例である。特許文献3に開示の方法においては、音声を入力したい映像区間に対し、録音したい音声のテキスト情報を付加して、合成音声を作成する。合成音声の長さ、高さ、イントネーション、声色、発声のタイミング等を加工したのち、発声者に対して加工合成音声を再生し、音声の発声タイミングを表示する。発声者が発声した音声と加工合成音声の一致具合を比較して、録音音声の採用を決定し、採用の決定された録音音声を映像区間に組み合わせる。
特開2005−309173号公報 特開2003−216173号公報 特開平11−308565号公報
例えば、映像編集システムにおいて、入力テキストから合成音声を作成して映像と同期させるとき、ユーザは、合成される音声の長さが直感的に分からないため、所望の音声の時間長に対して多すぎる、あるいは少なすぎるテキストを与えてしまう場合がある。その結果、テキストから合成される音声が長すぎたり短すぎたりして、映像と同期させることが難しくなる。
特許文献1では、発話開始位置と発話開始時刻が設定されたテキストを用意して映像と同期をとる。この構成において、例えば、ひとつの発話開始位置とその次の発話開始位置に挟まれた時間区間に対して、過剰なテキストが記述されていれば、この時間区間にテキストを納めるために高速な合成音声を用意することになる。また、時間区間に対して僅かなテキストしか記述されていなければ、低速の間延びした音声か、ポーズをたくさんとった不自然な音声を用意することになる。
特許文献2に開示の同期制御は、あらかじめ固定の時間長の映像データが用意されており、その長さに合わせた音声を用意する必要がある場合には適用できない。
特許文献3に開示の方法では、そもそも合成するテキストが映像に対して少なすぎる場合には間延びした音声しか作成できないし、合成するテキストが映像に対して多すぎる場合には、高速の音声を作成せざるを得ない。結果として、不自然な音声しか用意できないことになる。
このように、従来の技術では、入力テキストから合成される音声の長さがユーザに直感的に分かるようにする仕組みがないために、映像と音声との同期をとることが難しくなる問題が生じていた。なお、この問題は、映像と音声との同期をとる場合に限られず、その他、所望の時間長に対応する合成音声のテキストをユーザが入力しようとする場合に問題となる。
ゆえに、本発明は、所望の時間長に適応する入力テキストの量をユーザがわかるようにすることができる合成音声テキスト入力装置を提供することを目的とする。
本願開示の合成音声テキスト入力装置は、合成音声の設定時間長と、合成音声のテキストとの入力を受付ける入力部と、前記入力部で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算部と、前記入力部が前記合成音声のテキストを受付ける際に、前記テキスト量計算部で算出された前記テキストの量を出力するテキスト量出力部とを備える。
本願明細書の開示によれば、音声を合成するための所望の時間長に適応する入力テキストの量をユーザがわかるようにすることができる。
図1は、第1の実施形態における合成音声テキスト入力装置の構成例を示す機能ブロック図である。 図2は、第1の実施形態における合成音声テキスト入力装置の動作例を示すフローチャートである。 図3A〜図3Dは、図2の動作例においてディスプレイに表示される画面の遷移例を示す図である。 図4は、第2の実施形態にかかる合成音声テキスト入力装置の構成例を示す機能ブロック図である。 図5は、第2の実施形態にかかる合成音声テキスト入力装置の動作例を示すフローチャートである。 図6A〜図6Fは、図5の動作例においてディスプレイに表示される画面の遷移例を示す図である。 図7A〜図7Fは、英語の場合にディスプレイに表示される画面の遷移例を示す図である。 図8は、第3の実施形態にかかる合成音声テキスト入力装置の構成例を示す機能ブロック図である。 図9は、第3の実施形態にかかる合成音声テキスト入力装置の動作例を示すフローチャートである。 図10は、第4の実施形態にかかる合成音声テキスト入力装置の構成例を示す機能ブロック図である。 図11は、第4の実施形態にかかる合成音声テキスト入力装置の動作例を示すフローチャートである。 図12は、入力可能文字数範囲を示す画面の例である。 図13は、英語の入力可能テキスト幅の範囲を示す画面の例である。 図14は、第5の実施形態にかかる合成音声テキスト入力装置の構成例を示す機能ブロック図である。 図15は、合成音声テキスト入力装置の動作例を示すフローチャートである。 図16A〜図16Fは、第5の実施形態においてディスプレイに表示される画面の遷移例を示す図である。 図17は、第6の実施形態にかかる合成音声テキスト入力装置の構成例を示す機能ブロック図である。 図18は、合成音声テキスト入力装置の動作例を示すフローチャートである。 図19A〜図19Eは、第6の実施形態においてディスプレイに表示される画面の遷移例を示す図である。 図20は、第7の実施形態におけるスライド編集システムの構成例を示す機能ブロック図である。 図21は、スライド編集システムにおいて表示される画面の例を示す図である。 図22は、上記第1〜6の実施形態における合成音声テキスト入力装置を含む映像編集装置が実装されるコンピュータの構成例を示す図である。
(第1の実施形態)
本実施形態にかかる合成音声テキスト入力装置は、例えば、ユーザが読み上げ用のテキストを入力するのに用いられる装置である。合成音声テキスト入力装置は、入力部と、テキスト量計算部と、テキスト量出力部を備える。入力部は、合成音声の設定時間長と、合成音声のテキストとの入力を受付ける。テキスト量計算部は、入力部で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出する。テキスト量出力部は、入力部が前記合成音声のテキストを受付ける際に、テキスト量計算部で算出されたテキストの量を出力する。
ここで、合成音声の設定時間長は、入力テキストに基づいて音声を合成した時に、合成音声が納まるべき時間であり、例えば、ユーザにより指定された時間である。上記構成においては、テキスト量計算部が設定時間長から算出した入力可能なテキストの量を、合成音声のテキスト入力を受付ける際に出力する。そのため、合成音声のテキストを入力するユーザは、設定時間長に対応する入力可能なテキストの量を知ることができる。
本実施形態において、入力部は、合成音声の発話速度の入力をさらに受付け、テキスト量計算部は、入力部で受付けられた発話速度をさらに用いて、前記設定時間長の合成音声として入力可能なテキストの量を算出してもよい。これにより、ユーザは、発話速度も加味された入力可能なテキスト量を知ることができる。
テキスト量計算部は、例えば、単位時間あたりのテキスト量を示す値または単位テキストあたりの時間を示す値を用いて、設定時間長に対応するテキストの量を計算することができる。また、設定時間長における音声区間またはポーズ区間の比率を示す値を上記計算にさらに用いることもできる。これらの計算に用いる値は、予め記録されていてもよいし、入力部で受付けた情報(例えば、発話速度等)に基づいて決定されてもよい。テキストの量の表現形式は特に限定されないが、例えば、文字数、ワード数、文字列や文の長さ等によりテキストの量を表すことができる。また、漢字等がテキストに含まれて入力すると、その読みが長い場合は、音声合成している時間が延びるので、音声の発音量をテキスト量としてもよい。また、テキスト量は、句読点などによる無音部分も含めて計算することができる。
テキスト量出力部は、ユーザからの合成音声のテキスト入力を受付ける際に、設定時間長に対応する入力可能なテキストの量をユーザが認識可能となるように出力する。出力形式は、特に限定されないが、例えば、ディスプレイ画面に表示される、合成音声のテキスト入力領域の大きさを変化させることで、入力可能なテキスト量をユーザに知らせることができる。
[装置の構成例]
図1は、本実施形態における合成音声テキスト入力装置の構成例を示す機能ブロック図である。図1に示す合成音声テキスト入力装置1は、入力部101、音声合成部102、音声出力部103、テキスト量出力部104およびテキスト量計算部105を備える。合成音声テキスト入力装置1は、例えば、プロセッサおよびメモリを備えるコンピュータにより構成される。コンピュータには、キーボードやマウス等の入力装置と、ディスプレイ、スピーカ、プリンタ等の出力装置が接続される。入力部101、音声合成部102、音声出力部103、テキスト量出力部104およびテキスト量計算部105の各部は、コンピュータのプロセッサがメモリに記録された所定のプログラムを実行することによって実現される機能部である。
合成音声テキスト入力装置1は、例えば、映像編集システムにおいて、映像データに同期させて付与する合成音声を、ユーザがテキストで入力するための装置として用いることができる。本実施形態では、一例として、合成音声テキスト入力装置1が、映像データのうち指定された区間に付加する合成音声のテキストを入力するのに用いられる場合について説明する。
入力部101は、入力デバイスおよびGUIを介して、ユーザからのデータ入力を受付ける。本実施形態では、ユーザから受付ける情報には、テキスト、設定時間長および発話速度が含まれる。入力部101は、設定時間長の入力を受付ける場合、例えば、映像データの少なくとも一部の区間の指定をユーザから受付け、指定された区間に相当する時間を設定時間長とすることができる。これにより、ユーザは、映像データの区間を指定することにより、合成音声の設定時間長を入力することが可能になる。なお、設定時間長入力の形態はこれに限られず、例えば、ユーザから設定時間長を示す数値の入力を受付けることもできる。
テキスト量計算部105は、入力部101が受付けた設定時間長および発話速度を用いて、当該設定時間長の合成音声として入力可能なテキストの量を算出する。ここでのテキスト量は、通常の音声出力のスピードを前提にしている。テキスト量計算部105は、例えば、入力部101が受付けた設定時間長および発話速度に加えて、発話における音声区間またはポーズ区間の比率、1文字あたりの音節数またはモーラ数から、与えられた音声時間長に相当する文字数を計算することができる。
ここで、音節とは1個の母音と1個以上の子音から構成される音声のまとまりである。日本語の場合は音節の定義は必ずしも明確ではない場合がある。例えば、「関東」という単語で、音節を「かん」「とー」の2音節にカウントする場合と、「か」「ん」「と」「ー」の4音節にカウントする場合がある。一方、モーラとは日本語などの言語においてリズムを構成する単位であり、日本語では、ひらがな1文字が1モーラに相当する(ただし、「きゃ」「きゅ」「きょ」などの拗音は2文字で1モーラである)。単語「関東」は、「か」「ん」「と」「ー」の4モーラである。本実施形態では、テキスト量計算部105の計算に、モーラが用いられる場合について説明する。
テキスト量出力部104は、テキスト量計算部105が計算した入力可能なテキスト量を出力し、ユーザが認識可能な状態にする。例えば、テキスト量計算部105が計算した入力可能な文字数に応じたサイズのテキストボックスをディスプレイの画面に表示することにより、設定時間長に適応する入力テキストの文字数をユーザに直感的にわかるように示すことができる。これにより、適切な文字数のテキストをユーザが設定することが可能になる。
音声合成部102は、入力部101で入力された合成音声のテキストを合成音声に変換する。すなわち、音声合成部102は、入力部101で入力されたテキストに基づいて、音声波形信号を合成する。テキストから音声波形信号を生成する機能には、例えば、波形編集方式(コーパスベース方式)、LPC方式、PARCOR方式、LSP方式など公知の技術を用いることができる。音声出力部103は、音声合成部102が生成した合成音声をスピーカ等に出力する。
図1に示す合成音声テキスト入力装置1は、ユーザが設定した設定時間長と発話速度をもとに、入力可能なテキストの文字数を予測してユーザに提示し、その文字数にあわせたテキスト入力をユーザに促すものである。なお、合成音声テキスト入力装置1が、映像編集システムに用いられる場合は、ひとつのコンテンツを通して発話速度が一定であることが多いため、あらかじめ設定された発話速度設定値を用いることができる。すなわち、発話速度は、入力部101で受付けた値を用いてもよいし、予め設定された値を用いてもよい。
[動作例]
図2は、第1の実施形態における合成音声テキスト入力装置1の動作例を示すフローチャートである。図2に示す例は、まず、設定時間長が入力部101に入力されると(S601でYes)、入力部101は、発話速度を獲得する(S602)。
テキスト量計算部105は、設定時間長と発話速度から、合成可能(入力可能)な文字数の予測値を算出する(S603)。発話速度は、例えば、nモーラ/秒のように、単位時間あたりのモーラ数で表される。ここでは、テキスト量計算部105が、合成音声における有音区間の割合を示す値と、1文字あたりのモーラ数とを用いて、入力可能な文字数を計算する例を説明する。一般的に、音声全体に占める有音区間(音声区間)と無音区間(ポーズ区間)の比率は音声データベース等から統計的に求めることができる。例えば、統計的に求められた、音声全体に占める有音区間の割合rを予め記録しておくことができる。また、漢字、ひらがな、カタカナ、記号、アルファベット等あらゆる種類の文字を含むテキストの1文字あたりの平均モーラ数もあらかじめ統計的に求めて設定しておくことができる。ここでは、テキスト1文字あたりの平均モーラ数をmとする。設定時間長をD秒とすると、入力可能な文字数の予測値は、例えば、下式(1)で算出することができる。
入力可能文字数(予測値) = D × r × n / m ・・・(1)
このように、上記例では、1文字あたりの平均モーラ数mや、有音区間の割合rなど、設定時間長をテキストの量に変換するための値と、入力部101が受付けた設定時間長と発話速度を、所定の計算式に代入することにより、入力可能テキスト量を計算している。なお、設定時間長をテキストの量に変換するための値および計算式は、上記例に限られない。
テキスト量出力部104は、以上のように求められた入力可能文字数をユーザに提示する。例えば、入力可能文字数に応じたテキストボックスを画面に表示する(S604)。これにより、直感的にわかりやすい表示が可能になる。入力部101において、ユーザがテキストボックスにテキストを入力し、確定キー(確定ボタン)が押下されたことを検知すると(S605でYes)、音声合成部102は、当該テキストの音声を発話速度で合成し(S606)、音声出力部103が合成された音声を出力する(S607)。
[画面遷移例]
図3A〜図3Dは、図2に示した動作例においてディスプレイに表示される画面の遷移例を示す図である。図3Aに示す画面では、画面上部に映像データのサムネイル画像T1が配置されている。これらのサムネイル画像T1は、映像データから一定の時間間隔で切り出した静止画を、縮小して時間順に配置したものである。ユーザは、サムネイル画像T1をスクロールすることによって、映像データの全体を見ることができる。ユーザは、映像データの中で合成音声を付与したい区間があれば、合成音声挿入区間(合成音声挿入区間)としてマウス等のポインティングデバイスを用いて指定する。挿入区間は矩形K1で表示され、矩形K1の横幅が設定時間長を表している。
合成音声挿入区間が指定されると、合成音声挿入区間の設定時間長に応じて、上述したように、テキスト量計算部105により入力可能文字数が計算される。例えば、図3Bに示すように、計算された文字数のマス目をもったテキストボックスTX1が表示される(図2のS604)。すなわち、設定時間長に応じた大きさのテキスト入力領域が表示される。
ユーザは、テキストボックスTX1にテキストを入力していき、すべてのテキストの入力を終えると、確定キーB1を押す(クリックする)(図3C参照)。確定キーB1が押されると(図2のS605でYes)、テキストボックスTX1に入力されたテキストの合成音声が生成され、音声データとして映像データに対応付けられて記録される。すなわち、合成音声は、映像データと同期して記憶される。図3Dに示す画面上には、生成された合成音声の音声波形H1が表示されている。なお、音声波形H1を囲む矩形をクリックすると、図3Cに示す画面に戻って、テキストを変更できるような機能をもたせることも可能である。
[英語の場合の例]
日本語ではテキストの長さを文字数によって表現することが一般的なため、上記の合成音声テキスト入力装置1は、設定時間長に応じた入力可能文字数を予測し、その文字数に応じたテキストボックスを画面に表示している。英語の場合は、テキストの量(長さ)を単語数によって表現するのが一般的である。したがって、設定時間長に応じた単語数を記述するのに適した幅のテキストボックスを表示することが好ましい。
英語の場合、発声速度は、例えば、1分当たりの単語数(Word per minute : WPS)で表される。朗読音声などで聞き取りやすい発声速度は150〜160単語/分であり、テレビ番組のニュースなどはこれよりは速く、約200単語/分以上と言われている。本実施形態において、合成音声テキスト入力装置1が、映像に同期させて付与する合成音声の設定時間長の入力を受付けると、発話速度、発話における音声区間またはポーズ区間の比率から、例えば、与えられた設定時間長に相当する単語数を計算することができる。さらに、1単語あたりの文字数とフォントサイズを用いて、音声時間長に応じた大きさのテキストボックスをユーザに示すことが可能である。
ここで、合成音声が英語である場合の、テキスト量計算部105によるテキスト量計算の例を説明する。ここで、発話速度は、例えば、n単語/分のようにWPSで設定される。音声全体に占める有音区間の割合r、1単語あたりの平均文字数m、および1文字あたりの平均フォント幅wは予め合成音声テキスト入力装置1に記録される。設定時間長をD分とすると、入力可能テキストの幅は、例えば、下式(2)を用いて算出することができる。
入力可能テキストの幅(予測値) = D × r × n × m × w ・・・(2)
例えば、発話速度が200単語/分、音声全体に占める有音区間の割合rを0.7、1単語あたりの平均文字数mを8、1文字あたりの平均フォント幅wを1.5mmとするとき、設定時間長が30秒(=0.5分)であれば、入力可能テキストの幅は、0.5×0.7×200×8×1.5=840mmとなる。テキストボックスの1行あたりの長さを100mmとすれば、8.4行のテキストボックスが表示されることになる。
このように、合成音声テキスト入力装置1が取り扱うことのできる言語は特に限定されない。日本語および英語以外の言語であっても、その言語の性質や文字に応じたテキスト量の計算方法および表示方法を採用することができる。
以上のとおり、本実施形態によれば、ユーザが所望の設定時間長に適応する入力テキストの分量を、ユーザのテキスト入力の際に、ユーザに直感的にわかるように示すので、適切な分量のテキストをユーザが設定することができる。そのため、ユーザは、例えば、映像と同期する合成音声を容易に作成することができる。
(第2の実施形態)
図4は、第2の実施形態にかかる合成音声テキスト入力装置1aの構成例を示す機能ブロック図である。合成音声テキスト入力装置1aでは、音声合成部102は、言語処理部201、韻律生成部202および波形生成部203を含む。言語処理部201は、入力部101で入力された合成音声のテキストを解析して、当該テキストの読み情報を含む中間表記を生成する。韻律生成部202は、言語処理部201で生成された前記中間表記から、テキストに対応する合成音声の時間長と、テキストに相当する合成音声の高さの変化パターンであるピッチパターンを生成する。波形生成部203は、韻律生成部202が生成した、テキストに対応する合成音声の時間長と、テキストに相当する合成音声の高さの変化パターンであるピッチパターンから合成音声を生成する。テキスト量計算部204は、音声合成部の韻律生成部202が計算した合成音声の時間長をさらに用いて、設定時間長の合成音声として入力可能なテキストの量を算出する。
上記構成では、入力部101ですでに入力されたテキストの合成音声の時間を用いて、入力可能なテキストの量を算出する。そのため、すでに入力されたテキストについて実際の時間長が計算され、この時間長を使って入力可能なテキストの量が調整される。その結果、ユーザは、テキストの入力状況に応じた、入力可能なテキストの量を知ることができる。
[動作例]
図5は、第2の実施形態にかかる合成音声テキスト入力装置1aの動作例を示すフローチャートである。図5に示す例では、まず、入力部101が、ユーザから設定時間長の入力を受付けると(S701でYes)、入力部101は、発話速度を獲得し(S702)、入力テキストを初期化する(S703)。音声合成部102の言語処理部201では、現時点ですでに入力されているテキスト(既入力テキスト)の形態素解析、構文解析などの言語処理を行い、テキストに対する表音文字列を生成する。表音文字列は、テキストの読みを示す文字列であり、例えば、テキストの読み方、アクセント、フレーズやポーズなどの境界の入れ方などを示す情報が含まれる。表音文字列は、音声合成における中間表記の一例である。
韻律生成部202は、表音文字列をもとに、各モーラ、または各モーラを構成する各音素の時間長を計算し、さらに声の高さの変化パターンであるピッチパターンを生成する。なおこの段階でテキスト量を計算するためには、時間長は必要であるがピッチパターンは不要なので、時間長を求めるのみでもよい。ここで、韻律生成部202は、計算された各モーラまたは各音素の時間長を合計すると既入力テキストに相当する合成時間長を求めることができる(S704)。なお、初期状態ではテキストは入力されていないので、合成時間長は0である。テキスト量計算部204では、設定時間長、発話速度、既入力テキストの合成時間長から、入力可能文字数の予測値を算出する(S705)。ここで、上記第1の実施形態と同様に、発話速度をnモーラ/秒、音声全体に占める有音区間の割合をr、テキスト1文字あたりの平均モーラ数をm、音声時間長設定値をD秒とし、さらに、既入力テキストの文字数をk、その合成時間長をtとすると、入力可能文字数の予測値は、例えば、下式(3)で算出することができる。
入力可能文字数(予測値) = k + ( D − t ) × r × n / m
・・・(3)
テキスト量出力部104は、以上のようにして求められた入力可能文字数を、入力可能文字数に応じたテキストボックスの表示などの方法でユーザに提示する(S706)。入力部101において、例えば、ユーザからの指示により、設定時間長が変更されれば(S707でYes)、S705にもどり、テキスト量計算部204が、変更された設定時間長について、入力可能文字数の予測値を再計算する。テキスト量出力部104は、再計算された入力可能文字数をユーザに提示する。また、入力テキストが追加変更された場合(S708でYes)、S704にもどり、言語処理部201、韻律生成部202によって追加変更されたテキストに対する合成時間長が求められる。その後、テキスト量計算部204が、入力可能文字数を再計算し(S705)、テキスト量出力部104が、ユーザへの再提示を行う(S706)。以上の処理を、ユーザがテキストを確定する(S709でYes)まで繰り返す。テキストが確定されれば、波形生成部203が、テキストの音声を合成し(S710)、音声出力部103が合成された音声を出力する(S711)。
以上の処理により、すでに入力されているテキストについて実際の合成音声の時間長を随時計算し、入力可能文字数を随時修正してユーザに表示することができる。そのため、ユーザは、最終的に合成される音声の時間長に合わせるように入力テキストを調整することが可能になる。
なお、テキスト量計算部204によるテキスト量の計算は、上記式(3)を用いた方法に限られない。例えば、テキスト量計算部204は、まず、テキストが入力されていない初期状態において、上記第1の実施形態と同様にして、入力可能テキスト文字数の初期値を計算する。テキストが入力されると、設定時間長から入力されたテキストのモーラ数に対応する時間長を引いた時間に対応する文字数を、入力可能テキスト文字数として計算することができる。
このように、音声合成部102は、設定時間長の合成音声として、すでに入力部101が受付けた部分のテキストに対応する部分合成音声の時間長を計算し、テキスト量計算部204は、音声合成部102が計算した部分合成音声の時間長を用いて、設定時間長の合成音声として入力可能なテキストの量を修正することができる。これにより、ユーザのテキスト入力に応じて入力可能なテキストの量を随時修正して表示することができ、より正確な入力可能テキスト量をユーザに示すことが可能になる。
[画面遷移例]
図6A〜図6Fは、図5に示した動作例においてディスプレイに表示される画面の遷移例を示す図である。図6Aでは、画面上部に映像データのサムネイル画像T1が配置されている。ユーザが指定した、映像データの中で合成音声を付与したい区間、すなわち挿入区間は、矩形K1で表示され、矩形K1の横幅が設定時間長となる。
挿入区間が設定されると、挿入区間の設定時間長に応じて、入力可能文字数が計算され、その文字数のマス目をもったテキストボックスTB1が表示される(図6B参照)。
図6Cに示すように、ユーザは、例えば、矩形K1の横幅をマウス等で引き伸ばすことにより、挿入区間の長さを変更することができる。挿入区間が変更されると、設定時間長が変化するので、変化後の設定時間長について入力可能文字数が再計算され、テキストボックスTB1のマス目の数も変化する(図5のS707でYESの場合の処理相当)。すなわち、挿入区間を変更すると、テキストボックスTB1のサイズが変わる。 図6Dに示すように、ユーザが、テキストボックスにテキストを入力していくと、入力可能文字数が随時再計算され、それに応じてテキストボックスのマス目の数も変化する(図5のS708でYESの場合に相当)。なお、入力可能文字数の再計算のタイミングは、上記図5に示す例に限られない。例えば、あらかじめ決められた一定数の文字が入力されたときとか、あらかじめ決められた時間が経過したときとか、その他様々なタイミングで再計算することができる。
ユーザは、すべてのテキストの入力を終えて確定キーB1を押す(図6E参照)。確定キーが押されると(図5のS709でYES)、入力されたテキストの合成音声が作成され、映像データと同期して記録される。図6Fに示すように、画面上には音声波形H1が表示されてもよい。音声波形H1を囲む矩形をクリックすると、再度、図6Eに示す画面に戻ってテキストを変更できるような機能をもたせることも可能である。
上記の画面遷移例でも示されるように、本実施形態では、ユーザが入力したテキストに応じて、入力可能なテキストの文字数が再計算されて更新される。これにより、ユーザに対して、より正確な入力可能テキスト量を表示することができる。
ここで、上記効果についてさらに詳細に説明する。テキスト量計算部204で計算される入力可能なテキストの量は計算値であり、実際に入力できるテキスト量とは異なる場合がある。例えば、テキスト量計算部が、設定時間長と発話速度から計算した入力可能なテキストの文字数のテキストをユーザが入力した場合、入力したテキストによっては、設定時間長と実際にテキストから合成される音声の時間長とに差が生じる場合がある。テキスト量計算部は、上述のように、入力可能文字数の計算に、統計的に求められた有音区間の割合を用いているが、この割合は実際の合成音声とは異なる場合がある。例えば、テキストに句読点が多ければ、合成音声にポーズ(無音区間)が多くなるし、テキストが通常の文章である場合と箇条書きのリストである場合とを比べると、後者の方が、ポーズが多くなる傾向がある。このように、テキストのスタイルによって合成音声の有音区間の割合が統計値とは異なる場合がある。また、入力可能文字数の予測に用いる1文字当たり平均モーラ数についても、一般的に漢字は1文字が1〜数モーラを示すのに対して、ひらがなは1文字が1モーラ以下(上述のように、基本的に1文字は1モーラだが、拗音は2文字で1モーラである)なので、漢字の多いテキストとひらがなの多いテキストでは同じ文字数でも合成音声の時間長は異なる。そこで、本実施形態では、ユーザがテキストを入力している間にも、すでに入力されているテキストについて実際の合成音声の時間長を随時計算し、入力可能文字数を随時修正して示すことで、予測値を実際の値に近づけることができる。すなわち、ユーザが入力するテキストによって、設定時間長と、実際に合成される音声の時間長との差を少なくすることができる。例えば、ユーザが、テキスト入力時において、最終的に合成される音声の時間長に合わせるように入力テキストを調整することが可能になる。
[英語の場合の例]
英語の場合でも日本語と同様に、入力可能テキスト幅の予測に、統計的に求めた有音区間の割合を用いることができる。しかし、例えば、テキストにカンマやピリオドが多ければ、合成音声にポーズ(無音区間)が多くなるし、テキストが通常の文章である場合と箇条書きのリストである場合を比べると、後者の方が、ポーズが多いなど、テキストのスタイルによって有音区間の割合が統計値とは異なる場合がある。また、綴り字の文字数と発音の長さは完全に対応が取れているわけでない。例えば、"wait"と“weight"のように、同じ発音で時間長が同じであっても、文字数は4文字と6文字のように異なる場合などがある。すなわち、同じ音声時間長であってもテキストを構成する単語によって、合成テキストの幅は短くて済む場合もあれば長くなる場合もある。そこで、合成音声が英語の場合でも、ユーザがテキストを入力している間にも、すでに入力されているテキストについて実際の合成音声の時間長を随時計算し、入力可能テキスト幅を随時修正して表示することで、ユーザが、最終的に合成される音声の時間長に合わせるように入力テキストを調整することができる。
例えば、発話速度をn単語/分、音声全体に占める有音区間の割合をr、1単語あたりの平均文字数をm、1文字あたりの平均フォント幅をw、音声時間長設定値をD分とし、さらに、既入力テキストのテキスト幅をk、その合成時間をtとすると、入力可能テキストの幅は下式(4)で算出することができる。
入力可能テキストの幅(予測値) = k + ( D − t ) × r × n × m × w
・・・(4)
このように、合成音声およびテキストが英語やその他の言語である場合も、同様にして、音声合成部102で計算された既入力テキストの時間長を用いて、入力可能なテキストの量を計算することができる。
[英語の場合の画面遷移例]
図7A〜図7Fは、合成音声および入力テキストが英語の場合に、ディスプレイに表示される画面の遷移例を示す図である。図7Aでは、図6Aと同様に、サムネイル画像T1および挿入区間を示す矩形K1で表示されている。矩形K1の横幅が設定時間長となる。
挿入区間が設定されると、挿入区間の設定時間長に応じて、入力可能なテキスト幅が計算され、その幅をもったテキストボックスTB2が表示される(図7B参照)。
図7Cに示すように、ユーザが、例えば、矩形K1の横幅をマウス等で引き伸ばすことにより、挿入区間の設定時間長を変更すると、変更後の設定時間長について入力可能テキスト幅が再計算され、テキストボックスTB2の幅も変化する。図7Dに示すように、ユーザが、テキストボックスにテキストを入力していくと、入力可能テキスト幅が随時再計算され、それに応じてテキストボックスTB2の幅も変化する。
ユーザは、すべてのテキストの入力を終えて「SET」キーB1を押す(図7E参照)と、入力されたテキストの合成音声が作成され、映像データと同期して記録される。図7Fに示すように、画面上には音声波形H1が表示されてもよい。
(第3の実施形態)
図8は、第3の実施形態にかかる合成音声テキスト入力装置1bの構成例を示す機能ブロック図である。合成音声テキスト入力装置1bでは、音声合成部102は、言語処理部201、韻律生成部202および波形生成部203を含む。また、合成音声テキスト入力装置1bは、計算式変更部301をさらに備える。
音声合成部102は、前記入力部で入力された合成音声のテキストを合成音声に変換する。また、音声合成部102は、設定時間長の合成音声として、すでに前記入力部が受付けた部分のテキストの部分読み情報および当該テキストに対応する部分合成音声の時間長を生成する。
テキスト量計算部204は、予め決められた計算式に、設定時間長を代入することにより、設定時間長の合成音声として入力可能なテキストの量を算出する。計算式変更部301は、音声合成部102が生成した前記部分読み情報および前記部分合成音声の時間長の少なくともいずれかに基づいて、テキスト量計算部204が使う計算式を変更する。
上記構成において、入力可能なテキストの量を計算するのに用いる計算式を、すでに入力されているテキストを用いて調整することで、算出される入力可能なテキスト量の予測精度を高めることができる。
本実施形態では、テキスト量計算部204は、設定時間長に対応する合成音声として、入力可能なテキストの量を計算するために、設定時間長をテキストの量に変換するための計算式を用いる。この計算式には、例えば、1文字あたりのモーラ数や、音声全体に占める有音区間の割合など、設定時間長をテキストの量に変換するための値が含まれる。これらの値は、音声合成部102により計算される既入力テキストの読み情報や時間長などに基づいて、計算式変更部301により変更可能される。
読み情報は、例えば、入力されたテキストの読み方を表す文字列や記号列などで表される。音声合成部102または計算式変更部301は、この読み情報から、入力テキストの分量に対して、読み情報の文字列や記号列がどの程度の分量になるかを計算することができる。計算式変更部301は、このように読み情報から求められる、読み情報量と入力テキスト量との関係を示す値を、計算式の値に採用することができる。例えば、既入力テキストの読み情報から、テキストの1文字あたりの読み情報の文字列量(例えば、モーラ数)を示す値を求めることができ、この値を計算式の値として用いることができる。
既入力テキストの時間長からも、テキスト量と合成音声の時間との関係を示す値を求めることができる。計算式変更部301は、この値を計算式に採用することで、計算式を変更することができる。
一例として、言語処理部201は、既に入力されているテキストについての表音文字列を生成する。計算式変更部301は、表音文字列で示されるモーラ数を入力テキストの文字数で割ることによって、1文字あたりのモーラ数を求めるができる。また、韻律生成部202において、表音文字列から各モーラの時間長を求めると同時に、ポーズの時間長も求められるので、これを基に、計算式変更部301は、既入力テキストについての音声全体に占める有音区間の割合を求めることができる(S801)。
例えば、入力テキストが「本日の天気は、曇りのち雨です。」であれば、表音文字列は「ホ’ンジツノ テ’ンキワ,クモリ’ノチ ア’メデス.」となり、入力テキスト15文字に対して表音文字列は18モーラになるので、1文字あたりのモーラ数は、18/15=1.2モーラと計算することができる。なお、1文字あたりのモーラ数の計算は、言語処理部201が実行してもよいし、計算式変更部301が実行してもよい。
また、韻律生成部において、このテキストのうち「本日の天気は」「曇りのち雨です」の有音区間の合成時間長が2.1秒、句読点に相当する無音区間が1.5秒と算出されたとすると、有音区間の割合は、2.1/(2.1+1.5)≒0.58と計算することができる。なお、有音区間の割合の計算は、韻律生成部202が実行してもよいし、計算式変更部301が実行してもよい。
計算式変更部301は、このようにして、読み情報から求められた1文字あたりのモーラ数や、有音区間の割合を計算式に代入することによって、計算式を修正することができる。具体例として、発話速度をnモーラ/秒、設定時間長をD秒、既入力テキストの文字数をk、その合成時間長をtとし、上述のように、既入力テキストから求められた1文字あたりのモーラ数をm’、有音区間の割合をr’とすると、入力可能文字数の予測値は、例えば、下式(5)のように修正される。
入力可能文字数(予測値)= k +( D − t )× r’× n/ m’・・・ (5)
既入力テキスト以降も同様なスタイルで合成テキストが入力される可能性が高いので、既入力テキストから求められた1文字あたりモーラ数や有音区間の割合は、あらかじめ統計的に求められたものよりも信頼性が高く、入力可能文字数の予測精度を高めることができる。
[動作例]
図9は、第3の実施形態にかかる合成音声テキスト入力装置1bの動作例を示すフローチャートである。図9に示す例において、S701〜S704の処理は図5に示すS701〜S704の処理と同様にすることができる。
S801において、計算式変更部301は、例えば、入力部101において、入力テキストボックスに入力された既入力テキストについて、1文字あたりモーラ数m’と有音区間の割合r’を算出する。1文字あたりのモーラ数m’は、言語処理部201が求めた既入力テキストの表音文字列を用いて計算される。有音区間の割合r’は、韻律生成部202が求めた既入力テキストの時間長およびポーズの時間長を用いて計算される。計算式変更部301は、入力可能文字数の計算式を、1文字あたりのモーラ数m’および有音区間の割合r’を含むものに修正する。例えば、計算式変更部301は、合成音声テキスト入力装置1bの記録部に記録された計算式の項を示すデータを更新することにより、計算式を修正することができる。S705〜S711の処理は図5に示すS705〜S711の処理と同様にすることができる。
以上のように、計算式変更部301は、計算式に含まれる、時間を文字数に変換するためのパラメータを変更することで、テキスト量計算部204で入力可能テキスト量の精度を高めることができる。なお、計算式変更部301が更新する値は、上記例に限られない。例えば、英語の場合は、1文字あたりのモーラ数m’の代わりに、1単語あたりの平均文字数を用いることができる。
[英語の場合の例]
例えば、入力テキストが"Rain showers in the evening becoming more intermittent overnight."であるとき、言語処理部201で計算される1単語あたりの平均文字数は6.2文字/単語となる。また、韻律生成部202は、この入力テキストの音声を実際に合成させてみると、全体時間長に占める音声区間の割合が例えば0.85と算出する。これは、予め記録された1単語あたりの平均文字数8文字/単語や、音声区間の割合0.7と異なることになる。計算式変更部301は、このように、予め記録された値を、言語処理部201および韻律生成部202で計算される値に置き換えることで、計算式を修正することができる。
例えば、発話速度をn単語/分、1文字あたりの平均フォント幅をwとするとき、設定時間長をD分とし、さらに上述のように、入力テキストから求められた、音声全体に占める有音区間の割合をr’、1単語あたりの平均文字数をm’とすると、入力可能テキストの幅の計算式は、例えば、下式(6)のように修正される。
入力可能テキストの幅(予測値)= D × r’× n×m’× w ・・・ (6)
(第4の実施形態)
図10は、第4の実施形態にかかる合成音声テキスト入力装置1cの構成例を示す機能ブロック図である。合成音声テキスト入力装置1cにおいて、テキスト量計算部402は、設定時間長の合成音声として入力可能なテキストの量の上限および下限を算出する。テキスト量出力部401は、テキスト量計算部402が算出した上限および下限で表される、入力可能なテキストの量の範囲を出力する。このように、入力可能なテキストの量の範囲を出力することで、ユーザが入力できるテキスト量の幅を広げることができる。
例えば、聞く人に違和感のない範囲であれば、合成音声の発話速度や有音区間の割合は変更しても差し支えはない。具体的には、合成音声では、発声速度をわずかに速くまたは遅くしたり、ポーズの回数を増減したり、ポーズの時間長を若干伸縮させたりして、全体の合成時間長をある程度調整することが可能である。そこで、テキスト量計算部402は、入力可能文字数を1つの値ではなく、文字数の上限値から下限値までの範囲で算出する。
[動作例]
図11は、合成音声テキスト入力装置1cの動作例を示すフローチャートである。図11のS601、S602の処理は、図2のS601、S602の処理と同様に実行することができる。S901において、テキスト量計算部402は、入力可能文字列の上限および下限を計算する。
例えば、発話速度はnモーラ/秒のように合成音声テキスト入力装置1cに予め記録することができる。音声全体に占める有音区間の割合をr、テキスト1文字あたりの平均モーラ数をmとする。合成音声を聴取したときに違和感のない範囲で発声速度を変更できる比率をRnとし、ポーズの回数の増減やポーズの時間長を伸縮させることによって有音区間の割合を変更できる比率をRrとすると、設定時間長がDであるとき、入力可能文字数の下限および上限は、例えば、下記式(7)、(8)で算出できる。
入力可能文字数上限(予測値)=D×r×(1+ Rr)×n×(1+Rn)/m ・・・(7)
入力可能文字数下限(予測値)=D×r/(1+ Rr)×n/(1+Rn)/m ・・・(8)
例えば、有音区間の割合を変更できる比率Rrを10%、発声速度を変更できる比率Rnを5%とすると、入力可能文字列の上限および下限は、以下のように計算される。
入力可能文字数上限(予測値)=D×r×1.1×n×1.05/m
入力可能文字数下限(予測値)=D×r/1.1×n/1.05/m
テキスト量計算部402は、上記式(7)(8)を用いて、入力可能文字列の上限および下限を計算すると、テキスト量出力部401は、上限および下限で表される入力可能文字数範囲をユーザに提示する(S902)。以降のS605〜S607の処理は、図2のS605〜S607の処理と同様に実行することができる。
[表示画面例]
図12は、テキスト量出力部401により出力される、入力可能文字数範囲を示す画面の例である。図12に示す例では、1文字目から入力可能文字数の下限値までは入力が必須であるので、標準入力可能文字数区間TB3−1として白いマス目で表示されている。下限値から上限値までの間は入力が任意であるから、調整可能文字区間TB3−2として薄いグレーで表示される。なお、後述するように、入力テキストが入力可能文字数の上限を超えていても、発声速度を速くしたり、ポーズを少なくしたり、あるいは映像データを伸長するなどの方法で、音声と映像を同期させることも可能であるから、ユーザが文字入力をすることが可能なように余分なマス目を表示しても良い。この場合、余分なマス目は、例えば、図12に示すように、調整困難文字区間TB3−3として濃いグレーで表示することで、ユーザが識別可能な状態で表示することができる。
このように、テキスト量出力部401は、入力可能文字数に応じたテキストボックスを表示するのが、ユーザにとって直感的にわかりやすいので好ましい。なお、表示画面は上記例に限られない。
[英語の場合の例]
合成音声および入力テキストが英語の場合、テキスト量計算部402は、例えば、下記のように、入力可能なテキスト量の範囲を計算することができる。発話速度は、n単語/分のように合成音声テキスト入力装置1cに予め記録することができる。音声全体に占める有音区間の割合をr、1単語あたりの平均文字数をm、1文字あたりの平均フォント幅をwとする。合成音声を聴取したときに違和感のない範囲で発声速度を変更できる比率をRnとし、ポーズの回数や時間長を伸縮させることによって有音区間の割合を変更できる比率をRrとする。設定時間長がDであるとき、入力可能テキスト幅の下限および上限は、例えば、下記式(9)、(10)で算出できる。
入力可能テキスト幅上限(予測値)=D×r×(1+Rr)×n×(1+Rn)×m×w ・・・(9)
入力可能テキスト幅下限(予測値)=D×r/(1+Rr)×n/(1+Rn)×m×w ・・・(10)
例えば、有音区間の割合を変更できる比率Rrを10%、発声速度を変更できる比率Rnを5%とすると、以下のようになる。
入力可能テキスト幅上限(予測値)=D×r×1.1×n×1.05×m×w
入力可能テキスト幅下限(予測値)=D×r/1.1×n/1.05×m×w
図13は、英語の場合の入力可能テキスト幅の範囲を示す画面の例である。図13に示す例では、1文字目から入力可能文字数の下限値までは標準入力可能文字数区間TB3−1として背景が白く、マス目数のないテキストボックスで表示されている。下限値から上限値までの間は入力が任意である調整可能文字区間TB3−2として薄いグレーで表示される。さらに、入力テキストが入力可能文字数の上限を超えた好ましくない範囲は、調整困難文字区間TB3−3として濃いグレーで表示することができる。このように、合成音声および入力テキストが英語の場合は、マス目数のないテキストボックスを表示し、テキストボックス内を、標準入力可能文字数区間、調整可能文字区間および調整困難文字区間で色分けするなど区別可能な態様で表示することができる。
以上、説明した本実施形態は、上記第1〜3の実施形態と組み合わせて実施することも可能である。
(第5の実施形態)
図14は、第5の実施形態にかかる合成音声テキスト入力装置1dの構成例を示す機能ブロック図である。合成音声テキスト入力装置1dでは、音声合成部102は、言語処理部201、韻律生成部202、韻律修正部501および波形生成部203を含む。言語処理部201は、入力部101で入力された合成音声のテキストを解析して、当該テキストの読み情報を含む中間表記を生成する。韻律生成部202は、言語処理部201で生成された中間表記から、テキストに対応する合成音声の時間長と、テキストに相当する合成音声の高さの変化パターンであるピッチパターンを生成する。波形生成部203は、韻律生成部202が生成したテキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンから合成音声を合成する。
韻律修正部501は、韻律生成部202により生成された合成音声の時間長が設定時間長に近づくように、合成音声の時間長を伸長または短縮するか、あるいは、合成音声の中に含まれるポーズの時間長を伸長または短縮する。この構成では、韻律修正部501によって、合成される合成音声の時間長が、設定時間長に近づくように調整される。そのため、例えば、ユーザが、入力可能文字数より少ない、あるいは、多い文字数のテキストを入力した場合でも、合成音声の時間長が設定時間長に合うように調整することができる。
[動作例]
図15は、合成音声テキスト入力装置1dの動作例を示すフローチャートである。図15のS601〜S605の処理は、図2のS601〜S605の処理と同様に実行することができる。テキスト量出力部104が出力した入力可能文字数に応じて、ユーザが入力したテキストが確定すると(S605でYES)、ユーザが入力したテキストについて、言語処理部201が表音文字列を作成し、韻律生成部202が合成時間長を生成する(S1101)。
韻律生成部202は、例えば、表音文字列に対応する音素および音素の時間長を、予め記録された辞書や規則に基づいて決定する。このように、韻律生成部202は、入力テキストを構成する音声単位(例えば、音素)を決定し、音声単位ごとに時間長を決定することができる。この場合、音声単位の時間長の合計を、入力テキストの合成時間長とすることができる。
韻律修正部501は、設定時間長と実際に合成される音声の時間長の差が閾値より大きいと判断した場合(S1102でYES)、合成時間長が音声時間長設定値に近づくように、生成された各モーラの時間長または各モーラを構成する各音素の時間長を伸縮する(S1103)。例えば、韻律修正部501は、各モーラまたは各音素の時間長に同じ係数をかけることによって等倍に伸縮することもできるし、あらかじめ音素の種類ごとに伸縮可能な係数の範囲を設定しておき、その範囲内で伸縮することもできる。過剰に伸縮すると合成音声が不自然になるので、伸縮係数には上限と下限を設けておき、それを超えない範囲で時間長を伸縮することが好ましい。
各モーラまたは各音素の時間長を限度まで伸長してもなお、音声時間長設定値と実際に合成される音声の時間長の差が閾値より大きい場合(S1104でYES)、韻律修正部501は、ポーズの位置を加減する、または、ポーズの時間長を伸縮することで、音声時間長設定値に近づけることができる(S1105)。ポーズの位置の加減は、例えば、言語処理部201が生成した表音文字列において、ポーズがなかったフレーズや、句の境界に新たにポーズを追加する処理、あるいは、表音文字列におけるポーズを削除する処理により行なわれる。ポーズの時間長の伸縮は、例えば、韻律生成部202によって設定されたポーズの時間長を伸長または圧縮する処理であってもよい。
S1101〜S1105の処理により合成時間長が調整され、さらにそれに合わせてピッチパターンが修正されると、波形生成部203は合成音声を生成し(S606)、音声出力部103が合成音声を出力する(S607)。
[画面遷移例]
図16A〜図16Fは、第5の実施形態においてディスプレイに表示される画面の遷移例を示す図である。図16Aおよび図16Bは、図3Aおよび図3Bと同様である。図16Cに示す画面は、ユーザが、入力可能文字数よりも少ない文字数を入力した段階で、確定キーを押したときの画面例である。図16Dでは、横幅が設定時間長、すなわち合成音声の挿入区間の長さを表す矩形K1と、実際に合成された音声波形H1とを並べて表示している。これにより、ユーザは、挿入区間の長さにくらべて実際に合成された音声が短いことを知ることができる。この場合、画面には、合成音声を設定時間長(挿入区間の長さ)に合わせるように伸長するか否かのダイアログウィンドウW1が表示される。このダイアログウィンドウW1により、韻律修正部501による合成音声の時間長調整の可否がユーザに対して質問される。
ユーザが「はい」を選択すると、韻律修正部501は、合成音声が設定時間長と同じ長さになるように、各モーラまたは各音素の時間長を伸長するように再計算を行う。各モーラまたは各音素の時間長が伸長されると、伸長後の時間長にあうようにピッチパターンも修正され、波形生成部203が合成音声を再生成する。再合成された音声波形が表示される(図16E参照)。図16Eに示す例では、合成音声が設定時間長と同じになるように各音声単位(ここでは、一例として各音素)の時間長が伸長された合成音声の音声波形H2が表示されている。
なお、韻律修正部501は、ダイアログウィンドウW1でユーザが「はい」を選択した場合に、ポーズの時間長を伸ばすことによって、合成音声が設定した設定時間長と同じ長さになるように調整することも可能である。図16Fは、合成音声が設定時間長と同じになるように、ポーズの時間長が伸長された合成音声の音声波形H3が表示された場合の例を示す図である。
本例では、ユーザの入力したテキストが少なかった場合を示したが、ユーザが入力したテキストが入力可能文字数よりも多い場合には、各モーラまたは各音素の時間長を短縮する処理、あるいはポーズの時間長を短縮する処理の少なくともいずれかを実行することによって、合成音声が設定時間長と同じ長さになるように調整することができる。なお、韻律修正部501は、合成音声の長さと設定時間長とが厳密に同じ長さ同じになるまで調整する必要は必ずしもない。
(第6の実施形態)
図17は、第6の実施形態にかかる合成音声テキスト入力装置1eの構成例を示す機能ブロック図である。合成音声テキスト入力装置1eは、入力部101で受付けたテキストの合成音声と同期させる区間を含む映像データを入力する映像データ入力部601と、音声合成部102で生成される合成音声の時間長が設定時間長に近づくように、映像データを編集する映像音声同期部602とを備える。この構成により、映像データを合成音声の時間長にあわせるように調整することができる。
例えば、映像編集装置(映像編集システム)で用いる合成音声のテキスト入力に、合成音声テキスト入力装置1eを用いる場合、ユーザが、設定時間長に応じた入力可能文字数または文字数範囲に対して、少ない、あるいは多い文字数のテキストを入力したとき、映像音声同期部602により、映像データの方を合成音声に同期させるように伸縮することが可能になる。
本実施形態において、入力部101は、映像データの少なくとも一部の区間の指定をユーザから受付け、指定された区間に相当する時間を設定時間長とすることができる。この場合、ユーザは、例えば、映像データ中で音声を挿入する挿入区間を指定することができる。音声合成部102は、映像データ中で挿入区間の位置を示す情報を用いて、合成した音声と、映像データとを同期して記録する。また、映像音声同期部602は、映像データ中で挿入区間の位置を示す情報により、映像データ中で編集する位置を特定することができる。
映像音声同期部602は、例えば、映像データの挿入区間の時間長を縮めるかまたは延ばす処理を実行することにより、挿入区間の時間長を合成音声の時間長に合わせる。例えば、映像データの挿入区間におけるフレームの一部を間引くことで、挿入区間の時間長を縮めることができ、挿入区間にフレームを挿入することで、挿入区間を延ばすことができる。
[動作例]
図18は、合成音声テキスト入力装置1eの動作例を示すフローチャートである。図18のS601〜S605の処理は、図2のS601〜S605の処理と同様に実行することができる。図18のS1101の処理は、図15のS1101の処理と同様に実行することができる。すなわち、ユーザが入力したテキストが確定すると(S605でYES)、ユーザが入力したテキストについて、言語処理部201が表音文字列を作成し、韻律生成部202が合成音声の時間長を生成する(S1101)。
映像音声同期部602は、映像データへ音声を挿入する挿入区間の長さ(すなわち、設定時間長)と、合成音声の合成音声の時間長との差が閾値より大きいと判断した場合(S1201でYES)、映像データの挿入区間の時間長を伸縮して合成時間長とあわせる(S1202)。映像データの伸縮には、例えば、映像の繰り返しや間引きなどの方法があるが。必ずしもそれに限定するものではない。波形生成部203は、合成音声を生成し、映像データと同期させて記録する。同期後の合成音声を、音声出力部103が出力するとともに(S607)、同期後の映像データを映像データ出力部603が出力する(S1203)。
[画面遷移例]
図19A〜図19Eは、第6の実施形態においてディスプレイに表示される画面の遷移例を示す図である。図19A〜図19Cは、図16A〜図16Cと同様である。すなわち、本例は、図19Cに示すように、ユーザは、入力可能文字数よりも少ない文字数を入力した段階で、確定キーを押したときの例である。
図19Dでは、横幅が設定時間長、すなわち合成音声の挿入区間の長さを表す矩形K1と、実際に合成された音声波形H1とが並べて表示されている。これにより、ユーザは、挿入区間の長さにくらべて実際に合成された音声が短いことが知ることができる。この場合、画面には、映像データにおける音声の挿入区間を、合成音声に合わせるように編集するか否かのダイアログウィンドウW1が表示される。
ユーザが「はい」を選択すると、映像音声同期部602は、映像データを適宜間引くなどの方法によって短縮し、挿入区間の時間長を音声の長さに合わせる。図19Eは、短縮された映像のサムネイルT1aが表示された画面の例である。なお、本例では、ユーザの入力したテキストが、設定時間長に対して少ない場合を示したが、ユーザが入力したテキストが入力可能文字数よりも多い場合には、映像音声同期部602は、例えば、映像データを適宜繰り返すなどの方法によって映像データの挿入区間を伸長し、音声の長さに合わせることができる。
(第7の実施形態)
図20は、上記第1の実施形態における合成音声テキスト入力装置1を含むスライド編集システム10の構成例を示す機能ブロック図である。図20に示す例では、スライド編集システム10は、合成音声テキスト入力装置1に加えて、スライド素材入力部801、スライド音声関連付け部802およびスライド再生部803をさらに備える。スライド素材入力部801は、例えば、ユーザからの指示に従い、記録装置に記録されたスライド素材データを読み込むことで、スライド編集システム10でスライド素材データを編集可能な状態にする。音声関連付け部802は、スライド素材データと、音声合成部102が合成した合成音声とを関連付けて記録する。スライド再生部803は、合成音声の再生と同期して、スライドを再生する。
[画面例]
図21は、スライド編集システム10において、表示される画面の例を示す図である。図21に示す例では、画面の左欄S1に、全スライドが、縦に順番に表示されている。図21では、上から3番目のスライドが選択されており、選択されたスライドが画面中央の編集領域E1に大きく表示され、編集可能な状態になっている。入力部101は、GUIを介して、編集領域E1の下に、設定時間長を入力するための入力フォームF1を表示装置に表示させている。さらに、入力部101は、スライドの下に、スライドと関連付ける合成音声のテキストを入力するためのテキストボックスTB4も表示装置に表示させる。
ユーザは、編集領域E1のスライドを説明するための音声を合成音声で作成する場合、この入力フォームF1に再生時間、すなわち設定時間長を入力する。設定時間長が入力されると、テキスト量計算部105は、設定時間長に応じた入力可能文字数を計算する。テキスト量出力部104は、計算された入力可能文字数に応じたマス目を持ったテキストボックスTB4をGUIを介して表示装置へ表示させる。ユーザは、このテキストボックスTB4にテキストを入力し、確定キーB1を押すことによってテキストを確定させる。テキストが確定すると、音声合成部102は、合成音声を生成し、音声関連付け部802は、編集領域E1のスライドのデータと関連付けて、合成音声を記録する。これにより、スライドに合成音声が添付される。その結果、スライド再生時に同期して合成音声を再生することが可能になる。
本実施形態のスライド編集システムによれば、ユーザは、スライドの再生時間を指定すると、この再生時間に再生することのできる発話のテキスト量を知ることができる。そのため、スライドの再生時間に合わせた合成音声のテキストを、効率よく入力することが可能になる。なお、第2〜6の実施形態にかかる合成音声テキスト入力装置も、同様に、スライド編集システムに組み込むことができる。
[ハードウェア構成の例]
図22は、上記第1〜6の実施形態における合成音声テキスト入力装置1a〜1eを含む映像編集装置が実装されるコンピュータの構成例を示す図である。装置の処理を制御するCPU1301、一時的にデータを格納するRAM1302、映像や編集のためのGUIを表示するCRTやLCDなどの表示装置1303、合成音声を出力するスピーカ、ヘッドホンなどの音響装置1304、ユーザが映像編集装置への操作を入力するためのキーボード、マウス、ポインティングデバイスなどの入力装置1305および記憶部1306を備える。
記憶部1306には、ハードディスク等の記録装置であり、例えば、合成音声テキスト入力装置1a〜1eの各機能を実現するためのプログラムおよびデータが記録される。このようなプログラムとして、例えば、動画表示プログラム、テキスト量計算プログラム、言語解析プログラム、韻律生成プログラム、波形生成プログラム、音声−動画同期プログラム等が記録される。
テキスト量計算プログラムは、上述した入力部、テキスト量計算部およびテキスト量出力部の処理をコンピュータに実行させるためのプログラムの一例である。言語解析プログラム、韻律生成プログラムおよび波形生成プログラムは、コンピュータを音声合成部として機能させるためのプログラムの一例である。CPU1301は、各プログラムを読み込み、各プログラムに従って処理を実行することにより、コンピュータが合成音声テキスト入力装置として機能する。このようなプログラムおよびプログラムを記録した記録媒体も本発明の実施形態に含まれる。なお、スライド編集システムを構築する場合は、例えば、スライド表示プログラムや、上記音声関連付け部802等の機能を実現するための音声貼り付けプログラムなどが記録部に記録されてもよい。また、記憶部1306は、編集前の映像素材データや音声素材データ、さらに編集後の映像コンテンツ作品データ、あるいはスライド素材データ等を格納する目的にも使用される。
上記第1〜6の実施形態では、合成音声テキスト入力装置が映像編集またはスライド編集における合成音声テキストの入力に用いられる場合を説明したが、合成音声テキスト入力装置の用途は、上記例に限られない。その他の合成音声や読み上げ音声用のテキストの入力に用いられてもよい。
なお、上記第1〜第6の実施形態における合成音声テキスト入力装置は、音声合成装置、映像編集装置またはスライド編集装置の一部に用いることができる。したがって、上記実施形態の合成音声テキスト入力装置の機能を含む音声合成装置、映像編集装置およびスライド編集装置も本発明の実施形態に含まれる。
1、1a〜1e 合成音声テキスト入力装置
10 スライド編集システム
101 入力部
102 音声合成部
103 音声出力部
104、401 テキスト量出力部
105、204、402 テキスト量計算部
301 計算式変更部
501 韻律修正部
601 映像データ入力部
602 映像音声同期部
603 映像データ出力部
801 スライド素材入力部
802 音声関連付け部
803 スライド再生部

Claims (12)

  1. 合成する音声をおさめる時間である設定時間長と、合成音声のテキストとの入力を受付ける入力部と、
    前記入力部で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算部と、
    前記入力部が前記合成音声のテキストを受付ける際に、前記テキスト量計算部で算出された前記テキストの量を出力するテキスト量出力部と、
    前記入力部で入力された前記合成音声のテキストを合成音声に変換する音声合成部を備え、
    前記音声合成部は、前記設定時間長の合成音声として、すでに前記入力部が受付けた部分のテキストに対応する部分合成音声の時間長を計算し、
    前記テキスト量計算部は、前記音声合成部が計算した前記部分合成音声の時間長を用いて、前記設定時間長の合成音声として入力可能なテキストの量を修正する、合成音声テキスト入力装置。
  2. 合成する音声をおさめる時間である設定時間長と、合成音声のテキストとの入力を受付ける入力部と、
    前記入力部で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算部と、
    前記入力部が前記合成音声のテキストを受付ける際に、前記テキスト量計算部で算出された前記テキストの量を出力するテキスト量出力部と、
    前記入力部で入力された合成音声のテキストを合成音声に変換する音声合成部を備え、
    前記音声合成部は、前記入力部で入力された合成音声のテキストを解析して、当該テキストの読み情報を含む中間表記を生成する言語処理部と、
    前記言語処理部で生成された前記中間表記から、前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンを生成する韻律生成部と、
    前記韻律生成部が生成した前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンから合成音声を生成する波形生成部とを含み、
    前記テキスト量計算部は、前記音声合成部の韻律生成部が計算した前記合成音声の時間長をさらに用いて、前記設定時間長の合成音声として入力可能なテキストの量を算出する、合成音声テキスト入力装置。
  3. 合成する音声をおさめる時間である設定時間長と、合成音声のテキストとの入力を受付ける入力部と、
    前記入力部で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算部と、
    前記入力部が前記合成音声のテキストを受付ける際に、前記テキスト量計算部で算出された前記テキストの量を出力するテキスト量出力部と、
    前記入力部で入力された合成音声のテキストを合成音声に変換する音声合成部と、
    計算式変更部とを備え、
    前記音声合成部は、前記設定時間長の合成音声として、すでに前記入力部が受付けた部分のテキストの部分読み情報および当該テキストに対応する部分合成音声の時間長を生成し、
    前記テキスト量計算部は、設定時間をテキストの量に変換するための値を含む計算式に、前記設定時間長を代入することにより、前記設定時間長の合成音声として入力可能なテキストの量を算出し、
    前記計算式変更部は、前記音声合成部が生成した前記部分読み情報および前記部分合成音声の時間長の少なくともいずれかに基づいて、前記計算式の前記値を変更する、合成音声テキスト入力装置。
  4. 記音声合成部は、前記入力部で入力された合成音声のテキストを解析して、当該テキストの読み情報を含む中間表記を生成する言語処理部と、
    前記言語処理部で生成された前記中間表記から、前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンを生成する韻律生成部と、
    前記韻律生成部が生成した前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンから合成音声を生成する波形生成部とを含み、
    前記韻律生成部により生成された前記合成音声の時間長が前記設定時間長に近づくように、前記合成音声の時間長を伸長または短縮するか、あるいは、合成音声の中に含まれるポーズの時間長を伸長または短縮する韻律修正部をさらに備える、請求項1〜3のいずれか1項に記載の合成音声テキスト入力装置。
  5. 前記入力部は、前記合成音声の発話速度の入力をさらに受付け、
    前記テキスト量計算部は、前記入力部で受付けられた発話速度をさらに用いて、前記設定時間長の合成音声として入力可能なテキストの量を算出する、請求項1〜4のいずれか1項に記載の合成音声テキスト入力装置。
  6. 前記テキスト量計算部は、前記設定時間長の合成音声として入力可能なテキストの量の上限および下限を算出し、
    前記テキスト量出力部は、前記テキスト量計算部が算出した上限および下限で表される、入力可能なテキストの量の範囲を出力する、請求項1〜5のいずれか1項に記載の、合成音声テキスト入力装置。
  7. 前記入力部は、映像データの少なくとも一部の区間の指定をユーザから受付け、指定された区間に相当する時間を前記設定時間長とする、請求項1〜6のいずれか1項に記載の合成音声テキスト入力装置。
  8. 前記入力部で入力された合成音声のテキストを合成音声に変換する音声合成部と、
    前記入力部で受付けたテキストの合成音声と同期させる区間を含む映像データを入力する映像データ入力部と、
    前記音声合成部で変換される合成音声の時間長が前記設定時間長に近づくように、映像データを編集する映像音声同期部とを備える、請求項1〜7のいずれか1項に記載の合成音声テキスト入力装置。
  9. 合成音声合成する音声をおさめる時間である設定時間長と、合成音声のテキストとの入力を受付ける入力処理と、
    前記入力処理で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算処理と、
    前記入力処理で前記合成音声のテキストを受付ける際に、前記テキスト量計算処理で算出された前記テキストの量を出力するテキスト量出力処理と、
    前記入力処理で入力された前記合成音声のテキストを合成音声に変換する音声合成処理とをコンピュータに実行させ、
    前記音声合成処理は、前記設定時間長の合成音声として、すでに前記入力処理で受付けた部分のテキストに対応する部分合成音声の時間長を計算し、
    前記テキスト量計算処理は、前記音声合成処理で計算した前記部分合成音声の時間長を用いて、前記設定時間長の合成音声として入力可能なテキストの量を修正する、合成音声テキスト入力プログラム。
  10. 合成音声合成する音声をおさめる時間である設定時間長と、合成音声のテキストとの入力を受付ける入力処理と、
    前記入力処理で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算処理と、
    前記入力処理で前記合成音声のテキストを受付ける際に、前記テキスト量計算処理で算出された前記テキストの量を出力するテキスト量出力処理と、
    前記入力処理で入力された合成音声のテキストを合成音声に変換する音声合成処理とをコンピュータに実行させ、
    前記音声合成処理は、前記入力処理で入力された合成音声のテキストを解析して、当該テキストの読み情報を含む中間表記を生成する言語処理と、
    前記言語処理で生成された前記中間表記から、前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンを生成する韻律生成処理と、
    前記韻律生成処理で生成された前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンから合成音声を生成する波形生成処理とを含み、
    前記テキスト量計算処理は、前記韻律生成処理で計算された前記合成音声の時間長をさらに用いて、前記設定時間長の合成音声として入力可能なテキストの量を算出する、合成音声テキスト入力プログラム。
  11. 合成音声合成する音声をおさめる時間である設定時間長と、合成音声のテキストとの入力を受付ける入力処理と、
    前記入力処理で入力された合成音声の設定時間長を基に、当該設定時間長の合成音声として入力可能なテキストの量を算出するテキスト量計算処理と、
    前記入力処理で前記合成音声のテキストを受付ける際に、前記テキスト量計算処理で算出された前記テキストの量を出力するテキスト量出力処理と、
    前記入力処理で入力された合成音声のテキストを合成音声に変換する音声合成処理と、
    計算式変更処理とをコンピュータに実行させ、
    前記音声合成処理は、前記設定時間長の合成音声として、すでに前記入力処理で受付けた部分のテキストの部分読み情報および当該テキストに対応する部分合成音声の時間長を生成し、
    前記テキスト量計算処理は、設定時間をテキストの量に変換するための値を含む計算式に、前記設定時間長を代入することにより、前記設定時間長の合成音声として入力可能なテキストの量を算出し、
    前記計算式変更処理は、前記音声合成処理で生成された前記部分読み情報および前記部分合成音声の時間長の少なくともいずれかに基づいて、前記計算式の前記値を変更する、合成音声テキスト入力プログラム。
  12. 記音声合成処理は、前記入力処理で入力された合成音声のテキストを解析して、当該テキストの読み情報を含む中間表記を生成する言語処理と、
    前記言語処理で生成された前記中間表記から、前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンを生成する韻律生成処理と、
    前記韻律生成処理で生成された前記テキストに対応する合成音声の時間長と、前記テキストに相当する合成音声の高さの変化パターンであるピッチパターンから合成音声を生成する波形生成処理とを含み、
    前記韻律生成処理により生成された前記合成音声の時間長が前記設定時間長に近づくように、前記合成音声の時間長を伸長または短縮するか、あるいは、合成音声の中に含まれるポーズの時間長を伸長または短縮する韻律修正処理をさらにコンピュータに実行させる、請求項9〜11のいずれか1項に記載の合成音声テキスト入力プログラム。
JP2009209409A 2009-09-10 2009-09-10 合成音声テキスト入力装置及びプログラム Expired - Fee Related JP5482042B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009209409A JP5482042B2 (ja) 2009-09-10 2009-09-10 合成音声テキスト入力装置及びプログラム
US12/879,299 US8504368B2 (en) 2009-09-10 2010-09-10 Synthetic speech text-input device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009209409A JP5482042B2 (ja) 2009-09-10 2009-09-10 合成音声テキスト入力装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2011059412A JP2011059412A (ja) 2011-03-24
JP5482042B2 true JP5482042B2 (ja) 2014-04-23

Family

ID=43648399

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009209409A Expired - Fee Related JP5482042B2 (ja) 2009-09-10 2009-09-10 合成音声テキスト入力装置及びプログラム

Country Status (2)

Country Link
US (1) US8504368B2 (ja)
JP (1) JP5482042B2 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech
JP2012088969A (ja) * 2010-10-20 2012-05-10 Sharp Corp 入力表示装置、入力表示方法、コンピュータプログラム及び記録媒体
US10019995B1 (en) * 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US9489121B2 (en) * 2011-11-02 2016-11-08 Microsoft Technology Licensing, Llc Optimal display and zoom of objects and text in a document
JP6127371B2 (ja) * 2012-03-28 2017-05-17 ヤマハ株式会社 音声合成装置および音声合成方法
JP2013218406A (ja) * 2012-04-05 2013-10-24 Nippon Telegraph & Telephone West Corp タイミング編集装置、タイミング編集方法及びコンピュータプログラム
US9570090B2 (en) * 2015-05-26 2017-02-14 Google Inc. Dialog system with automatic reactivation of speech acquiring mode
US10339406B2 (en) * 2013-03-15 2019-07-02 Orcam Technologies Ltd. Apparatus and method for using background change to determine context
JP5913394B2 (ja) * 2014-02-06 2016-04-27 Psソリューションズ株式会社 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム
US9625943B2 (en) * 2014-08-15 2017-04-18 Masami Sakita Mobile keyboard
US9794842B2 (en) * 2015-05-21 2017-10-17 At&T Mobility Ii Llc Facilitation of handover coordination based on voice activity data
JP2017116710A (ja) * 2015-12-24 2017-06-29 大日本印刷株式会社 音声配信システムおよび文書配信システム
US10692494B2 (en) * 2017-05-10 2020-06-23 Sattam Dasgupta Application-independent content translation
JP7215033B2 (ja) * 2018-09-18 2023-01-31 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム
JP2020053832A (ja) * 2018-09-27 2020-04-02 ヤマハ株式会社 情報処理方法および情報処理装置
EP3921770A4 (en) * 2019-02-05 2022-11-09 Igentify Ltd. SYSTEM AND METHOD FOR MODULATION OF DYNAMIC GAPS IN SPEECH
US10929596B2 (en) * 2019-05-15 2021-02-23 International Business Machines Corporation Pattern based electronic dictionary modification and presentation
US11017157B2 (en) 2019-05-15 2021-05-25 International Business Machines Corporation Group pattern based electronic dictionary modification and presentation
US11276419B2 (en) * 2019-07-30 2022-03-15 International Business Machines Corporation Synchronized sound generation from videos
JP7128222B2 (ja) 2019-10-28 2022-08-30 ネイバー コーポレーション 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
CN110769167A (zh) * 2019-10-30 2020-02-07 合肥名阳信息技术有限公司 一种基于文字转语音技术进行视频配音的方法
US11302300B2 (en) * 2019-11-19 2022-04-12 Applications Technology (Apptek), Llc Method and apparatus for forced duration in neural speech synthesis
KR102465870B1 (ko) * 2021-03-17 2022-11-10 네이버 주식회사 이미지에 대한 음성합성에 기반하여 영상 컨텐츠를 생성하는 방법 및 시스템
CN113674731A (zh) * 2021-05-14 2021-11-19 北京搜狗科技发展有限公司 语音合成处理方法、装置和介质
CN113345408B (zh) * 2021-06-02 2022-12-27 云知声智能科技股份有限公司 中英文语音混合合成方法、装置、电子设备和存储介质

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06131148A (ja) 1992-10-15 1994-05-13 Fujitsu Ltd 音声合成装置
JPH06195094A (ja) 1992-12-25 1994-07-15 Canon Inc 表音文字列表示方法及び音声合成装置
US5842172A (en) * 1995-04-21 1998-11-24 Tensortech Corporation Method and apparatus for modifying the play time of digital audio tracks
JP3976811B2 (ja) * 1996-01-10 2007-09-19 キヤノン株式会社 文書処理装置及び文書処理装置における文書処理方法
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
JP3741524B2 (ja) * 1997-09-11 2006-02-01 日本放送協会 ナレーション作成収録支援装置
JP3426957B2 (ja) 1998-04-22 2003-07-14 日本電信電話株式会社 映像中への音声録音支援表示方法及び装置及びこの方法を記録した記録媒体
JP2001027996A (ja) * 1999-07-13 2001-01-30 Sony Corp 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体
US20030014253A1 (en) * 1999-11-24 2003-01-16 Conal P. Walsh Application of speed reading techiques in text-to-speech generation
US6757362B1 (en) * 2000-03-06 2004-06-29 Avaya Technology Corp. Personal virtual assistant
JP2001282279A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理方法及び装置及び記憶媒体
JP4067762B2 (ja) * 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
JP3879402B2 (ja) * 2000-12-28 2007-02-14 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
US6661418B1 (en) * 2001-01-22 2003-12-09 Digital Animations Limited Character animation system
JP2003216173A (ja) 2002-01-28 2003-07-30 Toshiba Corp 合成音声及び映像の同期制御方法、装置及びプログラム
US7299182B2 (en) * 2002-05-09 2007-11-20 Thomson Licensing Text-to-speech (TTS) for hand-held devices
WO2004027754A1 (en) * 2002-09-17 2004-04-01 Koninklijke Philips Electronics N.V. A method of synthesizing of an unvoiced speech signal
CN1813285B (zh) * 2003-06-05 2010-06-16 株式会社建伍 语音合成设备和方法
JP4080989B2 (ja) * 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
WO2005088634A1 (en) * 2004-03-17 2005-09-22 Lg Electronics Inc. Recording medium, method, and apparatus for reproducing text subtitle streams
JP2005309173A (ja) 2004-04-23 2005-11-04 Nippon Hoso Kyokai <Nhk> 音声合成制御装置、その方法、そのプログラムおよび音声合成用データ生成装置
EP1835488B1 (en) * 2006-03-17 2008-11-19 Svox AG Text to speech synthesis
US7693717B2 (en) * 2006-04-12 2010-04-06 Custom Speech Usa, Inc. Session file modification with annotation using speech recognition or text to speech
JP5029167B2 (ja) * 2007-06-25 2012-09-19 富士通株式会社 音声読み上げのための装置、プログラム及び方法
JP4973337B2 (ja) 2007-06-28 2012-07-11 富士通株式会社 音声読み上げのための装置、プログラム及び方法
US8620662B2 (en) * 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US8244546B2 (en) * 2008-05-28 2012-08-14 National Institute Of Advanced Industrial Science And Technology Singing synthesis parameter data estimation system

Also Published As

Publication number Publication date
US8504368B2 (en) 2013-08-06
US20110060590A1 (en) 2011-03-10
JP2011059412A (ja) 2011-03-24

Similar Documents

Publication Publication Date Title
JP5482042B2 (ja) 合成音声テキスト入力装置及びプログラム
JP4539537B2 (ja) 音声合成装置,音声合成方法,およびコンピュータプログラム
JP4973337B2 (ja) 音声読み上げのための装置、プログラム及び方法
KR101005949B1 (ko) 음성 읽어내기를 위한 장치, 기록 매체 및 방법
JPH10153998A (ja) 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JP2008249808A (ja) 音声合成装置、音声合成方法及びプログラム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP2008083239A (ja) 中間言語編集装置、中間言語編集方法および中間言語編集プログラム
JP2010128103A (ja) 音声合成装置、音声合成方法、および音声合成プログラム
JP2003337592A (ja) 音声合成方法及び音声合成装置及び音声合成プログラム
JP4744338B2 (ja) 合成音声生成装置
JP2009133890A (ja) 音声合成装置及びその方法
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP2009216724A (ja) 音声生成装置及びコンピュータプログラム
JP6486582B2 (ja) 電子機器、音声制御方法、およびプログラム
JP2009216723A (ja) 類似音声選択装置、音声生成装置及びコンピュータプログラム
JP6727477B1 (ja) ピッチパターン補正装置、プログラム及びピッチパターン補正方法
JP6762454B1 (ja) ピッチパターン補正装置、プログラム及びピッチパターン補正方法
JP5620776B2 (ja) 話速調整装置、音声合成システム、およびプログラム
JP6340839B2 (ja) 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム
JP7004872B2 (ja) ピッチパターン補正装置、プログラム及びピッチパターン補正方法
JP2003330482A (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JP6159436B2 (ja) 読み記号列編集装置および読み記号列編集方法
JP2016122033A (ja) 記号列生成装置、音声合成装置、音声合成システム、記号列生成方法、及びプログラム
JP2004054063A (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130819

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130821

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140203

R150 Certificate of patent or registration of utility model

Ref document number: 5482042

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees