JP2000020744A - 動画像と合成音声によるコンテンツ制作方法およびプログラム記録媒体 - Google Patents

動画像と合成音声によるコンテンツ制作方法およびプログラム記録媒体

Info

Publication number
JP2000020744A
JP2000020744A JP10190185A JP19018598A JP2000020744A JP 2000020744 A JP2000020744 A JP 2000020744A JP 10190185 A JP10190185 A JP 10190185A JP 19018598 A JP19018598 A JP 19018598A JP 2000020744 A JP2000020744 A JP 2000020744A
Authority
JP
Japan
Prior art keywords
moving image
fragment
voice
content
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10190185A
Other languages
English (en)
Inventor
Masanobu Abe
匡伸 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10190185A priority Critical patent/JP2000020744A/ja
Publication of JP2000020744A publication Critical patent/JP2000020744A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 少ない情報量でムービー(音声と動画を同時
再生)を可能とする。 【解決手段】 入力テキスト101を、蓄積部102の
音声断片を用いて規則合成法により音声合成し(10
3)、コンテンツ制作者はテキストの内容に応じて蓄積
部106中の、キャラクタの基本動作(喋っている動
作、驚きの動作、泣いている動作など)の動画像断片を
組合せて、動画像を構成し、これらの音声断片、動画像
断片の各インデックスにてコンテンツとし、復号側で
は、このコンテンツのインデックスで対応音声断片、動
画像断片を用いて音声合成と動画像の再生を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、ムービーのよう
に動画像と音声とを同時に表示できるコンテンツを制作
する方法及びプログラム記録媒体に関する。
【0002】
【従来の技術】物事の意味や、物の使い方を説明する場
合、文字、図、写真等だけによる説明、または、音声だ
けによる説明では、理解者にとっては、理解が困難であ
ったり、理解に時間を要することがままある。また、解
説者にとっては、解説するための資料の作成などに多大
な労力が必要となる。これに対し、音声と動画像、音声
とアニメーションを組み合わせれば、理解し易い説明を
容易に実現できることが多い。また、音声だけによるア
ナウンスよりも、キャラクタが身振り手振りをしながら
音声でアナウンスする場合の方が、面白く、親しみが湧
くことがある。この発明によれば、以上のようなコンテ
ンツを作成することができる。
【0003】従来のムービーは、人間や背景の録画、コ
ンピュータによる動画像の制作、アニメーションによる
動画の作成と、人間の発声した音声や効果音との組み合
わせで構成されている。これらのムービーは、情報量が
多く、その蓄積や伝送のための費用が高い。
【0004】
【発明が解決しようとする課題】上述のように、ムービ
ーなどのような音声と動画像を同時に利用できるコンテ
ンツは便利なものであるが、コンテンツの容量が多く、
それらのコンテンツを快適に利用するためには制限があ
る。特に、最近広く普及したインターネットは、伝送容
量が少ないため伝送時間が長くなり、ムービーを使うの
に適した環境であるとは言い難い。この発明は、ムービ
ーをネットワーク経由で利用する上で、その伝送量が膨
大であるという問題を解決する。
【0005】
【課題を解決するための手段】日本語を構成する音素は
有限であり、任意の日本語は有限個の音素(音声の断
片)の組み合わせで表現できると考えられる。また、ム
ービーであっても、ある限られたタスクにおいては、有
限個の動画像の断片を組み合わせて表現することが可能
である。この発明では、有限個の音声の断片や有限個の
動画像の断片を蓄積しておき、これらを組み合わせるこ
とによってムービーを音声断片や動画像断片のインデッ
クス列として再構成する。これによって、伝送側から受
信側に送られるデータは、音素や動画像の断片ではな
く、そのインデックス情報ですみ、格段に伝送容量を減
らすことができる。
【0006】
【発明の実施の形態】図1はこの発明の一実施例の構成
を示す。図1Aはコンテンツを作成する流れを、図1B
は作成したコンテンツを再生する流れを示す。これを参
照して具体的動作について説明する。コンテンツを作成
する手順において、入力101は、ワープロ等で作成し
たかな漢字混じり文、つまりテキストである。音声断片
データが音声蓄積部102に蓄積されている。この実施
例では、任意の日本語を合成する場合を想定しているの
で、音声蓄積部102に蓄積されている音声断片データ
は日本語の音素や音素を連ねた音声断片とそのインデッ
クスを集めたものである。任意の日本語を合成する必要
が無い場合には、限られた音声とそのインデックスを蓄
えておくことも考えられる。
【0007】音声合成器103は、入力されたテキスト
101を、音声蓄積部102を参照して音声を合成す
る。合成音声における基本周期、長さ、強さなどの韻律
パラメータを操作するためのツール104は音声合成器
103で合成された音声のイントネーションが不十分で
あると考えられるときにコンテンツの制作者が使うもの
である。一般に、テキストから音声を合成する場合、感
情や文脈等の情報を適切に表現することが難しいため、
韻律パラメータエディットツール104によるエディッ
トは有効である。以上の結果として合成音声105が生
成される。なお、この種のエディットツールの手法につ
いては、例えば情報処理学会音声言語情報処理研究会1
997年7月19日発表の予稿「様々な音声表現を実現
できる音声作成ツール」に記載されている。
【0008】動画像蓄積部106に蓄積する動画像断片
データとして、キャラクタの基本動作とそのインデック
スを蓄積しておくことが考えられる。キャラクタの基本
動作とは、前向きで喋っている動作、横向きで喋ってい
る動作、驚きの動作、泣いている動作、誉めている動
作、走っている動作などであり、これらの基本動作を組
み合わせることによってキャラクタに演技をさせる。ツ
ール107で、合成音声105に対して、動画像断片デ
ータを添付する。つまり合成音声105の部分部分に、
その発話内容に適した基本動作を制作者が動画像蓄積部
106から選択して割り当てる。さらに、合成音声10
5の開始時間、動画像断片の開始時間の相対関係を設定
したり、合成音声と動画像の時間長が異なる場合の動作
を設定する。例えば、合成音声が動画像より短い場合に
は、音声の終了と同時に動画像を中断するか、音声が終
了しても動画像を最後まで再生するか、を設定する。逆
に、合成音声が動画像より長い場合には、動画像を繰り
返し再生するか、動画像を終了時点で停止させておく
か、を設定する。以上のように、合成音声105と動画
像との対応付けを設定した後に、これら合成音声と動画
像について音声の断片インデックス(符号)、音声合成
のための韻律情報、動画像断片インデックス(符号)お
よび、合成音声と動画像の時間関係の情報を保存し、符
号系列、つまりコンテンツ108とする。このコンテン
ツ108に保存されるデータは、これらを用いて再生さ
れる動画像、および、音声に比べると4桁以上少なくな
る。
【0009】次に、図1Bを参照して、コンテンツ10
8を再生する手順を説明する。図1Aに示したコンテン
ツ作成手順にしたがって作成されたデータ(コンテン
ツ)108は、そのコンテンツ作成で用いた音声断片デ
ータを音声蓄積部102から、また動画像断片データを
動画像蓄積部106からそれぞれ取出し、これらデータ
を基に、音声の合成と動画の再生を合成・再生部109
で行って、ムービーを構成する。
【0010】なおコンテンツ制作時に、合成音声の韻律
パラメータとしては、規則合成で得られたものをそのま
ま用い、エディットツール104による修正は行わなく
てもよい。
【0011】
【発明の効果】この発明の特徴は、(1)ムービーを構
成する動画像と音声を、有限の音声断片データと動画像
断片データとによって表現すること、(2)コンテンツ
作成で用いた音声断片データと動画像断片データとを、
コンテンツ再生側に蓄積しておくこと、にある。その結
果、コンテンツ作成側からコンテンツ再生側に送られる
データはその音声断片データ、動画像断片データの各イ
ンデックスとすることができ、再生されるムービーの情
報量に比べて、格段に少ない情報量ですむ。
【0012】この発明によって作成されたコンテンツ
は、情報量が少ないため、インターネットなど、伝送速
度が遅い場合でも待ち時間を少なく押さえて、ムービー
による表現を実現できる。また、伝送速度が速い場合で
も、安価にムービーを利用できることとなる。
【図面の簡単な説明】
【図1】Aはこの発明によるコンテンツ制作方法の処理
手順の例を示す流れ図、Bはそのコンテンツから合成音
声付き動画像を作成する方法の手順を示す流れ図であ
る。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 音声の断片とそれを示すインデックス、
    および、動画像の断片とそれを示すインデックスとを蓄
    積しておき、 入力されたテキストに応じて前記蓄積音声断片を参照し
    て音声断片のインデックス列を作ると共に韻律パラメー
    タを付加し、かつ前記入力テキストに応じて前記蓄積動
    画像断片から選んで動画像断片のインデックス列を構成
    し、1つのコンテンツを作成する動画像と合成音声によ
    るコンテンツ制作方法。
  2. 【請求項2】 前記音声の断片として、規則合成方法で
    利用される音声断片を用い、規則合成方法によって前記
    符号列のテキストから音声合成を行い、その合成音声を
    用いることを特徴とする請求項1記載の動画像と合成音
    声によるコンテンツ制作方法。
  3. 【請求項3】 前記音声の断片として、規則合成方法で
    利用される音声断片を用い、合成音声の韻律パラメータ
    や、音素パラメータを制作者が操作して作成した合成音
    声を用いることを特徴とする請求項2記載の動画像と合
    成音声によるコンテンツ制作方法。
  4. 【請求項4】 前記動画像の断片として、キャラクタの
    基本動作を蓄積しておき、この基本動作の組み合わせに
    よって動画像の断片のインデックス列を構成することを
    特徴とする請求項1乃至3の何れかに記載の動画像と合
    成音声によるコンテンツ制作方法。
  5. 【請求項5】 入力テキストに応じた音声と動画像を組
    合せたコンテンツを、コンピュータ処理により制作する
    プログラムを記録した記録媒体であって、 前記入力テキストを解析して音声断片蓄積部の音声断片
    を用いて規則合成法によって音声合成してそのインデッ
    クス列として前記音声を表現する処理と、 前記入力テキストの内容に応じて、動画像断片蓄積部の
    動画像断片が選択合成されたものを、そのインデックス
    列として前記動画像を表現する処理と、 前記音声断片のインデックス列及び前記動画像断片のイ
    ンデックス列の組を1つのコンテンツとして出力する処
    理とを上記コンピュータに行わせることを特徴とするプ
    ログラムを記録した記録媒体。
  6. 【請求項6】 音声断片のインデックス列と動画像断片
    のインデックス列の組合せよりなるコンテンツをコンピ
    ュータにより再生するプログラムを記録した記録媒体で
    あって、 前記音声断片のインデックス列の各インデックスを、音
    声断片蓄積部を参照して音声断片列よりなる音声に変換
    する処理と、 前記動画像断片のインデックス列の各インデックスを、
    動画像断片蓄積部を参照して動画像断片列よりなる動画
    像に変換する処理とを同時にコンピュータに実行させる
    ことを特徴とするプログラムを記録した記録媒体。
JP10190185A 1998-07-06 1998-07-06 動画像と合成音声によるコンテンツ制作方法およびプログラム記録媒体 Pending JP2000020744A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10190185A JP2000020744A (ja) 1998-07-06 1998-07-06 動画像と合成音声によるコンテンツ制作方法およびプログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10190185A JP2000020744A (ja) 1998-07-06 1998-07-06 動画像と合成音声によるコンテンツ制作方法およびプログラム記録媒体

Publications (1)

Publication Number Publication Date
JP2000020744A true JP2000020744A (ja) 2000-01-21

Family

ID=16253876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10190185A Pending JP2000020744A (ja) 1998-07-06 1998-07-06 動画像と合成音声によるコンテンツ制作方法およびプログラム記録媒体

Country Status (1)

Country Link
JP (1) JP2000020744A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004105035A1 (en) * 2003-05-26 2004-12-02 Koninklijke Philips Electronics N.V. System and method for generating audio-visual summaries for audio-visual program content
JP2005062420A (ja) * 2003-08-11 2005-03-10 Nec Corp コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム
US6947893B1 (en) 1999-11-19 2005-09-20 Nippon Telegraph & Telephone Corporation Acoustic signal transmission with insertion signal for machine control
US7086016B2 (en) 2002-06-20 2006-08-01 Fujitsu Limited Method and apparatus for verifying logical equivalency between logic circuits

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6947893B1 (en) 1999-11-19 2005-09-20 Nippon Telegraph & Telephone Corporation Acoustic signal transmission with insertion signal for machine control
US7657435B2 (en) 1999-11-19 2010-02-02 Nippon Telegraph Acoustic signal transmission method and apparatus with insertion signal
US7949519B2 (en) 1999-11-19 2011-05-24 Nippon Telegraph And Telephone Corporation Information communication apparatus, transmission apparatus and receiving apparatus
US8635072B2 (en) 1999-11-19 2014-01-21 Nippon Telegraph And Telephone Corporation Information communication using majority logic for machine control signals extracted from audible sound signals
US7086016B2 (en) 2002-06-20 2006-08-01 Fujitsu Limited Method and apparatus for verifying logical equivalency between logic circuits
WO2004105035A1 (en) * 2003-05-26 2004-12-02 Koninklijke Philips Electronics N.V. System and method for generating audio-visual summaries for audio-visual program content
US7890331B2 (en) 2003-05-26 2011-02-15 Koninklijke Philips Electronics N.V. System and method for generating audio-visual summaries for audio-visual program content
JP2005062420A (ja) * 2003-08-11 2005-03-10 Nec Corp コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム

Similar Documents

Publication Publication Date Title
US6442517B1 (en) Methods and system for encoding an audio sequence with synchronized data and outputting the same
US20090006965A1 (en) Assisting A User In Editing A Motion Picture With Audio Recast Of A Legacy Web Page
CN112334973B (zh) 用于创建基于对象的音频内容的方法和系统
JP2007242012A (ja) デジタル・オーディオ・プレーヤ上で電子メールをレンダリングするための電子メール管理のための方法、システム、およびプログラム(デジタル・オーディオ・プレーヤ上で電子メールをレンダリングするための電子メール管理)
JPH0833744B2 (ja) 音声合成装置
JP2001034282A (ja) 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
CN110164413B (zh) 语音合成方法、装置、计算机设备和存储介质
Bhatnagar et al. Introduction to multimedia systems
JP2000020744A (ja) 動画像と合成音声によるコンテンツ制作方法およびプログラム記録媒体
KR100710600B1 (ko) 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동동기 생성/재생 방법 및 그 장치
JP4533234B2 (ja) 記録再生装置及び記録再生方法
JP2005321706A (ja) 電子書籍の再生方法及びその装置
CN116312471A (zh) 语音迁移、语音交互方法、装置、电子设备及存储介质
KR20180078197A (ko) 이 보이스북 편집장치 및 재생장치
JP2009271315A (ja) 音声二次元コードから音声を再生可能な携帯電話機および音声二次元コードを含む二次元コードが表示された印刷物
JP2006153908A (ja) 音声データエンコード装置および音声データデコード装置
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
JPH10274999A (ja) 文書読み上げ装置
JP3620787B2 (ja) 音声データの符号化方法
Mitra Introduction to multimedia systems
Forrest “The mind/is listening”: Aurality and Noise Poetics in the Poetry of William Carlos Williams
CN113938745B (zh) 一种视频生成方法、终端及存储介质
WO2023090419A1 (ja) コンテンツ生成装置、コンテンツ生成方法、及びプログラム
CN116403564B (zh) 一种音频编辑方法及装置、电子设备及存储介质
JP4563418B2 (ja) 音声処理装置、音声処理方法、ならびに、プログラム

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040622