JPH10171486A - 動画像とテキスト/音声変換器間の同期化システム - Google Patents

動画像とテキスト/音声変換器間の同期化システム

Info

Publication number
JPH10171486A
JPH10171486A JP9294278A JP29427897A JPH10171486A JP H10171486 A JPH10171486 A JP H10171486A JP 9294278 A JP9294278 A JP 9294278A JP 29427897 A JP29427897 A JP 29427897A JP H10171486 A JPH10171486 A JP H10171486A
Authority
JP
Japan
Prior art keywords
information
phoneme
lip
text
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9294278A
Other languages
English (en)
Other versions
JP3599538B2 (ja
Inventor
Zaiu Ryo
在宇 梁
Seitetsu Ri
政哲 李
Binshu Kan
敏洙 韓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Publication of JPH10171486A publication Critical patent/JPH10171486A/ja
Application granted granted Critical
Publication of JP3599538B2 publication Critical patent/JP3599538B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/02Analogue recording or reproducing
    • G11B20/04Direct recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • G06F16/4387Presentation of query results by the use of playlists
    • G06F16/4393Multimedia presentations, e.g. slide shows, multimedia albums

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】TTS方式を利用して動画像にダビングをする
のに、或いはアニメーションのような媒体及び合成音間
の同期化を具現するのに必要な情報は、テキストから推
定することが不可能である。このため、テキスト情報だ
けで動画像と自然に連動する合成音を作り出すことには
多くの困難がある。 【解決手段】同映像と音声信号間の同期化を具現できる
ように、唇の動く時刻と持続時間情報とを利用して合成
音を生成することにより、動画像とテキスト/音声変換
器との間の同期化を図る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、映像に音声信号を
付加するダビング方法において、動画像の唇の動きによ
り、動画像とテキスト/音声変換器(Text-to-speech c
onversion system、以下TTSという)間の同期化を行
う技術に関する。
【0002】
【従来の技術】一般的に、音声合成器の機能は、コンピ
ュータが使用者である人間に多様な形態の情報を音声で
提供することにある。このため、音声合成器は、使用者
に与えられたテキストから高品質の音声合成サービスを
提供することができなければならない。更に、多重媒体
環境において製作されたデータベース、或いは対話相手
から提供される多様なメデイアと連動されるため、これ
らメデイアと同期化されるように合成音を生成すること
ができなければならない。特に、動画像とTTSとの同
期化は使用者に高品質のサービスを提供するためには必
須的である。
【0003】図1は、従来の合成器を説明するための図
面であり、入力されたテキストから合成音を生成するま
での一般的な3段階の過程を示したものである。
【0004】まず、1段階である言語処理部1では、入
力されたテキストを音素列に変換し、この音素列から韻
律情報を推定し、これをシンボル化する。韻律情報は、
構文構造分析結果を利用した句・節境界、単語内アクセ
ント位置、文型等から推定する。
【0005】2段階である韻律処理部2では、シンボル
化した韻律情報から規則及びテーブルを利用して韻律制
御パラメータの値を計算する。韻律制御パラメータに
は、音素の持続時間、ピッチ輪郭(contour)、エネル
ギ輪郭、休み区間情報等がある。
【0006】3段階の信号処理部3では、合成単位デー
タベース4と韻律制御パラメータとを利用して合成音を
生成する。
【0007】即ち、既存の合成器では、言語処理部1と
韻律処理部2とにおいて、自然性、発声速度と関連した
情報を、単に入力テキストだけで推定しなければならな
いことを意味する。
【0008】
【発明が解決しようとする課題】現在、世界的に多くの
国において、TTSに対する研究が自国語を対象として
進行しており、一部では商用化されている。しかし、従
来の合成器は、入力されたテキストから音声を合成する
用途に限られている。このため、多重媒体との連動を考
慮した合成方式に対する研究結果は、ほとんど全無とい
える。更に、従来のTTS方式を利用して動画像にダビ
ングするのに、或いはアニメーションのような媒体と合
成音間の同期化を具現するのに必要な情報は、テキスト
から推定することは不可能である。このため、テキスト
情報だけで、動く映像信号と自然に連動される合成音を
作り出すには多くの困難がある。したがって、動画像と
音声信号間の同期化を具現することができる方法は、唇
の動き時刻と持続時間情報とを利用して合成音を生成す
ることにより実現することができる。
【0009】動画像と合成音との同期化をダビングの概
念で観ると、その具現方法には3種がある。
【0010】1番目の方法は、文章単位で動画像と合成
音とを同期化させる方法である。文章の始まる点から終
わる点までの情報を利用して、合成音の持続時間を調節
する。この方法は、具現が容易であり付加的努力が最小
化される長所があるが、スム−ズな同期化にはおぼつか
ない。
【0011】2番目の方法は、動画像の音声信号と関連
する区間において、音素ごとに始まる点・終わる点情報
(持続時間情報)とその音素情報とを表記し、この情報
を合成音生成に利用する方法である。この方法は、音素
単位で、動画像と合成音との同期を合わせることができ
るため、正確度が高い長所がある。しかし、動画像の音
声区間において、音素ごとにその持続時間情報を検出し
て記録するため、多くの付加的努力を必要とする短所が
ある。
【0012】3番目の方法は、音声の始まる点、終わる
点情報(持続時間情報)、唇の開きや閉じあるいは前に
出すなどの唇の動きの弁別的特性が高いパターンを基準
にして、同期化情報を記録する方法である。この方法
は、同期化のための情報製作の付加的努力を最小化しな
がら同期化効率を高める方法である。
【0013】本発明の目的は、動画像における連続的な
唇の動きをイベント(event)単位に定型化・定規化
し、これら情報とTTS間のインターフェースを定義し
て、TTSでの合成音生成に使用することにより、動画
像と合成音間の同期化システムを提供することにある。
【0014】
【課題を解決するための手段】上記の目的を達成するた
め、本発明の動画像とテキスト/音声変換器間の同期化
システムは、多重媒体情報の入力を受け付けて各々のデ
ータ構造に変換して媒体別に分配する分配手段と、上記
分配手段により分配された多重媒体情報のうちの映像情
報の伝達を受け付ける映像出力手段と、上記分配手段に
より分配された多重媒体情報のうちの言語テキストの伝
達を受け付ける言語処理手段と、上記言語処理手段が受
け付けた言語テキストを、単語発音辞典と発音変換規則
とを用いて音素列に変換し、この音素列を、構文構造情
報を利用した韻律制御規則にしたがって、韻律情報であ
る音素別持続時間、ピッチ値およびエネルギ値を推定す
る韻律処理手段と、上記韻律処理手段での処理結果であ
る音素列および音素別持続時間にしたがい、音素別調音
特性から唇形を推定して時間軸上に配列するとともに、
音声と動画像との同期を図るため、これを上記分配手段
により分配された多重媒体情報のうちの同期化情報であ
る唇形を時間軸上に配列した結果と比較して、時間軸上
で唇形の近似度が最も高い韻律処理結果である音素別持
続時間を調整し、、これを上記韻律処理手段の処理結果
に包含して伝達する同期調整手段と、上記同期調整手段
の処理結果を受けて、合成に必要なデータを各音素別に
合成単位データベースから選択し、これを韻律情報であ
る音素別持続時間、ピッチ値、エネルギ値に合わせて修
正した後、合成フィルタを用いて合成音に変換して出力
する信号処理手段と、上記信号処理手段の要求により、
合成に必要な合成単位を選定した後、必要なデータを転
送する合成単位データベースブロックと、を備えている
ことを特徴とする。
【0015】
【発明の実施の形態】以下に、本発明の一実施形態につ
いて、図2および図3を参照して詳細に説明する。
【0016】図2は、本実施形態が適用されたハードウ
エアの構成図である。ここで、5は多重データ入力装
置、6は中央処理装置、7は合成データベース、8はデ
ジタル/アナログ(D/A)変換装置、9は映像出力装
置を示している。
【0017】多重データ入力装置5は、動画像、テキス
ト等の多重媒体で構成されたデータの入力を受け、これ
を中央処理装置6に出力する。中央処理装置6には、本
実施形態のアルゴリズムが搭載されている。合成データ
ベース7は、合成アルゴリズムに使用されるデータベー
スであり、記憶装置に貯蔵されている。合成データベー
ス7は、上記中央処理装置6に必要なデータを伝送す
る。デジタル/アナログ変換装置8は、合成が終わった
デジタルデータをアナログ信号に変換して外部に出力す
る。映像出力装置9は、入力された映像情報を画面に出
力する。
【0018】下記の<表1>は、本実施形態に適用され
る構造化された多重媒体情報の一例を示している。この
多重媒体情報は、テキスト、動画像、および同期化情報
でなる。さらに、同期化情報は、唇形、動画像内位置情
報、および持続時間情報でなる。
【0019】ここで、唇形は、下唇の下げ程度、上唇左
側終点における上下動き、上唇右側終点における上下動
き、下唇左側終点における上下の動き、下唇右側終点に
おける上下動き、上唇中央部分の上下動き、下唇中央部
分の上下動き、上唇の突き出し程度、下唇の突き出し程
度、唇中央から右側終点までの距離、および唇中央から
左側終点までの距離を表すデータに数値化することがで
きる。また、音素の調音位置や調音方法により唇形を定
量化、定規化したパターンに定義することもできる。動
画像内位置情報は、動画像の場面位置として定義され
る。また、持続時間情報は同一唇形が持続される間の場
面数として定義される。
【0020】
【表1】
【0021】図3は、本実施形態が適用された動画像と
韓国語テキスト/音声変換器間の同期化システムの機能
構成図である。ここで、10は多重媒体情報入力部、1
1は多重媒体分配器、12は標準化された言語処理部、
13は韻律処理部、14は同期調整器、15は信号処理
部、16は合成単位データベース、17は映像出力装置
を示している。
【0022】まず、多重媒体情報入力部10で受け付け
る多重媒体情報は、上記の<表1>に示した形式になっ
ており、テキスト、動画像、同期化情報(唇形、動画像
内位置情報、持続時間情報)とでなる。
【0023】多重媒体分配器11は、上記多重媒体情報
入力部10から伝達された多重媒体情報を媒体別に分配
する。具体的には、動画像を映像出力装置17に伝達
し、テキストを言語処理部12に伝達し、同期化情報を
同期調整器14で使用できるデータ構造に変換してから
上記同期調整器14に伝達する。
【0024】言語処理部12は、上記多重媒体分配器1
1から伝達されたテキストを、図示していないメモリな
どに記憶しておいた単語発音辞典および発音変換規則を
用いて音素列に変換する。そして、この音素列を、構文
構造情報から導かれる韻律制御規則にしたがって、韻律
情報である音素別持続時間、ピッチ値、エネルギ値を推
定する。すなわち、構文構造分析結果を利用した句・節
境界、単語内アクセント位置、文型等の韻律制御規則か
ら韻律情報を推定する。その後、韻律処理部13に送
る。
【0025】韻律処理部13は、上記言語処理部12の
処理結果を受けて、韻律制御パラメータの値を計算す
る。韻律制御パラメータには、音素の持続時間、ピッチ
輪郭、エネルギ輪郭、休み位置および長さがある。更
に、ここで計算された結果は、同期調整器14に伝達さ
れる。
【0026】同期調整器14は、上記韻律処理部13の
処理結果を受けて、後述する合成音を動画像と同期させ
るため、上記多重媒体分配器11から送られた同期化情
報を利用して音素毎にその持続時間を調整する。
【0027】ここで、上記音素別持続時間の調整は、先
ず、韻律処理部13での処理結果である音素列および音
素の持続時間にしたがい、音素別調音特性(各音素別調
音場所、調音方法)から各音素に割り当てられる唇形を
推定する。次いで、これを同期化情報に包含された唇形
と比較して、音素列を同期化情報に記録された唇形個数
だけ小グループに分離する。小グループ内の音素持続時
間は、同期化情報に包含されている、当該グループに属
する唇形に、最も近似する唇形の持続時間情報を利用し
て再び計算する。
【0028】すなわち、推定した唇形をその音素別持続
時間にしたがい時間軸上に配列した結果と、同期化情報
に包含される唇形を同期化情報に包含される位置情報や
持続時間にしたがい時間軸上に配列した結果と比較し
て、時間軸上で唇形の近似度が最も高い韻律処理結果で
ある音素別持続時間を調整する。
【0029】調整された持続時間情報は、上記韻律処理
部13の結果に包含され、信号処理部15に伝達され
る。信号処理部15は、上記同期調整器14の処理結果
を受け、合成に必要なデータを合成単位データベース1
6から選択する。そして、韻律情報に含まれる音素別持
続時間、ピッチ値、エネルギ値に合わせて修正した後、
図示していない合成フィルタを用いて合成音を生成し出
力する。
【0030】合成単位データベース16は、信号処理部
15の要求を受けて、必要な合成単位を選定した後、信
号処理部15に必要なデータを伝送する。
【0031】
【発明の効果】以上説明したように、本発明は、実際音
声データおよび動画像の唇形を分析し推定される唇形情
報と、テキスト情報とを合成音生成に直接利用する方式
を通じて、合成音と動画像との同期化を具現することに
より、外画等に韓国語などの言語ダビングを可能にす
る。このように、多重媒体環境において、映像情報とT
TSの同期化を可能にすることにより、通信サービス、
事務自動化、教育等多くの分野で応用することができ
る。
【図面の簡単な説明】
【図1】従来のテキスト/音声変換器のブロック構成図
である。
【図2】本発明の一実施形態が適用された動画像とテキ
スト/音声変換器間の同期化装置のハードウエア構成図
である。
【図3】本発明の一実施形態が適用された動画像と韓国
語テキスト/音声変換器間の同期化装置の機能構成図で
ある。
【符号の説明】
1、12 言語処理部 2、13 韻律処理部 3、15 信号処理部 4、16 合成単位データベース 5 データ入力装置 6 中央処理装置 7 合成データベース 8 D/A変換装置 9、17 映像出力装置 10 多重媒体情報入力部 11 多重媒体分配器 14 同期調整器

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】多重媒体情報の入力を受け付けて各々のデ
    ータ構造に変換して媒体別に分配する分配手段と、 上記分配手段により分配された多重媒体情報のうちの映
    像情報の伝達を受け付ける映像出力手段と、 上記分配手段により分配された多重媒体情報のうちの言
    語テキストの伝達を受け付ける言語処理手段と、 上記言語処理手段が受け付けた言語テキストを、単語発
    音辞典と発音変換規則とを用いて音素列に変換し、この
    音素列を、構文構造情報を利用した韻律制御規則にした
    がって、韻律情報である音素別持続時間、ピッチ値およ
    びエネルギ値を推定する韻律処理手段と、 上記韻律処理手段での処理結果である音素列および音素
    別持続時間にしたがい、音素別調音特性から唇形を推定
    して時間軸上に配列するとともに、音声と動画像との同
    期を図るため、これを上記分配手段により分配された多
    重媒体情報のうちの同期化情報である唇形を時間軸上に
    配列した結果と比較して、時間軸上で唇形の近似度が最
    も高い韻律処理結果である音素別持続時間を調整し、こ
    れを上記韻律処理手段の処理結果に包含して伝達する同
    期調整手段と、 上記同期調整手段の処理結果を受けて、合成に必要なデ
    ータを各音素別に合成単位データベースから選択し、こ
    れを韻律情報である音素別持続時間、ピッチ値、エネル
    ギ値に合わせて修正した後、合成フィルタを用いて合成
    音に変換して出力する信号処理手段と、 上記信号処理手段の要求により、合成に必要な合成単位
    を選定した後、必要なデータを転送する合成単位データ
    ベースブロックと、 を備えていることを特徴とする動画像とテキスト/音声
    変換器間の同期化システム。
  2. 【請求項2】請求項1記載の動画像とテキスト/音声変
    換器間の同期化システムにおいて、 上記多重媒体情報は、テキストと動画像と同期化情報と
    で構成され、 上記同期化情報は、唇形情報と、動画像内の位置情報
    と、同一唇形の持続時間情報とで構成されることを特徴
    とする動画像とテキスト/音声変換器間の同期化システ
    ム。
  3. 【請求項3】請求項2記載の動画像とテキスト/音声変
    換器間の同期化システムにおいて、 上記唇形情報は、下の唇の下げ程度、上の唇の左側端点
    における上下の動き、上の唇右側端点における上下の動
    き、下の唇左側端点における上下の動き、下の唇右側端
    点における上下の動き、上の唇の中央部分の上下の動
    き、下の唇の中央部分の上下の動き、上の唇の突き出し
    程度、下の唇の突き出し程度、唇中央から右側端点まで
    の距離、唇中央から左側端点までの距離について数値化
    されたデータ、あるいは、音素の調音位置、調音方法に
    よって定量化、定規化されたパターンに定義されている
    ことを特徴とする動画像とテキスト/音声変換器間の同
    期化システム。
  4. 【請求項4】請求項1記載の動画像とテキスト/音声変
    換器間の同期化システムにおいて、 上記同期調整手段は、同期化情報を利用してテキスト内
    の音素の調音方法、調音点を考慮した予測唇形と、同期
    化情報内の唇形及び同一唇形の持続時間とによって、動
    画像と同期を合わせるためのテキスト内の音素の持続時
    間を計算することを特徴とする動画像とテキスト/音声
    変換器間の同期化システム。
JP29427897A 1996-12-13 1997-10-27 動画像とテキスト/音声変換器間の同期化システム Expired - Fee Related JP3599538B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1019960065445A KR100236974B1 (ko) 1996-12-13 1996-12-13 동화상과 텍스트/음성변환기 간의 동기화 시스템
KR96-65445 1996-12-13

Publications (2)

Publication Number Publication Date
JPH10171486A true JPH10171486A (ja) 1998-06-26
JP3599538B2 JP3599538B2 (ja) 2004-12-08

Family

ID=19487716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29427897A Expired - Fee Related JP3599538B2 (ja) 1996-12-13 1997-10-27 動画像とテキスト/音声変換器間の同期化システム

Country Status (4)

Country Link
US (2) US5970459A (ja)
JP (1) JP3599538B2 (ja)
KR (1) KR100236974B1 (ja)
DE (1) DE19753453B4 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004528600A (ja) * 2001-05-25 2004-09-16 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100240637B1 (ko) * 1997-05-08 2000-01-15 정선종 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
US7366670B1 (en) * 1997-08-05 2008-04-29 At&T Corp. Method and system for aligning natural and synthetic video to speech synthesis
US6567779B1 (en) 1997-08-05 2003-05-20 At&T Corp. Method and system for aligning natural and synthetic video to speech synthesis
US7076426B1 (en) * 1998-01-30 2006-07-11 At&T Corp. Advance TTS for facial animation
US6539354B1 (en) 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation
US6975988B1 (en) 2000-11-10 2005-12-13 Adam Roth Electronic mail method and system using associated audio and visual techniques
US20020198716A1 (en) * 2001-06-25 2002-12-26 Kurt Zimmerman System and method of improved communication
CA2393014A1 (en) * 2001-07-11 2003-01-11 Genlyte Thomas Group Llc Switch/power drop unit for modular wiring system
US7694325B2 (en) * 2002-01-31 2010-04-06 Innovative Electronic Designs, Llc Information broadcasting system
JP4127668B2 (ja) * 2003-08-15 2008-07-30 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
KR100678938B1 (ko) * 2004-08-28 2007-02-07 삼성전자주식회사 영상과 자막의 동기화 조절 장치 및 방법
KR100710600B1 (ko) * 2005-01-25 2007-04-24 우종식 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동동기 생성/재생 방법 및 그 장치
FR2899714B1 (fr) 2006-04-11 2008-07-04 Chinkel Sa Systeme de doublage de film.
CN101359473A (zh) 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
DE102007039603A1 (de) * 2007-08-22 2009-02-26 Siemens Ag Verfahren zum Synchronisieren von medialen Datenströmen
US8451907B2 (en) * 2008-09-02 2013-05-28 At&T Intellectual Property I, L.P. Methods and apparatus to detect transport faults in media presentation systems
FR2969361A1 (fr) * 2010-12-16 2012-06-22 France Telecom Enrichissement du contenu audio d'un programme audiovisuel par synthese vocale
CN107705784B (zh) * 2017-09-28 2020-09-29 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置
CN109168067B (zh) * 2018-11-02 2022-04-22 深圳Tcl新技术有限公司 视频时序矫正方法、矫正终端及计算机可读存储介质
KR102215256B1 (ko) 2019-11-18 2021-02-15 주식회사 인공지능연구원 동기화된 음성과 동작을 지원하는 멀티미디어 저작 장치 및 그 방법
CN111741231B (zh) * 2020-07-23 2022-02-22 北京字节跳动网络技术有限公司 一种视频配音方法、装置、设备及存储介质
KR102479031B1 (ko) * 2021-10-25 2022-12-19 주식회사 클레온 딥러닝 네트워크를 이용한 입 모양 생성 방법 및 장치
CN115278382B (zh) * 2022-06-29 2024-06-18 北京捷通华声科技股份有限公司 基于音频片段的视频片段确定方法及装置

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT72083B (de) 1912-12-18 1916-07-10 S J Arnheim Befestigung für leicht auswechselbare Schlösser.
US4260229A (en) 1978-01-23 1981-04-07 Bloomstein Richard W Creating visual images of lip movements
US4305131A (en) 1979-02-05 1981-12-08 Best Robert M Dialog between TV movies and human viewers
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
GB8528143D0 (en) 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
JP2518683B2 (ja) 1989-03-08 1996-07-24 国際電信電話株式会社 画像合成方法及びその装置
DE69028940T2 (de) 1989-03-28 1997-02-20 Matsushita Electric Ind Co Ltd Gerät und Verfahren zur Datenaufbereitung
US5111409A (en) 1989-07-21 1992-05-05 Elon Gasper Authoring and use systems for sound synchronized animation
JPH03241399A (ja) 1990-02-20 1991-10-28 Canon Inc 音声送受信装置
DE4101022A1 (de) 1991-01-16 1992-07-23 Medav Digitale Signalverarbeit Verfahren zur geschwindigkeitsvariablen wiedergabe von audiosignalen ohne spektrale veraenderung der signale
US5689618A (en) * 1991-02-19 1997-11-18 Bright Star Technology, Inc. Advanced tools for speech synchronized animation
JPH04285769A (ja) 1991-03-14 1992-10-09 Nec Home Electron Ltd マルチメディアデータの編集方法
JP3070136B2 (ja) 1991-06-06 2000-07-24 ソニー株式会社 音声信号に基づく画像の変形方法
US5313522A (en) 1991-08-23 1994-05-17 Slager Robert P Apparatus for generating from an audio signal a moving visual lip image from which a speech content of the signal can be comprehended by a lipreader
JP3135308B2 (ja) 1991-09-03 2001-02-13 株式会社日立製作所 ディジタルビデオ・オーディオ信号伝送方法及びディジタルオーディオ信号再生方法
JPH05188985A (ja) 1992-01-13 1993-07-30 Hitachi Ltd 音声圧縮方式、及び通信方式、並びに無線通信装置
JPH05313686A (ja) 1992-04-02 1993-11-26 Sony Corp 表示制御装置
JP3083640B2 (ja) 1992-05-28 2000-09-04 株式会社東芝 音声合成方法および装置
JP2973726B2 (ja) 1992-08-31 1999-11-08 株式会社日立製作所 情報処理装置
US5636325A (en) 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
US5500919A (en) * 1992-11-18 1996-03-19 Canon Information Systems, Inc. Graphics user interface for controlling text-to-speech conversion
CA2119397C (en) 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
JP2734335B2 (ja) 1993-05-12 1998-03-30 松下電器産業株式会社 データ伝送方法
US5860064A (en) 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
JP3059022B2 (ja) 1993-06-07 2000-07-04 シャープ株式会社 動画像表示装置
JP3364281B2 (ja) 1993-07-16 2003-01-08 パイオニア株式会社 時分割ビデオ及びオーディオ信号の同期方式
US5608839A (en) * 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
JP2611728B2 (ja) 1993-11-02 1997-05-21 日本電気株式会社 動画像符号化復号化方式
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
US5650629A (en) 1994-06-28 1997-07-22 The United States Of America As Represented By The Secretary Of The Air Force Field-symmetric beam detector for semiconductors
GB2291571A (en) 1994-07-19 1996-01-24 Ibm Text to speech system; acoustic processor requests linguistic processor output
IT1266943B1 (it) * 1994-09-29 1997-01-21 Cselt Centro Studi Lab Telecom Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda.
US5677739A (en) * 1995-03-02 1997-10-14 National Captioning Institute System and method for providing described television services
JP3507176B2 (ja) 1995-03-20 2004-03-15 富士通株式会社 マルチメディアシステム動的連動方式
US5729694A (en) 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
JP4359299B2 (ja) 2006-09-13 2009-11-04 Tdk株式会社 積層型セラミック電子部品の製造方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004528600A (ja) * 2001-05-25 2004-09-16 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法

Also Published As

Publication number Publication date
USRE42000E1 (en) 2010-12-14
DE19753453A1 (de) 1998-06-18
KR100236974B1 (ko) 2000-02-01
JP3599538B2 (ja) 2004-12-08
DE19753453B4 (de) 2004-11-18
US5970459A (en) 1999-10-19
KR19980047008A (ko) 1998-09-15

Similar Documents

Publication Publication Date Title
JP3599538B2 (ja) 動画像とテキスト/音声変換器間の同期化システム
KR100240637B1 (ko) 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
US7145606B2 (en) Post-synchronizing an information stream including lip objects replacement
JP2518683B2 (ja) 画像合成方法及びその装置
JP2009266240A (ja) ビデオと音とを整合させる方法および装置、コンピュータ可読媒体、ならびにデータを複合化する方法およびデコーダ
JP2009233764A (ja) 動作生成装置、ロボット及び動作生成方法
JP2007178686A (ja) 音声変換装置
KR20050018883A (ko) 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동동기 생성/재생 방법 및 그 장치
AU769036B2 (en) Device and method for digital voice processing
CN113724684B (zh) 一种空中交通管制指令的语音合成方法及系统
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP4510631B2 (ja) 音声波形の連結を用いる音声合成
JP6486582B2 (ja) 電子機器、音声制御方法、およびプログラム
JP2003029774A (ja) 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置
JP2005539261A (ja) 音声合成における時間幅を制御する方法
JP2005309173A (ja) 音声合成制御装置、その方法、そのプログラムおよび音声合成用データ生成装置
CN117894294B (zh) 拟人化的副语言语音合成方法及系统
JP3766534B2 (ja) 視覚的に聴覚を補助するシステムおよび方法並びに視覚的に聴覚を補助するための制御プログラムを記録した記録媒体
CN114283784A (zh) 一种基于视觉驱动的文本转语音的方法
CN114822486A (zh) 语音合成配音系统
JP2004294795A (ja) 楽音合成制御データ、該データを記録した記録媒体、データ作成装置、プログラム及び楽音合成装置
JPH09244680A (ja) 韻律制御装置及び方法
JPH01182899A (ja) 録音編集合成方式
KR20010028688A (ko) 음성 인식 시스템의 안내 음성 생성 장치 및 방법
KR20110121255A (ko) 멀티미디어 자료 제공 시스템

Legal Events

Date Code Title Description
A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20040406

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20040412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040817

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040914

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080924

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080924

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090924

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100924

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100924

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110924

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110924

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120924

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130924

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees