JPH10171486A

JPH10171486A - 動画像とテキスト／音声変換器間の同期化システム

Info

Publication number: JPH10171486A
Application number: JP9294278A
Authority: JP
Inventors: Zaiu Ryo; 在宇梁; Seitetsu Ri; 政哲李; Binshu Kan; 敏洙韓
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 1996-12-13
Filing date: 1997-10-27
Publication date: 1998-06-26
Anticipated expiration: 2017-10-27
Also published as: USRE42000E1; DE19753453A1; KR100236974B1; JP3599538B2; DE19753453B4; US5970459A; KR19980047008A

Abstract

(57)【要約】【課題】ＴＴＳ方式を利用して動画像にダビングをする
のに、或いはアニメーションのような媒体及び合成音間
の同期化を具現するのに必要な情報は、テキストから推
定することが不可能である。このため、テキスト情報だ
けで動画像と自然に連動する合成音を作り出すことには
多くの困難がある。【解決手段】同映像と音声信号間の同期化を具現できる
ように、唇の動く時刻と持続時間情報とを利用して合成
音を生成することにより、動画像とテキスト／音声変換
器との間の同期化を図る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、映像に音声信号を
付加するダビング方法において、動画像の唇の動きによ
り、動画像とテキスト／音声変換器（Text-to-speech c
onversion system、以下ＴＴＳという）間の同期化を行
う技術に関する。

【０００２】

【従来の技術】一般的に、音声合成器の機能は、コンピ
ュータが使用者である人間に多様な形態の情報を音声で
提供することにある。このため、音声合成器は、使用者
に与えられたテキストから高品質の音声合成サービスを
提供することができなければならない。更に、多重媒体
環境において製作されたデータベース、或いは対話相手
から提供される多様なメデイアと連動されるため、これ
らメデイアと同期化されるように合成音を生成すること
ができなければならない。特に、動画像とＴＴＳとの同
期化は使用者に高品質のサービスを提供するためには必
須的である。

【０００３】図１は、従来の合成器を説明するための図
面であり、入力されたテキストから合成音を生成するま
での一般的な３段階の過程を示したものである。

【０００４】まず、１段階である言語処理部１では、入
力されたテキストを音素列に変換し、この音素列から韻
律情報を推定し、これをシンボル化する。韻律情報は、
構文構造分析結果を利用した句・節境界、単語内アクセ
ント位置、文型等から推定する。

【０００５】２段階である韻律処理部２では、シンボル
化した韻律情報から規則及びテーブルを利用して韻律制
御パラメータの値を計算する。韻律制御パラメータに
は、音素の持続時間、ピッチ輪郭（contour）、エネル
ギ輪郭、休み区間情報等がある。

【０００６】３段階の信号処理部３では、合成単位デー
タベース４と韻律制御パラメータとを利用して合成音を
生成する。

【０００７】即ち、既存の合成器では、言語処理部１と
韻律処理部２とにおいて、自然性、発声速度と関連した
情報を、単に入力テキストだけで推定しなければならな
いことを意味する。

【０００８】

【発明が解決しようとする課題】現在、世界的に多くの
国において、ＴＴＳに対する研究が自国語を対象として
進行しており、一部では商用化されている。しかし、従
来の合成器は、入力されたテキストから音声を合成する
用途に限られている。このため、多重媒体との連動を考
慮した合成方式に対する研究結果は、ほとんど全無とい
える。更に、従来のＴＴＳ方式を利用して動画像にダビ
ングするのに、或いはアニメーションのような媒体と合
成音間の同期化を具現するのに必要な情報は、テキスト
から推定することは不可能である。このため、テキスト
情報だけで、動く映像信号と自然に連動される合成音を
作り出すには多くの困難がある。したがって、動画像と
音声信号間の同期化を具現することができる方法は、唇
の動き時刻と持続時間情報とを利用して合成音を生成す
ることにより実現することができる。

【０００９】動画像と合成音との同期化をダビングの概
念で観ると、その具現方法には３種がある。

【００１０】１番目の方法は、文章単位で動画像と合成
音とを同期化させる方法である。文章の始まる点から終
わる点までの情報を利用して、合成音の持続時間を調節
する。この方法は、具現が容易であり付加的努力が最小
化される長所があるが、スム−ズな同期化にはおぼつか
ない。

【００１１】２番目の方法は、動画像の音声信号と関連
する区間において、音素ごとに始まる点・終わる点情報
（持続時間情報）とその音素情報とを表記し、この情報
を合成音生成に利用する方法である。この方法は、音素
単位で、動画像と合成音との同期を合わせることができ
るため、正確度が高い長所がある。しかし、動画像の音
声区間において、音素ごとにその持続時間情報を検出し
て記録するため、多くの付加的努力を必要とする短所が
ある。

【００１２】３番目の方法は、音声の始まる点、終わる
点情報（持続時間情報）、唇の開きや閉じあるいは前に
出すなどの唇の動きの弁別的特性が高いパターンを基準
にして、同期化情報を記録する方法である。この方法
は、同期化のための情報製作の付加的努力を最小化しな
がら同期化効率を高める方法である。

【００１３】本発明の目的は、動画像における連続的な
唇の動きをイベント（event）単位に定型化・定規化
し、これら情報とＴＴＳ間のインターフェースを定義し
て、ＴＴＳでの合成音生成に使用することにより、動画
像と合成音間の同期化システムを提供することにある。

【００１４】

【課題を解決するための手段】上記の目的を達成するた
め、本発明の動画像とテキスト／音声変換器間の同期化
システムは、多重媒体情報の入力を受け付けて各々のデ
ータ構造に変換して媒体別に分配する分配手段と、上記
分配手段により分配された多重媒体情報のうちの映像情
報の伝達を受け付ける映像出力手段と、上記分配手段に
より分配された多重媒体情報のうちの言語テキストの伝
達を受け付ける言語処理手段と、上記言語処理手段が受
け付けた言語テキストを、単語発音辞典と発音変換規則
とを用いて音素列に変換し、この音素列を、構文構造情
報を利用した韻律制御規則にしたがって、韻律情報であ
る音素別持続時間、ピッチ値およびエネルギ値を推定す
る韻律処理手段と、上記韻律処理手段での処理結果であ
る音素列および音素別持続時間にしたがい、音素別調音
特性から唇形を推定して時間軸上に配列するとともに、
音声と動画像との同期を図るため、これを上記分配手段
により分配された多重媒体情報のうちの同期化情報であ
る唇形を時間軸上に配列した結果と比較して、時間軸上
で唇形の近似度が最も高い韻律処理結果である音素別持
続時間を調整し、、これを上記韻律処理手段の処理結果
に包含して伝達する同期調整手段と、上記同期調整手段
の処理結果を受けて、合成に必要なデータを各音素別に
合成単位データベースから選択し、これを韻律情報であ
る音素別持続時間、ピッチ値、エネルギ値に合わせて修
正した後、合成フィルタを用いて合成音に変換して出力
する信号処理手段と、上記信号処理手段の要求により、
合成に必要な合成単位を選定した後、必要なデータを転
送する合成単位データベースブロックと、を備えている
ことを特徴とする。

【００１５】

【発明の実施の形態】以下に、本発明の一実施形態につ
いて、図２および図３を参照して詳細に説明する。

【００１６】図２は、本実施形態が適用されたハードウ
エアの構成図である。ここで、５は多重データ入力装
置、６は中央処理装置、７は合成データベース、８はデ
ジタル／アナログ（Ｄ／Ａ）変換装置、９は映像出力装
置を示している。

【００１７】多重データ入力装置５は、動画像、テキス
ト等の多重媒体で構成されたデータの入力を受け、これ
を中央処理装置６に出力する。中央処理装置６には、本
実施形態のアルゴリズムが搭載されている。合成データ
ベース７は、合成アルゴリズムに使用されるデータベー
スであり、記憶装置に貯蔵されている。合成データベー
ス７は、上記中央処理装置６に必要なデータを伝送す
る。デジタル／アナログ変換装置８は、合成が終わった
デジタルデータをアナログ信号に変換して外部に出力す
る。映像出力装置９は、入力された映像情報を画面に出
力する。

【００１８】下記の＜表１＞は、本実施形態に適用され
る構造化された多重媒体情報の一例を示している。この
多重媒体情報は、テキスト、動画像、および同期化情報
でなる。さらに、同期化情報は、唇形、動画像内位置情
報、および持続時間情報でなる。

【００１９】ここで、唇形は、下唇の下げ程度、上唇左
側終点における上下動き、上唇右側終点における上下動
き、下唇左側終点における上下の動き、下唇右側終点に
おける上下動き、上唇中央部分の上下動き、下唇中央部
分の上下動き、上唇の突き出し程度、下唇の突き出し程
度、唇中央から右側終点までの距離、および唇中央から
左側終点までの距離を表すデータに数値化することがで
きる。また、音素の調音位置や調音方法により唇形を定
量化、定規化したパターンに定義することもできる。動
画像内位置情報は、動画像の場面位置として定義され
る。また、持続時間情報は同一唇形が持続される間の場
面数として定義される。

【００２０】

【表１】

【００２１】図３は、本実施形態が適用された動画像と
韓国語テキスト／音声変換器間の同期化システムの機能
構成図である。ここで、１０は多重媒体情報入力部、１
１は多重媒体分配器、１２は標準化された言語処理部、
１３は韻律処理部、１４は同期調整器、１５は信号処理
部、１６は合成単位データベース、１７は映像出力装置
を示している。

【００２２】まず、多重媒体情報入力部１０で受け付け
る多重媒体情報は、上記の＜表１＞に示した形式になっ
ており、テキスト、動画像、同期化情報（唇形、動画像
内位置情報、持続時間情報）とでなる。

【００２３】多重媒体分配器１１は、上記多重媒体情報
入力部１０から伝達された多重媒体情報を媒体別に分配
する。具体的には、動画像を映像出力装置１７に伝達
し、テキストを言語処理部１２に伝達し、同期化情報を
同期調整器１４で使用できるデータ構造に変換してから
上記同期調整器１４に伝達する。

【００２４】言語処理部１２は、上記多重媒体分配器１
１から伝達されたテキストを、図示していないメモリな
どに記憶しておいた単語発音辞典および発音変換規則を
用いて音素列に変換する。そして、この音素列を、構文
構造情報から導かれる韻律制御規則にしたがって、韻律
情報である音素別持続時間、ピッチ値、エネルギ値を推
定する。すなわち、構文構造分析結果を利用した句・節
境界、単語内アクセント位置、文型等の韻律制御規則か
ら韻律情報を推定する。その後、韻律処理部１３に送
る。

【００２５】韻律処理部１３は、上記言語処理部１２の
処理結果を受けて、韻律制御パラメータの値を計算す
る。韻律制御パラメータには、音素の持続時間、ピッチ
輪郭、エネルギ輪郭、休み位置および長さがある。更
に、ここで計算された結果は、同期調整器１４に伝達さ
れる。

【００２６】同期調整器１４は、上記韻律処理部１３の
処理結果を受けて、後述する合成音を動画像と同期させ
るため、上記多重媒体分配器１１から送られた同期化情
報を利用して音素毎にその持続時間を調整する。

【００２７】ここで、上記音素別持続時間の調整は、先
ず、韻律処理部１３での処理結果である音素列および音
素の持続時間にしたがい、音素別調音特性（各音素別調
音場所、調音方法）から各音素に割り当てられる唇形を
推定する。次いで、これを同期化情報に包含された唇形
と比較して、音素列を同期化情報に記録された唇形個数
だけ小グループに分離する。小グループ内の音素持続時
間は、同期化情報に包含されている、当該グループに属
する唇形に、最も近似する唇形の持続時間情報を利用し
て再び計算する。

【００２８】すなわち、推定した唇形をその音素別持続
時間にしたがい時間軸上に配列した結果と、同期化情報
に包含される唇形を同期化情報に包含される位置情報や
持続時間にしたがい時間軸上に配列した結果と比較し
て、時間軸上で唇形の近似度が最も高い韻律処理結果で
ある音素別持続時間を調整する。

【００２９】調整された持続時間情報は、上記韻律処理
部１３の結果に包含され、信号処理部１５に伝達され
る。信号処理部１５は、上記同期調整器１４の処理結果
を受け、合成に必要なデータを合成単位データベース１
６から選択する。そして、韻律情報に含まれる音素別持
続時間、ピッチ値、エネルギ値に合わせて修正した後、
図示していない合成フィルタを用いて合成音を生成し出
力する。

【００３０】合成単位データベース１６は、信号処理部
１５の要求を受けて、必要な合成単位を選定した後、信
号処理部１５に必要なデータを伝送する。

【００３１】

【発明の効果】以上説明したように、本発明は、実際音
声データおよび動画像の唇形を分析し推定される唇形情
報と、テキスト情報とを合成音生成に直接利用する方式
を通じて、合成音と動画像との同期化を具現することに
より、外画等に韓国語などの言語ダビングを可能にす
る。このように、多重媒体環境において、映像情報とＴ
ＴＳの同期化を可能にすることにより、通信サービス、
事務自動化、教育等多くの分野で応用することができ
る。

【図面の簡単な説明】

【図１】従来のテキスト／音声変換器のブロック構成図
である。

【図２】本発明の一実施形態が適用された動画像とテキ
スト／音声変換器間の同期化装置のハードウエア構成図
である。

【図３】本発明の一実施形態が適用された動画像と韓国
語テキスト／音声変換器間の同期化装置の機能構成図で
ある。

【符号の説明】

１、１２言語処理部２、１３韻律処理部３、１５信号処理部４、１６合成単位データベース５データ入力装置６中央処理装置７合成データベース８Ｄ／Ａ変換装置９、１７映像出力装置１０多重媒体情報入力部１１多重媒体分配器１４同期調整器

Claims

【特許請求の範囲】

【請求項１】多重媒体情報の入力を受け付けて各々のデ
ータ構造に変換して媒体別に分配する分配手段と、上記分配手段により分配された多重媒体情報のうちの映
像情報の伝達を受け付ける映像出力手段と、上記分配手段により分配された多重媒体情報のうちの言
語テキストの伝達を受け付ける言語処理手段と、上記言語処理手段が受け付けた言語テキストを、単語発
音辞典と発音変換規則とを用いて音素列に変換し、この
音素列を、構文構造情報を利用した韻律制御規則にした
がって、韻律情報である音素別持続時間、ピッチ値およ
びエネルギ値を推定する韻律処理手段と、上記韻律処理手段での処理結果である音素列および音素
別持続時間にしたがい、音素別調音特性から唇形を推定
して時間軸上に配列するとともに、音声と動画像との同
期を図るため、これを上記分配手段により分配された多
重媒体情報のうちの同期化情報である唇形を時間軸上に
配列した結果と比較して、時間軸上で唇形の近似度が最
も高い韻律処理結果である音素別持続時間を調整し、こ
れを上記韻律処理手段の処理結果に包含して伝達する同
期調整手段と、上記同期調整手段の処理結果を受けて、合成に必要なデ
ータを各音素別に合成単位データベースから選択し、こ
れを韻律情報である音素別持続時間、ピッチ値、エネル
ギ値に合わせて修正した後、合成フィルタを用いて合成
音に変換して出力する信号処理手段と、上記信号処理手段の要求により、合成に必要な合成単位
を選定した後、必要なデータを転送する合成単位データ
ベースブロックと、を備えていることを特徴とする動画像とテキスト／音声
変換器間の同期化システム。
【請求項２】請求項１記載の動画像とテキスト／音声変
換器間の同期化システムにおいて、上記多重媒体情報は、テキストと動画像と同期化情報と
で構成され、上記同期化情報は、唇形情報と、動画像内の位置情報
と、同一唇形の持続時間情報とで構成されることを特徴
とする動画像とテキスト／音声変換器間の同期化システ
ム。
【請求項３】請求項２記載の動画像とテキスト／音声変
換器間の同期化システムにおいて、上記唇形情報は、下の唇の下げ程度、上の唇の左側端点
における上下の動き、上の唇右側端点における上下の動
き、下の唇左側端点における上下の動き、下の唇右側端
点における上下の動き、上の唇の中央部分の上下の動
き、下の唇の中央部分の上下の動き、上の唇の突き出し
程度、下の唇の突き出し程度、唇中央から右側端点まで
の距離、唇中央から左側端点までの距離について数値化
されたデータ、あるいは、音素の調音位置、調音方法に
よって定量化、定規化されたパターンに定義されている
ことを特徴とする動画像とテキスト／音声変換器間の同
期化システム。
【請求項４】請求項１記載の動画像とテキスト／音声変
換器間の同期化システムにおいて、上記同期調整手段は、同期化情報を利用してテキスト内
の音素の調音方法、調音点を考慮した予測唇形と、同期
化情報内の唇形及び同一唇形の持続時間とによって、動
画像と同期を合わせるためのテキスト内の音素の持続時
間を計算することを特徴とする動画像とテキスト／音声
変換器間の同期化システム。