JPH0546960B2 - - Google Patents

Info

Publication number
JPH0546960B2
JPH0546960B2 JP58501091A JP50109183A JPH0546960B2 JP H0546960 B2 JPH0546960 B2 JP H0546960B2 JP 58501091 A JP58501091 A JP 58501091A JP 50109183 A JP50109183 A JP 50109183A JP H0546960 B2 JPH0546960 B2 JP H0546960B2
Authority
JP
Japan
Prior art keywords
signal
data
dubbing
frame
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58501091A
Other languages
English (en)
Other versions
JPS59500432A (ja
Inventor
Fuiritsupu Jefurii Buruumu
Gaasu Deibitsudo Maasharu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WAADOFUITSUTO Ltd
Original Assignee
WAADOFUITSUTO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WAADOFUITSUTO Ltd filed Critical WAADOFUITSUTO Ltd
Publication of JPS59500432A publication Critical patent/JPS59500432A/ja
Publication of JPH0546960B2 publication Critical patent/JPH0546960B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B31/00Associated working of cameras or projectors with sound-recording or sound-reproducing means
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Television Signal Processing For Recording (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

請求の範囲 1 第2のオーデイオ周波数入力信号X2(t′)を
編集することにより、時間に依存する特徴を有す
る不適当な第1のオーデイオ周波数入力信号X1
(t)の代わりにオーデイオ周波数出力信号を発生す
る方法において、 時間に依存する特徴を有する上記第2のオーデ
イオ周波数入力信号X2(t′)を発生するステツプ
と、 上記第1のオーデイオ周波数入力信号X1(t)を
処理し、該第1のオーデイオ周波数入力信号の選
択された時間に依存する特徴のタイミングを表す
第1のデータ(kT)を発生するステツプ(45)
と、 上記第2のオーデイオ周波数入力信号X2(t′)
を処理し、該第2のオーデイオ周波数入力信号の
選択された時間に依存する特徴のタイミングを表
す第2のデータ(jT)を発生するステツプ
(46)と、 上記第1のデータ(kT)と上記第2のデー
(jT)を比較し、上記第1のオーデイオ周
波数入力信号X1(t)の上記選択された時間に依存
する特徴のタイミングと上記第2のオーデイオ周
波数入力信号X2(t′)の上記選択された時間に依
存する特徴のタイミングの差を表すタイミングデ
ータW(kT)を発生するステツプと(47)と、 上記第2のオーデイオ周波数入力信号X2(t′)
の波形を表す波形データX2(nD)を発生するス
テツプ(26)と、 上記タイミングデータW(kT)に従つて上記波
形データX2(nD)を編集し、上記選択された時
間に依存する特徴のタイミングが上記第1のオー
デイオ周波数入力信号X1(t)の上記選択された時
間に依存する特徴のタイミングに実質的に整合す
る上記第2のオーデイオ周波数入力信号X2(t′)
の編集した波形X^2(nD)を表す出力データを発
生するステツプ(49、51)と を含むオーデイオ周波数出力信号発生方法。 2 第1のオーデイオ周波数入力信号X1(t)を処
理するステツプ(45)は、該第1のオーデイオ周
波数入力信号の選択された物理的な面を周期的に
測定し(43、57)、これ等の測定から時間に依存
するパラメータA1(kT)…AN(kT)の値を決定
し、その測定は提出されるべき上記第1のオーデ
イオ周波数入力信号X1(t)の特性における有意な
変化のために十分高速で実行され、第2のオーデ
イオ周波数入力信号X2(t′)を処理するステツプ
(46)は、該第2のオーデイオ周波数入力信号の
選択された物理的な面を周期的に測定し(42)、
これ等の測定から時間に依存するパラメータB1
(jT)…BN(jT)の値を決定し、その測定は検出
されるべき上記第2のオーデイオ周波数入力信号
の特性における有意な変化のために十分高速で実
行され、及び波形データの編集するステツプ
(49、51)は、 そのパラメータのいくつか又は全てのシーケン
スに基づいて第2のオーデイオ周波数入力信号
X2(t′)の連続セグメントを分類し(48)、有意な
レベルのオーデイオ周波数の有無を示す時間に依
存する分類f(jT)を生じ、 第1のオーデイオ周波数入力信号X1(t)及び第
2のオーデイオ周波数入力信号X2(t′)の時間に
依存する分類f(jT)及び時間に依存するパラメ
ータA1(kT)…,B1(kT)の値から上記第2の
オーデイオ周波数入力信号X2(t′)の上記時間に
依存するパラメータB1(jT)…BN(jT)の時間に
おいて対応する上記第1のオーデイオ周波数入力
信号X1(t)の上記時間に依存するパラメータA1
(kT)…AN(kT)に良好に整列させるのに必要
な上記第2のオーデイオ周波数入力信号X2(t′)
の時間スケールのひずみを表す時間ひずみ関数W
(kT)を生じ(47)、そして 上記時間ひずみ関数W(kT)と上記時間に依存
する分類f(jT)を組合わせ(49)、上記第2の
オーデイオ周波数入力信号X2(t′)の編集動作
(51)のための編集制御データを発生する請求の
範囲第1項記載のオーデイオ周波数出力信号発生
方法。 3 編集制御データは、波形データX2(nD)か
ら該波形データの適当なシーケンスの削除およ
び/または波形データX2(nD)に該波形データ
の適当なシーケンスの挿入を決定し、オーデイオ
周波数出力信号X^2(nD)における第1のオーデ
イオ周波数入力信号X1(t)の有意な時間に依存す
る特徴のタイミングを実質的に複製する請求の範
囲第2項記載のオーデイオ周波数出力信号発生方
法。 4 組合わせのステツプ(49)は、時間に依存す
る関数をW(kT)分析し、閾値を越える第1のオ
ーデイオ周波数入力信号X1(t)の時間に依存する
パラメータA1(kT)…AN(kT)のタイミングと
第2のオーデイオ周波数入力信号X2(t′)の時間
に依存するパラメータB1(jT)…BN(jT)のタイ
ミングの不一致の存在を検出し、それにより、上
記第1のオーデイオ周波数入力信号X1(t)の対応
する時間に依存するパラメータA1(kT)…AN
(kT)と上記第2のオーデイオ周波数入力信号
X2(t′)の時間に依存するパラメータB1(jT)…
BN(jT)のタイミングの整列を達成するために波
形データX2(nD)に対する変更が必要であるこ
とを示し、且つ上記分析から得られた情報を使用
して上記波形データX2(nD)のどの部分を変更
すべきかを決定する請求の範囲第3項記載のオー
デイオ周波数出力信号発生方法。 5 第1のオーデイオ周波数入力信号X1(t)が第
1の音声信号であり、 第2のオーデイオ周波数入力信号X2(t′)は上
記第1の音声信号に対する置換を意図されている
第2の音声信号であり、 第2のオーデイオ周波数入力信号X2(t′)を処
理するステツプ(46)、波形データX2(nD)を編
集するステツプ(28)および波形データX2(nD)
を編集するステツプ(49、51)は、 上記第2の音声信号X2(t′)における選択され
た時間変更パラメータの発生および/または値を
表す処理されたデイジタルデータに対応して、上
記第2の音声信号X2(t′)における音声の有無を
表すデイジタルデータを発生し、 上記第2の音声信号X2(t′)におけるピツチを
表すデイジタルデータP(jT)を発生し(50)、 上記第2の音声信号X2(t′)における音声の有
無を表し且つ上記第1及び第2の音声信号X1(t),
X2(t′)の時間変更パラメータを表すデイジタル
データf(jT),A1(kT)…,B1(jT)…のシー
ケンスを使用し、上記第2の音声信号X2(t′)の
特有の特徴のタイミングと、上記第1の音声信号
X1(t)の対応する特有の特徴のタイミングの差を
表すデイジタルデータW(kT)を発生し(47)、 上記ピツチおよびタイミングの差を表すデイジ
タルデータP(jT),W(kT)および上記第2の
音声信号X2(t′)における音声の有無を表すデイ
ジタルデータf(jT)のシーケンスを処理し
(49)、上記第2の音声信号X2(t′)における無声
音および/または音声の期間を調整することによ
つて、上記第2の音声信号X2(t′)の特有の特徴
と共に、上記第1の音声信号X1(t)の対応する特
有の特徴のタイミングを実質的に被製する要求に
従つて編集データを発生する請求の範囲第1項又
は第2項記載のオーデイオ周波数出力信号発生方
法。 6 第2のオーデイオ周波数入力信号を編集する
ことにより、不適当な第1のオーデイオ周波数入
力信号の代わりにオーデイオ周波数出力信号を発
生する装置において、 上記第1のオーデイオ周波数入力信号のための
第1の入力手段14と、 上記第2のオーデイオ周波数入力信号のための
第2の入力手段11と、 上記第1の入力手段14および上記第2の入力
手段11に接続され、上記第1のオーデイオ周波
数入力信号を処理して該第1のオーデイオ周波数
入力信号の選択された時間に依存する特徴のタイ
ミングを表す第1のデータ(kT)を発生し、
且つ上記第2のオーデイオ周波数入力信号の同じ
く選択された時間に依存する特徴のタイミングを
表す第2のデータ(jT)を発生する処理手段
42,43と 上記第1のデータ(kT)と第2のデータ
(jT)を比較し、上記第1のオーデイオ周波数入
力信号の上記選択された時間に依存する特徴のタ
イミングと上記第2のオーデイオ周波数入力信号
の上記選択された時間に依存する特徴のタイミン
グの差を表すタイミングデータW(kT)を発生す
る比較手段SBC2と、 上記第2の入力手段11に接続され、上記第2
のオーデイオ周波数入力信号の波形を表す波形デ
ータX2(nD)を発生する手段28と、 上記タイミングデータW(kT)および上記波形
データX2(nD)を受け且つ該タイミングデータ
W(kT)に従つて該波形データX2(nD)を編集す
るように配列され、上記選択された時間に依存す
る特徴のタイミングが上記第1のオーデイオ周波
数入力信号の上記選択された時間に依存する特徴
のタイミングに実質的に整合する上記第2のオー
デイオ周波数入力信号の編集形式を表す出力デー
タX^2(nD)を発生する編集手段SBC1と を備えたオーデイオ周波数出力信号発生装置。 7 処理手段42,43は、第2のオーデイオ周
波数入力信号の選択された時間変更パラメータの
発生および/または値を表す処理されたデイジタ
ルデータに応答して特有な音響学的分類を符号化
するデイジタルデータf(jT)を発生する手段4
8と、上記第2のオーデイオ周波数入力信号のピ
ツチを表すデイジタルデータP(jT)を発生する
手段50を含み、 比較手段SBC2は、上記特有な音響学的分類
を符号化し、上記第1のオーデイオ周波数入力信
号および上記第2のオーデイオ周波数入力信号の
時間変更パラメータを表すデイジタルデータf
(jT),(kT),(jT)のシーケンスを使用
し、上記第2のオーデイオ周波数入力信号の特有
な特徴のタイミングと上記第1のオーデイオ周波
数入力信号の対応する特有な特徴のタイミングの
差を表すデイジタルデータW(kT)を発生する手
段47を含み、 編集手段SBC1は上記ピツチおよびタイミン
グの差を表すデイジタルデータP(jT),W
(kT)、上記第2のオーデイオ周波数入力信号の
特有な分類を符号化するデイジタルデータf
(jT)のシーケンス及び上記第2のオーデイオ周
波数入力信号の波形を表す波形データX2(nD)
を処理し、上記第1のオーデイオ周波数入力信号
及び上記第2のオーデイオ周波数入力信号が音声
信号であるとき、上記第2のオーデイオ周波数入
力信号における無声音および/または音声の期間
を調整することによつて、出力オーデイオ周波数
信号の特徴のタイミングを上記第1のオーデイオ
周波数入力信号の対応する特有な特徴に実質的に
整合する要求に従つて編集データを発生する手段
49を含む請求の範囲第6項記載のオーデイオ周
波数出力信号発生装置。 明細書 この発明は信号を処理するさいに使用するため
のオーデイオ周波数出力信号発生方法および装置
に関する。 映画のサウンドトラツクを製造するさい、原会
話は、例えば除去することができない背景雑音の
レベルあるいはタイプのため受け入れることがで
きないので、映画撮影時に生で録音した原会話を
撮影後、スタジオで録音した対話で取替えること
がしばしば必要であり望ましい。最後のサウンド
トラツクが会話、音楽およびサウンド効果の混合
から形成されないうちに、スタジオ録音が行なわ
れ、これはポスト・シンクロナイジングと呼ばれ
る。 現在、最も広く使用されているポスト・シンク
ロナイジング技術はバージン・ループ・システム
として知られており、下記のように作動する。 サウンドトラツク編集者はポスト・シンクロナ
イズされた会話場面を各々約30秒間程度の1セン
テンスあるいは2センテンスのセクシヨンに分割
する。物理的に映画フイルムの長さおよび原会話
録音を含む磁気フイルムに等しい長さから成る各
セクシヨンは2つのエンドレス・ループにされ
る。第3のループ(これも同じ長さのもの)は録
音されていない磁気フイルムから構成される。こ
れが“バージンループ”である。原会話を含む磁
気フイルムのループは“案内トラツク”と呼ばれ
る。 その場面に出ている各俳優はポスト・シンクロ
ナイジング操作のために特に設計されているスタ
ジオに個々に参加する。映画フイルム・ループは
フイルム・プロジエクターに装備され、案内トラ
ツクは磁気フイルム再生機に装填され、バージ
ン・ループは磁気記録機/再生機に装填される。
これらの3台の機械は同期して作動するようにさ
れる。映画フイルム・ループは俳優の前にあるス
クリーンに映写される。案内トラツクはヘツドホ
ンを介して俳優に対して再生される。俳優は原会
話と同期して自分のせりふを言うように努力す
る。その努力の成果はバージン・ループに録音さ
れる。編集者が前もつて映画フイルム・ループに
描いておいた案内トラツク・キユー(ピーツとい
う音)あるいはチヤイナグラフ・キユー・マーク
が与えられる。デイレクターがその結果は満足す
るものであると決定するまで、俳優は案内トラツ
クの正確なタイミングと動作とが一致するように
繰り返して試行する。スタジオ拡声機でその結果
を検査するためにバージン・ループを有する機械
を任意の時点で録音から再生に切換えることがで
きる。 いつたん首尾よく録音されたループは該当の機
械から取外され、対話の次のセクシヨンを含むル
ープの次のセツトと取替えられる。それから、こ
の新しいセクシヨンのために全動作が繰り返され
る。平均的な長編映画は数百の会話ループを必要
とするものであり、その各々はその場面に登場す
る俳優の人数に依存して真新しいバージン・ルー
プに数回録音されなければならない。 言葉と口の動きとの間の同期からの1フイル
ム・フレームないし2フイルム・フレームの差は
平均的な観客には目につきやすいものであるが、
それは単に0.05秒ないし0.1秒の差にすぎないの
で、当面する俳優にとつては困難な仕事である。
芸術的な表現が同期して話す必要性に追従するこ
とを余儀なくされる。多くの試行のあとで、大体
正しいとされ、またサウンドトラツクの編集者の
経験からえられる妥協策に基づいて、前記編集者
は磁気フイルムを編集室に持帰り、その精密なカ
ツト作業で、同期のとれた言葉になるようにす
る。 新しく録音されたループは、結局、原会話によ
つて前から占有されている会話トラツクの位置に
組込まれる。 バージン・ループ・システムは骨が折れ、時間
がかかるシステムで、俳優たちには非常にきらわ
れている。さらに、ポスト・シンクロナイズされ
た会話は演技の見地から常に原生の会話より劣つ
ているということが一般に映画産業における定説
とされている。 順方向および逆方向の高速動作ができ、理論制
御部を有するフイルム給送機の開発で、自動会話
取替え(ADR)として知られている方法は最近
の新らしいスタジオで使われるようになつてい
る。 このようなスタジオの1つの例が、英国で1981
年3月に発行された「BKSTSジヤーナル」第10
196〜198頁にリオネル・ストルツトの論文である
“ポスト・シンクロナイジング・サウンド:コン
ピユータを使用する自動会話取替え”が記載され
ている。ADRでは、フイルムを物理的にループ
に分割することは必要でない。映画フイルムのロ
ール、付随する案内トラツクおよびバージン磁気
フイルムはそれぞれ映画フイルム・プロジエクタ
ー、磁気フイルム再生機および磁気フイルム録音
機/再生機にそつくり装填される。その機械が正
規の速度でそれぞれの指定された会話セクシヨン
を演じ、次に、そのセクシヨンを始めに戻り、繰
り返し、すべてが同期してロツクされるように
各々のループが電子的に形成される。例えば、マ
グナテツク600シリーズELシステムにおいて、イ
ンタークロツクパルスは、各スレーブ機、すなわ
ち映画フイルム・プロジエクター、案内トラツク
再生機およびバージン磁気フイルム録音機/再生
器に8LBインターロツク発生器によつて送られ
る。 フイルム・フレーム毎に10個の割合で発生され
るこれらのパルスは互に90°位相がずれている2
つの矩形波の形式にされている。そして、順方向
の動きでは、第2の波形は第1の波形に遅れ、逆
方向の動きでは、第1の波形は第2の波形に遅れ
るようにされている。4つの動作モード、すなわ
ち、正規速度の順方向の動きおよび逆方向の動き
と、高速の順方向の動きおよび逆方向の動きは、
MTE152プロセツサのコマンドの下で可能であ
る。正規の走行速度で、インターロツク発生器に
よつて3つの機械に伝送されるインターロツク・
パルスのパルス周波数は水晶発振器を制御するこ
とによつて得られる。これらのインターロツク・
パルスは、また、MTE9Eカウンタにも送られ
る。ポスト・シンクロナイズ動作で、フイルムの
ロールはロール・ヘツドで機械に締めつけられ
る。編集者がすべてのロールに前もつて付けた同
期マークは、3個のフイルムが静止同期している
ように調整されることを確実にするように使用さ
れる。この同期マークは通常0フイート0フレー
ムと指定され、ロール上のいかなる点もフイート
およびフイルム・フレームの数によつて同期マー
クから識別することができる。各々の映画フイル
ムの長さおよびループとして取扱かわれ、指定さ
れたループセクシヨンとして参照される付随する
案内トラツクの長さはプリセツト装置
(MTE151Eプリセツト)に入力されるフイルム
のフイート数およびフレーム数の2組によつて特
定することができる。その一方の組は指定された
ループ・セクシヨンの始めを規定し、他方の組は
ループ・セクシヨンの終りを規定するようにされ
る。フイルム・ロールが同期マークにおいて締め
られると、MTE9Eカウンタは0(0000.00)にリ
セツトされる。次に、MTEカウンタは8LBイン
ターロツク発生器からのインターロツク・パルス
を計数することによつてフイルム・ロールに関連
するフイルム給送機の瞬間的な位置に対応するフ
イート数およびフレームの6桁の2進化10進信号
を発生することができる。このBCD信号は
MTE151Eプリセツトに供給される。そこで、指
定されたループ・セクシヨンのため開始および終
了フレームの識別としてオペレータによつて入力
されるBCDフイート数およびフレーム数の2個
の組と前記BCD信号とが比較される。この比較
の結果は、AHEAD OF LOOP信号、IN LOOP
信号あるいはPAST LOOP信号のいずれかとし
てMTE152プロセツサに供給される。その使用に
おいては、MTE152プロセツサはループ入力フレ
ームすなわち、指定されたループ・セクシヨンに
おける最初のフレームの前方の5ないし10フイー
トの点から始めることによつて選択された指定の
ループ・セクシヨンを通して機械の動作を反復す
る。それから、指定されたループ・セクシヨンの
終りまで正規の速度で走行し、高速逆方向に巻き
戻し、そのサイクルを繰返す。 ループのアヘツドからイン・ループへの移り変
りで、ループ入力フレームのための151Eプリセ
ツトはMTE9EカウンタBCD信号と一致し、
MTE152プロセツサは録音機/再生機の録音機能
を活性化するマスタ・レコード・オン信号を発生
する。同様に、この信号はイン・ループからパス
ト・ループへの移り変わりでオフにスイツチされ
る。 磁気フイルム再生機および俳優のマイクロホン
からのアナログ・オーデイオ信号は例えばミキシ
ング・コンソールを介して俳優のヘツドホンおよ
び磁気フイルム録音機/再生機にそれぞれ供給さ
れる。 バージン・ループ・システムに関して、ADR
は各指定されたループ・セクシヨンの継続期間が
特定され、俳優に合うようにポスト・シンクロナ
イズ期間中変更できるという利点があり、また、
より多くの最近に生産された録音ずみループは俳
優およびデイレクターによつて評価されるために
再生されることができる。 しかしながら、音響編集者はなお、受け入れる
ことができる同期化にそれを引き込むようにポス
ト・シンクロナイズした会話を編集しなければな
らない。ループ編集をすると、その部分の近傍に
おいて互に干渉するので、さらに1つの場面に登
場する何人かの俳優はバージンループの別々の多
重トラツクに記録することができない。したがつ
て、バージン磁気フイルムの別々のロールは1つ
の場面に登場するあらゆる俳優のために必要であ
る。 同様に、ビデオテープはフイルムの代りに使用
されるのに対して、会話のポスト・シンクロナイ
ズ操作は時折実行されるはずであり、これまで使
用された方法はフイルムADRのための方法と類
似している。 困難と制約の主な原因である通常のポスト・シ
ンクロナイズ操作の局面はわずか1秒の何分の1
かの所定の瞬時に俳優が話し始め、話しの進行の
終りまで同期性を維持する必要があることであ
る。ポスト・シンクロナイズ操作をあまりわずら
わしくしない方法および装置が必要である。この
発明はこのような方法および装置を提供するため
の試みからなされたものであるけれどもポスト・
シンクロナイズ操作のための音声信号の処理に限
定されるものではない。この発明は第1の信号に
実質上類似している第2の信号はこれらの特定の
特徴を第1の信号の対応する特徴に結びつけるた
めに第2の信号の特定の特徴に関するタイミング
に関して編集される他の状況に適用される。これ
によつて、選ばれた特定の特徴の相対的なタイミ
ングに関して少なくとも第1の信号を実質上複製
する出力が生じる。 この発明は必須の信号特性に影響を及ぼす編集
をなくして2つの信号の対応する選択された特徴
間に関連する相対的なタイミングの相違を実質上
除くために2つの類似信号において選択特徴を見
つけ、これらの信号のうちの1つの信号を自動的
に編集するための方法および信号処理装置を提供
することに関するものである。 この発明の1つの局面によれば、第1の信号の
選択時間に依存する特徴に関するデータおよび実
質上第1の信号に類似している第2の信号の同様
な時間に依存する特徴に関するデータを発生する
こと;第2の信号のタイミングと第1の信号の対
応する特徴のタイミングとの間の相違を表わすデ
ータを発生するように該データを利用すること;
信号編集のために適している媒体に第2の信号の
波形を表わすデータを発生すること;第1の信号
の該特徴の相対的なタイミングを実質上複製する
第2の信号の編集フオームを表わす出力データを
発生するように第2の信号を表わすデータを編集
するために適当な編集データを発生するためにタ
イミング差データを使用すること;および、編集
データにしたがつて第2の信号を表わす信号を編
集することのステツプを有する信号処理方法が提
供される。 この発明の他の局面によれば、信号の選択時間
に依存する特徴に関する第1および第2の信号デ
ータより決定するための手段と;第2の信号の該
特徴のタイミングと第1の信号において実質上同
じ特徴のタイミング間の差を表わすデータを発生
するように該データを使用するための手段と;第
2の信号波形を表わすデータを発生し、蓄積する
ための手段と;第1の音声信号の該特徴の相対的
なタイミングを実質的に複製する第2の信号の編
集フオームを表わす出力データを生じるように第
2の信号を表わすデータを編集するのに適した編
集データを発生するようにタイミング差データを
使用するための手段と;このような編集を達成す
るための手段と;からなる信号処理装置が提供さ
れる。 この発明の別の局面によれば、第1の音声信号
の実質的な模写である第2の音声信号を表わすデ
イジタル・データを発生すること:第1および第
2の信号の選択音声パラメータの発生および/あ
るいはその値から決定するように規則的な間隔で
第1および第2の音声信号を処理すること;第2
の信号における選択音声パラメータの発生およ
び/あるいはその値を表わす処理されたデイジタ
ル・データに応じて第2の信号における音声の有
無を指示するデイジタル・データを発生するこ
と;第2の信号におけるピツチを表わすデイジタ
ルデータを発生すること:第2の音声信号の該特
徴のタイミングと第1の音声信号の対応する特徴
のタイミング間の差を表わすデイジタル・データ
を発生するように第1および第2の音声信号の音
声の有無を指示し、第1および第2の音声信号の
音声パラメータを表わすデイジタル・データのシ
ーケンスを使用すること;第2の音声信号におけ
る無声および/あるいは有声期間を調整すること
によつて第1の音声信号の対応する特徴のタイミ
ングを第2の音声信号の該特徴で実質的に複製す
る要求に応じて編集データを発生するように第2
の音声信号のピツチおよび第2の音声信号におけ
る音声の有無を指示するデイジタル・データのタ
イミングおよびシーケンスにおける該差を表わす
デイジタル・データを処理すること;および、編
集データに従つて第2の音声信号に対応するデイ
ジタル・データを編集し、第2の音声信号の編集
版に対応し、それによつて編集されたデイジタ
ル・データを発生すること;の諸ステツプを有す
る、記録音声を発生するさいに使用するための方
法が提供される。 この発明の他の局面によれば、第1の音声信号
の実質的は模写である第2の音声信号に対応する
デイジタル・データを蓄積するための手段と;該
蓄積手段から該デイジタル・データを読出すため
の手段と;第1および第2の信号の選択音声パラ
メータの発生および/あるいはその値を規則的な
期間で第1および第2の信号から決定するための
手段と;選択音声パラメータの発生および/ある
いはその値を表わす処理されたデイジタル・デー
タに応じて無音、無声音および有声音のような特
徴的な音響学的分類を符号化するデイジタル・デ
ータを発生するための手段と;第2の信号におけ
るピツチを表わすデイジタル・データを発生する
ための手段と;第2の音声信号の特徴のタイミン
グと第1の音声信号の対応する特徴のタイミング
間の差を表わすデイジタル・データを発生するよ
うに第1および第2の音声信号の該特徴的な分類
を符号化し、第1および第2の音声信号の音声パ
ラメータを表わすデイジタル・データのシーケン
スを使用するための手段と;第2の音声信号にお
ける無音および/あるいは有音期間を調整するこ
とによつて第1の音声信号の対応する特徴のタイ
ミングを第2の音声信号の特徴で実質的に複製す
る必要に応じて編集データを発生するように特徴
的な分類を符号化するデイジタル・データのピツ
チおよびタイミングの差とシーケンスとを表わす
デイジタル・データを処理するための手段と;編
集データに従つて第2の音声信号に対応するデイ
ジタル・データを編集し、それにより第2の音声
信号の編集版に対応する編集デイジタル・データ
を発生するための手段;とを含むデイジタル・オ
ーデイオ・システムが提供される。 この発明のさらに他の局面によれば、前記の4
個の説明文のいずれかで規定される方法あるいは
装置又はシステムによつて発生される記録音声が
提供される。記録音声はフイルムあるいはビデ
オ・テープのための会話トラツクの形式にされて
いる。 一般に、S1(t)によつて時間の関数として表わ
すことができる興味ある信号は理想的な条件以下
でしか記録されないことがしばしば起る。代表的
には、記録されているこのような信号はインパル
ス応答h(t)の線形時間不変システムを通過し、さ
らに、これも時間の関数q(t)である付加的雑音に
よつてそこなわれる。その結果として生じる信号
x1(t)だけが受信機で受信される。別異の例におい
ては、x1(t)=S1(t)のように劣化がなく、当該信号
は別異の理由でなおも満足されることがない。そ
れにもかかわらず、いくつかの目的のために重要
であるS1(t)の時間次官に依存する特徴は時間にお
ける特定のモーメントで発生し、しばしば保存さ
れねばならないものはこれらの特徴の発生の相対
的なタイミングである。次に、重要な時間に依存
する特徴を有するこのような満足できない信号x1
(t)は参照信号として参照される。これらの状況に
この発明を適用するさい、第1のステツプは置換
信号として参照される第2の信号x2(t′)の供給
することである。ただし、t′はx2(t′)がから独
立したスケール上の時間の関数であることを示
し、そのはS1(t)として時間に依存する特徴の同
じシーケンスを本質的に含んでいるが、その特徴
はS1(t)の対応する特徴としてほぼ同じタイミング
だけで生じる。 x1(t)あるいはx2(t′)のどちらかあるいはx1(t)、
x2(t′)の両方ともあとでのアクセスおよび検索
のために蓄積されるので、通常、tとt′は時間に
おける同じ絶対モーメントからは必ずしも始まら
ない。tとt′は実際の信号あるいは蓄積された参
照信号あるいは置換信号のそれぞれのどちらかの
時間スケールに関連することに注目すべきであ
る。これらの信号が実際の信号であるかあるいは
これらの蓄積版であるかどうかで、時間t=0お
よびt′=0は信号x1(t)およびx2(t′)のそれぞれの
始めに関連する。さらに、x1(t)に発生するための
第1の重要な事項はt>0の所定の値で信号S1(t)
が始まることであり、同様にして、x2(t′)にお
ける対応する興味ある信号S2(t′)はt′>0の所定
の値でx2(t′)において始まることである。信号
x1(t)およびx2(t′)の選択された物理的な面は周
期的に測定され、時間に依存するパラメータを含
む有用な信号パラメータはこれらの測定から決定
される。その測定は検出されるべき信号x1(t)およ
びx2(t′)の特性におけるいちじるしい変化のた
め十分高速で実行される。さらに、置換信号はパ
ラメータのいくつかあるいは全部のシーケンスか
ら分類される。その分類は興味あるS2(t′)の信
号が測定期間にx2(t′)に存在するか存在しない
かどうかの分類に関するものである。次いで、各
測定信号の時間従属パラメータおよび置換信号の
時間従属分類は参照信号の時間従属特徴のタイミ
ングの最上の複製をするにちがいない置換信号x2
(t′)の時間スケールのひずみを表現する時間ひ
ずみ路(path)と呼ばれる時間従属関数を生じ
るようにパターン・マツチング技術を用いて処理
される。時間スケールひずみ関数は、参照信号の
時間スケール上の対応する重要な特徴と共に置換
信号の時間スケール上で起る所望の重要な特徴の
整列を達成するように置換信号の信号波形が確実
に変更されるようにするため参照信号の時間スケ
ールと置換信号の時間スケール間は十分な相違が
あることを検出するように解析される。時間スケ
ールひずみのこの解析から得られる情報は、置換
信号で作動されることができる編集プロセスのた
めの詳細な制御情報を発生するように置換信号の
時間従属分類と置換信号のピツチおよび波形デー
タ上の情報と共に利用される。それからこの制御
情報は編集された信号において参照信号の比較的
重要な時間従属特徴のタイミングを実質的に複製
するように制御信号が置換信号からあるいは置換
信号への信号データの適当なシーケンスの削除動
作および/あるいは挿入動作をする編集プロセス
で使用される。 この発明の好ましい実施例によると、大容量デ
イスク・メモリを有するコンピユータ・システム
は記録し、新しい会話と原案内トラツクとを自動
的にポスト・シンクロナイズするように配列され
る。そのシステムは言葉と言葉の間の無音声ギヤ
ツプ期間の変更および受け入れることのできる状
況での音声要素期間の調整によつて新しい言葉の
タイミングを主に調整する。音声のこの“マイク
ロ編集”を制御する決定は音声の発生および認識
についての知識に基づくものである。したがつ
て、その決定で編集された音声が自然に聞えるよ
うにされる。処理は必ずしも実時間では行なわれ
ない。その処理は、新しい会話の録音中で行なわ
れ、必要ならば、巻き戻しおよび再生動作中でも
行なわれるので、いかなる遅延も生じない。この
好ましいコンピユータ・システムは大容量バツフ
ア・メモリおよび入出力インターフエースを介し
て高速(すなわち1.2メガ・バイト/秒)データ
転送バスに結合されているA/DおよびD/A変
換システムを有する。双対チヤンネル・パラメー
タ抽出プロセス・システムはI/Oインターフエ
ースを介してバスに結合され、大容量(すなわ
ち、84メガ・バイト)磁気デイスク・メモリはデ
イスク・コントローラを介してバスに結合され、
マグナテツクELシステムによつて発生されるフ
イルム・フレーム位置信号および制御信号を受信
し、マグナテツクELシステムに制御信号を伝送
するのに適しているハードウエアは順にバスに結
合されているボードに搭載されているランダム・
アクセス・メモリを有する単一のボード・コンピ
ユータの並列入出力ポートに結合され、論理制御
およびデータ入力キー・ボードとVDUは単一ボ
ード・コンピユータの直列入出力ポートに結合さ
れ、第2の単一ボード・コンピユータはバスに結
合され、直列あるいは並列ポートを介して他の単
一ボード・コンピユータに結合される。 この発明は、添付図面に即してその例が説明さ
れる。こゝに、 第1図は、この発明を具体化するポスト・シン
クロナイジング・システムのブロツク線図であ
る。 第2図は、この発明を具体化するプロセツサで
ある第1図のシステムのプロセツサの詳細ブロツ
ク線図である。 第3図は、第2図のプロセツサの部分のブロツ
ク線図である。 第4図は、第2図のプロセツサの一部分によつ
て実行される概略的な処理を表わすブロツク線図
である。 第5図は、第2図のプロセツサにおけるインタ
フエースの概略図である。 第6図は、第2図のプロセツサによつて達成さ
れる処理を表わすブロツク線図である。 第7図、第8図および第9図は、第2図のプロ
セツサで達成されるいくつかの処理を説明するた
めのグラフ図である。 第10図は、第2図のプロセツサで達成される
処理の部分の流れ図である。 第11図および第12図は、第2図のプロセス
で達成されるデータ編成およびデータ処理のグラ
フ図である。 第13図は、第2図のプロセツサにおけるプロ
セスを説明するための3個のグラフ群図である。 第14図、第15図および第16図は、第2図
のプロセツサで達成される処理の3個の段階を示
す流れ図である。 第17図は、第16図によつて示される処理に
含まれる選択手順のグラフ図である。 第18図は、計算された時間ひずみ路および入
力アナログ信号とその結果として得られる出力ア
ナログ信号の関係を示すグラフ図である。 第19図は、アナログ信号に関して第2図のプ
ロセツサによる処理を説明するための1セツトが
5個のグラフからなる図である。 第20a図、第20b図、第20c図は、第2
図のプロセツサで達成される編集における処理を
示す流れ図である。そして、 第21図は、第2図のプロセツサの一部分の詳
細ブロツク回路図である。 第1図は映画フイルムと同期する編集置換され
た会話を提供するために自動会話置換スタジオ装
置と共に動作するこの発明の実施例10の概略図で
ある。自動会話置換装置は俳優のマイクロホン1
1、オーデイオ・コンソール12およびマグナー
テツク電子装置MTE600録音機/再生機13、
MET600案内トラツク再生機14、MTE152プロ
セツサ15、MTE8LBインターロツク発生器1
6、MTE9Eカウンタ17および相互に接続する
信号チヤネルを有するMTE151Eプリセツト装置
18からなる。さらに、マグナテツクPR635高速
プロジエクター(図示されていない)は映画を映
写するために含まれている。 自動会話置換方法(ADR)におけるような使
用において、映画フイルムのそれぞれのロール、
対応する案内トラツクおよびバージン磁気フイル
ムはフイルム・プロジエクター(図示されていな
い)、磁気フイルム再生機14および磁気フイル
ム録音機/再生機13にそれぞれ装填される。俳
優のマイクロホンからの信号は案内トラツク再生
器14から案内トラツク・オーデイオ信号をも受
信するポスト・シンクロナイズ会話信号処理装置
として第1図に引用されている実施例10にオーデ
イオ・コンソール12を通して送られる。実施例
10によつて案内トラツク再生機14からの案内ト
ラツク・オーデイオ信号と同期して編集されるマ
イクロホン11からの信号の変形であるアナロ
グ・オーデイオ出力は、オーデイオ・コンソール
12を通して録音機/再生機13に実施例10によ
つて供給される。通常の自動会話置換におけるよ
うに、ポスト・シンクロナイズ・セツシヨンは選
択指定されたループ部を通つてプロジエクター
(図示されていない)および案内トラツク再生機
を循環するMTE152プロセツサ15から開始さ
れ、ループ入力フレームの前方を5〜10フイート
動き、次に指定されたループ部の端まで通常のフ
イルム速度で走行する。プロジエクター(図示さ
れていない)、案内トラツク再生機14および
MTE9EカウンタはMTE152プロセツサ15の制
御の下でインターロツク発生器16からのインタ
ーロツク・パルスを与えられる。さらに、インタ
ーロツク・パルスはMTE600録音機/再生機13
に供給されるがしかし、この録音機/再生機13
による録音はポスト・シンクロナイズ会話信号プ
ロセツサ10によつて制御される。フイルムフイ
ート数およびフレーム数は通常カウンタ17によ
つて観察され、アヘツド・オブ・ループ、イン・
ループおよびパスト・ループ信号はプリセツト装
置18によつて与えられ、公知の方法でMTE152
プロセツサ15に供給される。MTE152プロセツ
サ15によつてインターロツク発生器16に供給
される運動コマンドは公知の高速における順方向
と逆方向、正規のフイルム速度における順方向と
逆方向、停止であり、また他の標準的コマンドは
MTE8LBインターロツク発生器のために
MTE152プロセツサによつて提供される。
MTE152プロセツサのオペレータの制御の下にあ
るマスタ・レコードおよび録音/再生状態信号は
その処理においてこれらの信号を使用するポス
ト・シンクロナイズ会話信号プロセツサ10に供
給される。さらに、MTE600録音機/再生機13
が正規の順方向速度で走行しているときに同期順
方向速度信号を発生し、この信号は使用するため
に会話信号プロセツサ10に供給される。カウン
タ17によつて発生されるBCDフイルム・フイ
ート数およびフレーム数信号は処理において使用
されるデータを提供するように会話信号プロセツ
サ10に供給される。 第2図はこの発明を実施するポスト・シンクロ
ナイズ会話プロセツサ10の概略図である。第2
図に示されているように、マグナテツク電子装置
13,15および17によつてプロセツサ10に
供給される信号は、128キロ・バイト・メモリを
有し、マルチプレクサ20を制御し、インタフエ
ース19のそれぞれのバツフア21を通してシス
テム状態記録信号と再生信号およびマスタ・レコ
ード信号と順方向同期速度信号を受信し、インタ
フエース19のバツフア22を通して録音機/再
生機13にマスタ・レコード信号を出力する第2
図に示されている第1の単一ボード・コンピユー
タSBC1への1桁並列入力へカウンタ17から
の6桁BCDフイート数信号およびフレーム信号
に変換するためのマルチプレクサ20を含むため
に第5図に示されているマグナテツク・インタフ
エース19としてここで引用されている1つの回
路への入力である。MTE152プロセツサ15はマ
スタ・コンソールとして使えるようにこの装置に
よつて可能化される。 指定されたループ部の循環中、MTE152プロセ
ツサ15で選択された録音モードで次に関係のあ
る信号はマスタ・レコードが活性にあるものであ
る。もし条件、選択された録音モード、指令され
た順方向同期速度、イン・ループ・アクテイブが
すべて存在し、指定されたループ部の始めの正確
なフイート数/フレームのプリセツト装置18に
よる検出に一致するならば、この信号はMTE152
プロセツサ15によつて発生される。こゝで、以
下の命令が実行される。 1 BCD開始フイート数/フレームを読出し、
第1のコンピユータSBC1のメモリに格納す
る。 2 時間ひずみプロセツサ・コンピユータSBC
2に開始するためのメツセージを送り、次に第
1のコンピユータSBC1のメモリに記憶され
ている編集データを発生するように第1のコン
ピユータSBC1によるアクセスのためコンピ
ユータSBC2のメモリに時間ひずみ路および
分類を格納する。 3 アナログ−デイジタル装置28をリセツトす
る。 4 マスタ・レコードがオフ、すなわち動作して
いないとき、アナログ−デイジタル装置28か
らの割込みを可能化する。 5 編集を始めるようにSBC2からのデータを
待つ。 MTE152プロセツサによつてマスタ・レコード
がターン・オフされると、指定されたループ部の
最終フレームに対応して、以下の命令が実行され
る。 1 BCD最終のフイート数/フレームを読み出
し、第1のコンピユータSBC1のメモリに格
納する。 2 2秒間デジタイジング・ダイビングを続け
る。 3 アナログ−デイジタル装置28の最後のデー
タ・バツフアを空にして、アナログ−デイジタ
ル装置28からの割込動作が出来ないようにす
る。 4 最後の処理区間数を計算してSBC2に送る。 5 編集動作終了。 いつたん録音モードで循環されると、MTE152
プロセツサ15はループ終了点で自動的に再生モ
ードにジヤンプし、ループが動作開始し、次に順
方向の正規速度にはいらないうちに一つの点まで
巻き戻す。関係ある次の信号は録音機/再生機1
3によつて発生される順方向同期速度信号であ
る。BCDフイート数/フレーム位置が、
MTE152プロセツサ15がループを通して高速巻
戻しを達成するような記憶されているループ開始
点に一致すると、会話信号プロセツサ10による
この信号の監視によつて編集されているダビング
のD/A変換出力が生じないようにされる。 順方向同期速度信号が受信されると(MTE152
プロセツサ15のモードはすでに再生であると
き)、下記のことが実行される。 1 ミユート(mute)オンでD/A装置29の
データ・バツフアをプリロード(後述の第21
図の説明を参照)。 2 BCDフイート数/フレームとメモリのルー
プ開始フレームとを一致させる(フイート数カ
ウンタ・ビツトをストローブするようにカウン
タの最下位ビツトを使用する)。 ループ開始フレームに達すると、 1 マスタ・レコード信号をプロセツサ10から
録音機/再生機13に供給する。 2 バツフア・アドレス・ポインタを0にリセツ
トし、ミユート・オフにする(出力が出始め
る)。 ループ最終点で、 1 プロセツサ10からのマスタ・レコード信号
をスイツチ・オフする。 俳優は録音モードでループの最終点の後にせり
ふを言うけれども、この音声は会話信号プロセツ
サ10によつてテープ部内にまでひずまされるの
で、ダビングのいかなる部分も磁気フイルム上で
失われることはない。 第1の単一ボード・コンピユータSBC1はバ
ス23によるボード内通信のためのI/Oポー
ト・ハンドシエイクのため類似の第2の単一ボー
ド・コンピユータSBC2に結合される。コンピ
ユータSBC1およびSBC2の両方ともデータ信
号、アドレス信号および制御信号の2方向トラフ
イツクのためマルチバス24に接続される。会話
処理が達成されるための適当な記憶装置を提供す
るために、84メガ・バイト・ウインチエスタ・デ
イスク・メモリ25はデイスク・コントローラ2
6によつてマルバスに結合される。第1のコンピ
ユータSBC1はシステム・コントローラおよび
後述される編集処理の信号Iデイターとして用い
られる。さらに、128キロ・バイトのメモリを有
する第2のコンピユータSBC2は時間ひずみ処
理を実行するために用いる。 コンピユータSBC1およびSBC2の各々はイ
ンテル社製のSBC86/30である。次に、マルチバ
ス24はインテル社製のマルチバス・カード・フ
レームSBC608であり、デイスク・コントローラ
26はインテル社製のSBC220である。デイス
ク・メモリ25は富士通製のM23128Kである。 可視表示装置(VDC)およびデータ入力端末
27はSBC1に入力されるようにユーザによつ
て選択された処理パラメータを許すように第1の
コンピユータSBC1に結合される。 オーデイオ・コンソール12によつてポスト・
シンクロナイズ会話プロセツサ10に送られる俳
優のマイクロホン11からのオーデイオ信号は第
3図においてD/A変換器29と共有バツフア3
0バス・インタフエース31と制御装置32と共
に詳細に図示されているA/D変換器28のアナ
ログ入力となる。バス・インタフエース31はバ
ツフア30および制御装置32をマルチバス24
に接続されているデータおよび制御バスに結合す
る。バス・インタフエース31はマルチバス24
からのそれぞれの信号によつて可能化され、制御
信号はサンプル・ホールド回路34およびA/D
変換器35を制御する制御装置32にバス・イン
タフエース31を通して送られる。マイクロホン
信号はサンプル・ホールド回路34に達しないう
ちにバツフア増幅器36を通してロー・パス・フ
イルタ37に送られる。サンプル・ホールド回路
34で生じる信号サンプルは変換器35によつて
デイジタル化され、デイジタル出力は第1のコン
ピユータSBC1によつてアクセスするため大容
量のバツフア30に供給される。さらに、制御装
置32、バス・インタフエース31およびバツフ
ア30によつて編集会話データ出力が生じる。こ
のデータはバス・インタフエース31によつてデ
ータおよび制御バス33からバツフア30に転送
され、そこからD/A変換器38に転送される。
変換器38からのアナログ出力はD/A変換によ
つて生じる非音声過渡成分を取除くための公知の
回路であるデグリツチ(de−glitch)増幅器39
に供給される。デグリツチ増幅器39からの出力
は他のロー・パス・フイルタ40を通つてオーデ
イオ出力増幅器41に送られる。 出力増幅器41からのアナログ・オーデイオ出
力は会話信号プロセツサ10によつてMTE600録
音機/再生機13に供給される出力である。 また、俳優のマイクロホンからのオーデイオ入
力信号は“タビング・パラメータ抽出プロセツ
サ”としるされた2個の同様な音声パラメータ抽
出プロセツサ42および43の一方に供給され
る。 “案内トラツク・パラメータ抽出プロセツサ”
としるされている他方のパラメータ抽出プロセツ
サ43はMTE600案内トラツク再生機14からの
オーデイオ出力信号を受信する。案内トラツク・
パラメータ抽出プロセツサ43は第4図に関して
後で詳細に説明される。2個のパラメータ抽出プ
ロセツサ42および43はバス・インタフエース
44によつてマルチバス24に結合される。 ポスト・シンクロナイズ・セツシヨンにおい
て、俳優が案内トラツク上の信号をまねて彼の会
話のせりふをしやべるようにする間に、マグナテ
ツク152プロセツサ15は指定されたループ部を
通つて循環する。これに対応する長さの映画フイ
ルムは、俳優が見るように同時に映写される。こ
の第1のサイクルにおけるループ入力点で、可視
的あるいは可聴的な合図を受けとつた俳優はせり
ふを話し始める。俳優のマイクロホン11はA/
D変換器部28に接続されており、そのために、
俳優がしやべるとマイクホン11によつて生じる
音声信号は変換器35によつてデイジタル化さ
れ、磁気デイスク・メモリ25に記憶される。こ
のデイジタル化は正確なループ入力モーメントで
始まり、第1のコンピユータSBC1のメモリに
入力される入力点のフイート数/フレームを続け
る。さらに、俳優のマイクロホンはダビング・パ
ラメータ抽出プロセツサ42に接続され、案内ト
ラツク・パラメータ抽出プロセツサ43は案内ト
ラツク再生機14から案内トラツク・オーデイオ
信号を受信するように接続され、俳優の音声信号
および案内トラツク音声信号の分析および処理お
よび編集データの発生は2つの計算機SBC1お
よびSBC2で同時に始めることができ、そのよ
うにして生じた編集データは第1のコンピユータ
SBC1のメモリに入力される。ループ最終点で、
BCDフイート数/フレームはメモリに入力され、
俳優の言葉のデイジタル化、蓄積および分析は、
俳優がまだしやべつている場合ループ最終点のあ
と約2秒間続行される。俳優の音声データおよび
案内トラツク音声データの処理は指定されたルー
プ部のこの最初のサイクルの高速巻戻しフエーズ
中続行され、出来るかぎり巻戻し中に終了され
る。 この第1のサイクルは、俳優の演技が満足する
ものでないならば、繰り返される。 デイスク・メモリ25に記憶されている俳優の
音声データが読出され、記憶されている編集デー
タに従つて第1のコンピユータSBC1によつて
編集され、D/A変換器24によつてアナログ入
力に変換され、それからいくつかの必要な増幅器
の段数を含むスタジオ拡声器(図示されていな
い)によつて可聴音声信号に変換されるサイクル
中、次のステツプは指定されたループ部を通され
る第2のサイクルあるいはそれ以上のサイクルで
ある。 新しい適当な音声信号がデイスク・メモリ25
に記憶されているデイジタル・データの形式で発
生され、この第2のサイクル中にデイクレタおよ
び俳優によつて評価を加えられるフイルムのため
の会話として第1のコンピユータSBC1によつ
て編集される。同時に、アナログ信号はバージン
磁気フイルムに新しい会話を録音する磁気フイル
ム録音機/再生機13に供給される。もし、順方
向同期速度信号が有効であるならば、そのシステ
ムはテープ入口および出口で録音機/再生機13
の録音機能をそれぞれに有効および無効にする。
新しい会話が満足するものであるならば、次の指
定されたループ部で開始される。しかしながら、
もし編集データが映画フイルムに満足な効果を与
えないならば、そのプロセスが繰返される。 会話プロセツサ10によつて実行されるデイジ
タル・データ処理を表わすブロツク線図である第
6図において、データ処理ステツプはブロツク内
の凡例によつて指示される。そのため、このよう
な凡例を有するブロツクは計算システムによつて
実行されるプロセス、あるいはこのようなプロセ
スを実行するためのハードウエア装置又はいくつ
かの場合はこのような装置および他の場合はハー
ドウエア装置と共に作動する計算システムによつ
て実行されるプロセスを表わす。 第6図において、案内トラツク・アナログ信号
は数学的に時間量である独立変数の関数x1(t)と
して表わされ、俳優のマイクロホン11からのア
ナログ信号は変数として同じ装置での時間量で
あるが、独立した原点量である別の独立変数t′
別の関数x2(t′)として数学的に表わされる。 録音された案内トラツクおよびダビングからの
音声パラメータの発生は2つの抽出プロセツサ4
2および43からのパラメータの周期的出力によ
る処理を伴う。これらのパラメータは処理装置に
おいてデータ・シーケンスとして処理されるまで
少なくとも一時的に記憶される。データ・シーケ
ンスの1セツトは指定された案内トラツク・ルー
プのために発生され、もう1つのセツトは俳優に
よるダビングのために発生される。これらのデー
タ・シーケンス間のより小さいタイミング変更の
評価は音声認識システムに使用されるダイナミツ
ク・プログラミング技術に基づくパターン・マツ
チング・オルゴリズムを使用して行なわれる。い
つたん、時間ひずみデータが発生されると、コン
ピユータに記憶される音声波形データのデイジタ
ル編集は開始することができる。編集決定は、映
写された映画フイルムから見ることのできる口の
動きに関して完全にはつきりと同期がとれるとき
に、可聴音声音質に最小の認識できる雑音を許す
ように設計されたアルゴリズムに基づくものであ
る。 俳優がせりふをしやべるサイクル中、案内トラ
ツク信号x1(t)およびマイクロホン信号x2(t′)の
両方からの音声パラメータの発生および処理がポ
スト・シンクロナイジング操作において行なわれ
る。案内トラツク信号x1(t)およびタビング信号x2
(t′)のための音声パラメータの発生は夫々にブ
ロツク45および46によつて第6図に表わされてい
る。 このパラメータ・データは後の検索および処理
のためにデイスクに随意に記憶されるかあるいは
それが発生されると、時間ひずみ路として引用さ
れている時間整列データを生じるように“時間ひ
ずみ路の発生”としるされているブロツク47で直
ちに処理される。時間ひずみ路はダビングの重要
な特徴を案内トラツクの対応する特徴にいかに最
良に整列するかを描写するものである。さらに、
ダビングのセグメントはパラメータ・データのい
くつかあるいはパラメータ・データのすべてから
プロセス・ブロツク48における音声あるいは無声
音として分類される。時間整列データの十分な量
が使用可能であると、それは、ダビング波形で必
要とされるプロセス51で行なわれるようにマイ
クロ編集すなわち、デイジタル化された記憶ダビ
ング波形(デイスク・メモリ25から検索され
る)の精密構造の編集を許すためにブロツク48か
らの分類データおよび必要ならば、ブロツク50か
らの有声ダビング・セグメントの基本的な周期デ
ータに従つて“編集データの発生”としるされて
いるプロセス・ブロツク49で使用される。いずれ
の新しい編集された波形セグメントでもデイス
ク・メモリ25の第2の部分に記憶することがで
き、編集動作のテーブルによつて記憶編集されて
いる波形セグメントからの次のステツプ中完全編
集波形を形成するための準備ができる。前記の処
理は、もし俳優があまりゆつくりしやべるなら
ば、言葉の端が切れたり、なくなつたりしないよ
うにするためテープ出口点を越えて2、3秒間続
行される。 もし、パラメータ・データがデイスクに記憶さ
れているならば、パラメータ・データおよびマイ
クロ編集の前記の処理のすべては映画フイルムお
よび案内トラツクの巻戻し中そして出来るならば
後述の再生ステツプ中に続行される。もし、パラ
メータ・データが記憶されていないならば、それ
はブロツク47および48の時間ひずみ路および分類
データの発生のために充分な平均的な実時間速度
で処理されねばならない。しかしながら、もし時
間ひずみ路がメモリに記憶されるならば、基本的
な周期データ(ブロツク50)の誘導、編集データ
(ブロツク49)の発生、置換信号の編集(ブロツ
ク51)の処理は第2のサイクルの高速巻戻しおよ
び再生フエーズ中に続行される。再生されるべき
ダビング・データのいずれの部分でも、再生され
ないうちに完全に処理されなければならないとい
う重要な要求がある。 案内トラツク信号x1(t)およびダビング信号x2
(t′)を分析し、それによつて適当な短い間隔で
あるT秒ごとに1回パラメータを発生するように
使用される処理の特定の型の選択は、数多くのパ
ラメータが音声によつて引き起こされる時間によ
つて変化するという性質を反映するということで
いく分不定である。測定動作はパラメータを発生
するように使用される計算法にしたがつて便宜的
にグループ分けされる。一般に、3個の有用なカ
テゴリが存在する。 まず第1に、もし両方の信号x1(t)およびx2(t′)
のサンプリングされた変形がいくつかの手段で使
用可能にされるならば、パラメータはこれらの信
号の記憶されたサンプルのブロツクを並列処理す
ることによつて発生される。各信号において、サ
ンプルのブロツクはサンプル・ブロツク間の所望
の独立量に依存して、重なり合つたり、重なり合
わなかつたりする。音声パターン・マツチングの
ために最も一般に使用されているサンプル・ブロ
ツク向けパラメータは、短時間麗交叉率、短時間
エネルギー、短時間の平均的な大きさ、短時間自
己相関係数、短時間の平均的な量の差分関数、短
時間離散スペクトラル係数、線形予測係数と予測
エラーである。前記の短時間パラメータの各々を
計算するための定義および手順の詳細は1978年米
国のプレンテイスホール社出版、L・ラビナ、
R・シヤフア共著「音声信号のデイジタル処理」
に記載されている。 第2番目のカテゴリはx1(t)およびx2(t′)を解
析するアナログ・フイルタ・バンクの出力を周期
的走査およびサンプリング(T秒ごとに1回)に
よつて実行することができる測定動作を含む。い
くつかのこのような音声分析システムは1972年ド
イツのスプリンガーフエルラク社出版、J・Lフ
ラナガン著「音声分析合成および認識・第2版」
に記載されている。 処理動作の第3番目のカテゴリは連続時間分析
システムのサンプル・データあるいはデイジタル
信号処理を実行する動作を含む。そのシステムの
出力はT秒ごとにサンプリングされる。典型的な
例(実際、後述される実施例で1度使用される)
は1975年米国のプレンテイスホール社出版、L・
R・ラビナ、B・ゴールド共著「デイジタル信号
処理の理論と応用」に記載されているように設計
され実行される並列デイジタルフイルタバンクで
ある。このカテゴリは2つの信号x1(t)およびx2
(t′)のサンプリングされた変形が使用可能にさ
れることが必要である。 さらに、周期的になされた測定の前記のタイプ
からのいくつかの組合わせでパラメータを使用す
ることができる。しかしながら、使用されるパラ
メータの数の選択は変更することが可能であり、
一般に次の考察に依存することができる。 参照信号x1(t)における関係のある信号S1(t)は雑
音およびフイルタ効果によつて劣化されるので、
多数のパラメータの測定によつて参照信号x1(t)と
置換信号x2(t′)間で最も信頼性のある比較がさ
れる。低下の形式や程度は処理の後続の段階で使
用されるパラメータの選択に影響を及ぼす。も
し、参照信号x1(t)が純粋に関係する信号S1(t)から
なるならば、2、3のパラメータだけが後続の処
理動作において使用するために必要である。 最後に、パラメータのいろいろな型が発生さ
れ、これらのパラメータの各々が特定の範囲内に
ある数によつて記述されるならば、各正規化され
たパラメータのために実質的に等しい数値範囲を
提供するように各々のパラメータを正規化する手
段が提供される。 このような正規化手順は時間整列データを発生
するパターン・マツチング・プロセスに対する各
パラメータの寄与がほぼ等しいことを確実にする
必要がある。 パラメータの選択のための主な規準は、いずれ
のパラメータの連続するサンプルでも:(a)音声の
発生の物理的面に関する音声信号内の著しい変化
を反映するべきであり;(b)ダビング波形をサンプ
リングするために必要であるよりも著しく低速度
でハードウエアあるいはソフトウエアにおいて有
効に発生されるべきであり;(c)雑音によつて容易
には悪影響を及ぼされないようにされるべきであ
る。 いかなる混乱も生じないとき、パラメータの組
が並列で発生される速度(1/T/秒)は“デー
タ・フレーム”速度(フイルム・フレーム速度と
区別されるように)あるいは単に“フレーム”速
度として後に引用される。したがつて、データ・
フレーム速度はパラメータ・ベクトルが発生され
る速度である。したがつて、各データ・フレーム
期間中に一度、並列処理動作が案内トラツクおよ
びダビングの両方のために行なわれる。次に、こ
れらの処理結果は案内(又は参照)パラメータ・
ベクトルおよびダビング(又は置換)パラメー
タ・ベクトルとして引用される2個のそれぞれの
データ装置にグループに分けて入れられる。 第6図において、いろいろな信号形式はブロツ
クを接続する違つたタイプの線によつて表わされ
る。すなわち、実線は完全なバンド幅のアナログ
あるいはデイジタル信号ルートを表わし、破線は
フレーム速度でサンプリングされるデータのルー
トを表わし、2重破線は並列データ・ルートを表
わす。 この例で、案内トラツク磁気フイルム再生機1
4の出力である参照信号x1(t)が再生され、同時に
この例においてマイクロホン11の出力である置
換信号x2(t′)はA/D変換器35にロー・パ
ス・フイルタ37(第3図)を通して送られる。
フイルタ37は再生されるべき最高周波数にある
遮断周波数fcを有する。サンプル・ホールド回路
34はD秒の間隔で波信号をサンプリングし、
再生されるべき最高周波数の2倍以上の1/D/
秒のサンプリング速度を生じる。この例において
は、15KHz(=fc)のバンド幅は十分なものであ
り、Dは1/32000秒に選択される。 サンプリングおよび変換プロセスは信号x2(t′)
を表わすデイジタル・データx2(nD)のストリー
ムを生じる。こゝに、n=0、1、2…である。
データ・ストリームx2(nD)はデイスク25に書
込まれて、更に処理操作のために使用可能である
ように保持される。信号x2(t′)がサンプリング
され、デイスクに書き込まれる一方、それはパラ
メータの発生としるされているブロツク46によ
つて同時に処理される。同様にして、信号x1(t)は
ブロツク45によつて同時に処理される。これら
の2個の同様なブロツク45および46の1個は
第4図にさらに詳細に表わされている。 この実施例において、参照信号パラメータ・ベ
クトル(kT)はNチヤネル・デイジタル・フ
イルタ・バンクを含む案内トラツク・パラメータ
抽出プロセツサ43のサンプリングされ、対数的
に符号化された出力から各案内トラツク信号フレ
ームk(こゝに、k=1、2、3…)で形成され
る。同時に、並列プロセスにおいて、置換信号パ
ラメータ・ベクトル(JT)はNチヤネル・デ
イジタル・フイルタ・バンクを含むダビング・パ
ラメータ抽出プロセツサ44のサンプリングさ
れ、対数的に符号化された出力から各フレームj
(こゝに、j=1、2、3…)で形成される。2
個の同様なフイルタ・バンクは同一の特性を有す
る。フレームj=1およびk=1のためのパラメ
ータ・ベクトルはT秒の第1の期間の終りで生
じ、関係のあるそれぞれの信号はこの第1のフレ
ームの後で始まるものと仮定する。 第4図において、x1(t)からの(kT)の発生
の詳細が示されている。x2(t′)からの(jT)
の発生は同様に実行される。したがつてそれは図
示されないかあるいは別々に説明される。 第4図において、入力信号x1(t)は、A/D変換
器(A/D−C)53のダイナミツク・レンジの
大部分はクリツピングなしで使用されることを確
実にするために調整されている利得Gの可変利得
増幅器段52を最初に通り。仮りに、増幅された
アナログ信号が音声信号における高周波エネルギ
のロールオフ(rolloff)を補償する1KHzから4K
Hzまでが+6dB/オクターブの利得のものである
ならば、それは高周波ブースト回路54(HFブ
ーストとしるされている)を通る。その結果得ら
れる信号はロー・パス・フイルタ(LPF)55
(例えば、4KHzで遮断の通過帯域、転移幅1.25、
通過帯域リツプル0.3dB、60dBの最小のストツプ
帯域減衰を有する7階数だけ円関数設計)を通過
し、その結果得られる波信号x′1(t)(こゝに、
ダツシユはx1の波された変形を示す)は、この
例において、サンプリングされたデータ・ストリ
ームx′1(mcD)(こゝに、m=0、1、2…)を
生じるように1/cDHzのサンプリング周波数で
作動する12ビツトのA/D変換器(A/D−C)
である変換器53によつて追従されるサンプル・
ホールド装置(S/H)56から成る組合わせに
よつてデイジタル化される。定数は、率1/
cDが蓄積、編集および再生のため置換信号をサ
ンプリングするのに使用される率1/Dに整数的
に関連されるように整数である。この手段によつ
て、同期はサンプリング信号x′2(nD)とフレー
ム・インデクスjおよびk間に維持される。C=
4(したがつて(cD)-1=8KHz)の使用によつて、
バンド幅およびサンプリング速度が減少し、した
がつて、パラメータを発生するのに必要な処理操
作がかなり節約される。同時に重要度のきわめて
低い情報は失われる。 データ・ストリームx′1(mcD)は、N並列バン
ドパス・フイルタ部BPFi(こゝに、iは周波数帯
域数を指す)からなるデイジタル・フイルタ・バ
ンク57に入力される。このシステムにおいて、
N=4および使用されるフイルタは、次の遮断周
波数(−3dB減衰)を有する4階数バタワース設
計を帰納的に実施したバンドパス・フイルタであ
る。 【表】 このようなフイルタの設計および実施はよく知
られており、1975年、米国のプレンテイスホール
社出版、L・Rラビナ、B・ゴールド共著「デイ
ジタル信号処理の理論および応用」に記載されて
いる。 x′1(mcD)において4KHz上位の高周波数帯域
(即ち、帯域4)に入る周波数の小範囲の許容さ
れた“aliasing”は異常ではあるけれども、4KHz
上位のいかなる音声のエネルギでも、追従するパ
ターン・マツチング・プロセスを寄与することで
有用であるという点では望ましいところである。 各バンドパス部BPFiの出力は以下同様に処理
される。各BPF出力はブロツクFWRiで全波整流
され、整流信号はその各々は約10Hzの遮断周波数
を有する2個の直列に接続された1階数の漏れや
すい積分器よりなるロー・パス・フイルタLPFi
を通る。このフイルタは入力信号を平滑化し、そ
れによつてその結果得られる信号は第4図に概略
的に表わされるスイツチによつてT秒(こゝに、
T=0.01秒)ごとにサンプリングすることができ
る。最後に、サンプリングされた出力データはブ
ロツクLOGにおいて(検索表によつて)8ビツ
ト対数量Ai(kT)(こゝに、サフイツクスiはi
番目のバンドを示す)に変換される。したがつ
て、Ai(kT)は正規化パラメータ・ベクトルの
N個の成分の1個である。そのレンジが直接比較
できるこれらの成分の逐次アクセスは、完全なパ
ラメータ・ベクトル(kT)を形成するための
マルチプレクサであるブロツク59であつて、パ
ラメータベクトルを形成としるされている前記ブ
ロツク59で実行される。 フイルタバンク・プロセツサ43から次の処理
段階へのパラメータ・ベクトル・データの移動は
2個の大容量RAMバツフア・メモリ60および
61(バツフア・メモリ1およびバツフア・メモ
リ2)の1個にシーケンシヤル・パラメータ・ベ
クトル(チヤネルごとに4バイト/フレーム又は
全部で8バイト/フレームからなる)を記憶する
ことによつて実行される。前記バツフア・メモリ
の各々はパラメータ・ベクトルの整数の倍数Rを
保持する。これらの大容量バツフア60および6
1の一方が満杯になると、新しいパラメータ・ベ
クトルは他方のバツフアに記憶される。さらに、
第2のバツフアが満杯になると、時間ひずみ路発
生を実行するプロセツサSBC2は満杯のバツフ
アにアクセスし、処理中に起りうるアクセスのた
めその内容の他のメモリ・エリアへの移動を開始
する。満杯になつたバツフア60および61から
当該データが転送された後、バツフアは新しいデ
ータで書き込まれる。このような2重系のバツフ
ア・システムは、データ転送が次段の処理部に対
してデータ転送がなされている間に、いかなるデ
ータも失われないことを確実にする。 Rパラメータ・ベクトルを記憶するために2重
系バツフア・システムを使用するということは、
1個のバツフアが満杯の後、k番目のパラメー
タ・ベクトルがある1個のバツフアに記憶される
べき第1のベクトルであるならば、(K−1)番
目のパラメータ・ベクトルに加えて(k−1−
R)番目のパラメータ・ベクトルが以前に満杯に
されたバツフアから直ちに使用可能にされる。し
たがつて、パラメータ・ベクトルに対する次段の
処理は厳密には実時間処理ではないけれども、そ
の処理は可変遅延に基づく実時間速度で作動す
る。バツフア60および61の切換動作は第4図
に概略的に示されている連動スイツチ62によつ
て行なわれる。 時間ひずみプロセツサの説明 次に、時間ひずみ路の発生としるされているプ
ロセス・ブロツク47(第6図)によつて表わさ
れる動作が詳細に説明される。この動作は第2の
単一のボード・コンピユータSBC2によつて実
行される。時間ひずみ路は、ダビング・フレーム
が繰返されあるいは省略されることを許すことに
よつて案内パラメータ・ベクトルの一定のシーケ
ンスに最も良く一致するダビング・パラメータ・
ベクトルのシーケンスを(フレーム・バイ・フレ
ームに基づいて)見つけるように案内およびダビ
ング・パラメータ・ベクトルを処理することによ
つて生じる。この実施例において、パラメータ・
ベクトルは案内およびダビング音声信号のスペク
トル横断面を表わす。ダビングおよび案内スペク
トル横断面間の類似性を対比するために、原パラ
メータを比較しないが、音声パターンでの差を主
に強調するようにして、環境条件あるいは録音条
件に対して敏感ではないように処理される簡単な
距離関数が使用される。ダビング・フレーム・イ
ンデクス・シーケンス、すなわち、ダビング・パ
ラメータ・ベクトルと案内パラメータ・ベクトル
とが最も良く整列するj値のシーケンスはブロツ
ク49の編集動作に対する入力である時間ひずみ
路を規定する。 こゝで、“距離”という用語は距離を構成し、
もし、2個の要素が同じで、その数が2個の要素
がとるオーダに関係なく同じであり、要素の1対
に関連する数に対の1つおよび第3の要素に関連
する数をプラスしたものは、対のもう一方および
第3の要素に関連する数に等しいか、あるいは、
それより大きいというだけならば、その数は0で
あるという条件を満足する実数であつて、負数で
はない数の一組の要素の各対に関連する数学的関
数を意味する。 の関数であり、W(kT)と書かれる時間
ひずみ路は次の2個の特性を有する参照信号パラ
メータ・ベクトル(kT)のデータ・フレー
ム・インデクスの非減少関数として形式的に特
定される。すなわち、これらの2個の特性は:第
1には、k=1、2、3…、K、において、W
(kT)は1からJまでも含めた範囲における整数
のシーケンスである。こゝに、KおよびJは参照
信号および置換信号のそれぞれの最終フレーム・
インデクスとして規定される。(一般に、参照お
よび置換信号のパラメータ化が同時に行なわれる
ならば、J=Kである)。第2に、W(kT)は置
換パラメータ・ベクトルW(kT)のシーケンス
が参照シーケンス(kT)に最も良好にあるい
は最適に一致することを記述する。 したがつて、置換パラメータ・ベクトルが参照
パラメータ・ベクトルに最も良く一致しているW
(kT)はまた、置換信号x2(t′)における重要な
時間従属特徴と参照信号x1(t)における対応する特
徴とが整列するであろう置換信号x2(t′)の時間
スケールの時間ひずみ(すなわち、引き伸ばした
りあるいは圧縮したり)関数として記述する。 参照および置換信号x1(t)およびx2(t′)は一定
の長さ(しかし、任意の長さ)であることが期待
されるという事実のために、(k、j)面で有限
長路として関数W(kT)を表現することが可能で
ある。一次元置換ベクトルと一次元参照ベクトル
とが最も良く一致している時間ひずみ路の例が第
7図に示されている。一次元ベクトルは単一のパ
ラメータ、すなわちN=1、から生じるベクトル
であることを意味する。 なるインデクスが、j軸上のインデクスのシ
ーケンスが割り当てられる参照シーケンスを表わ
しているため、路境界条件は、k=1、jo=W
(1T)および1jo Jであるように、いくつかのjo
がむしろゆるくされている。同様に、jo jFJの
ようないくつかのJF=W(kT)が存在する。路が
j=1で始まりj=Jで終る必要がないことは当
業者には明らかである。しかしながら、K路値の
合計、すなわち、W(kT)の値がなければならな
い。 ばく大な数の可能性のある路のうちから最良の
ものを発見するのに使用される手順はある程度、
公知の単語認識技術から導かれる。このような技
術において、もしいかなる制約も課せられないな
らば、d(k、j)によつて示される2つのベク
トル間の距離(又は相違)の1つの方法を与える
ためにいくつかの置換パラメータ・ベクトル(j)
によつていくつかの参照パラメータ・ベクトル
(k)と比較されることができるマツチング・アリゴ
リズムが使用される。 d(k、j)の1つの有用な定義はN次元パラ
メータ空間における重みづけられた“シテイ・ブ
ロツク”である。すなわち、d(k、j)は次の
ように定義される。 d(k、j)=Ni=1 |Bi(jT)−Ai(kT)|Vi(kT) こゝに、Vi(kT)はk番目のフレームのための
重み係数であり、後で説明される。他の距離の大
きさ、たとえば、ベクトル間のユークリド距離の
2乗が使用される。が一定のとき、d(k、j)
の値はと共に変化することがわかる。 同様に、がそのそれぞれの範囲1からKまで
変えられるとき、d(k、j)の値の合計は、
の各特定の値に対するjに対して選ばれた値が変
えられるとき変化するスコアを提供するときに使
用される。したがつて、スコアは置換フレームの
テスト・シーケンスと参照フレームの固定シーケ
ンスとの一致についての有用な数で示される評価
を与える。さらに、が1からKまで、がjo=
W(1T)からjF=W(KT)まで変えられるような
最小あるいは最良の全体のスコアがある。 最適のスコアを決定するための路の開始点はk
=1で固定されているので、スコアは最終フレー
ムインデクスKにだけ従属する。したがつて、最
適スコアは次の式S(K)で示される。 S(K)= min(j(k))Kk=1 d(k、j(k))〕 こゝで、minの表記は、その合計がインデクス
j(それ自身、kの特定の関数である)までなさ
れ、それによつてその結果生じる合計は最小にさ
れるということを示している。したがつて、Kベ
クトルの2個のセツトの最良の一致をみつけるた
めに、前記の合計S(K)を最小にする(適当な路
の制約で)のK最適値のシーケンスを決定するこ
とが必要である。1からKまでの範囲に対して
最小値を提供するの特定の関数は最適時間ひず
み路W(kT)を正式に定義するものである。 他の時間ひずみ関数はさらに、1980年発行
「IEEE Transactions On Acoustics、Speech
and Signal Processing」第28巻、第6号、第
623頁〜635頁のC・マイヤーズ、L・ラビナおよ
びA・ローゼンベルグによる論文「分離された単
語認識のためのダイナミツク時間ひずみアルゴリ
ズムにおける性能トレードオフ」に記載されてい
る。 フレームKにおいて、最適路は、(KT)お
よび(JK)がマツチング・プロセスで処理さ
れた後、最適であるべきであることが知られるだ
けである。さらに、連続音声のパラメータ化がな
される場合、Kはしばしば数千のオーダである。
したがつて、最適路を徹底的に検索するために前
記の公式を直接に実施するさいに要求されるぼう
大なデータの蓄積および処理を徹底的に減少させ
ることが必要である。これは2つの実質的に類似
の連続音声信号のための時間記録データを発生す
るための有効な処理アルゴリズムの修正版の使用
を通して実現されることができる。その処理アル
ゴリズムの修正版は英国のリード大学で1982年9
月27日〜9月29日に開催されたリード実験音声学
シンポジユムでJ.S.ブリドルによる論文「音声研
究における自動時間調整およびその使用」におい
て提示されている。 修正版を説明する前に、ブリドルによつて開発
された原アルゴリズムが次に説明される。ZIP
(2つの類似の信号シーケンスを一緒にジツピン
グ(Zipping)する動作のため)として知られて
いるブリドル・アルゴリズムは限られた数の潜在
的に最適な路セグメントを並列に発生することに
よつて、最高(最悪)類似点スコアを有する最も
可能性のない候補を除去することによつて作動す
る。路セグメントの端を拡張するための発生規則
はダイナミツク・プログラミングの原理、その大
きさおよび路増分の方向への制約および局部時間
スケースひずみのための不利益によつて決定され
る。不充分な候補者が徐々に除去され、即ち否定
されて、全ての残りの路に対して共通な1個また
は複数個の路要素を含む特有のセグメントに組合
わされて、終極的な起点を有する、より長い路が
残されるようにして、セグメントにおける最良の
路が見出される。もし、除去操作が慎重になされ
るならば、共通セグメントは最適路W(kT)の部
分である。したがつて、路セグメントはそれなり
に、路セグメントが分岐する点まで出力される。
処理される各参照フレームのための処理が続くに
つれて、がユニツトによつて増加されるので、
路は1増分だけ拡張される。すなわち、必要な除
去操作が行なわれ、残りの路の起点は特有性のた
めに調査される。しかしながら、路セグメントの
始め、すなわち、路セグメントの拡張されない終
りが、収束の要求を満足するときだけ最適路セグ
メントが出力される。したがつて、路セグメント
の出力は一般に参照フレームの処理と同期しな
い。 ZIPアルゴリズムにおける時間ひずみ路の発生
は単語認識システムで最適のスコアを計算するた
めにしばしば使用されているアルゴリズムに類似
しているアルゴリズムを適用することによつて効
果的に実現される。公知の単語認識システムは、
1982年5月パリで開催された「音響学、音声およ
び信号処理に関するIEEE 国際会議議事録」の
第899頁〜第902頁のJ.S.ブリドル、M.D.ブラウ
ン、R.M.チヤンバレインの論文「接続された単
語認識のためのワン・パス(one−pass)アルゴ
リズム」に開示されている。しかしながら、単語
認識アルゴリズムと違つて、最適路に沿つて発見
される最適スコアZIPの最終結果でないが、最適
路ではある。したがつて、ZIPは違つた起点から
並行に始まる多数の路を開始点から最終点まで最
良のシーケンスを記述するように発生される各路
と共に処理されるように設計される。この処理を
説明するために、部分路スコアは次に説明され
る。 最適スコアS(K)に対する前記の定義を簡単に拡
張することによつて、の範囲ks〜keとjの範囲
js〜jeに対する距離d(k、j)の和を出来るだけ
最小にするようにいくつかの開始点(ks、js)を
いくつかの終了点(ke、je)(こゝに、ks<ke、js
je)に接続する路のために最適部分路スコアを
定義することは可能である。 すなわち、 Sp(ks、js;ke、je)= min(js、je、j(k))〔ke 〓 k=ksd(k、
f(k)〕 このスコアを最小にし、それのために最良の部
分路セグメントを記述するjのシーケンスを発生
するの関数はjsおよびjeに従属しWjs、je(kT)
として記述される。 所定のjsとjeに対して、の1シーケンスだけ
の一定の範囲に対して最良の路を記述する。
それは(k、j)面における2点間に唯一最良の
路セグメントがあることを意味する。さらに、W
(kT)=WjpjF (kT)なる関係がある。 最小スコアを生じる路のための検索はダイナミ
ツク・プログラミング(または、再帰最適化)ア
ルゴリズムによつてZIPで実行される。ダイナミ
ツク・プログラミング(DP)アルゴリズムにお
いて、2つの主な原理がS(K)を決定するさいとW
(kT)を決定するさいに使用される。すなわち、
(1)1からKまでのの全ての範囲に対するの値
の最適組はさらにの範囲のいずれかの小部分に
対して最適である。(2)ksからいずれかの値keまで
の値に対応するjの値の最適組は対応するjs
であり、またjeはjsからjeまでのの値だけに従
属する。 これらの原理を用いて、ZIPは次の再帰のDP
方程式にしたがつて最良の部分スコアの値を発生
する。 Sp(ks、js;ke、je)= Sp(ks、js;ke、je)= min(a=012)〔Sp(ks、js;ke−1、je−a)+d(
ke、je)+p(a)〕 ここに、関数p(a)はスコアが局部時間スケール
ひずみのための不利益を含むように含まれる。
DPステツプとして引用されているSpのための前
記方程式は最大路傾斜が2になるように制約す
る。したがつて最大置換信号圧縮率は2:1にな
る。 DPステツプの主要な面は、k=keで新しい終
点に対する最良のステツプが新しい終点で開始
し、k=ke−1で高々3つの以前最良であつた路
端まで戻つて検索し、最良(すなわち、最低)ス
コアを発生する路に新しい終点を接続することに
よつて発見されるということである。これはDP
ステツプの点(k、j)に対して許された(k、
j)面における路を描く第8図に例示されてい
る。特に、a=0ならば、置換フレームが繰返さ
れる(すなわち、(k、j)面における水平ステ
ツプ)ことを示すか、又は、a=2ならば、単一
の置換フレームがスキツプされる((k、j)面
における低位の対角ステツプ)ことを示し、異つ
た(決定的な)不利益が含められる。a=1(す
なわち、(k、j)面における対角ステツプ)に
ついては、不利益が含まれることはない。 路が取入れることができる繰返しによつて拡張
量に対するいかなる形式的な制限もないので、a
=0に対する不利益はa=2に対する不利益より
一般に高く設定する。 ZIPが多数の路端を並列に調査する基本的手段
が第9図を参照して以下に説明される。ZIPのい
くつかの特徴はこゝでは簡単にするために省略さ
れる。初めに、L個の違つた路の第1の要素とし
てのks=1の場合のjs=1からjs=Lまでのjsにつ
いてのLの連続値が第9図aで示されている。こ
れは最初のステツプであるため、これらのLの連
続値はさらに一時的に各路の終点を規定し、この
ため、それはDPステツプを計算するようにある
データが保持されるべきである要素の窓
(Window)を形成するものとして見なされる。
いくつかのデータ・アレイは必要なデータを保持
するために使用される。最初に、窓内での各新し
い可能性のある路端に対して、対応する路スコア
は“スコア”という名のデータ・アレイに保持さ
れる。L個の違つた路に対するスコアはすべて最
初に0にセツトされる。次に、L+2個の距離
は、k=1での参照ベクトルとj=1からj=L
+2までの最初のL+2個の置換フレームの各々
のベクトルとの間での計算が独立して行われる。
これらの距離はデイスト(DIST)といの名前の
第2のデータ・アレイに保持される。2個の余分
の距離の大きさは、DPステツプが(k、j)面
における低位の対角に沿つて(1、L)で終る路
を(2、L+2)まで拡張することができるよう
に使用可能にされる。 の各ステツプでの2単位だけ窓を拡張する
この動作は第9図のa,bおよびcでの(k、
j)面のグラフで図示されているように2:1の
最大傾斜で上の方に(高位のjの方へ)路探索窓
の上部を向ける。 窓の底部で、すなわち、j=1以下で、路端お
よびスコアが存在しないということは、j=1の
とき、DPステツプがa=1あるいはa=2ステ
ツプを試験しないように、同様に、j=2のとき
a=2ステツプを試験しないように、制限され
る。 前記のスコアの計算された距離およびアレイを
使用することによつて、ZIPはDP方程式を使用
してL+2の新しい終点の各々に対して独立して
新しい最良のスコアを計算し、同時に、各々、最
良のステツプを提供するの対応するインデクス
をパス(PATH)と呼ばれる路要素の2次元ア
レイにおいて省略する。 インデクスは最良にステツプされるフレー
ム・インデクスを指示する。したがつて、各イン
デクスは実際、前のフレーム路端へのポインタで
ある。連続するポインタはその起点まで戻つて追
跡される路を発生する。パス・アレイは多数のこ
のようなポインタのストリングを保持する。 最初のDPステツプ後、パスの第1列は1から
L+2までののインデクスで簡単に満たされ
る。これは、(k、j)面の部分が前のステツプ
での路要素の終点のまわりの仮想上の窓を指示す
る破線によつて第9図のa,bおよびcで示され
る。DPステツプがk=1、2、3に対してそれ
ぞれ行なわれた後、スコア、デイストおよびパ
ス・アレイは保持される典型的なデータと共に第
9図のa,bおよびcで示されている。 スコア・アレイにおける各要素は特有の路端お
よびそのスコアに導く前の路要素のシーケンスに
対応する。各々の独自の路はスコア・アレイにお
ける対応するスコアと同じインデクスを有するパ
ス・アレイにおける1行として保持される。 再び、第9図に関連して、プロセスの次のサイ
クルが実行される。 L+2個のDPステツプが行なわれ、新しい路
端がパスで除かれた後、ZIPは次の参照フレーム
を歩進する。すなわち、ZIPは新しい参照ベ
クトルとDPステツプで必要とされる置換フレー
ムのベクトルの各々との間の距離の新しい組を計
算し、DPステツプ方程式、距離のアレイおよび
前のスコアのアレイを用いてすべての路を拡張
し、それによつて、スコアおよび新しい最良のス
コアに対応する次の路端要素を発生する。これら
の路端はパスにおいて適当な路要素のシーケンス
に付加される。最後の参照フレームが処理される
まで、さらに次に説明されるべきいくつかの処理
に加えて、このサイクルは繰返される(第9図の
bとcに示されるように)。 DPステツプにおける局部的な路の制約の選択
によつて、もしそのステツプがスコアにおける最
新の入口から開始することによつて、そして最も
古い入口に対して逆方向に作用することによつて
計算されるならば、その路は互いに交差すること
ができないということを確実にする。しかしなが
ら、後述されるように、これらは共通セグメント
までたどることができる。 それ以上の処理がなされないので、各路は各
DPステツプに対して長さが1単位だけ長くなり、
路の数、スコアおよび距離は各ステツプに対して
2単位だけ大きくなり、長い信号に対して実用的
でないメモリおよび計算の量を連続的に増加させ
る必要がある。 ZIPは3個の違つた仕組によつてこれらの問題
を避けるものである。 除去操作技術はその上端および底端の両方を制
御することによつて窓の寸法を効果的に制限す
る。各参照フレームに対して、スコアおよび路の
終端の新しい組はDPステツプを介して計算され
た後、さらにその参照フレームに対して最良のス
コアから離れて所定量(スレツシユホールド量)
以上であるすべてのスコアは考慮すべき事柄から
省略される。これに加えて、そのために除去操作
された各スコアに対応する路はさらに取除かれ、
フラグがセツトされて、無用な距離の大きさが次
のDPステツプで計算されないようにされる。 実際の最適の路に沿つてのスコアと現在最適な
路のスコア(すなわち、現在のフレームで終る最
良のスコアを有する路)間の差がスレツシユホー
ルド量より少ないままであるかぎり、最適な路は
決して除去操作されない。この除去操作の計算
中、各入力フレームのために見つけ出される計算
された最良のスコアは負のスレツシユホールド値
に等しくセツトされ、残りのスコアはこの1つに
関連して計算され、そのために、可能であるスコ
アの範囲は相当に減少される。 可能である路の最大の長さは、1個あるいはそ
れ以上の路要素のために最適な路上の残余の路セ
グメントの開始要素の収束の間の一致を確立する
ために除去操作を許容することが必要とされる参
照フレームと同数の路を保持するのに十分である
メモリを保持することによつて、いくつかの比較
的小さな数(例えば50)に制限される。次に、残
りの路に共通である要素はW(kT)として出力さ
れ、これらの値を保持するパスにおけるメモリ装
置は更に使用するために解放される。 メモリを減少するための第3の仕組は円形(あ
るいはリング)メモリ領域としてスコアおよび距
離アレイによつて実現される。2次元の路アレイ
はその2次元の各々において円形であるべきであ
るように実現され、実質的に対角に(k、j)面
を移動する2次元の窓として動作する。それは最
適である精査の下での路セグメントを含む。 しかしながら、フイルム案内トラツク信号のた
めの録音条件とスタジオで録音されたダビングの
ための条件とは通常かなり違つている(例えば、
雑音が多く、反響があり、遠方にマイクロホンを
設置すること)ものである。 参照および置換ベクトル間の距離を得るために
使用される手順は、したがつて、これらの長期間
の信号差の影響を最小にするがしかしZIPはこれ
を確実にするものではない。さらに、ZIPにおけ
る時間ひずみ路傾斜の制約は、もしこのセグメン
トがその期間が参照信号における対応する無声音
の期間の2倍以上である無声音に続くものであれ
ば、計算された最良の路によつて音声を含む置換
信号のセグメントで置換フレームを省略するよう
にされることができる2:1の比率まで置換信号
の最大の圧縮を制限する。所望されるアルゴリズ
ム応答は音声よりはるかに少ない制限で置換信号
における無声音が拡張されたりあるいは圧縮され
たりすることを許容することである。 これらの欠点は、ZIPアルゴリズムを修正する
ことによつてこの発明の好ましい実施例において
克服される。その修正は案内トラツクおよびダビ
ング音声信号の性質に関する3つの仮定によるも
のである。(1)入力して最初の2、3秒で、音声は
存在しない両方の信号にはいくつかのフレームが
あり、そのため、パラメータ・ベクトルがスペク
トル横断面を表わすので、各フイルタ・バンドか
らの最低の出力値は背景雑音のサンプルから発生
されること。(2)案内トラツクおよびダビング信号
(20dBをこえるS−N比の条件で)は通常類似の
音声サウンドを含み、そのため、対応する周波数
帯域に達する最大レベルはほゞ同様な音声サウン
ドに一致し、したがつてこれらの帯域のスペクト
ル・レベルを正規化するための参照レベルを提供
するということ。(3)ダビング信号はほゞ理想的な
条件(すなわち、高いS−N比)の下で入力さ
れ、そのため、ダビング・フレームが音声あるい
は背景雑音を含むか含まないかを検出することが
容易であり、これと対照的に、案内トラツク信号
は雑音および望ましくない信号によつて著しく劣
化されること。 好ましい実施例で使用される修正されたZIPア
ルゴリズムは処理のうちの3つの段階において連
続的な基準に基づくパラメータ・ベクトルを処理
することによつて時間ひずみ路を発生する。第1
の段階は少なくとも1回実行されねばならない初
期化プロセスである。主な時間ひずみ路の発生は
第2および第3段階で行なわれる。 第10図でブロツクで示されている第1の段階
で、2〜3秒、すなわち200〜300フレームを占有
する案内トラツクおよびダビング・パラメータ・
ベクトルの両方の多数のフレームは第2および第
3段階において必要である長期間の信号特性の評
価をするように分析される。この長期間のデータ
はパラメータ・ベクトルの各成分のために生成さ
れる。実際的にはデータのいくつかにわたる第1
の処理段階である第1の段階は、主要な処理が始
まる前に一回実行される。これに加えて、それは
長い期間の数量を更新するために比較的散発的に
(たとえば、2秒あるいは2秒以上ごとに1回あ
るいは信号特性の検出変化に応答して)実行され
る。 第11図のブロツクで示されている第2の段階
で、ダビング・パラメータ・ベクトルは第1段階
の長期間のデータを使用するいくつかの違つた動
作でフレーム・バイ・フレームの基準(第1の処
理段階のさいと違つて)に基づいて処理される。
すなわち、(a)ダビング・フレームを音声あるいは
無声音として分類する。(b)対応する案内帯域とダ
ビング帯域との間の長期間のスペクトル差を除く
所定の処理を実行し、有用な(すなわち、雑音の
ない)ダイナミツク・レンジを均質にすること。
これに加えて、データのための多数のワーキン
グ・アレイは第3の段階における使用の準備を整
えてダビング・フレームに関する時間変更データ
でロードされる。この時間変更データはそれぞれ
のダビング・フレーム分類が音声あるいは無声音
のいずれであるかにしたがつて変更され、次のも
のを含んでいる。すなわち、(a)連続するダビン
グ・フレームが無声音として分類される最初の割
合の期間の2倍で再サンプリングされる前処理さ
れたパラメータ・ベクトル、(b)対応するダビン
グ・フレーム・インデクス数、(c)分類(音声/無
声音)指示部、(d)ダイナミツク・プログラミン
グ・パターン・マツチング・ステツプで使用され
る2個のペナルテイ。 各フレームに対して1回さらに実行される第3
の段階(第12図のブロツクで示されるように)
で、アルゴリズムは第2の段階で発生されるデー
タを処理し、ダビング・フレームを案内トラツ
ク・フレームに整列するための多数の潜在的に最
適な時間ひずみ路セグメントを計算する。さらに
処理をするさい、そのアルゴリズムは限定された
数の路のうちで計算された最良のものを省き、次
に、これらの残りの路セグメントが所定の条件
(その起点の特異性に関連する)を満足するとき、
そのアルゴリズムは時間を整列させるために最適
な路を表わす(音声がダビングにおいて現われる
とき)特有な路セグメントを出力する。代替的
に、無声音が比較的長期間ダビングにおいて現わ
れると、1つの路は、ダビング無声音がフレーム
を省略することによつて4:1の最大比率で圧縮
されるか、あるいは、ダビング音声と案内トラツ
ク信号とがうまく一致するための検索のさいにフ
レームを繰返すことによつて無期限に拡張される
かによつて、発生されるものである。 第1段階の詳細 第10図に詳細に示されているように、第1段
階では、距離の計算とダビング・フレームの音声
あるいは無声音への分類との両方に使用される諸
種の時間が変化しないデータが提供される。第1
に、録音条件、線形利得調整、および、音声スペ
クトルだけの差に関連しない背景雑音スペクトル
における差に帰着することのできる案内フイルタ
バンク出力とダビング・フイルタバンク出力間の
差を取除くために、スペクトル・レベルおよびダ
イナミツク・レンジの正規化が提供される。この
実施例において、この正規化は対応するダビン
グ・バンド出力レンジに案内の各周波数バンド出
力レンジを写像するための検索テーブルを形成す
ることによつて実現される。第2に、雑音の平坦
部の下限は各ダビング・バンドにおいてセツトさ
れる。第3に、2個のスペクトル間の差を測定す
るさい、スペクトル・ピークの近くで起るこれら
の差は強調され、低レベルでのスペクトル差はあ
まり強調されないので、重み関数値(第3段階で
アクセスされる)のテーブルが各帯域に対して準
備される。このテーブルに対する入力は案内ある
いはダビング・スペクトル・レベルの最大値であ
り、その出力はスペクトル差重み関数で使用する
のに適当な値である。これらの前記の手順は1976
年出版の「音響音声処理および音響信号処理に関
する国際会議の議事録」の第573頁−第576頁の
D.H.クラツトの論文「スペクトル・マツチング
のためのデイジタル・フイルタ・バンク」にアウ
トラインが記載されている手順に関連している。 次に、1フレームの案内パラメータ・ベクトル
成分(すなわち、対数符号化されたバンドパス出
力)の入力値Ai(kT)はg inとして参照され、
同様に、ダビング入力成分Bi(jT)をd inとし
て参照される。特定のバンドおよびフレームはg
inおよびd inによつて示される。第1段階の
処理のために、次の処理ステツプがダビングおよ
び案内トラツクにおける各周波数バンドに対して
別々に(もし別の方法で説明されなければ)とら
れる。 1 g inの第1の200のフレームを用いて、特
定の入力レベル対入力レベル(第10図のブロ
ツク63および64)での発生の数の1〜100dBの
入力範囲で1dB中のビン(bin)のヒストグラ
ム(第13図a参照)をつくる。同様にd in
のフレームについて同数のヒストグラムを作
る。 2 1入力以上を含み、また、1入力以上を含み
次の最高のビンから6dBをこえて下回ることが
ない最低のビン(すなわち、ヒストグラムの最
低入力レベル)を見つける。この最低のビンは
low minと識別される。 3 テスト・ビンの内容の合計と2つの隣接する
(上部および下部が隣接する)ビンが最大であ
るヒストグラム・ビンのためのlow minと
low min+15(dB)間を増分的に検索するこ
とによつてヒストグラムの雑音の平坦部のピー
クを見つける。この最大値が最初low peakと
して発生するビンを識別する。この値はステツ
プ4およびステツプ6以下で使用される。 4 ダビングだけのため、low peak+12(dB)
で音声/無声音スレツシユホールド値をセツト
する。この値はd sp thrとして参照され、
第3段階で使用される。(第10のブロツク74
を参照) 5 次の手順によつて平均的ヒストグラム最大値
を決定する。 (a) 最高ビン(100dB)から開始して、少なく
とも3入力がある第1(最高)ビンのために
又は少なくとも1入力があり、このビン以下
3dB以内で少なくとも1入力を有する他のビ
ンがある第1のビンのために最低のビンの方
に下つて検索する。この規準に合致する最高
のビンをhigh maxとして示す。 (b) high maxで始まり、ヒストグラム分布
の5%あるいはそれ以上が累積される(たと
えば、もし200フレームが処理されるならば
10入力)まで、このビンの内容と連続的に低
くなるビンとが加算される。これは全体のヒ
ストグラム領域の5%に対応する。この条件
に合うか又はこれをこえるものは、high
minとして、当該ビンにマークをつける。 (c) 案内トラツク帯域に対してg high
avg、ダビングに対してd high avgとし
てマークが付されるビンの値を得るために
(high max high min+1)/2の最高
整数部をhigh maxから引算する。それぞ
れの値は、その帯域に対して最高(たゞし、
必ずしもピークでない)ヒストグラム値に主
に関連すべきであり、音声信号より高い少数
の短いパルスによつて強く影響を及ぼされな
いようにすべきである。これらの値はステツ
プ6および7で使用される。 6 ダビングと案内間の長期間のスペクトル差が
取除かれ、案内およびダビングに共通な計算さ
れた雑音の平坦部以下に下がる入力値がスペク
トル距離計算に信頼性のない情報を与えないよ
うに、値の新しいセツトに値の案内トラツク入
力範囲を写像する第3段階で使用するため検索
テーブルをつくる。この後者の面は、無雑音で
ある音声スペクトル横断面と雑音がマスクされ
ている(すなわち、対応する音声帯域のいくつ
ものそれより高いスペクトル密度を有する雑音
を付加することによつてなまらせられる)同一
の音声信号のスペクトル横断面との間の不所望
な大きく相違しているスコアを得る恐れを取除
く。テーブルの値は次のステツプに従つて案内
入力値の関数を発生することによつて計算され
る。 (a) この帯域において値low peakを4dB上回
つて雑音平坦レベルをセツトする。案内帯域
に対してg nflrをこの値にセツトし、同様
にダビング帯域に対してd nflrを対応する
値にセツトする。(第10図のブロツク67お
よび68を参照)。 (b) ダビング又は案内に適した(ダビングまた
は案内の)雑音の平坦レベルをhigh avgの
対応する値から減算することによつて帯域の
ダイナミツク・レンジを計算する。案内トラ
ツクに対してはg レンジをその値にセツト
し、ダビングに対してd レンジをその値に
セツトする。(第10図のブロツク69および
70を参照)。 (c) もしg レンジがd レンジより小さいな
らば、新しい写像されたダビング雑音平坦レ
ベルを計算し、map nflr=d high
avg レンジにする。もしg レンジが
レンジより大きいか等しいならば、map
nflr=d nflrにセツトし、g nflr
=g high avg レンジにセツトす
る。(第10図のブロツク71を参照)。可変の
map nflrは入力ダビング値の下限とし
て第2段階において使用されている。 (d) いま、g inとして参照されている生の案
内トラツク値を次の関数に従つて出力値に変
換するテーブルのための入力を計算する。 g to map=g in+(map nflr nflr
)、g nflr<g in<100のとき。 map nflr 、1g ing nflrのとき。 (map nflr nflr)なる表現の式は、
ダビングおよび案内信号レンジの上部レベル間で
得られるダビングの差を補償するように一定のレ
ンジ・オフセツトを提供するものである。(第1
0図のブロツク72を参照)。 7 ステツプ6cで得られる正規化されたダイナミ
ツク・レンジの入力値を第3段階で計算される
スペクトル距離量を重みづけするさいに使用す
るための値V(こゝに、V=0、1、2又は3)
に写像する第3段階で使用するための別の検索
テーブルをつくる。第3段階で、重みづけ関数
は1帯域の生のスペクトル差と関数2V(l)
(こゝに、l はd inと写像されたg inの
最大値をとることによつて得られるテーブルへ
の入力である)を乗算することによつて実現さ
れる。(第10図のブロツク73を参照)。V(l)の
テーブルをつくるのに使用されるステツプは次
のようになる。 (a) g レンジとd レンジの最小値を多数の
レンジ分割であるn divによつて割算し、
分割増分div incとしてその結果の最大の整
数値部をとる。 (b) 1〜100のl の入力値に対して、次の関
数に従つてV(l)のテーブルのための入力を計
算する。 V(l)=3 (d high avg div inc) 2 (d high avg 2*div inc) 1 (d high avg 3*div inc) 0 l100 l<(d high avg div inc) l<(d high avg 2*div inc) 1l<(d high avg 3*div inc) 前記の手順は共通のダイナミツク・レンジをn
divステツプに分割し、この共通のレンジ以上
および以下はVの最高値および最低値にそれぞれ
に写像されている。重みのレンジより大きい(又
は小さい)ものを得るために、n divは増加
(又は減少)され、前記に類似の関数は新しいV
(l)を得るために使用される。 時間ひずみプロセツサ(TWP)発生アルゴリ
ズムの第2段階および第3段階が次に説明され
る。最も重要な変数およびアレイの定義が以下に
リストされる。変 数 定 義 DSF ダビング開始フレーム数、すなわち第2
段階の始めで使用される。 DSTOPF ダビング停止フレーム数 NWDF ワーキング・ダビング・フレームの数、
すなわち各ダビングに関連するアレイに保持さ
れているダビング・フレーム・データのスロツ
トの数を規定する。 NDFR ダビング・フレームの現在の数を読み
込み第2段階でさらに処理される。さらに、第
2段階で処理されているダビング・フレームの
jの数を指示する。 GSF 案内トラツク開始フレーム数(=1)。 GSTOPF 案内停止フレーム、すなわちTWRの
動作の停止を開始する。 NCGF 処理されている現在の案内フレーム数。 HPENSI 無声音として分類されるダビング・
フレームのための水平DPステツプ・ペナルテ
イ。 HPENSP 音声として分類されるダビングのた
めの水平DPステツプ・ペナルテイ。 LDPNSI ダビング無声音フレームのための下部
対角DPステツプ・ペナルテイ。 LDPNSP ダビング声音フレームのための下部
対角DPステツプ・ペナルテイ。 TH DPスコアを切除するさいに使用されるス
レシユホールド。 MAXRPT 無声音の切除操作が行なわれる前に
許される水平路の増加フレームの最大数。 PE 路配列における路の終了列。 PSTART 路配列における路の開始列。アレイ寸法 MNDF アレイに保持されるダビング・フレー
ムの最大数。典型的にはMNDF=50 NPAR 使用されるパラメータ・ベクトル要素
の数。 MXPATH 路アレイに保持されている路セグ
メントの最大長。アレイ DCLASS(MNDF)−ダビング分類(音声又は無
声音) DFRNUM(MNDF)−jのフレーム数に対応す
るダビング・フレーム数。 DIST(MNDF)−DSTOREにおける各ダビン
グ・フレーム・パラメータ・ベクトルと現在の
案内パラメータ・ベクトル間のスペクトル距
離。 DSTORE(NPAR、MNDF)−ダビング・フレ
ームごとにNPAR要素を保持するダビング・
パラメータ・ベクトル・ワーキング・メモリ。 HPEN(MNDF)−DPステツプで使用される水
平ペナルテイ。 LDPEN(MNDF)−DPステツプで使用される下
部対角ペナルテイ。 HSU(MNDF)−音声に使用される水平DPステ
ツプ・フラグ。 PATH(MXPATH、MNDF)−各終了点まで
の最良の部分路。 SCORE(MNDF)−各部分路のために累算され
たスコア。 第14図において、3個の処理段階の動作は第
1、第2および第3の段階、およびがブロ
ツク75、76、77および78によつて表わされる全部
の時間ひずみ処理の流れ図に互いに関連して示さ
れている。第14図が説明される前に、案内トラ
ツクおよびダビング・フイルタ・バンク出力を処
理する方法が説明される。 次の説明において、案内およびダビング・フイ
ルタ・バンク出力値が容易に連続してバツフア・
メモリから使用可能にされ、案内信号のパラメー
タ化の終りに、変数GSTOPFは最後の案内フレ
ーム数にセツトされる。GSTOPEの設定を開始
する信号は後述の装置によつて導かれる。アルゴ
リズムが開始される前に、GSTOPFは動作が決
して及ばないようにある任意の大きい値に初期化
される。これに加えて、その期間が参照信号の期
間を越えて伸びる置換信号をそのシステムによつ
て適正に取扱うことができるように、ダビング信
号のパラメータ化およびダビング信号の蓄積は、
参照信号の信号終了(できるだけ早い)に実質的
に類似している信号終了を含むように十分長い期
間続くようにされる。この安全的処置はGSOPF
が既知になるとき、たとえば、記号DSTOPFを
導き、GSTOPFに一定数のフレーム(例えば、
200又は2秒のフレーム)を加え、次にダビング
処理がこのフレームの終りに対応する時間のその
瞬間まで続けることによつて達成することができ
る。記号GSTOPFは第2および第3段階(お
よび)の処理動作を終了させるために使用され
る。これに対し、DSTOPFは置換信号の入力お
よびパラメータ化を終了させ、処理中使用可能置
換データの終了を示すのに使用される。 円形アレイを使用することはすべて別の議論を
必ず伴うけれども、これは非常に短い信号に対し
ては必要ない。 第14図に表わされる処理のいずれかが始まる
前に、ユーザは、DPステツプ・ペナルテイ
(HPENSI、HPENSP、LDPNSI、LDPNSP)
の値、切除のためのスレツシユホールド(TH)、
および、ダビング無声音フレーム繰返し計数スレ
ツシユホールド(MAXRPT)を選択(又は調
整)する。これらの値は一般に実験的に決定され
るものであり、また、これらは処理およびフレー
ム速度を発生するパラメータ・ベクトルの出力レ
ンジに依存する。 所与の信号(テープ入力で発生される)でパラ
メータ発生プロセツサが開始される(ブロツク
790)。十分な数の生の案内およびダビング・パラ
メータ・ベクトルがいつたん、使用可能にされる
と(決定800)、段階(ブロツク75)は可能化さ
れ、スレツシユホールド変数およびマツピングと
後述される重みづけ関数アレイが生じる。次に段
階(ブロツク76)は、どちらが小さくても、第
11図に示されるようにその最大長又は最後のダ
ビング・フレームまでアレイをプリロードするた
めに使用される。次に、段階はすべて関係する
カウンタをリセツトし、アレイ要素をクリアある
いはセツトすることによつてAで開始される。最
後に主要な処理ループに入り、各案内フレームの
ために繰返される。このループを夫々に通過する
さい、段階のロード(ブロツク77)が試みられ
る(しかし、もしダビング・アレイにおける最も
古いスロツトがなお潜在的な路候補を含むなら
ば、これはなされない)。さらに、このループに
おいて、並列DPステツプが各アクテイブ路のた
めになされる段階の処理(ブロツク78)が行な
われる。また、特有な最良の路又は無声音のセグ
メントを出力するような1つの試みがなされる。
最後の案内フレームが処理されると、最良のスコ
アを有する残りの路セグメントが出力であり、時
間ひずみ処理は終了されることとなる。 時間ひずみ処理の第2段階は、第11図のブロ
ツク形および第15図の流れ図で詳細に表わされ
ている。この段階はダビング・フイルタバンク出
力を前処理し、第3段階で行なわれるDPステツ
プで使用されるためのアレイに時間変化データを
ロードする。データがどのように準備されるかに
ついて影響を及ぼす決定および処理は第1の段階
で導かれる長期間のデータのいくつかに部分的に
基く。 入力ダビング・フイルタバンク・データとアレ
イDSTORE、DCLASS、LDPEN、HPENおよ
びDFRNUMにロードされるデータ間の関係は第
11図に機能的に示されている。アレイ(寸法
DWDFの)は循環的に取扱かわれて、音声とし
て分類される各ダビング・フレームに対しては1
度、また、連続するダビング・フレームが無声音
として分類されるときはフレームの1個おきに、
同じアレイ行インデクスでロードされる。ダビン
グ・フレームの分類(CLASSIFYとしるされて
いるブロツク79において行なわれる、すなわち音
声/無声音)は簡単な決定アルゴリズムに基づ
く。それによつて、もし、4個の生の入力ダビン
グ帯域のうちの2個がこれらの帯域(第1段階に
セツトする。すなわち、d sp thr)に対して
それぞれのスレツシユホールド以上であるなら
ば、そのフレームは音声を含むものとして分類さ
れる。もしそうでなければ、それは無声音として
分類される。“下方範囲をクリツプする”としる
されているブロツク80において、生のダビング・
フイルタバンク値の各帯域はその帯域に対して対
応する写像された雑音の平坦性(第1段階で決定
されるmap nflr)と比較される。もしその
帯域の生の値がその帯域のmap nflr以下に
落ちるならば、その生の入力値はPSTOREの適
当なスロツトにロードされるmap nflrによ
つて置換される。対応するmap nflr以上の
ダビング帯域値は修正なしにDSTOREにロード
される。このステツプは、雑音マスキングの可能
性を除去し、案内およびダビング帯域ダイナミツ
ク・レンジを均一にする全動作の一部分である。 “LD−ペナルテイおよびHZ−ペナルテイの選
択”としるされているブロツク81において、非対
角的DPステツプ(第3段階で)のために加えら
れるペナルテイのためのユーザ入力値は選択され
るが、これは、対応するフレームが音声または無
声音のいずれであるかに基づくものである。 音声フレームに対するペナルテイと比較される
ように無声音フレームに対する非常に小さいペナ
ルテイを用いて、路はダビングが無声音にある間
は非常に柔軟性に富むものであり、これは望まし
い効果である。比較的低い対角のペナルテイはわ
ずかに負にされるので、ダビング無声音における
最良の路は低レベル案内信号の間は4:1の傾斜
の方へバイアスされるが、これは、必要なとき
に、ダビングにおいて長いギヤツプを圧縮するた
めに有用である。 第3段階で正しい時間ひずみ路ステツプを生じ
るさいに後で使用するためアレイDFRNUMにロ
ードされるように適当なフレーム数を生じる“ダ
ビング・フレーム・カウントの増加”としるされ
た他のブロツク82が示されている。 最後に、“サンプリング速度の選択”としるさ
れているブロツク83では、現在とその前のダビン
グ・フレームが無声音として分類されていると、
ダビング・フレーム・データ(“サンプリングお
よび増分インデクス”としるされているブロツク
84を介して)のサンプリング比率を増加する。 さもなければ、サンプリング比率は1:1のま
まである。これらの機能的ブロツクを実施するた
めに使用される特定のアルゴリズムは第15図の
流れ図に示され、ダビング・クラスDCL、次の
ダビング・クラスNXTCLSおよび前のダビン
グ・クラスPRVCLSに作用する決定91、92、93
および94を含む。この段階が使用される前に、変
数NXTCLSはUNKNOWNに、PRCLSは
SPEECHに初期設定される。 第3段階の詳細 時間ひずみプロセスの第3段階において、ダイ
ナミツク・プログラミング(DP)アルゴリズム
は最良の時間ひずみ路および信号編集プロセスに
対応する入力のためのフレーム分類を生じるよう
に、加えられる水平路ステツプ制限および無声音
の切除動作に沿つて、窓の操作およびZIPアルゴ
リズムのそれに基づく路の切除操作と共に使用さ
れる。第12図は主な処理動作および前に定義し
たデータ構造との相関関係を示すものである。第
16図は主要な動作を要約する流れ図形である。
これらの動作は逐次的に実行され、必要な数のダ
ビングが第1段階および第2段階で処理される。 第2段階中、アレイDSTOREは第2段階での
レンジ正規化動作によつてそのダイナミツク・レ
ンジにおいて減少されるように処理されたパラメ
ータ・ベクトルで満たされる。サンプリング比率
が増加される可能性のため、DSTOREにおける
ダビング・パラメータ・ベクトルは必ずしも厳密
には連続していない。しかしながら、DSTORE
における各ダビング・フレーム・パラメータ・ベ
クトルに対してDPステツプに使用されるべきで
ある適当なペナルテイおよび路を更新するさいに
使用されるべきである分類およびダビング・フレ
ーム数はアレイLDPEN、HPEN、DCLASSおよ
びDFRNUMにそれぞれに保持されている。
PATHアレイのすべての要素は一般に0に初期
設定され、スコア・アレイの上半分は所定の拒否
コードである一方、下半分は0スコアにセツトさ
れる。拒否コードはさらに処理される必要のない
要素を識別するために使用される。さらに、配列
HSUのすべての要素は偽の論理にセツトされる。 アレイHSUは音声として分類されるフレーム
を有する路と共に許される連続水平ステツプの数
に対する制限を採り入れるために使用される。第
8図およびDPステツプ方程式についてみると、
a=0ステツプは音声として分類されるフレーム
に対してだけ1回使用されることが許される。こ
の方法において、1/2(すなわち、2の展開係
数)の最小路係斜が音声の間は許される。 第12図および第16図に示されるように、次
の動作は第14図に示される処理ループを各々通
過するために一度実施される。(すなわち、案内
フレームごとに一度行われる)。 1 路端ポインタPE(ブロツク95、第16図)を
更新する。 2 バツフアから次の生の案内パラメータ・ベク
トルを取つてきて、次の対応するg to
mapsを通して各成分を写像する。これは“レ
ンジの正規化および制限”としるされるブロツ
ク85で実行される。 3 正規化された案内フレーム・パラメータ・ベ
クトルと並行DPステツプの次のステツプにお
いて調査窓で必要とされるDSTOREにおける
各ダビング・フレーム・パラメータ・ベクトル
間の重みづけられたスペクトル距離量を計算す
る。 これらの距離はDISTの対応するスロツトに
与えられる。これらの動作は、“重みづけられ
たスペクトル距離の計算”としるされているブ
ロツク86で行なわれる。 4 現在の検索窓の各有効のスコアおよび路のた
めに、最良のスコアを生じる路要素を見付ける
ようにスコアHSU、LDPEN、HPEN、
SCOREおよひDISTの適当なインデクスのそ
れぞれで水平ステツプ制限、ペナルテイ、スコ
アおよび距離を用いてDPステツプを計算する。
対応するダビング・フレーム数(DFRNUMか
ら)を有するPEでのPATHアレイおよび最良
のスコアを有するSCOREアレイで路端を更新
する。さらに、ダビング・フレームの分類で路
要素を示す。特有なものとして水平路制限をセ
ツトあるいはクリアする。これらの動作はDP
ステツプとしてしるされているプロセス・ブロ
ツク87ですべて行なわれる。 5 SCOREにおける最良のスコアからスレツシ
ユホールド値(TH)以上離れているスコアで
路を切除し(すなわち、リジエクト)、切除さ
れたSCOREの各要素にリジエクト・コードを
与える。残りの(リジエクトされていない)ス
コアは次のDPステツプで路を拡張するのに使
用される検索部を規定する。 この動作は“悪いスコアおよび対応する路の
切除”としるされているブロツク88で行なわれ
る。 6 もしPATHに残つている路が共通路セグメ
ントまで追跡される(すなわち、一致する)な
らば、その路の発散点までその路(および路に
おける対応する音声/無声音マーカ)を出力
し、PATHから共通路要素をクリアする。こ
れは“特有な要素の検出および出力”としるさ
れたブロツク89で行なわれる。 7 もしPATHに残つている分類路セグメント
が調査窓はダビング無声音の領域および
MAXRPTフレーム以上に対する案内フレーム
の比較的特徴のない領域を通過するということ
を指示するならば、最後の要素まで最良のスコ
アリング路(および対応する分類)まで出力
し、すべての他の路を取り除き、残りの路端要
素でDPアルゴリズムを再開始する。この動作
は”ダビング無声音における路セグメントの検
出および出力”としるされているブロツク90で
実行される。 8 もし最後の案内フレームが処理されるならば
(GSTOPFによつて指示される)、最良のスコ
アを有するその残りの路セグメントをさがし、
それを出力する。(このステツプは第12図に
は示されていない)。この動作は時間ひずみ処
理を終了させる。 前記の動作数3に対して、重みづけられたスペ
クトル距離を計算するための処理、すなわち、ス
ペクトル距離重み係数は案内フレームにおい
て、 Vi(kT)=2Vi(li) としてスペクトル帯域で定義される。こゝに、li
はi番目の写像された案内帯域値および
DSTOREからのi番目の正規化されたダビング
帯域値である。その結果得られるliは帯域iに対
して重み値のアレイVi(li)に対するインデクス
として使用され、i番目のダビングと案内帯域間
の差の絶対値の2のべき乗の重みづけはスペクト
ル距離の全部にi番目の成分が寄与するように計
算される。 スコア・アレイからのこのプロセス・ブロツク
へ導く付加データ路は、現在の検索窓で拒否され
るか又は作動されない拒否符号をつけた要素の検
出を許すので、不必要な距離計算が行なわれな
い。 その動作数6は次のように簡単に実施される。
初めに、その残りの路セグメントの最初と最後の
要素を含むPATHの列が配置される。現在の路
セグメントの開始PSTARTを含む列のインデク
スおよび現在の路セグメントの終了要素PEを含
む列をコールする。MXPATHの路アレイにお
ける列の総数が与えられ、便宜上、擬似プログラ
ミング言語で表わされる次のアルゴリズムを使用
する。(注)£はコメントを示し、問題とその対
応する答(すなわち、YESおよびNO)は等しく
字下り(indent)にされる。 i=PSTART £は列ポインタ・インデクス
iをセツトする。 1 すべての残りの路における同じ要素はiにあ
るか YES:£路はこの列で特有である。 路要素および分類を出力する。 出力/拒否符号=0を有する列における
すべての入力をマークする。 i=i+1。 もし(i MXPATH)がi=1にセツ
トされるならば、もし(i≠PE)が1に行
くならば、 2に行く。 NO:£路はこの列で発散する。 何か出力されたか(i≠おSTART)。 NO: 路アレイは満杯か。 YES: 最良のスコアを有する最も古い路要素を出
力する。 出力である要素と一致しない路を取除く。 取除かれた路のためのスコア・アレイに距
否コードを付ける。 i=i+1。 もし(i MXPTH)i=1ならば、 2に行く。 NO: 2に行く。 YES: 2に行く。 2 PSTART=:i £は次のパスのための
£の新しいPSTARTとして現在の列(£の可
能性のある路発散を有する)をとる。 動作数7はこの実行に対して特有であり、次に
詳細に説明される。この動作を含む理由は使用さ
れるDP路発生ステツプの考察から得られ、第1
7図に関連して説明される。その第17図は、
DPアルゴリズムが低レベル案内信号(案内雑音
平坦部で、または案内雑音平坦部の近くで)のい
くつかのフレームを通して進行し、対応するダビ
ング・フレームが無声音として分類された後、路
アレイの典型的な内容を概略的に表わしている。
案内フレームが低レベルにあるという事実は、案
内および無声音のダビング・フレーム間のスペク
トル距離量は非常に低いか、または0であり、し
たがつて、もしそうでなければ、通常検出できる
窓操縦を備える入力距離量およびスコアに特徴の
欠如を生じさせることを意味する。 DSTOREに記憶されているダビング・フレー
ムの位置は、ドツトによつて第17Pの垂直軸に示
されている。そして、交番的なの値でのダビン
グ・フレームは無声音の間に使用される。DPス
テツプの間に無声音において生じる路は一般にダ
ビング無声音のフレームの間により下方の対角線
へのDPステツプのバイアスにより4:1の傾斜
を有する。しかしながら、これらのステツプの間
に、各路に対するスコアは、無声音領域によつて
非常に柔軟性のある路を有することを許すために
極めてわずかに増加するかあるいは減少するかの
どちらかである(使用される低いペナルテイのた
め)。したがつて、最悪のスコアリング路のスコ
アは欄外に増加するのみであり、そのために、こ
れらの路はダビング無声音の間に一定のスレツシ
ユホールドの切除操作によつて一般に切除され
る。路の数は案内フレームごとに2個の割合で増
加し、したがつて、もし取除かれなければ、重大
で不必要な計算負担を負うことになる。ダビング
無声音において切除操作がないことに伴つて次の
ような事実が生じる。(1)最低路(例えば、第17
図におけるからまで)は通常繰返されるフレ
ーム数を増大する。(2)最も早く上昇する路(例え
ば、第17図におけるからまで)は最低路
(すなわち、第17図のからまで)における
繰返されるフレームに対応する路のセクシヨンに
対して約4:1の傾斜を有する。これらの事実の
結果、実施される分類に依存するDPアルゴリズ
ムを有するダビング無声音の間に路調査の形をと
つて現われる三角形状の路ビーム特性を生じる。
最も重要なことは、ペナルテイのあるものは負で
あるため、最良のスコアは必ずしも最適路を示さ
ないけれども、そのようにみえる。 スペクトル距離量が、音声は前記の切除操作お
よび窓操作を作動するのに十分大きいスコア変化
で明らかにされる第17図のあるいはのよう
な点で遭遇されるということを指示しないかぎり
では、この領域をとる路は一般に任意であるとい
うことである。 最適な路は次のステツプ(PE+1で)に入る
ことが確実には要求されないけれども、それにも
かかわらず、現在のDPアルゴリズムの特性を考
慮して最良の路の選択がされる。一般に、とるべ
き最良の路は最良のスコアを有する路である。し
かしながら、もし後述の手順が実施されるなら
ば、最良のスコアを有する路は大抵の場合最も高
速に上昇する路である。第17図の例から、もし
次の案内フレームにPE+1での路拡張を生じさ
せるものは音声であり、また、後の次のダビン
グ・フレームが次の案内フレームに対応する音声
フレームであるならば、示される最上位の路は案
内の路よりほぼ4倍長の無声音のギヤツプを圧縮
することになる。代替的に、もしダビングおよび
案内スペクトルが特徴もなく続くならば、DPア
ルゴリズムは点でダビング・フレームを繰返す
路およびから4:1の割合で生じる路を同時に
調査し続けるので、最上位の路を除くすべての路
を放棄し、点からのDPアルゴリズムの再開始
する故に、調査能力においていかなる損失もな
い。したがつて、この手続は期間tgのダビング無
声音ギヤツプを通して路を有効にみつけることが
でき、tg/4から∞までの期間の案内トラツクに
おける対応するギヤツプにそれを適合させる。 前記の条件でダビング無声音を検出し出力する
のに使用される技術およびアルゴリズムが次に説
明される。RPTCNTとして最低路(繰返しとし
て第1番目の路を計数しない)に沿つてPEから
戻る繰返しフレームの数を規定すると、もし最高
路がダビング無声音の領域を通つて進むならば、
とることができる垂直ダビングフレーム・ステツ
プの最大数は4倍されたRPTCNTである。しか
しながら、すべてのステツプは4:1ステツプで
あることは期待されないし、2、3の小さいステ
ツプによつて、最も高速で生じる路に含まれるこ
とが許され、さらになお最大の増加によつてダビ
ング無声音領域のインジケータであるべきことを
許す4:1以下の平均傾斜に基づくjのダビン
グ・フレームのスレツシユホールド数の増加を規
定することが好ましい。3.4:1の平均傾斜はそ
の路が無声音によつて生じる相応なインジケータ
である。次のようなアルゴリズムは再び擬似プロ
グラミング言語で説明される。 PEから戻つてPATHにおける最低の路の繰返
し要素数を計数する。 この数をPRTCNTとする。 (RPTCNT>MAXRPT)であるか。£ 十分
長いギヤツプ。 £は調査されたか。 NO: 戻り YES:もし上部の路が重要な特徴をみつけるこ
とができないならば、その路がRPTCNTフレ
ームに生じるフレーム(MNFRMS)の最小値
を計算する。 MHFRMS=3.4*RPTCNT。 PEでのダビング・フレーム数とPE−
RPTCNTでのダビング・フレーム間の上部の
路におけるフレームの実際のスパンNSPANを
計算する。 (NSPAN>MNFRMS)か。 YES:£ 次に特徴のない領域が調査される。 最良のスコアをさがし、PEでの要素を含まな
いところまでの対応する路を出力する。 PEにおける最良の路端を除くすべての路要素
をクリアする。 最良のものを除くあらゆるSCORE要素に拒否
コードを与える。 戻り。 NO: 戻り。 ダビング編集プロセツサ 第6図の“編集データの発生”としるされてい
る処理ブロツク49の目的はデイスクに記憶されて
いるダビング波形を編集するための全体の命令と
して時間ひずみ路および路要素の対応する音声/
無声音分類を使用することであり、さらに、正確
な編集命令(要求されると)をピツチ期間データ
およびダビング波形細部から導くことである。波
形の最終編集は編集データによつて規定されるセ
グメントにその信号を単にフエツチし、次のよう
な特性を有する編集されたダビング波形を一緒に
結合する“波形編集”としるされているプロセ
ス・ブロツク51で実行される。 (1) 時間ひずみ路のすべてのフレームに対して、
ひずみ路によつて指示されている時間領域にお
けるダビング波形の近似的なフレーム長セグメ
ントが出力である。 (2) ひずみ路における無声音として分類される各
フレームに対して、真(デイジタル0)の無声
音のフレーム長期間はダビング波形を置換する
ための出力である。 (3) ダビング波形フレーム(時間ひずみ路によつ
て特定されるように)の削除又は反復は有声音
におけるピツチと同期して実行される。すなわ
ち、削除される波形セグメントまたは繰返され
る波形セグメントはひずみ路およびロードされ
る最後の出力サンプルの要求を最良に満足する
長さにおけるピツチ期間の整数である。 (4) 一緒に接続される隣接しない波形セグメント
の端点は認識される不連続性を除くように一致
させられる。 前記文節の(1)と(2)で引用された動作例は第18
図に表わされている。あらゆる案内フレーム
対して、ダビング・フレームj=W(kT)があ
る。第18図において、路W(kT)は、もし
openがダビング・フレームが無声音分類を有す
ることを指示するならば、もしionならば、DEV
は指示されているようにDEV=TESIIW−
TESIOW+LESIOW−LESIIWとして計算され
るDESとして定義される一連の接続ドツトとし
て(k、j)面に示される。(例えば、ある音声
フレームは1回しかくり返されることがなく、ま
た、どの音声フレームでもいずれのステツプでも
スキツプされることはない。)これは編集プロセ
スをかなり簡単にする。 j軸に隣接して、典型的なダビング時間波形、
x2(t′)はT秒のフレーム期間の終りで整列され
る各ダビング・フレーム数と共に図示される。
それによつて、波形セグメントとフレーム数との
対応を固定する。のフレームがスキツプされる
路W(kT)の点で、“X”は削除のため波形セク
シヨンにマークを付ける。同様に、二重矢印が反
復のためセグメントにマークを付ける。 ダビング波形セグメントは選択波形セグメント
とデイジタル無声音(すなわち、0)から、X2
(t″)とラベルを付けられる編集されたx2(t′)を
図形的に(いかなる不連続性も無視する)再構成
するように軸(破線によつて区分されているセ
グメントによつて表わされるように)に隣接した
時間軸t″に投影される。このような再構成の結果
生じる不連続性は知覚的に受け入れることができ
ない。したがつて、次の技術はこの問題を軽減し
なお主要編集データとして時間ひずみ路の密接な
追跡を続けるものである。 次の数量は編集プロセスを説明するさいに使用
するため定義される。 定 数 SMPRAT−記憶されたダビング波形のサンプル
率。 LENFRM−サンプルにおける波形フレームの長
さ。 ETIS−サンプル(=LENFRM/2)における
編集スレツシユホールド。 フレーム率変数 NG−(現在の)案内フレーム数(に対応)。 ND−フレームNGにおけるひずみ路から得られ
る(現在の)ダビング・フレーム数(jに対
応)。 DCL−ダビング・フレームNDの分類。 PRVND−NG−1でのひずみ路からの前のダビ
ング・フレーム数。 PRVNCL−前のダビング・フレームPRVNDの
分類。 サンプル率変数 TESIIW−入力(未編集ダビング)波形における
ターゲツト終了サンプル。 LESIIW−入力波形におけるロード終了サンプ
ル。 TESIOW−出力(編集ダビング)波形における
ターゲツト終了サンプル。 LESIOW−出力波形におけるロード終了サンプ
ル。 INCSMP−前から現在までの入力波形ターゲツ
トのサンプルにおける増分。 DEV−もし、次のフレームが現在のLESIOWの
あと、長さLENFRMでロードされるならば、
その結果生じるであろう出力波形終了サンプル
とターゲツト終了サンプル間のサンプルにおけ
る偏移。 編集のさいに含まれる基本動作は第20a,
b,c図に流れ図の形で示されている。 第18図の例からわかるように、時間ひずみ路
W(kT)は波形セグメントのサンプルにおけるタ
ーゲツト終了点の2つの組をLENFRM=T*
SMPRAT(長さにおけるサンプル)と定義する
(第20a図も参照)。これらの第1は出力(編集
されている)波形におけるターゲツト終了点サン
プル数である。こゝで、案内フレームNG(=k)
におけるセグメントを終了させる。 したがつて、もし信号がサンプル1で始まるな
らば、すなわち、番目のフレーム数が番目の
セグメントの終了を指定するならばLENFRMは
出力波形におけるサンプル数k*LENFRMであ
る。特定のフレームに対して、出力波形におけ
るターゲツト終了点サンプルはTESIOWとして
参照される。 同様に、j=W(kT)としてひずみ路から得ら
れるダビング・フレーム数ND=jはさらに、サ
ンプル数j*LENFRMでの入力(未編集)波形セ
グメント終了点を指定する。の特定のフレーム
に対して、入力波形におけるターゲツト終了サン
プルはTESIIWとして参照される。 もし、編集プロセスが第18図に例としてあげ
てあるように出力波形を単に生じることであるな
らば、その差(TESIIW−TESIOW)はいかな
るフレームに対しても0に等しいということはあ
りえない。したがつて、出力および入力波形にお
ける実際の終了点とターゲツトの終了点間の偏移
がいくつかの所定のステツシユホールド値より大
きくなるまで、編集プロセスは入力波形の連続的
なセグメントをフエツチすることを試みるように
設計されている。次に、編集プロセスは
TESIIWSのシーケンスで規定されるセグメント
境界で必ずしも終了しなくて、各ロード・セグメ
ントの終了サンプルがTESIOWのシーケンスに
よつて規定されるセグメント境界で必ずしも起ら
ない出力波形を形成するようにこれらのセグメン
トを結合するセグメントをロードすることができ
る。この引き続く偏移を計算するために、2個の
別の変数が導入される。 これらの別異の2個の変数のうちの第1の
LESIOWは出力波形における実際の最後のロー
ド終了サンプルを参照し、出力信号を含む第1の
サンプルから計数され、最後にロードされたセグ
メントの終了でみつけられるサンプル数である。
同様に、第2のLESIIWは、入力波形におけるロ
ード終了サンプルを参照し、含まれる第1の入力
サンプルから計数され、出力波形信号バツフアに
最終にロードされるサンプル数である。 これらの4つの変数、TESIOW、TESIIW、
LESIOW、LESIIWで、入力波形セグメントのど
れでもが出力波形のどの位置でもロードされたあ
と存在するW(kT)によつて規定される“ターゲ
ツト”波形からの偏移をみつけることは可能であ
る。DEVとして規定されるこの偏移は第20b
図のブロツク96に示されるように、 DEV=TESIIW−TESIOW+LESIOW−
LESIIWとして計算され、もし最後にロードされ
た波形終了サンプルが出力バツフアのその目標と
した位置を越えるならば、正である数(サンプル
において)を供給する。同様に、もし最後にロー
ドされた波形終了サンプルが出力バツフアのその
目標とした位置に達しないならば、DEVは負で
ある。偏移は、もしW(k)=W(k+1)−1なら
ば、各kを変化することができるとすると、出力
波形はフレーム・バイ・フレームで組立てられ、
偏移は、各々の新しいセグメントがロードされる
前に計算される。もし、LESIIWのあと次の
LENFRMサンプルを次のLESIOWの出力波形の
位置にロードすることから生じる偏移の大きさは
ETIS(サンプルにおける編集スレツシユホール
ド)として規定される最大許容偏移より大きいな
らば、編集動作は第20c図に示されるように
YESの解答に続いて第20b図の決定97に対し
て適用される。 音声として分類されているダビング波形のセグ
メントにおいて、もしセグメントが有声音を含む
ことが見出されるならば、編集動作はピツチと同
期して行なわれる。必要な動作は下記に説明され
る。第19図の例に関して、aで示されている入
力波形(未編集ダビング)はLENFRM=100ご
とにサンプルに番号がつけられた軸上の周期性音
声を表わす。第19図のbにターゲツト終了サン
プルが示されている。そして、100の300への典型
的スキツプはTESIIWに対して示されるけれど
も、TESIOWはこのジヤンプをしない(できな
い)。もし第1のロードに対する偏移がLESIIW
=100およびLESIOW=100を使用して試験され
るならば、DEV=0になる。したがつて、いか
なる編集も必要とされないし、このセグメントは
第19図cで示されるように出力バツフアにロー
ドされる。しかしながら、第2のフレームにおい
て、もしLESIIW=200でロードされ、次に
LESIIW=300でロードされるならば、TESIOW
=200およびLESIOW=200、スキツプを指示す
るDEV=100はTH=50のスレツシユホールド以
下にDEVを減少するようにされる。 この編集をするためにとられる一般的手順は以
下のようになる。 (1) 現在のLESIIW(第19図のaにおけるサン
プルでの)に続く次の3個のフレームは検査
のために出力バツフアhqfta GESIOW(′で
の)にロードされる(第20c図のブロツク98
参照)。サンプルにおけるこの余分のセグメン
トは入力バツフアにおける点から点までで
あり、′から′まで出力バツフアにロードさ
れることが示されている。 (2) 現在および次のフレームに対する波形期間は
出力バツフアの波形を用いて測定され、その結
果(サンプルにおける)は変数PERIODに割
当てられる(第20c図のブロツク99参照)。
その期間をみつけるのに使用される計算方法
は、後述されるL.ラビンナとR.シヤアフアによ
る「音声信号のデイジタル信号処理」の第4章
におけるいくつかの他の等しく有用である技術
と共に詳細に説明されている平均量差関数(又
はAMDF)の方法である。 (3) サンプルNPOPTにおける積分波形期間の最
適数は、式|DEV−NPOPT|が最小にされ
るようにして見出される(第20c図のブロツ
ク100を参照)。これはスキツプ(すなわち削
除)されるべきサンプルの理想数とされる。
(注:もしDEV=0ならば、さらにNPONTは
繰返されるべき期間の最適数を示す負数であ
る。) (4) LESIOWに最も近い零交叉点をさがし、第
19図のdで示され、また、第20c図のブロ
ツク101で示されるようにZCR1としてこの点
にマークをつける。 (5) この点から、ZCR1でみつけられる点の方
向と一致する零交叉のため一時的にロードされ
る波形の(NPOPT+ZCR1)に位置にあるサ
ンプルのどちらかの側を探索する。この第2の
零交叉がみつかる点をZCR2としてマークを
つける。示されている例において、この点は
ZCR1(第20c図のブロツク102)から約1
ピツチ期間はなれたサンプルで見出される。 (6) ZCR2(すなわち、ZCR2+1から′まで)
に続くLENFRMサンプルからなるセグメント
は、第19図のeおよび第20c図のブロツク
103で示されるようにZCR1+1(したがつて、
一時的データを書きすぎる)でのサンプルで始
まるように出力バツフアに転送される。これは
必要とされるピツチ同期編集動作を終了する。 ′でのサンプル数は次に、現在のLESIIW
とされ、入力信号の対応するサンプルはその
フレーム(第20cのブロツク104を参照)に
対して現在のLESIIWとされる。 いま、説明されたロードに続いて、その例で試
験される次のロードは|DEV|ETISであること
を示す。したがつて、入力波形(すなわちに)
に続く次のLENFRMサンプルは第19図の
aおよびeでそれぞれに示されるように編集され
ないで′(すなわち、′に)に続いて出力バツ
フアにロードされる。 もしDEV0ならば、もしNPOPTが負の値を
とることが許されるならば、さらに前記の手順が
継続する。それによつて、それはZCR2に対す
る検索はZCR2で始まり、ZCR1でのサンプル
のあと繰り返されるセグメントに対するサンプル
(ZCR1+NPOPT)(すなわち、ZCR1の左へ)
のまわりでされることを示す。 フレームごとのDEVを試験するプロセスは全
時間ひずみ路のために続く。しかしながら、信号
期間の測定が精査の下でのセグメントは無声音で
あるということを示すとき、特別な動作がされる
(第20c図の決定105を参照)。この状態が生じ
ると、スキツプ(又はリピート)されるサンプル
数NPOPTはDEVに等しくセツトされ、前記の
手順はステツプ4から続けられる。最後に、出力
されるセグメントが無声音として分類されると、
さらに動作上の差が生じる。この場合において、
デイジタル無声音(すなわち、0のフレーム)が
入力波形を置換するように使用されるため、
LESIIWは前のTESIIWと現在のTESIIW間のサ
ンプル上の差によつて増分される。したがつて、
偏移を一定にする。これは第20b図の決定108
および109に続く第20c図のブロツク106および
107で示されている。 編集プロセス全部の流れ図は第20図に示され
る。含まれている特徴(前に説明されていない)
はフレームのために計算された偏移が、編集が要
求されることを示すならば、第20b図の決定
110、すなわち次のフレームに対する偏移が計算
され、次のフレーム(現在のフレームで行なわれ
る編集もされないで)における偏移が編集スレツ
シユホールド、すなわち決定97以内にあるなら
ば、いかなる編集動作も現在のフレームで行なわ
れない“先回り”試験である。 いくつかの簡単な修正が音声−無声音および無
声音−音声のフレーム境界での不連続の機会を減
少する前記の基本動作に対してなされる。例え
ば、音声フレームjがもし無声音として分類され
るフレーム+1に先行するならば、フレーム
+1の実際の信号内容はデイジタル無声音の代り
に出力され、フレーム+1における波形を通し
て後方への走査は第1の零交叉位置に位置付けさ
れる。次に、この位置からフレーム+1の終り
までのすべての点はデイジタル0にセツトされ
る。交番的に、0への簡単な線形交叉フエードは
フレーム(又は、もし使用されるならば、
1)の終りで導入される。同様に、もし無声音が
フレームでの音声によつて継続されるならば、
フレーム−1は無声音の代りに出力され、フレ
ーム(−1)の始まりから最初の零交叉(又は
線形クロスフエード)までの波形を0に合わせる
ことが再び実行される。 前記の説明で、出力波形は各フレームでの偏移
DEVの計算の結果にしたがつてフレーム・バ
イ・フレームに基づいて発生されるけれども、さ
らに、編集データから入力波形のサンプルのため
にポインタのテーブルを形成することができる。
そして、これらのポインタはシステム・メモリに
またはデイスク上で保持される。ポインタは再生
動作中フエツチされるべきであるセグメントの開
始および終了サンプルを示し、さらに出力される
べきであるデイジタル無声音のセグメントの位置
と期間を示すように使用される。したがつて、新
しい波形よりむしろ編集命令リストが発生され、
かなりのデイスク・スペースは非動作上の欠点と
共に節約される。 第6図に関して前記で説明されているように処
理動作は調整され、およびまたは、第2図に示さ
れているハードウエアで作動するソフトウエアを
使用して次のように実行される。 オペレータ・インタフエーシング、システム・
コントロール、および、信号編集のための別々の
手順は、元来はRATFOR(推論FORTRAN)言
語で書かれていて、ANSII FORTRAN−77コ
ードを生じるようにRATFORプリプロセツサに
よつてほん訳される。このソース・コードは再配
置できるオブジエクト・コードの形で個々のプロ
グラム・ユニツトを生じるようにインテル
FORTRAN−86コンパイラによつてコンパイル
される。適当な装置ドライバー、入出力システ
ム、オペレーテイング・システムの核と共にこれ
らのプログラム・ユニツトはインテルRMX−88
インタラクテイブ構成ユーテリテイを使用してロ
ード可能であるタスク・システムに構成される。
このシステムはアプリケーシヨン・タスクおよび
オペレーテイング・システムが走り、それが
SBC1(例えば、デイスク・フアイルから)の
ランダム・アクセス・メモリ(RAM)にロード
される実時間マルチタスキング環境を支持するの
に適当をソフトウエアを含む。タスクが走つてい
るとき、その優先順位は、オペレータ通信、マグ
テツク信号検出および制御、信号デイジタル化、
デイスク上の信号記憶、信号編集、SBC2との
通信がすべて同時に行なわれるように見えるよう
に配置される。 もつと詳細に、これらの手順は、割り込み線に
受信される信号のような実時間イベント、したが
つて、サービス特定の外部イベントにただちに応
答する割込みサービス・ルーチン(ISR)、また
は、応答のもつと複雑なセツトのための処理装置
の動作を交換する割込みタスクのどちらかによつ
て処理される。SBC1での処理はMTE152プロ
セツサ15からのマスタ録音(オン)信号の受信
のさい始まりしたがつて、割込みタスクに分類さ
れる。起動手順の中には次のようなものがある。
SBC1とSBC2間のメモリ写像されたフラグを
介して時間ひずみ処理装置を起動し、A/D−C
バツフア・ハードウエア割込みを可能化し、マス
タ録音(オフ)における終了手順を可能化し、編
集プロセツサを起動する。編集プロセツサ(これ
もSBC1における)は同じタスクの一部として
作動するが、データが処理のために使用可能であ
るかどうかを確めるようにメモリマツピングを介
してSBC2上のポインタを調べ、さらに、書き
すぎをされる未処理データを中止するように
SBC2のメモリにポインタをセツトする。 A/D−Cバツフア・メモリからデイスクへの
データの転送は、A/D−Cバツフア完全ハード
ウエア割込信号に応動し、適当なメモリおよびデ
イスク・アドレスをデイスク・コントローラに送
る割込みタスクによつて処理される。そのデイス
ク・コントローラは順番に作動し別のプロセツサ
調停なくして直接メモリ・アクセスによつてデー
タ転送を監視する。 終了手順は、マスタ録音信号が作動しないよう
な動作を開始し、再びメモリ写像されたポイント
およびI/0ポート・ハンドシエイクはこの段階
の間のボード内部通信を維持する。 SBC2上の時間ひずみプロセツサ(TWP)は
RATFORで書かれ、前処理され、コンパイルさ
れ、デイスクからSBC2のRAMにロード可能で
あるシンプラ(simpler)、すなわち単一のタス
ク・モジユールに構成される。このボード上のタ
スクがいつたん開始されると、TWRを開始する
ためI/0ポートを介してSBC1から割込みを
受信するために待機する。TWPが始まつたあと、
パラメータ・バツフア・フル・ハードウエア割込
みが可能化され、これらのバツフアを空にして
SBC2のオン・ボード・メモリに入れることは
ISRを介してなされる。時間ひずみ路は前記で説
明したようにメモリ・マツピングを介してSBC
1に移され、TWP終了信号はI/O割込みおよ
びメモリ写像されたフラグを介して移される。 第21図は第2図および第3図のA/D装置2
8およびD/A装置29の詳細ブロツク線図であ
る。第3図に使用される参照数字はこれらの対応
する要素について第21図で適用される。第21
図は12.288MHzで動くクロツク発生器111を含
むように第3図の制御部32を示す。さらに、装
置28および29は、もし必要ならば、マイクロ
ホンHからのデイジタル化信号がD/A変換装置
に送られることができるループ論理およびミユー
ト論理を含む。マイクロホン入力と第2図のダビ
ング・パラメータ抽出プロセツサとの結合はま
た、第21図に示されている。マイクロホン入力
は第21図にチヤネルAオーデイオと指定された
チヤネルを通してMS2003デイジタル・フイルタ
およびプレシー社製の検出器(FAD)の形でフ
イルタバンク(図示されていない)に移される。
前記検出器(FAD)は、ブイテイツシユ・テレ
コム社のライセンスの下に英国のプレツシイ社p.
l.cによつて製造されたものであり、英国、ノー
サント、タウセスタ、カスウエルの、プレツシ
イ・リサーチ(カスウエル)社のアレン・クラー
ク・リサーチ・センタによつて発行されたプレツ
シイ・データ・シート公開誌第P.S.2246号に記述
されている。第21図に示されるチヤネルBオー
デイオは第2図と第4図の案内トラツク・パラメ
ータ抽出プロセツサ43へのチヤネルである。第
2のMS2003デイジタル・フイルタおよび検出器
FAD2は第4図に示されるデイジタル・フイル
タバンク57を構成する。 チヤネルAとBは第21図に示されているよう
に最終段としてそれぞれのバツフアを有しこれら
のバツフアからの出力は差分であり、これはオー
デイオ出力バツフア41の場合のようにバツフア
段から2重線で示される。制御回路におけるそし
て制御回路の要素から制御される装置への内部接
続は簡単な又は複雑なバスでされる。第3図の大
容量バツフア30は共通データおよびアドレス・
マルチプレクサを有する2つのメモリバンクAお
よびBのように配置される。 パラメータ抽出プロセツサ42および43の
各々において、LOGとしるされている各ブロツ
クによつて実行されるプロセスは、この例におい
て、PROM(プログラム可能な読出し専用メモ
リ)における検索テーブルからのアドレス指定で
あり出力である。スイツチ58はマルチプレクサ
である。 先行技術の時間ひずみおよび言語認識の別の報
告が、1981年5月に発行された「通信に関する
IEEEトランザクシヨン」第COM−29巻、第5
号、第621頁−第659頁のL.R.ラビンナとS.E.レビ
ンソンの論文「分離され、接続された言語認識−
理論および選択応用」になされている。
JP58501091A 1982-03-23 1983-03-23 オーディオ周波数出力信号発生方法および装置 Granted JPS59500432A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB8208376 1982-03-23
GB8208376 1982-03-23

Publications (2)

Publication Number Publication Date
JPS59500432A JPS59500432A (ja) 1984-03-15
JPH0546960B2 true JPH0546960B2 (ja) 1993-07-15

Family

ID=10529183

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58501091A Granted JPS59500432A (ja) 1982-03-23 1983-03-23 オーディオ周波数出力信号発生方法および装置

Country Status (7)

Country Link
US (1) US4591928A (ja)
EP (1) EP0090589A1 (ja)
JP (1) JPS59500432A (ja)
AU (1) AU1370883A (ja)
CA (1) CA1204855A (ja)
GB (1) GB2117168B (ja)
WO (1) WO1983003483A1 (ja)

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5979300A (ja) * 1982-10-28 1984-05-08 電子計算機基本技術研究組合 認識装置
JPH0632020B2 (ja) * 1986-03-25 1994-04-27 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声合成方法および装置
US5040081A (en) * 1986-09-23 1991-08-13 Mccutchen David Audiovisual synchronization signal generator using audio signature comparison
CA1322595C (en) * 1988-01-22 1993-09-28 Andrew Staffer Synchronization of recordings
US5087980A (en) * 1988-01-22 1992-02-11 Soundmaster International, Inc. Synchronization of recordings
US4956806A (en) * 1988-07-12 1990-09-11 International Business Machines Corporation Method and apparatus for editing source files of differing data formats using an edit tracking file
GB2235815A (en) * 1989-09-01 1991-03-13 Compact Video Group Inc Digital dialog editor
EP0527527B1 (en) * 1991-08-09 1999-01-20 Koninklijke Philips Electronics N.V. Method and apparatus for manipulating pitch and duration of a physical audio signal
EP0527529B1 (en) * 1991-08-09 2000-07-19 Koninklijke Philips Electronics N.V. Method and apparatus for manipulating duration of a physical audio signal, and a storage medium containing a representation of such physical audio signal
DE69231266T2 (de) * 1991-08-09 2001-03-15 Koninkl Philips Electronics Nv Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium
US5553864A (en) 1992-05-22 1996-09-10 Sitrick; David H. User image integration into audiovisual presentation system and methodology
US7137892B2 (en) * 1992-05-22 2006-11-21 Sitrick David H System and methodology for mapping and linking based user image integration
US8821276B2 (en) 1992-05-22 2014-09-02 Bassilic Technologies Llc Image integration, mapping and linking system and methodology
US5485395A (en) * 1994-02-14 1996-01-16 Brigham Young University Method for processing sampled data signals
US5728960A (en) 1996-07-10 1998-03-17 Sitrick; David H. Multi-dimensional transformation systems and display communication architecture for musical compositions
US7989689B2 (en) * 1996-07-10 2011-08-02 Bassilic Technologies Llc Electronic music stand performer subsystems and music communication methodologies
US7297856B2 (en) * 1996-07-10 2007-11-20 Sitrick David H System and methodology for coordinating musical communication and display
US7098392B2 (en) * 1996-07-10 2006-08-29 Sitrick David H Electronic image visualization system and communication methodologies
US5812071A (en) * 1996-08-13 1998-09-22 Northern Telecom Limited Apparatus and method for lossy compression using dynamic domain quantization
US5986199A (en) * 1998-05-29 1999-11-16 Creative Technology, Ltd. Device for acoustic entry of musical data
US6182042B1 (en) 1998-07-07 2001-01-30 Creative Technology Ltd. Sound modification employing spectral warping techniques
US6636993B1 (en) * 1999-02-12 2003-10-21 Fujitsu Limited System and method for automatic deskew across a high speed, parallel interconnection
US6704671B1 (en) 1999-07-22 2004-03-09 Avid Technology, Inc. System and method of identifying the onset of a sonic event
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6594601B1 (en) 1999-10-18 2003-07-15 Avid Technology, Inc. System and method of aligning signals
US7031980B2 (en) * 2000-11-02 2006-04-18 Hewlett-Packard Development Company, L.P. Music similarity function based on signal analysis
US7827488B2 (en) * 2000-11-27 2010-11-02 Sitrick David H Image tracking and substitution system and methodology for audio-visual presentations
US7085717B2 (en) * 2002-05-21 2006-08-01 Thinkengine Networks, Inc. Scoring and re-scoring dynamic time warping of speech
US6983246B2 (en) * 2002-05-21 2006-01-03 Thinkengine Networks, Inc. Dynamic time warping using frequency distributed distance measures
US8009966B2 (en) * 2002-11-01 2011-08-30 Synchro Arts Limited Methods and apparatus for use in sound replacement with automatic synchronization to images
EP1578141A1 (en) * 2004-03-19 2005-09-21 Deutsche Thomson-Brandt Gmbh Method and apparatus for adapting the speed or pitch of replayed or received digital audio signals
US7587254B2 (en) 2004-04-23 2009-09-08 Nokia Corporation Dynamic range control and equalization of digital audio using warped processing
US8521529B2 (en) * 2004-10-18 2013-08-27 Creative Technology Ltd Method for segmenting audio signals
EP1840877A4 (en) * 2005-01-18 2008-05-21 Fujitsu Ltd ELOCUTION SPEED CHANGING METHOD AND ELOCUTION SPEED CHANGING DEVICE
PL1849154T3 (pl) * 2005-01-27 2011-05-31 Synchro Arts Ltd Sposoby i urządzenie do zastosowania w modyfikacji dźwięku
US7825321B2 (en) * 2005-01-27 2010-11-02 Synchro Arts Limited Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals
EP1720166A1 (en) * 2005-05-04 2006-11-08 Deutsche Thomson-Brandt Gmbh Method and apparatus for authoring a 24p audio/video data stream by supplementing it with additional 50i format data items
WO2007004110A2 (en) * 2005-06-30 2007-01-11 Koninklijke Philips Electronics N.V. System and method for the alignment of intrinsic and extrinsic audio-visual information
JP4124247B2 (ja) * 2006-07-05 2008-07-23 ヤマハ株式会社 楽曲練習支援装置、制御方法及びプログラム
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US7378588B1 (en) * 2006-09-12 2008-05-27 Chieh Changfan Melody-based music search
EP1959449A1 (en) * 2007-02-13 2008-08-20 British Telecommunications Public Limited Company Analysing video material
US20080256136A1 (en) * 2007-04-14 2008-10-16 Jerremy Holland Techniques and tools for managing attributes of media content
US8751022B2 (en) * 2007-04-14 2014-06-10 Apple Inc. Multi-take compositing of digital media assets
US20080263450A1 (en) * 2007-04-14 2008-10-23 James Jacob Hodges System and method to conform separately edited sequences
WO2010005823A1 (en) 2008-07-11 2010-01-14 Spinvox Inc. Providing a plurality of audio files with consistent loudness levels but different audio characteristics
US8802957B2 (en) * 2010-08-16 2014-08-12 Boardwalk Technology Group, Llc Mobile replacement-dialogue recording system
US8918722B2 (en) 2011-05-06 2014-12-23 David H. Sitrick System and methodology for collaboration in groups with split screen displays
US8875011B2 (en) 2011-05-06 2014-10-28 David H. Sitrick Systems and methodologies providing for collaboration among a plurality of users at a plurality of computing appliances
US9224129B2 (en) 2011-05-06 2015-12-29 David H. Sitrick System and methodology for multiple users concurrently working and viewing on a common project
US8918723B2 (en) 2011-05-06 2014-12-23 David H. Sitrick Systems and methodologies comprising a plurality of computing appliances having input apparatus and display apparatus and logically structured as a main team
US9330366B2 (en) 2011-05-06 2016-05-03 David H. Sitrick System and method for collaboration via team and role designation and control and management of annotations
US8990677B2 (en) 2011-05-06 2015-03-24 David H. Sitrick System and methodology for collaboration utilizing combined display with evolving common shared underlying image
US8924859B2 (en) 2011-05-06 2014-12-30 David H. Sitrick Systems and methodologies supporting collaboration of users as members of a team, among a plurality of computing appliances
US8918724B2 (en) 2011-05-06 2014-12-23 David H. Sitrick Systems and methodologies providing controlled voice and data communication among a plurality of computing appliances associated as team members of at least one respective team or of a plurality of teams and sub-teams within the teams
US8918721B2 (en) 2011-05-06 2014-12-23 David H. Sitrick Systems and methodologies providing for collaboration by respective users of a plurality of computing appliances working concurrently on a common project having an associated display
US11611595B2 (en) 2011-05-06 2023-03-21 David H. Sitrick Systems and methodologies providing collaboration among a plurality of computing appliances, utilizing a plurality of areas of memory to store user input as associated with an associated computing appliance providing the input
US10402485B2 (en) 2011-05-06 2019-09-03 David H. Sitrick Systems and methodologies providing controlled collaboration among a plurality of users
US8914735B2 (en) 2011-05-06 2014-12-16 David H. Sitrick Systems and methodologies providing collaboration and display among a plurality of users
US8806352B2 (en) 2011-05-06 2014-08-12 David H. Sitrick System for collaboration of a specific image and utilizing selected annotations while viewing and relative to providing a display presentation
US8826147B2 (en) 2011-05-06 2014-09-02 David H. Sitrick System and methodology for collaboration, with selective display of user input annotations among member computing appliances of a group/team
JP5422640B2 (ja) * 2011-12-28 2014-02-19 京セラドキュメントソリューションズ株式会社 画像読取装置
JP6003083B2 (ja) * 2012-02-27 2016-10-05 ソニー株式会社 信号処理装置、信号処理方法、およびプログラム、電子機器、並びに、信号処理システムおよび信号処理システムの信号処理方法
WO2014018652A2 (en) 2012-07-24 2014-01-30 Adam Polak Media synchronization
US9355649B2 (en) 2012-11-13 2016-05-31 Adobe Systems Incorporated Sound alignment using timing information
US10638221B2 (en) 2012-11-13 2020-04-28 Adobe Inc. Time interval sound alignment
US9201580B2 (en) 2012-11-13 2015-12-01 Adobe Systems Incorporated Sound alignment user interface
US10249321B2 (en) 2012-11-20 2019-04-02 Adobe Inc. Sound rate modification
US9451304B2 (en) * 2012-11-29 2016-09-20 Adobe Systems Incorporated Sound feature priority alignment
US10455219B2 (en) 2012-11-30 2019-10-22 Adobe Inc. Stereo correspondence and depth sensors
US9135710B2 (en) 2012-11-30 2015-09-15 Adobe Systems Incorporated Depth map stereo correspondence techniques
US10249052B2 (en) 2012-12-19 2019-04-02 Adobe Systems Incorporated Stereo correspondence model fitting
US9208547B2 (en) 2012-12-19 2015-12-08 Adobe Systems Incorporated Stereo correspondence smoothness tool
US9214026B2 (en) 2012-12-20 2015-12-15 Adobe Systems Incorporated Belief propagation and affinity measures
GB2609611B (en) 2021-07-28 2024-06-19 Synchro Arts Ltd Method and system for time and feature modification of signals

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS52109806A (en) * 1976-10-18 1977-09-14 Fuji Xerox Co Ltd Device for normalizing signal level
JPS5511250A (en) * 1978-07-11 1980-01-26 Sanyo Electric Co Voice discriminating circuit in remote controller

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4210781A (en) * 1977-12-16 1980-07-01 Sanyo Electric Co., Ltd. Sound synthesizing apparatus
DE2849218A1 (de) * 1978-11-13 1980-05-14 Siemens Ag Anordnung zum nachsynchronisieren von filmen
JPS5569880A (en) * 1978-11-22 1980-05-26 Nec Corp Pattern recognition unit
US4271332A (en) * 1979-06-04 1981-06-02 Anderson James C Speech signal A/D converter using an instantaneously-variable bandwidth filter
US4384273A (en) * 1981-03-20 1983-05-17 Bell Telephone Laboratories, Incorporated Time warp signal recognition processor for matching signal patterns

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS52109806A (en) * 1976-10-18 1977-09-14 Fuji Xerox Co Ltd Device for normalizing signal level
JPS5511250A (en) * 1978-07-11 1980-01-26 Sanyo Electric Co Voice discriminating circuit in remote controller

Also Published As

Publication number Publication date
AU1370883A (en) 1983-10-24
US4591928A (en) 1986-05-27
GB2117168A (en) 1983-10-05
WO1983003483A1 (en) 1983-10-13
EP0090589A1 (en) 1983-10-05
JPS59500432A (ja) 1984-03-15
CA1204855A (en) 1986-05-20
GB2117168B (en) 1985-09-18
GB8308021D0 (en) 1983-04-27

Similar Documents

Publication Publication Date Title
JPH0546960B2 (ja)
Tzanetakis et al. Marsyas: A framework for audio analysis
JP3941417B2 (ja) ソース音声信号内の新規点の識別方法
US6697564B1 (en) Method and system for video browsing and editing by employing audio
US5649060A (en) Automatic indexing and aligning of audio and text using speech recognition
KR102025652B1 (ko) 사운드 이벤트 탐지 모델 학습 방법
Zhang et al. Content-based audio classification and retrieval for audiovisual data parsing
JP2000511651A (ja) 記録されたオーディオ信号の非均一的時間スケール変更
US10235981B2 (en) Intelligent crossfade with separated instrument tracks
US20120321276A1 (en) Variable rate video playback with synchronized audio
CN1148230A (zh) 卡拉ok计分的方法和系统
US9892758B2 (en) Audio information processing
Halperin et al. Dynamic temporal alignment of speech to lips
CN1967657B (zh) 节目制作中的说话人声音自动跟踪变调系统和方法
KR20090002076A (ko) 동영상 데이터의 동일성 판단 및 동일 구간 검출 방법 및장치
Wenner et al. Scalable music: Automatic music retargeting and synthesis
JP3803302B2 (ja) 映像要約装置
JP2700937B2 (ja) 早聞き装置
Bloom Use of dynamic programming for automatic synchronization of two similar speech signals
Fierro et al. Towards objective evaluation of audio time-scale modification methods
Yapp et al. Speech recognition on MPEG/audio encoded files
Picone et al. Robust pitch detection in a noisy telephone environment
KR100359988B1 (ko) 실시간 화속 변환 장치
JP2003230094A (ja) チャプター作成装置及びデータ再生装置及びその方法並びにプログラム
Olson et al. Speech processing techniques and applications