JPH0546960B2

JPH0546960B2 -

Info

Publication number: JPH0546960B2
Application number: JP58501091A
Authority: JP
Inventors: Fuiritsupu Jefurii Buruumu; Gaasu Deibitsudo Maasharu
Original assignee: WAADOFUITSUTO Ltd
Current assignee: WAADOFUITSUTO Ltd
Priority date: 1982-03-23
Filing date: 1983-03-23
Publication date: 1993-07-15
Also published as: AU1370883A; US4591928A; GB2117168A; WO1983003483A1; EP0090589A1; JPS59500432A; CA1204855A; GB2117168B; GB8308021D0

Description

請求の範囲１第２のオーデイオ周波数入力信号X₂（t′）を
編集することにより、時間に依存する特徴を有す
る不適当な第１のオーデイオ周波数入力信号X₁
(t)の代わりにオーデイオ周波数出力信号を発生す
る方法において、時間に依存する特徴を有する上記第２のオーデ
イオ周波数入力信号X₂（t′）を発生するステツプ
と、上記第１のオーデイオ周波数入力信号X₁(t)を
処理し、該第１のオーデイオ周波数入力信号の選
択された時間に依存する特徴のタイミングを表す
第１のデータＡ（kT）を発生するステツプ（45）
と、上記第２のオーデイオ周波数入力信号X₂（t′）
を処理し、該第２のオーデイオ周波数入力信号の
選択された時間に依存する特徴のタイミングを表
す第２のデータＢ（jT）を発生するステツプ
（46）と、上記第１のデータＡ（kT）と上記第２のデー
タＢ（jT）を比較し、上記第１のオーデイオ周
波数入力信号X₁(t)の上記選択された時間に依存
する特徴のタイミングと上記第２のオーデイオ周
波数入力信号X₂（t′）の上記選択された時間に依
存する特徴のタイミングの差を表すタイミングデ
ータＷ（kT）を発生するステツプと（47）と、上記第２のオーデイオ周波数入力信号X₂（t′）
の波形を表す波形データX₂（nD）を発生するス
テツプ（26）と、上記タイミングデータＷ（kT）に従つて上記波
形データX₂（nD）を編集し、上記選択された時
間に依存する特徴のタイミングが上記第１のオー
デイオ周波数入力信号X₁(t)の上記選択された時
間に依存する特徴のタイミングに実質的に整合す
る上記第２のオーデイオ周波数入力信号X₂（t′）
の編集した波形X^₂（nD）を表す出力データを発
生するステツプ（49、51）とを含むオーデイオ周波数出力信号発生方法。２第１のオーデイオ周波数入力信号X₁(t)を処
理するステツプ（45）は、該第１のオーデイオ周
波数入力信号の選択された物理的な面を周期的に
測定し（43、57）、これ等の測定から時間に依存
するパラメータA₁（kT）…A_N（kT）の値を決定
し、その測定は提出されるべき上記第１のオーデ
イオ周波数入力信号X₁(t)の特性における有意な
変化のために十分高速で実行され、第２のオーデ
イオ周波数入力信号X₂（t′）を処理するステツプ
（46）は、該第２のオーデイオ周波数入力信号の
選択された物理的な面を周期的に測定し（42）、
これ等の測定から時間に依存するパラメータB₁
（jT）…B_N（jT）の値を決定し、その測定は検出
されるべき上記第２のオーデイオ周波数入力信号
の特性における有意な変化のために十分高速で実
行され、及び波形データの編集するステツプ
（49、51）は、そのパラメータのいくつか又は全てのシーケン
スに基づいて第２のオーデイオ周波数入力信号
X₂（t′）の連続セグメントを分類し（48）、有意な
レベルのオーデイオ周波数の有無を示す時間に依
存する分類ｆ（jT）を生じ、第１のオーデイオ周波数入力信号X₁(t)及び第
２のオーデイオ周波数入力信号X₂（t′）の時間に
依存する分類ｆ（jT）及び時間に依存するパラメ
ータA₁（kT）…，B₁（kT）の値から上記第２の
オーデイオ周波数入力信号X₂（t′）の上記時間に
依存するパラメータB₁（jT）…B_N（jT）の時間に
おいて対応する上記第１のオーデイオ周波数入力
信号X₁(t)の上記時間に依存するパラメータA₁
（kT）…A_N（kT）に良好に整列させるのに必要
な上記第２のオーデイオ周波数入力信号X₂（t′）
の時間スケールのひずみを表す時間ひずみ関数Ｗ
（kT）を生じ（47）、そして上記時間ひずみ関数Ｗ（kT）と上記時間に依存
する分類ｆ（jT）を組合わせ（49）、上記第２の
オーデイオ周波数入力信号X₂（t′）の編集動作
（51）のための編集制御データを発生する請求の
範囲第１項記載のオーデイオ周波数出力信号発生
方法。３編集制御データは、波形データX₂（nD）か
ら該波形データの適当なシーケンスの削除およ
び／または波形データX₂（nD）に該波形データ
の適当なシーケンスの挿入を決定し、オーデイオ
周波数出力信号X^₂（nD）における第１のオーデ
イオ周波数入力信号X₁(t)の有意な時間に依存す
る特徴のタイミングを実質的に複製する請求の範
囲第２項記載のオーデイオ周波数出力信号発生方
法。４組合わせのステツプ（49）は、時間に依存す
る関数をＷ（kT）分析し、閾値を越える第１のオ
ーデイオ周波数入力信号X₁(t)の時間に依存する
パラメータA₁（kT）…A_N（kT）のタイミングと
第２のオーデイオ周波数入力信号X₂（t′）の時間
に依存するパラメータB₁（jT）…B_N（jT）のタイ
ミングの不一致の存在を検出し、それにより、上
記第１のオーデイオ周波数入力信号X₁(t)の対応
する時間に依存するパラメータA₁（kT）…A_N
（kT）と上記第２のオーデイオ周波数入力信号
X₂（t′）の時間に依存するパラメータB₁（jT）…
B_N（jT）のタイミングの整列を達成するために波
形データX₂（nD）に対する変更が必要であるこ
とを示し、且つ上記分析から得られた情報を使用
して上記波形データX₂（nD）のどの部分を変更
すべきかを決定する請求の範囲第３項記載のオー
デイオ周波数出力信号発生方法。５第１のオーデイオ周波数入力信号X₁(t)が第
１の音声信号であり、第２のオーデイオ周波数入力信号X₂（t′）は上
記第１の音声信号に対する置換を意図されている
第２の音声信号であり、第２のオーデイオ周波数入力信号X₂（t′）を処
理するステツプ（46）、波形データX₂（nD）を編
集するステツプ（28）および波形データX₂（nD）
を編集するステツプ（49、51）は、上記第２の音声信号X₂（t′）における選択され
た時間変更パラメータの発生および／または値を
表す処理されたデイジタルデータに対応して、上
記第２の音声信号X₂（t′）における音声の有無を
表すデイジタルデータを発生し、上記第２の音声信号X₂（t′）におけるピツチを
表すデイジタルデータＰ（jT）を発生し（50）、上記第２の音声信号X₂（t′）における音声の有
無を表し且つ上記第１及び第２の音声信号X₁(t)，
X₂（t′）の時間変更パラメータを表すデイジタル
データｆ（jT），A₁（kT）…，B₁（jT）…のシー
ケンスを使用し、上記第２の音声信号X₂（t′）の
特有の特徴のタイミングと、上記第１の音声信号
X₁(t)の対応する特有の特徴のタイミングの差を
表すデイジタルデータＷ（kT）を発生し（47）、上記ピツチおよびタイミングの差を表すデイジ
タルデータＰ（jT），Ｗ（kT）および上記第２の
音声信号X₂（t′）における音声の有無を表すデイ
ジタルデータｆ（jT）のシーケンスを処理し
（49）、上記第２の音声信号X₂（t′）における無声
音および／または音声の期間を調整することによ
つて、上記第２の音声信号X₂（t′）の特有の特徴
と共に、上記第１の音声信号X₁(t)の対応する特
有の特徴のタイミングを実質的に被製する要求に
従つて編集データを発生する請求の範囲第１項又
は第２項記載のオーデイオ周波数出力信号発生方
法。６第２のオーデイオ周波数入力信号を編集する
ことにより、不適当な第１のオーデイオ周波数入
力信号の代わりにオーデイオ周波数出力信号を発
生する装置において、上記第１のオーデイオ周波数入力信号のための
第１の入力手段１４と、上記第２のオーデイオ周波数入力信号のための
第２の入力手段１１と、上記第１の入力手段１４および上記第２の入力
手段１１に接続され、上記第１のオーデイオ周波
数入力信号を処理して該第１のオーデイオ周波数
入力信号の選択された時間に依存する特徴のタイ
ミングを表す第１のデータＡ（kT）を発生し、
且つ上記第２のオーデイオ周波数入力信号の同じ
く選択された時間に依存する特徴のタイミングを
表す第２のデータＢ（jT）を発生する処理手段
４２，４３と上記第１のデータＡ（kT）と第２のデータＢ
（jT）を比較し、上記第１のオーデイオ周波数入
力信号の上記選択された時間に依存する特徴のタ
イミングと上記第２のオーデイオ周波数入力信号
の上記選択された時間に依存する特徴のタイミン
グの差を表すタイミングデータＷ（kT）を発生す
る比較手段SBC２と、上記第２の入力手段１１に接続され、上記第２
のオーデイオ周波数入力信号の波形を表す波形デ
ータX₂（nD）を発生する手段２８と、上記タイミングデータＷ（kT）および上記波形
データX₂（nD）を受け且つ該タイミングデータ
Ｗ（kT）に従つて該波形データX₂（nD）を編集す
るように配列され、上記選択された時間に依存す
る特徴のタイミングが上記第１のオーデイオ周波
数入力信号の上記選択された時間に依存する特徴
のタイミングに実質的に整合する上記第２のオー
デイオ周波数入力信号の編集形式を表す出力デー
タX^₂（nD）を発生する編集手段SBC１とを備えたオーデイオ周波数出力信号発生装置。７処理手段４２，４３は、第２のオーデイオ周
波数入力信号の選択された時間変更パラメータの
発生および／または値を表す処理されたデイジタ
ルデータに応答して特有な音響学的分類を符号化
するデイジタルデータｆ（jT）を発生する手段４
８と、上記第２のオーデイオ周波数入力信号のピ
ツチを表すデイジタルデータＰ（jT）を発生する
手段５０を含み、比較手段SBC２は、上記特有な音響学的分類
を符号化し、上記第１のオーデイオ周波数入力信
号および上記第２のオーデイオ周波数入力信号の
時間変更パラメータを表すデイジタルデータｆ
（jT），Ａ（kT），Ｂ（jT）のシーケンスを使用
し、上記第２のオーデイオ周波数入力信号の特有
な特徴のタイミングと上記第１のオーデイオ周波
数入力信号の対応する特有な特徴のタイミングの
差を表すデイジタルデータＷ（kT）を発生する手
段４７を含み、編集手段SBC１は上記ピツチおよびタイミン
グの差を表すデイジタルデータＰ（jT），Ｗ
（kT）、上記第２のオーデイオ周波数入力信号の
特有な分類を符号化するデイジタルデータｆ
（jT）のシーケンス及び上記第２のオーデイオ周
波数入力信号の波形を表す波形データX₂（nD）
を処理し、上記第１のオーデイオ周波数入力信号
及び上記第２のオーデイオ周波数入力信号が音声
信号であるとき、上記第２のオーデイオ周波数入
力信号における無声音および／または音声の期間
を調整することによつて、出力オーデイオ周波数
信号の特徴のタイミングを上記第１のオーデイオ
周波数入力信号の対応する特有な特徴に実質的に
整合する要求に従つて編集データを発生する手段
４９を含む請求の範囲第６項記載のオーデイオ周
波数出力信号発生装置。明細書この発明は信号を処理するさいに使用するため
のオーデイオ周波数出力信号発生方法および装置
に関する。映画のサウンドトラツクを製造するさい、原会
話は、例えば除去することができない背景雑音の
レベルあるいはタイプのため受け入れることがで
きないので、映画撮影時に生で録音した原会話を
撮影後、スタジオで録音した対話で取替えること
がしばしば必要であり望ましい。最後のサウンド
トラツクが会話、音楽およびサウンド効果の混合
から形成されないうちに、スタジオ録音が行なわ
れ、これはポスト・シンクロナイジングと呼ばれ
る。現在、最も広く使用されているポスト・シンク
ロナイジング技術はバージン・ループ・システム
として知られており、下記のように作動する。サウンドトラツク編集者はポスト・シンクロナ
イズされた会話場面を各々約30秒間程度の１セン
テンスあるいは２センテンスのセクシヨンに分割
する。物理的に映画フイルムの長さおよび原会話
録音を含む磁気フイルムに等しい長さから成る各
セクシヨンは２つのエンドレス・ループにされ
る。第３のループ（これも同じ長さのもの）は録
音されていない磁気フイルムから構成される。こ
れが“バージンループ”である。原会話を含む磁
気フイルムのループは“案内トラツク”と呼ばれ
る。その場面に出ている各俳優はポスト・シンクロ
ナイジング操作のために特に設計されているスタ
ジオに個々に参加する。映画フイルム・ループは
フイルム・プロジエクターに装備され、案内トラ
ツクは磁気フイルム再生機に装填され、バージ
ン・ループは磁気記録機／再生機に装填される。
これらの３台の機械は同期して作動するようにさ
れる。映画フイルム・ループは俳優の前にあるス
クリーンに映写される。案内トラツクはヘツドホ
ンを介して俳優に対して再生される。俳優は原会
話と同期して自分のせりふを言うように努力す
る。その努力の成果はバージン・ループに録音さ
れる。編集者が前もつて映画フイルム・ループに
描いておいた案内トラツク・キユー（ピーツとい
う音）あるいはチヤイナグラフ・キユー・マーク
が与えられる。デイレクターがその結果は満足す
るものであると決定するまで、俳優は案内トラツ
クの正確なタイミングと動作とが一致するように
繰り返して試行する。スタジオ拡声機でその結果
を検査するためにバージン・ループを有する機械
を任意の時点で録音から再生に切換えることがで
きる。いつたん首尾よく録音されたループは該当の機
械から取外され、対話の次のセクシヨンを含むル
ープの次のセツトと取替えられる。それから、こ
の新しいセクシヨンのために全動作が繰り返され
る。平均的な長編映画は数百の会話ループを必要
とするものであり、その各々はその場面に登場す
る俳優の人数に依存して真新しいバージン・ルー
プに数回録音されなければならない。言葉と口の動きとの間の同期からの１フイル
ム・フレームないし２フイルム・フレームの差は
平均的な観客には目につきやすいものであるが、
それは単に0.05秒ないし0.1秒の差にすぎないの
で、当面する俳優にとつては困難な仕事である。
芸術的な表現が同期して話す必要性に追従するこ
とを余儀なくされる。多くの試行のあとで、大体
正しいとされ、またサウンドトラツクの編集者の
経験からえられる妥協策に基づいて、前記編集者
は磁気フイルムを編集室に持帰り、その精密なカ
ツト作業で、同期のとれた言葉になるようにす
る。新しく録音されたループは、結局、原会話によ
つて前から占有されている会話トラツクの位置に
組込まれる。バージン・ループ・システムは骨が折れ、時間
がかかるシステムで、俳優たちには非常にきらわ
れている。さらに、ポスト・シンクロナイズされ
た会話は演技の見地から常に原生の会話より劣つ
ているということが一般に映画産業における定説
とされている。順方向および逆方向の高速動作ができ、理論制
御部を有するフイルム給送機の開発で、自動会話
取替え（ADR）として知られている方法は最近
の新らしいスタジオで使われるようになつてい
る。このようなスタジオの１つの例が、英国で1981
年３月に発行された「BKSTSジヤーナル」第10
196〜198頁にリオネル・ストルツトの論文である
“ポスト・シンクロナイジング・サウンド：コン
ピユータを使用する自動会話取替え”が記載され
ている。ADRでは、フイルムを物理的にループ
に分割することは必要でない。映画フイルムのロ
ール、付随する案内トラツクおよびバージン磁気
フイルムはそれぞれ映画フイルム・プロジエクタ
ー、磁気フイルム再生機および磁気フイルム録音
機／再生機にそつくり装填される。その機械が正
規の速度でそれぞれの指定された会話セクシヨン
を演じ、次に、そのセクシヨンを始めに戻り、繰
り返し、すべてが同期してロツクされるように
各々のループが電子的に形成される。例えば、マ
グナテツク600シリーズELシステムにおいて、イ
ンタークロツクパルスは、各スレーブ機、すなわ
ち映画フイルム・プロジエクター、案内トラツク
再生機およびバージン磁気フイルム録音機／再生
器に8LBインターロツク発生器によつて送られ
る。フイルム・フレーム毎に10個の割合で発生され
るこれらのパルスは互に90°位相がずれている２
つの矩形波の形式にされている。そして、順方向
の動きでは、第２の波形は第１の波形に遅れ、逆
方向の動きでは、第１の波形は第２の波形に遅れ
るようにされている。４つの動作モード、すなわ
ち、正規速度の順方向の動きおよび逆方向の動き
と、高速の順方向の動きおよび逆方向の動きは、
MTE152プロセツサのコマンドの下で可能であ
る。正規の走行速度で、インターロツク発生器に
よつて３つの機械に伝送されるインターロツク・
パルスのパルス周波数は水晶発振器を制御するこ
とによつて得られる。これらのインターロツク・
パルスは、また、MTE9Eカウンタにも送られ
る。ポスト・シンクロナイズ動作で、フイルムの
ロールはロール・ヘツドで機械に締めつけられ
る。編集者がすべてのロールに前もつて付けた同
期マークは、３個のフイルムが静止同期している
ように調整されることを確実にするように使用さ
れる。この同期マークは通常０フイート０フレー
ムと指定され、ロール上のいかなる点もフイート
およびフイルム・フレームの数によつて同期マー
クから識別することができる。各々の映画フイル
ムの長さおよびループとして取扱かわれ、指定さ
れたループセクシヨンとして参照される付随する
案内トラツクの長さはプリセツト装置
（MTE151Eプリセツト）に入力されるフイルム
のフイート数およびフレーム数の２組によつて特
定することができる。その一方の組は指定された
ループ・セクシヨンの始めを規定し、他方の組は
ループ・セクシヨンの終りを規定するようにされ
る。フイルム・ロールが同期マークにおいて締め
られると、MTE9Eカウンタは０（0000.00）にリ
セツトされる。次に、MTEカウンタは8LBイン
ターロツク発生器からのインターロツク・パルス
を計数することによつてフイルム・ロールに関連
するフイルム給送機の瞬間的な位置に対応するフ
イート数およびフレームの６桁の２進化10進信号
を発生することができる。このBCD信号は
MTE151Eプリセツトに供給される。そこで、指
定されたループ・セクシヨンのため開始および終
了フレームの識別としてオペレータによつて入力
されるBCDフイート数およびフレーム数の２個
の組と前記BCD信号とが比較される。この比較
の結果は、AHEAD OF LOOP信号、IN LOOP
信号あるいはPAST LOOP信号のいずれかとし
てMTE152プロセツサに供給される。その使用に
おいては、MTE152プロセツサはループ入力フレ
ームすなわち、指定されたループ・セクシヨンに
おける最初のフレームの前方の５ないし10フイー
トの点から始めることによつて選択された指定の
ループ・セクシヨンを通して機械の動作を反復す
る。それから、指定されたループ・セクシヨンの
終りまで正規の速度で走行し、高速逆方向に巻き
戻し、そのサイクルを繰返す。ループのアヘツドからイン・ループへの移り変
りで、ループ入力フレームのための151Eプリセ
ツトはMTE9EカウンタBCD信号と一致し、
MTE152プロセツサは録音機／再生機の録音機能
を活性化するマスタ・レコード・オン信号を発生
する。同様に、この信号はイン・ループからパス
ト・ループへの移り変わりでオフにスイツチされ
る。磁気フイルム再生機および俳優のマイクロホン
からのアナログ・オーデイオ信号は例えばミキシ
ング・コンソールを介して俳優のヘツドホンおよ
び磁気フイルム録音機／再生機にそれぞれ供給さ
れる。バージン・ループ・システムに関して、ADR
は各指定されたループ・セクシヨンの継続期間が
特定され、俳優に合うようにポスト・シンクロナ
イズ期間中変更できるという利点があり、また、
より多くの最近に生産された録音ずみループは俳
優およびデイレクターによつて評価されるために
再生されることができる。しかしながら、音響編集者はなお、受け入れる
ことができる同期化にそれを引き込むようにポス
ト・シンクロナイズした会話を編集しなければな
らない。ループ編集をすると、その部分の近傍に
おいて互に干渉するので、さらに１つの場面に登
場する何人かの俳優はバージンループの別々の多
重トラツクに記録することができない。したがつ
て、バージン磁気フイルムの別々のロールは１つ
の場面に登場するあらゆる俳優のために必要であ
る。同様に、ビデオテープはフイルムの代りに使用
されるのに対して、会話のポスト・シンクロナイ
ズ操作は時折実行されるはずであり、これまで使
用された方法はフイルムADRのための方法と類
似している。困難と制約の主な原因である通常のポスト・シ
ンクロナイズ操作の局面はわずか１秒の何分の１
かの所定の瞬時に俳優が話し始め、話しの進行の
終りまで同期性を維持する必要があることであ
る。ポスト・シンクロナイズ操作をあまりわずら
わしくしない方法および装置が必要である。この
発明はこのような方法および装置を提供するため
の試みからなされたものであるけれどもポスト・
シンクロナイズ操作のための音声信号の処理に限
定されるものではない。この発明は第１の信号に
実質上類似している第２の信号はこれらの特定の
特徴を第１の信号の対応する特徴に結びつけるた
めに第２の信号の特定の特徴に関するタイミング
に関して編集される他の状況に適用される。これ
によつて、選ばれた特定の特徴の相対的なタイミ
ングに関して少なくとも第１の信号を実質上複製
する出力が生じる。この発明は必須の信号特性に影響を及ぼす編集
をなくして２つの信号の対応する選択された特徴
間に関連する相対的なタイミングの相違を実質上
除くために２つの類似信号において選択特徴を見
つけ、これらの信号のうちの１つの信号を自動的
に編集するための方法および信号処理装置を提供
することに関するものである。この発明の１つの局面によれば、第１の信号の
選択時間に依存する特徴に関するデータおよび実
質上第１の信号に類似している第２の信号の同様
な時間に依存する特徴に関するデータを発生する
こと；第２の信号のタイミングと第１の信号の対
応する特徴のタイミングとの間の相違を表わすデ
ータを発生するように該データを利用すること；
信号編集のために適している媒体に第２の信号の
波形を表わすデータを発生すること；第１の信号
の該特徴の相対的なタイミングを実質上複製する
第２の信号の編集フオームを表わす出力データを
発生するように第２の信号を表わすデータを編集
するために適当な編集データを発生するためにタ
イミング差データを使用すること；および、編集
データにしたがつて第２の信号を表わす信号を編
集することのステツプを有する信号処理方法が提
供される。この発明の他の局面によれば、信号の選択時間
に依存する特徴に関する第１および第２の信号デ
ータより決定するための手段と；第２の信号の該
特徴のタイミングと第１の信号において実質上同
じ特徴のタイミング間の差を表わすデータを発生
するように該データを使用するための手段と；第
２の信号波形を表わすデータを発生し、蓄積する
ための手段と；第１の音声信号の該特徴の相対的
なタイミングを実質的に複製する第２の信号の編
集フオームを表わす出力データを生じるように第
２の信号を表わすデータを編集するのに適した編
集データを発生するようにタイミング差データを
使用するための手段と；このような編集を達成す
るための手段と；からなる信号処理装置が提供さ
れる。この発明の別の局面によれば、第１の音声信号
の実質的な模写である第２の音声信号を表わすデ
イジタル・データを発生すること：第１および第
２の信号の選択音声パラメータの発生および／あ
るいはその値から決定するように規則的な間隔で
第１および第２の音声信号を処理すること；第２
の信号における選択音声パラメータの発生およ
び／あるいはその値を表わす処理されたデイジタ
ル・データに応じて第２の信号における音声の有
無を指示するデイジタル・データを発生するこ
と；第２の信号におけるピツチを表わすデイジタ
ルデータを発生すること：第２の音声信号の該特
徴のタイミングと第１の音声信号の対応する特徴
のタイミング間の差を表わすデイジタル・データ
を発生するように第１および第２の音声信号の音
声の有無を指示し、第１および第２の音声信号の
音声パラメータを表わすデイジタル・データのシ
ーケンスを使用すること；第２の音声信号におけ
る無声および／あるいは有声期間を調整すること
によつて第１の音声信号の対応する特徴のタイミ
ングを第２の音声信号の該特徴で実質的に複製す
る要求に応じて編集データを発生するように第２
の音声信号のピツチおよび第２の音声信号におけ
る音声の有無を指示するデイジタル・データのタ
イミングおよびシーケンスにおける該差を表わす
デイジタル・データを処理すること；および、編
集データに従つて第２の音声信号に対応するデイ
ジタル・データを編集し、第２の音声信号の編集
版に対応し、それによつて編集されたデイジタ
ル・データを発生すること；の諸ステツプを有す
る、記録音声を発生するさいに使用するための方
法が提供される。この発明の他の局面によれば、第１の音声信号
の実質的は模写である第２の音声信号に対応する
デイジタル・データを蓄積するための手段と；該
蓄積手段から該デイジタル・データを読出すため
の手段と；第１および第２の信号の選択音声パラ
メータの発生および／あるいはその値を規則的な
期間で第１および第２の信号から決定するための
手段と；選択音声パラメータの発生および／ある
いはその値を表わす処理されたデイジタル・デー
タに応じて無音、無声音および有声音のような特
徴的な音響学的分類を符号化するデイジタル・デ
ータを発生するための手段と；第２の信号におけ
るピツチを表わすデイジタル・データを発生する
ための手段と；第２の音声信号の特徴のタイミン
グと第１の音声信号の対応する特徴のタイミング
間の差を表わすデイジタル・データを発生するよ
うに第１および第２の音声信号の該特徴的な分類
を符号化し、第１および第２の音声信号の音声パ
ラメータを表わすデイジタル・データのシーケン
スを使用するための手段と；第２の音声信号にお
ける無音および／あるいは有音期間を調整するこ
とによつて第１の音声信号の対応する特徴のタイ
ミングを第２の音声信号の特徴で実質的に複製す
る必要に応じて編集データを発生するように特徴
的な分類を符号化するデイジタル・データのピツ
チおよびタイミングの差とシーケンスとを表わす
デイジタル・データを処理するための手段と；編
集データに従つて第２の音声信号に対応するデイ
ジタル・データを編集し、それにより第２の音声
信号の編集版に対応する編集デイジタル・データ
を発生するための手段；とを含むデイジタル・オ
ーデイオ・システムが提供される。この発明のさらに他の局面によれば、前記の４
個の説明文のいずれかで規定される方法あるいは
装置又はシステムによつて発生される記録音声が
提供される。記録音声はフイルムあるいはビデ
オ・テープのための会話トラツクの形式にされて
いる。一般に、S₁(t)によつて時間ｔの関数として表わ
すことができる興味ある信号は理想的な条件以下
でしか記録されないことがしばしば起る。代表的
には、記録されているこのような信号はインパル
ス応答ｈ(t)の線形時間不変システムを通過し、さ
らに、これも時間の関数ｑ(t)である付加的雑音に
よつてそこなわれる。その結果として生じる信号
x₁(t)だけが受信機で受信される。別異の例におい
ては、x₁(t)＝S₁(t)のように劣化がなく、当該信号
は別異の理由でなおも満足されることがない。そ
れにもかかわらず、いくつかの目的のために重要
であるS₁(t)の時間次官に依存する特徴は時間にお
ける特定のモーメントで発生し、しばしば保存さ
れねばならないものはこれらの特徴の発生の相対
的なタイミングである。次に、重要な時間に依存
する特徴を有するこのような満足できない信号x₁
(t)は参照信号として参照される。これらの状況に
この発明を適用するさい、第１のステツプは置換
信号として参照される第２の信号x₂（t′）の供給
することである。ただし、t′はx₂（t′）がｔから独
立したスケール上の時間の関数であることを示
し、そのｔはS₁(t)として時間に依存する特徴の同
じシーケンスを本質的に含んでいるが、その特徴
はS₁(t)の対応する特徴としてほぼ同じタイミング
だけで生じる。 x₁(t)あるいはx₂（t′）のどちらかあるいはx₁(t)、
x₂（t′）の両方ともあとでのアクセスおよび検索
のために蓄積されるので、通常、ｔとt′は時間に
おける同じ絶対モーメントからは必ずしも始まら
ない。ｔとt′は実際の信号あるいは蓄積された参
照信号あるいは置換信号のそれぞれのどちらかの
時間スケールに関連することに注目すべきであ
る。これらの信号が実際の信号であるかあるいは
これらの蓄積版であるかどうかで、時間ｔ＝０お
よびt′＝０は信号x₁(t)およびx₂（t′）のそれぞれの
始めに関連する。さらに、x₁(t)に発生するための
第１の重要な事項はｔ＞０の所定の値で信号S₁(t)
が始まることであり、同様にして、x₂（t′）にお
ける対応する興味ある信号S₂（t′）はt′＞０の所定
の値でx₂（t′）において始まることである。信号
x₁(t)およびx₂（t′）の選択された物理的な面は周
期的に測定され、時間に依存するパラメータを含
む有用な信号パラメータはこれらの測定から決定
される。その測定は検出されるべき信号x₁(t)およ
びx₂（t′）の特性におけるいちじるしい変化のた
め十分高速で実行される。さらに、置換信号はパ
ラメータのいくつかあるいは全部のシーケンスか
ら分類される。その分類は興味あるS₂（t′）の信
号が測定期間にx₂（t′）に存在するか存在しない
かどうかの分類に関するものである。次いで、各
測定信号の時間従属パラメータおよび置換信号の
時間従属分類は参照信号の時間従属特徴のタイミ
ングの最上の複製をするにちがいない置換信号x₂
（t′）の時間スケールのひずみを表現する時間ひ
ずみ路（path）と呼ばれる時間従属関数を生じ
るようにパターン・マツチング技術を用いて処理
される。時間スケールひずみ関数は、参照信号の
時間スケール上の対応する重要な特徴と共に置換
信号の時間スケール上で起る所望の重要な特徴の
整列を達成するように置換信号の信号波形が確実
に変更されるようにするため参照信号の時間スケ
ールと置換信号の時間スケール間は十分な相違が
あることを検出するように解析される。時間スケ
ールひずみのこの解析から得られる情報は、置換
信号で作動されることができる編集プロセスのた
めの詳細な制御情報を発生するように置換信号の
時間従属分類と置換信号のピツチおよび波形デー
タ上の情報と共に利用される。それからこの制御
情報は編集された信号において参照信号の比較的
重要な時間従属特徴のタイミングを実質的に複製
するように制御信号が置換信号からあるいは置換
信号への信号データの適当なシーケンスの削除動
作および／あるいは挿入動作をする編集プロセス
で使用される。この発明の好ましい実施例によると、大容量デ
イスク・メモリを有するコンピユータ・システム
は記録し、新しい会話と原案内トラツクとを自動
的にポスト・シンクロナイズするように配列され
る。そのシステムは言葉と言葉の間の無音声ギヤ
ツプ期間の変更および受け入れることのできる状
況での音声要素期間の調整によつて新しい言葉の
タイミングを主に調整する。音声のこの“マイク
ロ編集”を制御する決定は音声の発生および認識
についての知識に基づくものである。したがつ
て、その決定で編集された音声が自然に聞えるよ
うにされる。処理は必ずしも実時間では行なわれ
ない。その処理は、新しい会話の録音中で行なわ
れ、必要ならば、巻き戻しおよび再生動作中でも
行なわれるので、いかなる遅延も生じない。この
好ましいコンピユータ・システムは大容量バツフ
ア・メモリおよび入出力インターフエースを介し
て高速（すなわち1.2メガ・バイト／秒）データ
転送バスに結合されているＡ／ＤおよびＤ／Ａ変
換システムを有する。双対チヤンネル・パラメー
タ抽出プロセス・システムはＩ／Ｏインターフエ
ースを介してバスに結合され、大容量（すなわ
ち、84メガ・バイト）磁気デイスク・メモリはデ
イスク・コントローラを介してバスに結合され、
マグナテツクELシステムによつて発生されるフ
イルム・フレーム位置信号および制御信号を受信
し、マグナテツクELシステムに制御信号を伝送
するのに適しているハードウエアは順にバスに結
合されているボードに搭載されているランダム・
アクセス・メモリを有する単一のボード・コンピ
ユータの並列入出力ポートに結合され、論理制御
およびデータ入力キー・ボードとVDUは単一ボ
ード・コンピユータの直列入出力ポートに結合さ
れ、第２の単一ボード・コンピユータはバスに結
合され、直列あるいは並列ポートを介して他の単
一ボード・コンピユータに結合される。この発明は、添付図面に即してその例が説明さ
れる。こゝに、第１図は、この発明を具体化するポスト・シン
クロナイジング・システムのブロツク線図であ
る。第２図は、この発明を具体化するプロセツサで
ある第１図のシステムのプロセツサの詳細ブロツ
ク線図である。第３図は、第２図のプロセツサの部分のブロツ
ク線図である。第４図は、第２図のプロセツサの一部分によつ
て実行される概略的な処理を表わすブロツク線図
である。第５図は、第２図のプロセツサにおけるインタ
フエースの概略図である。第６図は、第２図のプロセツサによつて達成さ
れる処理を表わすブロツク線図である。第７図、第８図および第９図は、第２図のプロ
セツサで達成されるいくつかの処理を説明するた
めのグラフ図である。第１０図は、第２図のプロセツサで達成される
処理の部分の流れ図である。第１１図および第１２図は、第２図のプロセス
で達成されるデータ編成およびデータ処理のグラ
フ図である。第１３図は、第２図のプロセツサにおけるプロ
セスを説明するための３個のグラフ群図である。第１４図、第１５図および第１６図は、第２図
のプロセツサで達成される処理の３個の段階を示
す流れ図である。第１７図は、第１６図によつて示される処理に
含まれる選択手順のグラフ図である。第１８図は、計算された時間ひずみ路および入
力アナログ信号とその結果として得られる出力ア
ナログ信号の関係を示すグラフ図である。第１９図は、アナログ信号に関して第２図のプ
ロセツサによる処理を説明するための１セツトが
５個のグラフからなる図である。第２０ａ図、第２０ｂ図、第２０ｃ図は、第２
図のプロセツサで達成される編集における処理を
示す流れ図である。そして、第２１図は、第２図のプロセツサの一部分の詳
細ブロツク回路図である。第１図は映画フイルムと同期する編集置換され
た会話を提供するために自動会話置換スタジオ装
置と共に動作するこの発明の実施例10の概略図で
ある。自動会話置換装置は俳優のマイクロホン１
１、オーデイオ・コンソール１２およびマグナー
テツク電子装置MTE600録音機／再生機１３、
MET600案内トラツク再生機１４、MTE152プロ
セツサ１５、MTE8LBインターロツク発生器１
６、MTE9Eカウンタ１７および相互に接続する
信号チヤネルを有するMTE151Eプリセツト装置
１８からなる。さらに、マグナテツクPR635高速
プロジエクター（図示されていない）は映画を映
写するために含まれている。自動会話置換方法（ADR）におけるような使
用において、映画フイルムのそれぞれのロール、
対応する案内トラツクおよびバージン磁気フイル
ムはフイルム・プロジエクター（図示されていな
い）、磁気フイルム再生機１４および磁気フイル
ム録音機／再生機１３にそれぞれ装填される。俳
優のマイクロホンからの信号は案内トラツク再生
器１４から案内トラツク・オーデイオ信号をも受
信するポスト・シンクロナイズ会話信号処理装置
として第１図に引用されている実施例10にオーデ
イオ・コンソール１２を通して送られる。実施例
10によつて案内トラツク再生機１４からの案内ト
ラツク・オーデイオ信号と同期して編集されるマ
イクロホン１１からの信号の変形であるアナロ
グ・オーデイオ出力は、オーデイオ・コンソール
１２を通して録音機／再生機１３に実施例10によ
つて供給される。通常の自動会話置換におけるよ
うに、ポスト・シンクロナイズ・セツシヨンは選
択指定されたループ部を通つてプロジエクター
（図示されていない）および案内トラツク再生機
を循環するMTE152プロセツサ１５から開始さ
れ、ループ入力フレームの前方を５〜10フイート
動き、次に指定されたループ部の端まで通常のフ
イルム速度で走行する。プロジエクター（図示さ
れていない）、案内トラツク再生機１４および
MTE9EカウンタはMTE152プロセツサ１５の制
御の下でインターロツク発生器１６からのインタ
ーロツク・パルスを与えられる。さらに、インタ
ーロツク・パルスはMTE600録音機／再生機１３
に供給されるがしかし、この録音機／再生機１３
による録音はポスト・シンクロナイズ会話信号プ
ロセツサ１０によつて制御される。フイルムフイ
ート数およびフレーム数は通常カウンタ１７によ
つて観察され、アヘツド・オブ・ループ、イン・
ループおよびパスト・ループ信号はプリセツト装
置１８によつて与えられ、公知の方法でMTE152
プロセツサ１５に供給される。MTE152プロセツ
サ１５によつてインターロツク発生器１６に供給
される運動コマンドは公知の高速における順方向
と逆方向、正規のフイルム速度における順方向と
逆方向、停止であり、また他の標準的コマンドは
MTE8LBインターロツク発生器のために
MTE152プロセツサによつて提供される。
MTE152プロセツサのオペレータの制御の下にあ
るマスタ・レコードおよび録音／再生状態信号は
その処理においてこれらの信号を使用するポス
ト・シンクロナイズ会話信号プロセツサ１０に供
給される。さらに、MTE600録音機／再生機１３
が正規の順方向速度で走行しているときに同期順
方向速度信号を発生し、この信号は使用するため
に会話信号プロセツサ１０に供給される。カウン
タ１７によつて発生されるBCDフイルム・フイ
ート数およびフレーム数信号は処理において使用
されるデータを提供するように会話信号プロセツ
サ１０に供給される。第２図はこの発明を実施するポスト・シンクロ
ナイズ会話プロセツサ１０の概略図である。第２
図に示されているように、マグナテツク電子装置
１３，１５および１７によつてプロセツサ１０に
供給される信号は、128キロ・バイト・メモリを
有し、マルチプレクサ２０を制御し、インタフエ
ース１９のそれぞれのバツフア２１を通してシス
テム状態記録信号と再生信号およびマスタ・レコ
ード信号と順方向同期速度信号を受信し、インタ
フエース１９のバツフア２２を通して録音機／再
生機１３にマスタ・レコード信号を出力する第２
図に示されている第１の単一ボード・コンピユー
タSBC１への１桁並列入力へカウンタ１７から
の６桁BCDフイート数信号およびフレーム信号
に変換するためのマルチプレクサ２０を含むため
に第５図に示されているマグナテツク・インタフ
エース１９としてここで引用されている１つの回
路への入力である。MTE152プロセツサ１５はマ
スタ・コンソールとして使えるようにこの装置に
よつて可能化される。指定されたループ部の循環中、MTE152プロセ
ツサ１５で選択された録音モードで次に関係のあ
る信号はマスタ・レコードが活性にあるものであ
る。もし条件、選択された録音モード、指令され
た順方向同期速度、イン・ループ・アクテイブが
すべて存在し、指定されたループ部の始めの正確
なフイート数／フレームのプリセツト装置１８に
よる検出に一致するならば、この信号はMTE152
プロセツサ１５によつて発生される。こゝで、以
下の命令が実行される。１ BCD開始フイート数／フレームを読出し、
第１のコンピユータSBC１のメモリに格納す
る。２時間ひずみプロセツサ・コンピユータSBC
２に開始するためのメツセージを送り、次に第
１のコンピユータSBC１のメモリに記憶され
ている編集データを発生するように第１のコン
ピユータSBC１によるアクセスのためコンピ
ユータSBC２のメモリに時間ひずみ路および
分類を格納する。３アナログ−デイジタル装置２８をリセツトす
る。４マスタ・レコードがオフ、すなわち動作して
いないとき、アナログ−デイジタル装置２８か
らの割込みを可能化する。５編集を始めるようにSBC２からのデータを
待つ。 MTE152プロセツサによつてマスタ・レコード
がターン・オフされると、指定されたループ部の
最終フレームに対応して、以下の命令が実行され
る。１ BCD最終のフイート数／フレームを読み出
し、第１のコンピユータSBC１のメモリに格
納する。２２秒間デジタイジング・ダイビングを続け
る。３アナログ−デイジタル装置２８の最後のデー
タ・バツフアを空にして、アナログ−デイジタ
ル装置２８からの割込動作が出来ないようにす
る。４最後の処理区間数を計算してSBC２に送る。５編集動作終了。いつたん録音モードで循環されると、MTE152
プロセツサ１５はループ終了点で自動的に再生モ
ードにジヤンプし、ループが動作開始し、次に順
方向の正規速度にはいらないうちに一つの点まで
巻き戻す。関係ある次の信号は録音機／再生機１
３によつて発生される順方向同期速度信号であ
る。BCDフイート数／フレーム位置が、
MTE152プロセツサ１５がループを通して高速巻
戻しを達成するような記憶されているループ開始
点に一致すると、会話信号プロセツサ１０による
この信号の監視によつて編集されているダビング
のＤ／Ａ変換出力が生じないようにされる。順方向同期速度信号が受信されると（MTE152
プロセツサ１５のモードはすでに再生であると
き）、下記のことが実行される。１ミユート（mute）オンでＤ／Ａ装置２９の
データ・バツフアをプリロード（後述の第２１
図の説明を参照）。２ BCDフイート数／フレームとメモリのルー
プ開始フレームとを一致させる（フイート数カ
ウンタ・ビツトをストローブするようにカウン
タの最下位ビツトを使用する）。ループ開始フレームに達すると、１マスタ・レコード信号をプロセツサ１０から
録音機／再生機１３に供給する。２バツフア・アドレス・ポインタを０にリセツ
トし、ミユート・オフにする（出力が出始め
る）。ループ最終点で、１プロセツサ１０からのマスタ・レコード信号
をスイツチ・オフする。俳優は録音モードでループの最終点の後にせり
ふを言うけれども、この音声は会話信号プロセツ
サ１０によつてテープ部内にまでひずまされるの
で、ダビングのいかなる部分も磁気フイルム上で
失われることはない。第１の単一ボード・コンピユータSBC１はバ
ス２３によるボード内通信のためのＩ／Ｏポー
ト・ハンドシエイクのため類似の第２の単一ボー
ド・コンピユータSBC２に結合される。コンピ
ユータSBC１およびSBC２の両方ともデータ信
号、アドレス信号および制御信号の２方向トラフ
イツクのためマルチバス２４に接続される。会話
処理が達成されるための適当な記憶装置を提供す
るために、84メガ・バイト・ウインチエスタ・デ
イスク・メモリ２５はデイスク・コントローラ２
６によつてマルバスに結合される。第１のコンピ
ユータSBC１はシステム・コントローラおよび
後述される編集処理の信号Ｉデイターとして用い
られる。さらに、128キロ・バイトのメモリを有
する第２のコンピユータSBC２は時間ひずみ処
理を実行するために用いる。コンピユータSBC１およびSBC２の各々はイ
ンテル社製のSBC86/30である。次に、マルチバ
ス２４はインテル社製のマルチバス・カード・フ
レームSBC608であり、デイスク・コントローラ
２６はインテル社製のSBC220である。デイス
ク・メモリ２５は富士通製のM23128Kである。可視表示装置（VDC）およびデータ入力端末
２７はSBC１に入力されるようにユーザによつ
て選択された処理パラメータを許すように第１の
コンピユータSBC１に結合される。オーデイオ・コンソール１２によつてポスト・
シンクロナイズ会話プロセツサ１０に送られる俳
優のマイクロホン１１からのオーデイオ信号は第
３図においてＤ／Ａ変換器２９と共有バツフア３
０バス・インタフエース３１と制御装置３２と共
に詳細に図示されているＡ／Ｄ変換器２８のアナ
ログ入力となる。バス・インタフエース３１はバ
ツフア３０および制御装置３２をマルチバス２４
に接続されているデータおよび制御バスに結合す
る。バス・インタフエース３１はマルチバス２４
からのそれぞれの信号によつて可能化され、制御
信号はサンプル・ホールド回路３４およびＡ／Ｄ
変換器３５を制御する制御装置３２にバス・イン
タフエース３１を通して送られる。マイクロホン
信号はサンプル・ホールド回路３４に達しないう
ちにバツフア増幅器３６を通してロー・パス・フ
イルタ３７に送られる。サンプル・ホールド回路
３４で生じる信号サンプルは変換器３５によつて
デイジタル化され、デイジタル出力は第１のコン
ピユータSBC１によつてアクセスするため大容
量のバツフア３０に供給される。さらに、制御装
置３２、バス・インタフエース３１およびバツフ
ア３０によつて編集会話データ出力が生じる。こ
のデータはバス・インタフエース３１によつてデ
ータおよび制御バス３３からバツフア３０に転送
され、そこからＤ／Ａ変換器３８に転送される。
変換器３８からのアナログ出力はＤ／Ａ変換によ
つて生じる非音声過渡成分を取除くための公知の
回路であるデグリツチ（de−glitch）増幅器３９
に供給される。デグリツチ増幅器３９からの出力
は他のロー・パス・フイルタ４０を通つてオーデ
イオ出力増幅器４１に送られる。出力増幅器４１からのアナログ・オーデイオ出
力は会話信号プロセツサ１０によつてMTE600録
音機／再生機１３に供給される出力である。また、俳優のマイクロホンからのオーデイオ入
力信号は“タビング・パラメータ抽出プロセツ
サ”としるされた２個の同様な音声パラメータ抽
出プロセツサ４２および４３の一方に供給され
る。 “案内トラツク・パラメータ抽出プロセツサ”
としるされている他方のパラメータ抽出プロセツ
サ４３はMTE600案内トラツク再生機１４からの
オーデイオ出力信号を受信する。案内トラツク・
パラメータ抽出プロセツサ４３は第４図に関して
後で詳細に説明される。２個のパラメータ抽出プ
ロセツサ４２および４３はバス・インタフエース
４４によつてマルチバス２４に結合される。ポスト・シンクロナイズ・セツシヨンにおい
て、俳優が案内トラツク上の信号をまねて彼の会
話のせりふをしやべるようにする間に、マグナテ
ツク152プロセツサ１５は指定されたループ部を
通つて循環する。これに対応する長さの映画フイ
ルムは、俳優が見るように同時に映写される。こ
の第１のサイクルにおけるループ入力点で、可視
的あるいは可聴的な合図を受けとつた俳優はせり
ふを話し始める。俳優のマイクロホン１１はＡ／
Ｄ変換器部２８に接続されており、そのために、
俳優がしやべるとマイクホン１１によつて生じる
音声信号は変換器３５によつてデイジタル化さ
れ、磁気デイスク・メモリ２５に記憶される。こ
のデイジタル化は正確なループ入力モーメントで
始まり、第１のコンピユータSBC１のメモリに
入力される入力点のフイート数／フレームを続け
る。さらに、俳優のマイクロホンはダビング・パ
ラメータ抽出プロセツサ４２に接続され、案内ト
ラツク・パラメータ抽出プロセツサ４３は案内ト
ラツク再生機１４から案内トラツク・オーデイオ
信号を受信するように接続され、俳優の音声信号
および案内トラツク音声信号の分析および処理お
よび編集データの発生は２つの計算機SBC１お
よびSBC２で同時に始めることができ、そのよ
うにして生じた編集データは第１のコンピユータ
SBC１のメモリに入力される。ループ最終点で、
BCDフイート数／フレームはメモリに入力され、
俳優の言葉のデイジタル化、蓄積および分析は、
俳優がまだしやべつている場合ループ最終点のあ
と約２秒間続行される。俳優の音声データおよび
案内トラツク音声データの処理は指定されたルー
プ部のこの最初のサイクルの高速巻戻しフエーズ
中続行され、出来るかぎり巻戻し中に終了され
る。この第１のサイクルは、俳優の演技が満足する
ものでないならば、繰り返される。デイスク・メモリ２５に記憶されている俳優の
音声データが読出され、記憶されている編集デー
タに従つて第１のコンピユータSBC１によつて
編集され、Ｄ／Ａ変換器２４によつてアナログ入
力に変換され、それからいくつかの必要な増幅器
の段数を含むスタジオ拡声器（図示されていな
い）によつて可聴音声信号に変換されるサイクル
中、次のステツプは指定されたループ部を通され
る第２のサイクルあるいはそれ以上のサイクルで
ある。新しい適当な音声信号がデイスク・メモリ２５
に記憶されているデイジタル・データの形式で発
生され、この第２のサイクル中にデイクレタおよ
び俳優によつて評価を加えられるフイルムのため
の会話として第１のコンピユータSBC１によつ
て編集される。同時に、アナログ信号はバージン
磁気フイルムに新しい会話を録音する磁気フイル
ム録音機／再生機１３に供給される。もし、順方
向同期速度信号が有効であるならば、そのシステ
ムはテープ入口および出口で録音機／再生機１３
の録音機能をそれぞれに有効および無効にする。
新しい会話が満足するものであるならば、次の指
定されたループ部で開始される。しかしながら、
もし編集データが映画フイルムに満足な効果を与
えないならば、そのプロセスが繰返される。会話プロセツサ１０によつて実行されるデイジ
タル・データ処理を表わすブロツク線図である第
６図において、データ処理ステツプはブロツク内
の凡例によつて指示される。そのため、このよう
な凡例を有するブロツクは計算システムによつて
実行されるプロセス、あるいはこのようなプロセ
スを実行するためのハードウエア装置又はいくつ
かの場合はこのような装置および他の場合はハー
ドウエア装置と共に作動する計算システムによつ
て実行されるプロセスを表わす。第６図において、案内トラツク・アナログ信号
は数学的に時間量である独立変数ｔの関数x₁(t)と
して表わされ、俳優のマイクロホン１１からのア
ナログ信号は変数ｔとして同じ装置での時間量で
あるが、独立した原点量である別の独立変数t′の
別の関数x₂（t′）として数学的に表わされる。録音された案内トラツクおよびダビングからの
音声パラメータの発生は２つの抽出プロセツサ４
２および４３からのパラメータの周期的出力によ
る処理を伴う。これらのパラメータは処理装置に
おいてデータ・シーケンスとして処理されるまで
少なくとも一時的に記憶される。データ・シーケ
ンスの１セツトは指定された案内トラツク・ルー
プのために発生され、もう１つのセツトは俳優に
よるダビングのために発生される。これらのデー
タ・シーケンス間のより小さいタイミング変更の
評価は音声認識システムに使用されるダイナミツ
ク・プログラミング技術に基づくパターン・マツ
チング・オルゴリズムを使用して行なわれる。い
つたん、時間ひずみデータが発生されると、コン
ピユータに記憶される音声波形データのデイジタ
ル編集は開始することができる。編集決定は、映
写された映画フイルムから見ることのできる口の
動きに関して完全にはつきりと同期がとれるとき
に、可聴音声音質に最小の認識できる雑音を許す
ように設計されたアルゴリズムに基づくものであ
る。俳優がせりふをしやべるサイクル中、案内トラ
ツク信号x₁(t)およびマイクロホン信号x₂（t′）の
両方からの音声パラメータの発生および処理がポ
スト・シンクロナイジング操作において行なわれ
る。案内トラツク信号x₁(t)およびタビング信号x₂
（t′）のための音声パラメータの発生は夫々にブ
ロツク45および46によつて第６図に表わされてい
る。このパラメータ・データは後の検索および処理
のためにデイスクに随意に記憶されるかあるいは
それが発生されると、時間ひずみ路として引用さ
れている時間整列データを生じるように“時間ひ
ずみ路の発生”としるされているブロツク47で直
ちに処理される。時間ひずみ路はダビングの重要
な特徴を案内トラツクの対応する特徴にいかに最
良に整列するかを描写するものである。さらに、
ダビングのセグメントはパラメータ・データのい
くつかあるいはパラメータ・データのすべてから
プロセス・ブロツク48における音声あるいは無声
音として分類される。時間整列データの十分な量
が使用可能であると、それは、ダビング波形で必
要とされるプロセス５１で行なわれるようにマイ
クロ編集すなわち、デイジタル化された記憶ダビ
ング波形（デイスク・メモリ２５から検索され
る）の精密構造の編集を許すためにブロツク48か
らの分類データおよび必要ならば、ブロツク50か
らの有声ダビング・セグメントの基本的な周期デ
ータに従つて“編集データの発生”としるされて
いるプロセス・ブロツク49で使用される。いずれ
の新しい編集された波形セグメントでもデイス
ク・メモリ２５の第２の部分に記憶することがで
き、編集動作のテーブルによつて記憶編集されて
いる波形セグメントからの次のステツプ中完全編
集波形を形成するための準備ができる。前記の処
理は、もし俳優があまりゆつくりしやべるなら
ば、言葉の端が切れたり、なくなつたりしないよ
うにするためテープ出口点を越えて２、３秒間続
行される。もし、パラメータ・データがデイスクに記憶さ
れているならば、パラメータ・データおよびマイ
クロ編集の前記の処理のすべては映画フイルムお
よび案内トラツクの巻戻し中そして出来るならば
後述の再生ステツプ中に続行される。もし、パラ
メータ・データが記憶されていないならば、それ
はブロツク47および48の時間ひずみ路および分類
データの発生のために充分な平均的な実時間速度
で処理されねばならない。しかしながら、もし時
間ひずみ路がメモリに記憶されるならば、基本的
な周期データ（ブロツク50）の誘導、編集データ
（ブロツク49）の発生、置換信号の編集（ブロツ
ク51）の処理は第２のサイクルの高速巻戻しおよ
び再生フエーズ中に続行される。再生されるべき
ダビング・データのいずれの部分でも、再生され
ないうちに完全に処理されなければならないとい
う重要な要求がある。案内トラツク信号x₁(t)およびダビング信号x₂
（t′）を分析し、それによつて適当な短い間隔で
あるＴ秒ごとに１回パラメータを発生するように
使用される処理の特定の型の選択は、数多くのパ
ラメータが音声によつて引き起こされる時間によ
つて変化するという性質を反映するということで
いく分不定である。測定動作はパラメータを発生
するように使用される計算法にしたがつて便宜的
にグループ分けされる。一般に、３個の有用なカ
テゴリが存在する。まず第１に、もし両方の信号x₁(t)およびx₂（t′）
のサンプリングされた変形がいくつかの手段で使
用可能にされるならば、パラメータはこれらの信
号の記憶されたサンプルのブロツクを並列処理す
ることによつて発生される。各信号において、サ
ンプルのブロツクはサンプル・ブロツク間の所望
の独立量に依存して、重なり合つたり、重なり合
わなかつたりする。音声パターン・マツチングの
ために最も一般に使用されているサンプル・ブロ
ツク向けパラメータは、短時間麗交叉率、短時間
エネルギー、短時間の平均的な大きさ、短時間自
己相関係数、短時間の平均的な量の差分関数、短
時間離散スペクトラル係数、線形予測係数と予測
エラーである。前記の短時間パラメータの各々を
計算するための定義および手順の詳細は1978年米
国のプレンテイスホール社出版、Ｌ・ラビナ、
Ｒ・シヤフア共著「音声信号のデイジタル処理」
に記載されている。第２番目のカテゴリはx₁(t)およびx₂（t′）を解
析するアナログ・フイルタ・バンクの出力を周期
的走査およびサンプリング（Ｔ秒ごとに１回）に
よつて実行することができる測定動作を含む。い
くつかのこのような音声分析システムは1972年ド
イツのスプリンガーフエルラク社出版、Ｊ・Ｌフ
ラナガン著「音声分析合成および認識・第２版」
に記載されている。処理動作の第３番目のカテゴリは連続時間分析
システムのサンプル・データあるいはデイジタル
信号処理を実行する動作を含む。そのシステムの
出力はＴ秒ごとにサンプリングされる。典型的な
例（実際、後述される実施例で１度使用される）
は1975年米国のプレンテイスホール社出版、Ｌ・
Ｒ・ラビナ、Ｂ・ゴールド共著「デイジタル信号
処理の理論と応用」に記載されているように設計
され実行される並列デイジタルフイルタバンクで
ある。このカテゴリは２つの信号x₁(t)およびx₂
（t′）のサンプリングされた変形が使用可能にさ
れることが必要である。さらに、周期的になされた測定の前記のタイプ
からのいくつかの組合わせでパラメータを使用す
ることができる。しかしながら、使用されるパラ
メータの数の選択は変更することが可能であり、
一般に次の考察に依存することができる。参照信号x₁(t)における関係のある信号S₁(t)は雑
音およびフイルタ効果によつて劣化されるので、
多数のパラメータの測定によつて参照信号x₁(t)と
置換信号x₂（t′）間で最も信頼性のある比較がさ
れる。低下の形式や程度は処理の後続の段階で使
用されるパラメータの選択に影響を及ぼす。も
し、参照信号x₁(t)が純粋に関係する信号S₁(t)から
なるならば、２、３のパラメータだけが後続の処
理動作において使用するために必要である。最後に、パラメータのいろいろな型が発生さ
れ、これらのパラメータの各々が特定の範囲内に
ある数によつて記述されるならば、各正規化され
たパラメータのために実質的に等しい数値範囲を
提供するように各々のパラメータを正規化する手
段が提供される。このような正規化手順は時間整列データを発生
するパターン・マツチング・プロセスに対する各
パラメータの寄与がほぼ等しいことを確実にする
必要がある。パラメータの選択のための主な規準は、いずれ
のパラメータの連続するサンプルでも：(a)音声の
発生の物理的面に関する音声信号内の著しい変化
を反映するべきであり；(b)ダビング波形をサンプ
リングするために必要であるよりも著しく低速度
でハードウエアあるいはソフトウエアにおいて有
効に発生されるべきであり；(c)雑音によつて容易
には悪影響を及ぼされないようにされるべきであ
る。いかなる混乱も生じないとき、パラメータの組
が並列で発生される速度（１／Ｔ／秒）は“デー
タ・フレーム”速度（フイルム・フレーム速度と
区別されるように）あるいは単に“フレーム”速
度として後に引用される。したがつて、データ・
フレーム速度はパラメータ・ベクトルが発生され
る速度である。したがつて、各データ・フレーム
期間中に一度、並列処理動作が案内トラツクおよ
びダビングの両方のために行なわれる。次に、こ
れらの処理結果は案内（又は参照）パラメータ・
ベクトルおよびダビング（又は置換）パラメー
タ・ベクトルとして引用される２個のそれぞれの
データ装置にグループに分けて入れられる。第６図において、いろいろな信号形式はブロツ
クを接続する違つたタイプの線によつて表わされ
る。すなわち、実線は完全なバンド幅のアナログ
あるいはデイジタル信号ルートを表わし、破線は
フレーム速度でサンプリングされるデータのルー
トを表わし、２重破線は並列データ・ルートを表
わす。この例で、案内トラツク磁気フイルム再生機１
４の出力である参照信号x₁(t)が再生され、同時に
この例においてマイクロホン１１の出力である置
換信号x₂（t′）はＡ／Ｄ変換器３５にロー・パ
ス・フイルタ３７（第３図）を通して送られる。
フイルタ３７は再生されるべき最高周波数にある
遮断周波数fcを有する。サンプル・ホールド回路
３４はＤ秒の間隔で波信号をサンプリングし、
再生されるべき最高周波数の２倍以上の１／Ｄ／
秒のサンプリング速度を生じる。この例において
は、15KHz（＝fc）のバンド幅は十分なものであ
り、Ｄは１／32000秒に選択される。サンプリングおよび変換プロセスは信号x₂（t′）
を表わすデイジタル・データx₂（nD）のストリー
ムを生じる。こゝに、ｎ＝０、１、２…である。
データ・ストリームx₂（nD）はデイスク２５に書
込まれて、更に処理操作のために使用可能である
ように保持される。信号x₂（t′）がサンプリング
され、デイスクに書き込まれる一方、それはパラ
メータの発生としるされているブロツク４６によ
つて同時に処理される。同様にして、信号x₁(t)は
ブロツク４５によつて同時に処理される。これら
の２個の同様なブロツク４５および４６の１個は
第４図にさらに詳細に表わされている。この実施例において、参照信号パラメータ・ベ
クトルＡ（kT）はＮチヤネル・デイジタル・フ
イルタ・バンクを含む案内トラツク・パラメータ
抽出プロセツサ４３のサンプリングされ、対数的
に符号化された出力から各案内トラツク信号フレ
ームｋ（こゝに、ｋ＝１、２、３…）で形成され
る。同時に、並列プロセスにおいて、置換信号パ
ラメータ・ベクトルＢ（JT）はＮチヤネル・デ
イジタル・フイルタ・バンクを含むダビング・パ
ラメータ抽出プロセツサ４４のサンプリングさ
れ、対数的に符号化された出力から各フレームｊ
（こゝに、ｊ＝１、２、３…）で形成される。２
個の同様なフイルタ・バンクは同一の特性を有す
る。フレームｊ＝１およびｋ＝１のためのパラメ
ータ・ベクトルはＴ秒の第１の期間の終りで生
じ、関係のあるそれぞれの信号はこの第１のフレ
ームの後で始まるものと仮定する。第４図において、x₁(t)からのＡ（kT）の発生
の詳細が示されている。x₂（t′）からのＢ（jT）
の発生は同様に実行される。したがつてそれは図
示されないかあるいは別々に説明される。第４図において、入力信号x₁(t)は、Ａ／Ｄ変換
器（Ａ／Ｄ−Ｃ）５３のダイナミツク・レンジの
大部分はクリツピングなしで使用されることを確
実にするために調整されている利得Ｇの可変利得
増幅器段５２を最初に通り。仮りに、増幅された
アナログ信号が音声信号における高周波エネルギ
のロールオフ（rolloff）を補償する1KHzから4K
Hzまでが＋6dB／オクターブの利得のものである
ならば、それは高周波ブースト回路５４（HFブ
ーストとしるされている）を通る。その結果得ら
れる信号はロー・パス・フイルタ（LPF）５５
（例えば、4KHzで遮断の通過帯域、転移幅1.25、
通過帯域リツプル0.3dB、60dBの最小のストツプ
帯域減衰を有する７階数だけ円関数設計）を通過
し、その結果得られる波信号x′₁(t)（こゝに、
ダツシユはx₁の波された変形を示す）は、この
例において、サンプリングされたデータ・ストリ
ームx′₁（mcD）（こゝに、ｍ＝０、１、２…）を
生じるように１／cDHzのサンプリング周波数で
作動する12ビツトのＡ／Ｄ変換器（Ａ／Ｄ−Ｃ）
である変換器５３によつて追従されるサンプル・
ホールド装置（Ｓ／Ｈ）５６から成る組合わせに
よつてデイジタル化される。定数Ｃは、率１／
cDが蓄積、編集および再生のため置換信号をサ
ンプリングするのに使用される率１／Ｄに整数的
に関連されるように整数である。この手段によつ
て、同期はサンプリング信号x′₂（nD）とフレー
ム・インデクスｊおよびｋ間に維持される。Ｃ＝
４（したがつて（cD）^-1＝8KHz）の使用によつて、
バンド幅およびサンプリング速度が減少し、した
がつて、パラメータを発生するのに必要な処理操
作がかなり節約される。同時に重要度のきわめて
低い情報は失われる。データ・ストリームx′₁（mcD）は、Ｎ並列バン
ドパス・フイルタ部BPFi（こゝに、ｉは周波数帯
域数を指す）からなるデイジタル・フイルタ・バ
ンク５７に入力される。このシステムにおいて、
Ｎ＝４および使用されるフイルタは、次の遮断周
波数（−3dB減衰）を有する４階数バタワース設
計を帰納的に実施したバンドパス・フイルタであ
る。【表】このようなフイルタの設計および実施はよく知
られており、1975年、米国のプレンテイスホール
社出版、Ｌ・Ｒラビナ、Ｂ・ゴールド共著「デイ
ジタル信号処理の理論および応用」に記載されて
いる。 x′₁（mcD）において4KHz上位の高周波数帯域
（即ち、帯域４）に入る周波数の小範囲の許容さ
れた“aliasing”は異常ではあるけれども、4KHz
上位のいかなる音声のエネルギでも、追従するパ
ターン・マツチング・プロセスを寄与することで
有用であるという点では望ましいところである。各バンドパス部BPFiの出力は以下同様に処理
される。各BPF出力はブロツクFWRiで全波整流
され、整流信号はその各々は約10Hzの遮断周波数
を有する２個の直列に接続された１階数の漏れや
すい積分器よりなるロー・パス・フイルタLPFi
を通る。このフイルタは入力信号を平滑化し、そ
れによつてその結果得られる信号は第４図に概略
的に表わされるスイツチによつてＴ秒（こゝに、
Ｔ＝0.01秒）ごとにサンプリングすることができ
る。最後に、サンプリングされた出力データはブ
ロツクLOGにおいて（検索表によつて）８ビツ
ト対数量Ai（kT）（こゝに、サフイツクスｉはｉ
番目のバンドを示す）に変換される。したがつ
て、Ai（kT）は正規化パラメータ・ベクトルの
Ｎ個の成分の１個である。そのレンジが直接比較
できるこれらの成分の逐次アクセスは、完全なパ
ラメータ・ベクトルＡ（kT）を形成するための
マルチプレクサであるブロツク５９であつて、パ
ラメータベクトルを形成としるされている前記ブ
ロツク５９で実行される。フイルタバンク・プロセツサ４３から次の処理
段階へのパラメータ・ベクトル・データの移動は
２個の大容量RAMバツフア・メモリ６０および
６１（バツフア・メモリ１およびバツフア・メモ
リ２）の１個にシーケンシヤル・パラメータ・ベ
クトル（チヤネルごとに４バイト／フレーム又は
全部で８バイト／フレームからなる）を記憶する
ことによつて実行される。前記バツフア・メモリ
の各々はパラメータ・ベクトルの整数の倍数Ｒを
保持する。これらの大容量バツフア６０および６
１の一方が満杯になると、新しいパラメータ・ベ
クトルは他方のバツフアに記憶される。さらに、
第２のバツフアが満杯になると、時間ひずみ路発
生を実行するプロセツサSBC２は満杯のバツフ
アにアクセスし、処理中に起りうるアクセスのた
めその内容の他のメモリ・エリアへの移動を開始
する。満杯になつたバツフア６０および６１から
当該データが転送された後、バツフアは新しいデ
ータで書き込まれる。このような２重系のバツフ
ア・システムは、データ転送が次段の処理部に対
してデータ転送がなされている間に、いかなるデ
ータも失われないことを確実にする。Ｒパラメータ・ベクトルを記憶するために２重
系バツフア・システムを使用するということは、
１個のバツフアが満杯の後、ｋ番目のパラメー
タ・ベクトルがある１個のバツフアに記憶される
べき第１のベクトルであるならば、（Ｋ−１）番
目のパラメータ・ベクトルに加えて（ｋ−１−
Ｒ）番目のパラメータ・ベクトルが以前に満杯に
されたバツフアから直ちに使用可能にされる。し
たがつて、パラメータ・ベクトルに対する次段の
処理は厳密には実時間処理ではないけれども、そ
の処理は可変遅延に基づく実時間速度で作動す
る。バツフア６０および６１の切換動作は第４図
に概略的に示されている連動スイツチ６２によつ
て行なわれる。時間ひずみプロセツサの説明次に、時間ひずみ路の発生としるされているプ
ロセス・ブロツク４７（第６図）によつて表わさ
れる動作が詳細に説明される。この動作は第２の
単一のボード・コンピユータSBC２によつて実
行される。時間ひずみ路は、ダビング・フレーム
が繰返されあるいは省略されることを許すことに
よつて案内パラメータ・ベクトルの一定のシーケ
ンスに最も良く一致するダビング・パラメータ・
ベクトルのシーケンスを（フレーム・バイ・フレ
ームに基づいて）見つけるように案内およびダビ
ング・パラメータ・ベクトルを処理することによ
つて生じる。この実施例において、パラメータ・
ベクトルは案内およびダビング音声信号のスペク
トル横断面を表わす。ダビングおよび案内スペク
トル横断面間の類似性を対比するために、原パラ
メータを比較しないが、音声パターンでの差を主
に強調するようにして、環境条件あるいは録音条
件に対して敏感ではないように処理される簡単な
距離関数が使用される。ダビング・フレーム・イ
ンデクス・シーケンス、すなわち、ダビング・パ
ラメータ・ベクトルと案内パラメータ・ベクトル
とが最も良く整列するｊ値のシーケンスはブロツ
ク４９の編集動作に対する入力である時間ひずみ
路を規定する。こゝで、“距離”という用語は距離を構成し、
もし、２個の要素が同じで、その数が２個の要素
がとるオーダに関係なく同じであり、要素の１対
に関連する数に対の１つおよび第３の要素に関連
する数をプラスしたものは、対のもう一方および
第３の要素に関連する数に等しいか、あるいは、
それより大きいというだけならば、その数は０で
あるという条件を満足する実数であつて、負数で
はない数の一組の要素の各対に関連する数学的関
数を意味する。ｋとＴの関数であり、Ｗ（kT）と書かれる時間
ひずみ路は次の２個の特性を有する参照信号パラ
メータ・ベクトルＡ（kT）のデータ・フレー
ム・インデクスｋの非減少関数として形式的に特
定される。すなわち、これらの２個の特性は：第
１には、ｋ＝１、２、３…、Ｋ、において、Ｗ
（kT）は１からＪまでも含めた範囲における整数
のシーケンスである。こゝに、ＫおよびＪは参照
信号および置換信号のそれぞれの最終フレーム・
インデクスとして規定される。（一般に、参照お
よび置換信号のパラメータ化が同時に行なわれる
ならば、Ｊ＝Ｋである）。第２に、Ｗ（kT）は置
換パラメータ・ベクトルＢＷ（kT）のシーケンス
が参照シーケンスＡ（kT）に最も良好にあるい
は最適に一致することを記述する。したがつて、置換パラメータ・ベクトルが参照
パラメータ・ベクトルに最も良く一致しているＷ
（kT）はまた、置換信号x₂（t′）における重要な
時間従属特徴と参照信号x₁(t)における対応する特
徴とが整列するであろう置換信号x₂（t′）の時間
スケールの時間ひずみ（すなわち、引き伸ばした
りあるいは圧縮したり）関数として記述する。参照および置換信号x₁(t)およびx₂（t′）は一定
の長さ（しかし、任意の長さ）であることが期待
されるという事実のために、（ｋ、ｊ）面で有限
長路として関数Ｗ（kT）を表現することが可能で
ある。一次元置換ベクトルと一次元参照ベクトル
とが最も良く一致している時間ひずみ路の例が第
７図に示されている。一次元ベクトルは単一のパ
ラメータ、すなわちＮ＝１、から生じるベクトル
であることを意味する。ｋなるインデクスが、ｊ軸上のインデクスのシ
ーケンスが割り当てられる参照シーケンスを表わ
しているため、路境界条件は、ｋ＝１、jo＝Ｗ
（1T）および1jo Ｊであるように、いくつかのjo
がむしろゆるくされている。同様に、jo j_FＪの
ようないくつかのJ_F＝Ｗ（kT）が存在する。路が
ｊ＝１で始まりｊ＝Ｊで終る必要がないことは当
業者には明らかである。しかしながら、Ｋ路値の
合計、すなわち、Ｗ（kT）の値がなければならな
い。ばく大な数の可能性のある路のうちから最良の
ものを発見するのに使用される手順はある程度、
公知の単語認識技術から導かれる。このような技
術において、もしいかなる制約も課せられないな
らば、ｄ（ｋ、ｊ）によつて示される２つのベク
トル間の距離（又は相違）の１つの方法を与える
ためにいくつかの置換パラメータ・ベクトルＢ(j)
によつていくつかの参照パラメータ・ベクトルＡ
(k)と比較されることができるマツチング・アリゴ
リズムが使用される。ｄ（ｋ、ｊ）の１つの有用な定義はＮ次元パラ
メータ空間における重みづけられた“シテイ・ブ
ロツク”である。すなわち、ｄ（ｋ、ｊ）は次の
ように定義される。ｄ（ｋ、ｊ）＝_N 〓ⁱ⁼¹ ｜B_i（jT）−A_i（kT）｜V_i（kT）こゝに、V_i（kT）はｋ番目のフレームのための
重み係数であり、後で説明される。他の距離の大
きさ、たとえば、ベクトル間のユークリド距離の
２乗が使用される。ｋが一定のとき、ｄ（ｋ、ｊ）
の値はｊと共に変化することがわかる。同様に、ｋがそのそれぞれの範囲１からＫまで
変えられるとき、ｄ（ｋ、ｊ）の値の合計は、ｋ
の各特定の値に対するｊに対して選ばれた値が変
えられるとき変化するスコアを提供するときに使
用される。したがつて、スコアは置換フレームの
テスト・シーケンスと参照フレームの固定シーケ
ンスとの一致についての有用な数で示される評価
を与える。さらに、ｋが１からＫまで、ｊがjo＝
Ｗ（1T）からj_F＝Ｗ（KT）まで変えられるような
最小あるいは最良の全体のスコアがある。最適のスコアを決定するための路の開始点はｋ
＝１で固定されているので、スコアは最終フレー
ムインデクスＫにだけ従属する。したがつて、最
適スコアは次の式Ｓ(K)で示される。Ｓ(K)＝ min^(j(k))〔_K 〓^k=1 ｄ（ｋ、ｊ(k)）〕こゝで、minの表記は、その合計がインデクス
ｊ（それ自身、ｋの特定の関数である）までなさ
れ、それによつてその結果生じる合計は最小にさ
れるということを示している。したがつて、Ｋベ
クトルの２個のセツトの最良の一致をみつけるた
めに、前記の合計Ｓ(K)を最小にするｊ（適当な路
の制約で）のＫ最適値のシーケンスを決定するこ
とが必要である。１からＫまでの範囲ｋに対して
最小値を提供するｋの特定の関数は最適時間ひず
み路Ｗ（kT）を正式に定義するものである。他の時間ひずみ関数はさらに、1980年発行
「IEEE Transactions On Acoustics、Speech
and Signal Processing」第28巻、第６号、第
623頁〜635頁のＣ・マイヤーズ、Ｌ・ラビナおよ
びＡ・ローゼンベルグによる論文「分離された単
語認識のためのダイナミツク時間ひずみアルゴリ
ズムにおける性能トレードオフ」に記載されてい
る。フレームＫにおいて、最適路は、Ａ（KT）お
よびＢ（JK）がマツチング・プロセスで処理さ
れた後、最適であるべきであることが知られるだ
けである。さらに、連続音声のパラメータ化がな
される場合、Ｋはしばしば数千のオーダである。
したがつて、最適路を徹底的に検索するために前
記の公式を直接に実施するさいに要求されるぼう
大なデータの蓄積および処理を徹底的に減少させ
ることが必要である。これは２つの実質的に類似
の連続音声信号のための時間記録データを発生す
るための有効な処理アルゴリズムの修正版の使用
を通して実現されることができる。その処理アル
ゴリズムの修正版は英国のリード大学で1982年９
月27日〜９月29日に開催されたリード実験音声学
シンポジユムでJ.S.ブリドルによる論文「音声研
究における自動時間調整およびその使用」におい
て提示されている。修正版を説明する前に、ブリドルによつて開発
された原アルゴリズムが次に説明される。ZIP
（２つの類似の信号シーケンスを一緒にジツピン
グ（Zipping）する動作のため）として知られて
いるブリドル・アルゴリズムは限られた数の潜在
的に最適な路セグメントを並列に発生することに
よつて、最高（最悪）類似点スコアを有する最も
可能性のない候補を除去することによつて作動す
る。路セグメントの端を拡張するための発生規則
はダイナミツク・プログラミングの原理、その大
きさおよび路増分の方向への制約および局部時間
スケースひずみのための不利益によつて決定され
る。不充分な候補者が徐々に除去され、即ち否定
されて、全ての残りの路に対して共通な１個また
は複数個の路要素を含む特有のセグメントに組合
わされて、終極的な起点を有する、より長い路が
残されるようにして、セグメントにおける最良の
路が見出される。もし、除去操作が慎重になされ
るならば、共通セグメントは最適路Ｗ（kT）の部
分である。したがつて、路セグメントはそれなり
に、路セグメントが分岐する点まで出力される。
処理される各参照フレームのための処理が続くに
つれて、Ｋがユニツトによつて増加されるので、
路は１増分だけ拡張される。すなわち、必要な除
去操作が行なわれ、残りの路の起点は特有性のた
めに調査される。しかしながら、路セグメントの
始め、すなわち、路セグメントの拡張されない終
りが、収束の要求を満足するときだけ最適路セグ
メントが出力される。したがつて、路セグメント
の出力は一般に参照フレームの処理と同期しな
い。 ZIPアルゴリズムにおける時間ひずみ路の発生
は単語認識システムで最適のスコアを計算するた
めにしばしば使用されているアルゴリズムに類似
しているアルゴリズムを適用することによつて効
果的に実現される。公知の単語認識システムは、
1982年５月パリで開催された「音響学、音声およ
び信号処理に関するIEEE 国際会議議事録」の
第899頁〜第902頁のJ.S.ブリドル、M.D.ブラウ
ン、R.M.チヤンバレインの論文「接続された単
語認識のためのワン・パス（one−pass）アルゴ
リズム」に開示されている。しかしながら、単語
認識アルゴリズムと違つて、最適路に沿つて発見
される最適スコアZIPの最終結果でないが、最適
路ではある。したがつて、ZIPは違つた起点から
並行に始まる多数の路を開始点から最終点まで最
良のシーケンスを記述するように発生される各路
と共に処理されるように設計される。この処理を
説明するために、部分路スコアは次に説明され
る。最適スコアＳ(K)に対する前記の定義を簡単に拡
張することによつて、ｋの範囲k_s〜k_eとｊの範囲
j_s〜j_eに対する距離ｄ（ｋ、ｊ）の和を出来るだけ
最小にするようにいくつかの開始点（k_s、j_s）を
いくつかの終了点（k_e、j_e）（こゝに、k_s＜k_e、j_s
j_e）に接続する路のために最適部分路スコアを
定義することは可能である。すなわち、 Sp（k_s、j_s；k_e、j_e）＝ min（j_s、j_e、ｊ(k)）〔_ke 〓ｋ＝ksd（ｋ、
ｆ(k)〕このスコアを最小にし、それのために最良の部
分路セグメントを記述するｊのシーケンスを発生
するｋの関数はj_sおよびj_eに従属しWj_s、j_e（kT）
として記述される。所定のj_sとj_eに対して、ｊの１シーケンスだけ
がｋの一定の範囲に対して最良の路を記述する。
それは（ｋ、ｊ）面における２点間に唯一最良の
路セグメントがあることを意味する。さらに、Ｗ
（kT）＝Wj_pj_F ^(kT)なる関係がある。最小スコアを生じる路のための検索はダイナミ
ツク・プログラミング（または、再帰最適化）ア
ルゴリズムによつてZIPで実行される。ダイナミ
ツク・プログラミング（DP）アルゴリズムにお
いて、２つの主な原理がＳ(K)を決定するさいとＷ
（kT）を決定するさいに使用される。すなわち、
(1)１からＫまでのｋの全ての範囲に対するｊの値
の最適組はさらにｋの範囲のいずれかの小部分に
対して最適である。(2)k_sからいずれかの値k_eまで
のｋの値に対応するｊの値の最適組は対応するj_s
であり、またj_eはj_sからj_eまでのｊの値だけに従
属する。これらの原理を用いて、ZIPは次の再帰のDP
方程式にしたがつて最良の部分スコアの値を発生
する。 Sp（k_s、j_s；k_e、j_e）＝ Sp（k_s、j_s；k_e、j_e）＝ min^(a=0、¹、²⁾〔Sp（k_s、j_s；k_e−１、j_e−ａ）＋ｄ（
k_e、j_e）＋ｐ(a)〕ここに、関数ｐ(a)はスコアが局部時間スケール
ひずみのための不利益を含むように含まれる。
DPステツプとして引用されているSpのための前
記方程式は最大路傾斜が２になるように制約す
る。したがつて最大置換信号圧縮率は２：１にな
る。 DPステツプの主要な面は、ｋ＝k_eで新しい終
点に対する最良のステツプが新しい終点で開始
し、ｋ＝k_e−１で高々３つの以前最良であつた路
端まで戻つて検索し、最良（すなわち、最低）ス
コアを発生する路に新しい終点を接続することに
よつて発見されるということである。これはDP
ステツプの点（ｋ、ｊ）に対して許された（ｋ、
ｊ）面における路を描く第８図に例示されてい
る。特に、ａ＝０ならば、置換フレームが繰返さ
れる（すなわち、（ｋ、ｊ）面における水平ステ
ツプ）ことを示すか、又は、ａ＝２ならば、単一
の置換フレームがスキツプされる（（ｋ、ｊ）面
における低位の対角ステツプ）ことを示し、異つ
た（決定的な）不利益が含められる。ａ＝１（す
なわち、（ｋ、ｊ）面における対角ステツプ）に
ついては、不利益が含まれることはない。路が取入れることができる繰返しによつて拡張
量に対するいかなる形式的な制限もないので、ａ
＝０に対する不利益はａ＝２に対する不利益より
一般に高く設定する。 ZIPが多数の路端を並列に調査する基本的手段
が第９図を参照して以下に説明される。ZIPのい
くつかの特徴はこゝでは簡単にするために省略さ
れる。初めに、Ｌ個の違つた路の第１の要素とし
てのk_s＝１の場合のj_s＝１からj_s＝Ｌまでのj_sにつ
いてのＬの連続値が第９図ａで示されている。こ
れは最初のステツプであるため、これらのＬの連
続値はさらに一時的に各路の終点を規定し、この
ため、それはDPステツプを計算するようにある
データが保持されるべきである要素の窓
（Window）を形成するものとして見なされる。
いくつかのデータ・アレイは必要なデータを保持
するために使用される。最初に、窓内での各新し
い可能性のある路端に対して、対応する路スコア
は“スコア”という名のデータ・アレイに保持さ
れる。Ｌ個の違つた路に対するスコアはすべて最
初に０にセツトされる。次に、Ｌ＋２個の距離
は、ｋ＝１での参照ベクトルとｊ＝１からｊ＝Ｌ
＋２までの最初のＬ＋２個の置換フレームの各々
のベクトルとの間での計算が独立して行われる。
これらの距離はデイスト（DIST）といの名前の
第２のデータ・アレイに保持される。２個の余分
の距離の大きさは、DPステツプが（ｋ、ｊ）面
における低位の対角に沿つて（１、Ｌ）で終る路
を（２、Ｌ＋２）まで拡張することができるよう
に使用可能にされる。ｋの各ステツプでｊの２単位だけ窓を拡張する
この動作は第９図のａ，ｂおよびｃでの（ｋ、
ｊ）面のグラフで図示されているように２：１の
最大傾斜で上の方に（高位のｊの方へ）路探索窓
の上部を向ける。窓の底部で、すなわち、ｊ＝１以下で、路端お
よびスコアが存在しないということは、ｊ＝１の
とき、DPステツプがａ＝１あるいはａ＝２ステ
ツプを試験しないように、同様に、ｊ＝２のとき
ａ＝２ステツプを試験しないように、制限され
る。前記のスコアの計算された距離およびアレイを
使用することによつて、ZIPはDP方程式を使用
してＬ＋２の新しい終点の各々に対して独立して
新しい最良のスコアを計算し、同時に、各々、最
良のステツプを提供するｊの対応するインデクス
をパス（PATH）と呼ばれる路要素の２次元ア
レイにおいて省略する。ｊインデクスは最良にステツプされるフレー
ム・インデクスを指示する。したがつて、各イン
デクスは実際、前のフレーム路端へのポインタで
ある。連続するポインタはその起点まで戻つて追
跡される路を発生する。パス・アレイは多数のこ
のようなポインタのストリングを保持する。最初のDPステツプ後、パスの第１列は１から
Ｌ＋２までのｊのインデクスで簡単に満たされ
る。これは、（ｋ、ｊ）面の部分が前のステツプ
での路要素の終点のまわりの仮想上の窓を指示す
る破線によつて第９図のａ，ｂおよびｃで示され
る。DPステツプがｋ＝１、２、３に対してそれ
ぞれ行なわれた後、スコア、デイストおよびパ
ス・アレイは保持される典型的なデータと共に第
９図のａ，ｂおよびｃで示されている。スコア・アレイにおける各要素は特有の路端お
よびそのスコアに導く前の路要素のシーケンスに
対応する。各々の独自の路はスコア・アレイにお
ける対応するスコアと同じインデクスを有するパ
ス・アレイにおける１行として保持される。再び、第９図に関連して、プロセスの次のサイ
クルが実行される。Ｌ＋２個のDPステツプが行なわれ、新しい路
端がパスで除かれた後、ZIPは次の参照フレーム
にｋを歩進する。すなわち、ZIPは新しい参照ベ
クトルとDPステツプで必要とされる置換フレー
ムのベクトルの各々との間の距離の新しい組を計
算し、DPステツプ方程式、距離のアレイおよび
前のスコアのアレイを用いてすべての路を拡張
し、それによつて、スコアおよび新しい最良のス
コアに対応する次の路端要素を発生する。これら
の路端はパスにおいて適当な路要素のシーケンス
に付加される。最後の参照フレームが処理される
まで、さらに次に説明されるべきいくつかの処理
に加えて、このサイクルは繰返される（第９図の
ｂとｃに示されるように）。 DPステツプにおける局部的な路の制約の選択
によつて、もしそのステツプがスコアにおける最
新の入口から開始することによつて、そして最も
古い入口に対して逆方向に作用することによつて
計算されるならば、その路は互いに交差すること
ができないということを確実にする。しかしなが
ら、後述されるように、これらは共通セグメント
までたどることができる。それ以上の処理がなされないので、各路は各
DPステツプに対して長さが１単位だけ長くなり、
路の数、スコアおよび距離は各ステツプに対して
２単位だけ大きくなり、長い信号に対して実用的
でないメモリおよび計算の量を連続的に増加させ
る必要がある。 ZIPは３個の違つた仕組によつてこれらの問題
を避けるものである。除去操作技術はその上端および底端の両方を制
御することによつて窓の寸法を効果的に制限す
る。各参照フレームに対して、スコアおよび路の
終端の新しい組はDPステツプを介して計算され
た後、さらにその参照フレームに対して最良のス
コアから離れて所定量（スレツシユホールド量）
以上であるすべてのスコアは考慮すべき事柄から
省略される。これに加えて、そのために除去操作
された各スコアに対応する路はさらに取除かれ、
フラグがセツトされて、無用な距離の大きさが次
のDPステツプで計算されないようにされる。実際の最適の路に沿つてのスコアと現在最適な
路のスコア（すなわち、現在のフレームで終る最
良のスコアを有する路）間の差がスレツシユホー
ルド量より少ないままであるかぎり、最適な路は
決して除去操作されない。この除去操作の計算
中、各入力フレームのために見つけ出される計算
された最良のスコアは負のスレツシユホールド値
に等しくセツトされ、残りのスコアはこの１つに
関連して計算され、そのために、可能であるスコ
アの範囲は相当に減少される。可能である路の最大の長さは、１個あるいはそ
れ以上の路要素のために最適な路上の残余の路セ
グメントの開始要素の収束の間の一致を確立する
ために除去操作を許容することが必要とされる参
照フレームと同数の路を保持するのに十分である
メモリを保持することによつて、いくつかの比較
的小さな数（例えば50）に制限される。次に、残
りの路に共通である要素はＷ（kT）として出力さ
れ、これらの値を保持するパスにおけるメモリ装
置は更に使用するために解放される。メモリを減少するための第３の仕組は円形（あ
るいはリング）メモリ領域としてスコアおよび距
離アレイによつて実現される。２次元の路アレイ
はその２次元の各々において円形であるべきであ
るように実現され、実質的に対角に（ｋ、ｊ）面
を移動する２次元の窓として動作する。それは最
適である精査の下での路セグメントを含む。しかしながら、フイルム案内トラツク信号のた
めの録音条件とスタジオで録音されたダビングの
ための条件とは通常かなり違つている（例えば、
雑音が多く、反響があり、遠方にマイクロホンを
設置すること）ものである。参照および置換ベクトル間の距離を得るために
使用される手順は、したがつて、これらの長期間
の信号差の影響を最小にするがしかしZIPはこれ
を確実にするものではない。さらに、ZIPにおけ
る時間ひずみ路傾斜の制約は、もしこのセグメン
トがその期間が参照信号における対応する無声音
の期間の２倍以上である無声音に続くものであれ
ば、計算された最良の路によつて音声を含む置換
信号のセグメントで置換フレームを省略するよう
にされることができる２：１の比率まで置換信号
の最大の圧縮を制限する。所望されるアルゴリズ
ム応答は音声よりはるかに少ない制限で置換信号
における無声音が拡張されたりあるいは圧縮され
たりすることを許容することである。これらの欠点は、ZIPアルゴリズムを修正する
ことによつてこの発明の好ましい実施例において
克服される。その修正は案内トラツクおよびダビ
ング音声信号の性質に関する３つの仮定によるも
のである。(1)入力して最初の２、３秒で、音声は
存在しない両方の信号にはいくつかのフレームが
あり、そのため、パラメータ・ベクトルがスペク
トル横断面を表わすので、各フイルタ・バンドか
らの最低の出力値は背景雑音のサンプルから発生
されること。(2)案内トラツクおよびダビング信号
（20dBをこえるＳ−Ｎ比の条件で）は通常類似の
音声サウンドを含み、そのため、対応する周波数
帯域に達する最大レベルはほゞ同様な音声サウン
ドに一致し、したがつてこれらの帯域のスペクト
ル・レベルを正規化するための参照レベルを提供
するということ。(3)ダビング信号はほゞ理想的な
条件（すなわち、高いＳ−Ｎ比）の下で入力さ
れ、そのため、ダビング・フレームが音声あるい
は背景雑音を含むか含まないかを検出することが
容易であり、これと対照的に、案内トラツク信号
は雑音および望ましくない信号によつて著しく劣
化されること。好ましい実施例で使用される修正されたZIPア
ルゴリズムは処理のうちの３つの段階において連
続的な基準に基づくパラメータ・ベクトルを処理
することによつて時間ひずみ路を発生する。第１
の段階は少なくとも１回実行されねばならない初
期化プロセスである。主な時間ひずみ路の発生は
第２および第３段階で行なわれる。第１０図でブロツクで示されている第１の段階
で、２〜３秒、すなわち200〜300フレームを占有
する案内トラツクおよびダビング・パラメータ・
ベクトルの両方の多数のフレームは第２および第
３段階において必要である長期間の信号特性の評
価をするように分析される。この長期間のデータ
はパラメータ・ベクトルの各成分のために生成さ
れる。実際的にはデータのいくつかにわたる第１
の処理段階である第１の段階は、主要な処理が始
まる前に一回実行される。これに加えて、それは
長い期間の数量を更新するために比較的散発的に
（たとえば、２秒あるいは２秒以上ごとに１回あ
るいは信号特性の検出変化に応答して）実行され
る。第１１図のブロツクで示されている第２の段階
で、ダビング・パラメータ・ベクトルは第１段階
の長期間のデータを使用するいくつかの違つた動
作でフレーム・バイ・フレームの基準（第１の処
理段階のさいと違つて）に基づいて処理される。
すなわち、(a)ダビング・フレームを音声あるいは
無声音として分類する。(b)対応する案内帯域とダ
ビング帯域との間の長期間のスペクトル差を除く
所定の処理を実行し、有用な（すなわち、雑音の
ない）ダイナミツク・レンジを均質にすること。
これに加えて、データのための多数のワーキン
グ・アレイは第３の段階における使用の準備を整
えてダビング・フレームに関する時間変更データ
でロードされる。この時間変更データはそれぞれ
のダビング・フレーム分類が音声あるいは無声音
のいずれであるかにしたがつて変更され、次のも
のを含んでいる。すなわち、(a)連続するダビン
グ・フレームが無声音として分類される最初の割
合の期間の２倍で再サンプリングされる前処理さ
れたパラメータ・ベクトル、(b)対応するダビン
グ・フレーム・インデクス数、(c)分類（音声／無
声音）指示部、(d)ダイナミツク・プログラミン
グ・パターン・マツチング・ステツプで使用され
る２個のペナルテイ。各フレームに対して１回さらに実行される第３
の段階（第１２図のブロツクで示されるように）
で、アルゴリズムは第２の段階で発生されるデー
タを処理し、ダビング・フレームを案内トラツ
ク・フレームに整列するための多数の潜在的に最
適な時間ひずみ路セグメントを計算する。さらに
処理をするさい、そのアルゴリズムは限定された
数の路のうちで計算された最良のものを省き、次
に、これらの残りの路セグメントが所定の条件
（その起点の特異性に関連する）を満足するとき、
そのアルゴリズムは時間を整列させるために最適
な路を表わす（音声がダビングにおいて現われる
とき）特有な路セグメントを出力する。代替的
に、無声音が比較的長期間ダビングにおいて現わ
れると、１つの路は、ダビング無声音がフレーム
を省略することによつて４：１の最大比率で圧縮
されるか、あるいは、ダビング音声と案内トラツ
ク信号とがうまく一致するための検索のさいにフ
レームを繰返すことによつて無期限に拡張される
かによつて、発生されるものである。第１段階の詳細第１０図に詳細に示されているように、第１段
階では、距離の計算とダビング・フレームの音声
あるいは無声音への分類との両方に使用される諸
種の時間が変化しないデータが提供される。第１
に、録音条件、線形利得調整、および、音声スペ
クトルだけの差に関連しない背景雑音スペクトル
における差に帰着することのできる案内フイルタ
バンク出力とダビング・フイルタバンク出力間の
差を取除くために、スペクトル・レベルおよびダ
イナミツク・レンジの正規化が提供される。この
実施例において、この正規化は対応するダビン
グ・バンド出力レンジに案内の各周波数バンド出
力レンジを写像するための検索テーブルを形成す
ることによつて実現される。第２に、雑音の平坦
部の下限は各ダビング・バンドにおいてセツトさ
れる。第３に、２個のスペクトル間の差を測定す
るさい、スペクトル・ピークの近くで起るこれら
の差は強調され、低レベルでのスペクトル差はあ
まり強調されないので、重み関数値（第３段階で
アクセスされる）のテーブルが各帯域に対して準
備される。このテーブルに対する入力は案内ある
いはダビング・スペクトル・レベルの最大値であ
り、その出力はスペクトル差重み関数で使用する
のに適当な値である。これらの前記の手順は1976
年出版の「音響音声処理および音響信号処理に関
する国際会議の議事録」の第573頁−第576頁の
D.H.クラツトの論文「スペクトル・マツチング
のためのデイジタル・フイルタ・バンク」にアウ
トラインが記載されている手順に関連している。次に、１フレームの案内パラメータ・ベクトル
成分（すなわち、対数符号化されたバンドパス出
力）の入力値Ai（kT）はｇ inとして参照され、
同様に、ダビング入力成分Bi（jT）をｄ inとし
て参照される。特定のバンドおよびフレームはｇ
inおよびｄ inによつて示される。第１段階の
処理のために、次の処理ステツプがダビングおよ
び案内トラツクにおける各周波数バンドに対して
別々に（もし別の方法で説明されなければ）とら
れる。１ｇ inの第１の200のフレームを用いて、特
定の入力レベル対入力レベル（第１０図のブロ
ツク63および64）での発生の数の１〜100dBの
入力範囲で1dB中のビン（bin）のヒストグラ
ム（第１３図ａ参照）をつくる。同様にｄ in
のフレームについて同数のヒストグラムを作
る。２１入力以上を含み、また、１入力以上を含み
次の最高のビンから6dBをこえて下回ることが
ない最低のビン（すなわち、ヒストグラムの最
低入力レベル）を見つける。この最低のビンは
low minと識別される。３テスト・ビンの内容の合計と２つの隣接する
（上部および下部が隣接する）ビンが最大であ
るヒストグラム・ビンのためのlow minと
low min＋15（dB）間を増分的に検索するこ
とによつてヒストグラムの雑音の平坦部のピー
クを見つける。この最大値が最初low peakと
して発生するビンを識別する。この値はステツ
プ４およびステツプ６以下で使用される。４ダビングだけのため、low peak＋12（dB）
で音声／無声音スレツシユホールド値をセツト
する。この値はｄ sp thrとして参照され、
第３段階で使用される。（第１０のブロツク74
を参照）５次の手順によつて平均的ヒストグラム最大値
を決定する。 (a) 最高ビン（100dB）から開始して、少なく
とも３入力がある第１（最高）ビンのために
又は少なくとも１入力があり、このビン以下
3dB以内で少なくとも１入力を有する他のビ
ンがある第１のビンのために最低のビンの方
に下つて検索する。この規準に合致する最高
のビンをhigh maxとして示す。 (b) high maxで始まり、ヒストグラム分布
の５％あるいはそれ以上が累積される（たと
えば、もし200フレームが処理されるならば
10入力）まで、このビンの内容と連続的に低
くなるビンとが加算される。これは全体のヒ
ストグラム領域の５％に対応する。この条件
に合うか又はこれをこえるものは、high
minとして、当該ビンにマークをつける。 (c) 案内トラツク帯域に対してｇ high
avg、ダビングに対してｄ high avgとし
てマークが付されるビンの値を得るために
（high max high min＋１）／２の最高
整数部をhigh maxから引算する。それぞ
れの値は、その帯域に対して最高（たゞし、
必ずしもピークでない）ヒストグラム値に主
に関連すべきであり、音声信号より高い少数
の短いパルスによつて強く影響を及ぼされな
いようにすべきである。これらの値はステツ
プ６および７で使用される。６ダビングと案内間の長期間のスペクトル差が
取除かれ、案内およびダビングに共通な計算さ
れた雑音の平坦部以下に下がる入力値がスペク
トル距離計算に信頼性のない情報を与えないよ
うに、値の新しいセツトに値の案内トラツク入
力範囲を写像する第３段階で使用するため検索
テーブルをつくる。この後者の面は、無雑音で
ある音声スペクトル横断面と雑音がマスクされ
ている（すなわち、対応する音声帯域のいくつ
ものそれより高いスペクトル密度を有する雑音
を付加することによつてなまらせられる）同一
の音声信号のスペクトル横断面との間の不所望
な大きく相違しているスコアを得る恐れを取除
く。テーブルの値は次のステツプに従つて案内
入力値の関数を発生することによつて計算され
る。 (a) この帯域において値low peakを4dB上回
つて雑音平坦レベルをセツトする。案内帯域
に対してｇ nflrをこの値にセツトし、同様
にダビング帯域に対してｄ nflrを対応する
値にセツトする。（第１０図のブロツク67お
よび68を参照）。 (b) ダビング又は案内に適した（ダビングまた
は案内の）雑音の平坦レベルをhigh avgの
対応する値から減算することによつて帯域の
ダイナミツク・レンジを計算する。案内トラ
ツクに対してはｇレンジをその値にセツト
し、ダビングに対してｄレンジをその値に
セツトする。（第１０図のブロツク69および
70を参照）。 (c) もしｇレンジがｄレンジより小さいな
らば、新しい写像されたダビング雑音平坦レ
ベルを計算し、map ｄ nflr＝ｄ high
avg ｇレンジにする。もしｇレンジが
ｄレンジより大きいか等しいならば、map
ｄ nflr＝ｄ nflrにセツトし、ｇ nflr
＝ｇ high avg ｄレンジにセツトす
る。（第１０図のブロツク71を参照）。可変の
map ｄ nflrは入力ダビング値の下限とし
て第２段階において使用されている。 (d) いま、ｇ inとして参照されている生の案
内トラツク値を次の関数に従つて出力値に変
換するテーブルのための入力を計算する。ｇ to ｄ map＝ｇ in＋（map ｄ nflr ｇ nflr
）、ｇ nflr＜ｇ in＜100のとき。 map ｄ nflr 、１ｇ inｇ nflrのとき。（map ｄ nflr ｇ nflr）なる表現の式は、
ダビングおよび案内信号レンジの上部レベル間で
得られるダビングの差を補償するように一定のレ
ンジ・オフセツトを提供するものである。（第１
０図のブロツク72を参照）。７ステツプ6cで得られる正規化されたダイナミ
ツク・レンジの入力値を第３段階で計算される
スペクトル距離量を重みづけするさいに使用す
るための値Ｖ（こゝに、Ｖ＝０、１、２又は３）
に写像する第３段階で使用するための別の検索
テーブルをつくる。第３段階で、重みづけ関数
は１帯域の生のスペクトル差と関数2V(l)
（こゝに、ｌはｄ inと写像されたｇ inの
最大値をとることによつて得られるテーブルへ
の入力である）を乗算することによつて実現さ
れる。（第１０図のブロツク73を参照）。Ｖ(l)の
テーブルをつくるのに使用されるステツプは次
のようになる。 (a) ｇレンジとｄレンジの最小値を多数の
レンジ分割であるｎ divによつて割算し、
分割増分div incとしてその結果の最大の整
数値部をとる。 (b) １〜100のｌの入力値に対して、次の関
数に従つてＶ(l)のテーブルのための入力を計
算する。Ｖ(l)＝３（ｄ high avg div inc）２（ｄ high avg 2^*div inc）１（ｄ high avg 3^*div inc）０ｌ100 ｌ＜（ｄ high avg div inc）ｌ＜（ｄ high avg 2^*div inc）１ｌ＜（ｄ high avg 3^*div inc）前記の手順は共通のダイナミツク・レンジをｎ
divステツプに分割し、この共通のレンジ以上
および以下はＶの最高値および最低値にそれぞれ
に写像されている。重みのレンジより大きい（又
は小さい）ものを得るために、ｎ divは増加
（又は減少）され、前記に類似の関数は新しいＶ
(l)を得るために使用される。時間ひずみプロセツサ（TWP）発生アルゴリ
ズムの第２段階および第３段階が次に説明され
る。最も重要な変数およびアレイの定義が以下に
リストされる。変数定義 DSF ダビング開始フレーム数、すなわち第２
段階の始めで使用される。 DSTOPF ダビング停止フレーム数 NWDF ワーキング・ダビング・フレームの数、
すなわち各ダビングに関連するアレイに保持さ
れているダビング・フレーム・データのスロツ
トの数を規定する。 NDFR ダビング・フレームの現在の数を読み
込み第２段階でさらに処理される。さらに、第
２段階で処理されているダビング・フレームの
ｊの数を指示する。 GSF 案内トラツク開始フレーム数（＝１）。 GSTOPF 案内停止フレーム、すなわちTWRの
動作の停止を開始する。 NCGF 処理されている現在の案内フレーム数。 HPENSI 無声音として分類されるダビング・
フレームのための水平DPステツプ・ペナルテ
イ。 HPENSP 音声として分類されるダビングのた
めの水平DPステツプ・ペナルテイ。 LDPNSI ダビング無声音フレームのための下部
対角DPステツプ・ペナルテイ。 LDPNSP ダビング声音フレームのための下部
対角DPステツプ・ペナルテイ。 TH DPスコアを切除するさいに使用されるス
レシユホールド。 MAXRPT 無声音の切除操作が行なわれる前に
許される水平路の増加フレームの最大数。 PE 路配列における路の終了列。 PSTART 路配列における路の開始列。アレイ寸法 MNDF アレイに保持されるダビング・フレー
ムの最大数。典型的にはMNDF＝50 NPAR 使用されるパラメータ・ベクトル要素
の数。 MXPATH 路アレイに保持されている路セグ
メントの最大長。アレイ DCLASS（MNDF）−ダビング分類（音声又は無
声音） DFRNUM（MNDF）−ｊのフレーム数に対応す
るダビング・フレーム数。 DIST（MNDF）−DSTOREにおける各ダビン
グ・フレーム・パラメータ・ベクトルと現在の
案内パラメータ・ベクトル間のスペクトル距
離。 DSTORE（NPAR、MNDF）−ダビング・フレ
ームごとにNPAR要素を保持するダビング・
パラメータ・ベクトル・ワーキング・メモリ。 HPEN（MNDF）−DPステツプで使用される水
平ペナルテイ。 LDPEN（MNDF）−DPステツプで使用される下
部対角ペナルテイ。 HSU（MNDF）−音声に使用される水平DPステ
ツプ・フラグ。 PATH（MXPATH、MNDF）−各終了点まで
の最良の部分路。 SCORE（MNDF）−各部分路のために累算され
たスコア。第１４図において、３個の処理段階の動作は第
１、第２および第３の段階、およびがブロ
ツク75、76、77および78によつて表わされる全部
の時間ひずみ処理の流れ図に互いに関連して示さ
れている。第１４図が説明される前に、案内トラ
ツクおよびダビング・フイルタ・バンク出力を処
理する方法が説明される。次の説明において、案内およびダビング・フイ
ルタ・バンク出力値が容易に連続してバツフア・
メモリから使用可能にされ、案内信号のパラメー
タ化の終りに、変数GSTOPFは最後の案内フレ
ーム数にセツトされる。GSTOPEの設定を開始
する信号は後述の装置によつて導かれる。アルゴ
リズムが開始される前に、GSTOPFは動作が決
して及ばないようにある任意の大きい値に初期化
される。これに加えて、その期間が参照信号の期
間を越えて伸びる置換信号をそのシステムによつ
て適正に取扱うことができるように、ダビング信
号のパラメータ化およびダビング信号の蓄積は、
参照信号の信号終了（できるだけ早い）に実質的
に類似している信号終了を含むように十分長い期
間続くようにされる。この安全的処置はGSOPF
が既知になるとき、たとえば、記号DSTOPFを
導き、GSTOPFに一定数のフレーム（例えば、
200又は２秒のフレーム）を加え、次にダビング
処理がこのフレームの終りに対応する時間のその
瞬間まで続けることによつて達成することができ
る。記号GSTOPFは第２および第３段階（お
よび）の処理動作を終了させるために使用され
る。これに対し、DSTOPFは置換信号の入力お
よびパラメータ化を終了させ、処理中使用可能置
換データの終了を示すのに使用される。円形アレイを使用することはすべて別の議論を
必ず伴うけれども、これは非常に短い信号に対し
ては必要ない。第１４図に表わされる処理のいずれかが始まる
前に、ユーザは、DPステツプ・ペナルテイ
（HPENSI、HPENSP、LDPNSI、LDPNSP）
の値、切除のためのスレツシユホールド（TH）、
および、ダビング無声音フレーム繰返し計数スレ
ツシユホールド（MAXRPT）を選択（又は調
整）する。これらの値は一般に実験的に決定され
るものであり、また、これらは処理およびフレー
ム速度を発生するパラメータ・ベクトルの出力レ
ンジに依存する。所与の信号（テープ入力で発生される）でパラ
メータ発生プロセツサが開始される（ブロツク
790）。十分な数の生の案内およびダビング・パラ
メータ・ベクトルがいつたん、使用可能にされる
と（決定800）、段階（ブロツク75）は可能化さ
れ、スレツシユホールド変数およびマツピングと
後述される重みづけ関数アレイが生じる。次に段
階（ブロツク76）は、どちらが小さくても、第
１１図に示されるようにその最大長又は最後のダ
ビング・フレームまでアレイをプリロードするた
めに使用される。次に、段階はすべて関係する
カウンタをリセツトし、アレイ要素をクリアある
いはセツトすることによつてＡで開始される。最
後に主要な処理ループに入り、各案内フレームの
ために繰返される。このループを夫々に通過する
さい、段階のロード（ブロツク77）が試みられ
る（しかし、もしダビング・アレイにおける最も
古いスロツトがなお潜在的な路候補を含むなら
ば、これはなされない）。さらに、このループに
おいて、並列DPステツプが各アクテイブ路のた
めになされる段階の処理（ブロツク78）が行な
われる。また、特有な最良の路又は無声音のセグ
メントを出力するような１つの試みがなされる。
最後の案内フレームが処理されると、最良のスコ
アを有する残りの路セグメントが出力であり、時
間ひずみ処理は終了されることとなる。時間ひずみ処理の第２段階は、第１１図のブロ
ツク形および第１５図の流れ図で詳細に表わされ
ている。この段階はダビング・フイルタバンク出
力を前処理し、第３段階で行なわれるDPステツ
プで使用されるためのアレイに時間変化データを
ロードする。データがどのように準備されるかに
ついて影響を及ぼす決定および処理は第１の段階
で導かれる長期間のデータのいくつかに部分的に
基く。入力ダビング・フイルタバンク・データとアレ
イDSTORE、DCLASS、LDPEN、HPENおよ
びDFRNUMにロードされるデータ間の関係は第
１１図に機能的に示されている。アレイ（寸法
DWDFの）は循環的に取扱かわれて、音声とし
て分類される各ダビング・フレームに対しては１
度、また、連続するダビング・フレームが無声音
として分類されるときはフレームの１個おきに、
同じアレイ行インデクスでロードされる。ダビン
グ・フレームの分類（CLASSIFYとしるされて
いるブロツク79において行なわれる、すなわち音
声／無声音）は簡単な決定アルゴリズムに基づ
く。それによつて、もし、４個の生の入力ダビン
グ帯域のうちの２個がこれらの帯域（第１段階に
セツトする。すなわち、ｄ sp thr）に対して
それぞれのスレツシユホールド以上であるなら
ば、そのフレームは音声を含むものとして分類さ
れる。もしそうでなければ、それは無声音として
分類される。“下方範囲をクリツプする”としる
されているブロツク80において、生のダビング・
フイルタバンク値の各帯域はその帯域に対して対
応する写像された雑音の平坦性（第１段階で決定
されるmap ｄ nflr）と比較される。もしその
帯域の生の値がその帯域のmap ｄ nflr以下に
落ちるならば、その生の入力値はPSTOREの適
当なスロツトにロードされるmap ｄ nflrによ
つて置換される。対応するmap ｄ nflr以上の
ダビング帯域値は修正なしにDSTOREにロード
される。このステツプは、雑音マスキングの可能
性を除去し、案内およびダビング帯域ダイナミツ
ク・レンジを均一にする全動作の一部分である。 “LD−ペナルテイおよびHZ−ペナルテイの選
択”としるされているブロツク81において、非対
角的DPステツプ（第３段階で）のために加えら
れるペナルテイのためのユーザ入力値は選択され
るが、これは、対応するフレームが音声または無
声音のいずれであるかに基づくものである。音声フレームに対するペナルテイと比較される
ように無声音フレームに対する非常に小さいペナ
ルテイを用いて、路はダビングが無声音にある間
は非常に柔軟性に富むものであり、これは望まし
い効果である。比較的低い対角のペナルテイはわ
ずかに負にされるので、ダビング無声音における
最良の路は低レベル案内信号の間は４：１の傾斜
の方へバイアスされるが、これは、必要なとき
に、ダビングにおいて長いギヤツプを圧縮するた
めに有用である。第３段階で正しい時間ひずみ路ステツプを生じ
るさいに後で使用するためアレイDFRNUMにロ
ードされるように適当なフレーム数を生じる“ダ
ビング・フレーム・カウントの増加”としるされ
た他のブロツク82が示されている。最後に、“サンプリング速度の選択”としるさ
れているブロツク83では、現在とその前のダビン
グ・フレームが無声音として分類されていると、
ダビング・フレーム・データ（“サンプリングお
よび増分インデクス”としるされているブロツク
84を介して）のサンプリング比率を増加する。さもなければ、サンプリング比率は１：１のま
まである。これらの機能的ブロツクを実施するた
めに使用される特定のアルゴリズムは第１５図の
流れ図に示され、ダビング・クラスDCL、次の
ダビング・クラスNXTCLSおよび前のダビン
グ・クラスPRVCLSに作用する決定91、92、93
および94を含む。この段階が使用される前に、変
数NXTCLSはUNKNOWNに、PRCLSは
SPEECHに初期設定される。第３段階の詳細時間ひずみプロセスの第３段階において、ダイ
ナミツク・プログラミング（DP）アルゴリズム
は最良の時間ひずみ路および信号編集プロセスに
対応する入力のためのフレーム分類を生じるよう
に、加えられる水平路ステツプ制限および無声音
の切除動作に沿つて、窓の操作およびZIPアルゴ
リズムのそれに基づく路の切除操作と共に使用さ
れる。第１２図は主な処理動作および前に定義し
たデータ構造との相関関係を示すものである。第
１６図は主要な動作を要約する流れ図形である。
これらの動作は逐次的に実行され、必要な数のダ
ビングが第１段階および第２段階で処理される。第２段階中、アレイDSTOREは第２段階での
レンジ正規化動作によつてそのダイナミツク・レ
ンジにおいて減少されるように処理されたパラメ
ータ・ベクトルで満たされる。サンプリング比率
が増加される可能性のため、DSTOREにおける
ダビング・パラメータ・ベクトルは必ずしも厳密
には連続していない。しかしながら、DSTORE
における各ダビング・フレーム・パラメータ・ベ
クトルに対してDPステツプに使用されるべきで
ある適当なペナルテイおよび路を更新するさいに
使用されるべきである分類およびダビング・フレ
ーム数はアレイLDPEN、HPEN、DCLASSおよ
びDFRNUMにそれぞれに保持されている。
PATHアレイのすべての要素は一般に０に初期
設定され、スコア・アレイの上半分は所定の拒否
コードである一方、下半分は０スコアにセツトさ
れる。拒否コードはさらに処理される必要のない
要素を識別するために使用される。さらに、配列
HSUのすべての要素は偽の論理にセツトされる。アレイHSUは音声として分類されるフレーム
を有する路と共に許される連続水平ステツプの数
に対する制限を採り入れるために使用される。第
８図およびDPステツプ方程式についてみると、
ａ＝０ステツプは音声として分類されるフレーム
に対してだけ１回使用されることが許される。こ
の方法において、１／２（すなわち、２の展開係
数）の最小路係斜が音声の間は許される。第１２図および第１６図に示されるように、次
の動作は第１４図に示される処理ループを各々通
過するために一度実施される。（すなわち、案内
フレームごとに一度行われる）。１路端ポインタPE（ブロツク95、第１６図）を
更新する。２バツフアから次の生の案内パラメータ・ベク
トルを取つてきて、次の対応するｇ to ｄ
mapsを通して各成分を写像する。これは“レ
ンジの正規化および制限”としるされるブロツ
ク85で実行される。３正規化された案内フレーム・パラメータ・ベ
クトルと並行DPステツプの次のステツプにお
いて調査窓で必要とされるDSTOREにおける
各ダビング・フレーム・パラメータ・ベクトル
間の重みづけられたスペクトル距離量を計算す
る。これらの距離はDISTの対応するスロツトに
与えられる。これらの動作は、“重みづけられ
たスペクトル距離の計算”としるされているブ
ロツク86で行なわれる。４現在の検索窓の各有効のスコアおよび路のた
めに、最良のスコアを生じる路要素を見付ける
ようにスコアHSU、LDPEN、HPEN、
SCOREおよひDISTの適当なインデクスのそ
れぞれで水平ステツプ制限、ペナルテイ、スコ
アおよび距離を用いてDPステツプを計算する。
対応するダビング・フレーム数（DFRNUMか
ら）を有するPEでのPATHアレイおよび最良
のスコアを有するSCOREアレイで路端を更新
する。さらに、ダビング・フレームの分類で路
要素を示す。特有なものとして水平路制限をセ
ツトあるいはクリアする。これらの動作はDP
ステツプとしてしるされているプロセス・ブロ
ツク87ですべて行なわれる。５ SCOREにおける最良のスコアからスレツシ
ユホールド値（TH）以上離れているスコアで
路を切除し（すなわち、リジエクト）、切除さ
れたSCOREの各要素にリジエクト・コードを
与える。残りの（リジエクトされていない）ス
コアは次のDPステツプで路を拡張するのに使
用される検索部を規定する。この動作は“悪いスコアおよび対応する路の
切除”としるされているブロツク88で行なわれ
る。６もしPATHに残つている路が共通路セグメ
ントまで追跡される（すなわち、一致する）な
らば、その路の発散点までその路（および路に
おける対応する音声／無声音マーカ）を出力
し、PATHから共通路要素をクリアする。こ
れは“特有な要素の検出および出力”としるさ
れたブロツク89で行なわれる。７もしPATHに残つている分類路セグメント
が調査窓はダビング無声音の領域および
MAXRPTフレーム以上に対する案内フレーム
の比較的特徴のない領域を通過するということ
を指示するならば、最後の要素まで最良のスコ
アリング路（および対応する分類）まで出力
し、すべての他の路を取り除き、残りの路端要
素でDPアルゴリズムを再開始する。この動作
は”ダビング無声音における路セグメントの検
出および出力”としるされているブロツク90で
実行される。８もし最後の案内フレームが処理されるならば
（GSTOPFによつて指示される）、最良のスコ
アを有するその残りの路セグメントをさがし、
それを出力する。（このステツプは第１２図に
は示されていない）。この動作は時間ひずみ処
理を終了させる。前記の動作数３に対して、重みづけられたスペ
クトル距離を計算するための処理、すなわち、ス
ペクトル距離重み係数は案内フレームｋにおい
て、 Vi（kT）＝2^Vi(li) としてスペクトル帯域で定義される。こゝに、li
はｉ番目の写像された案内帯域値および
DSTOREからのｉ番目の正規化されたダビング
帯域値である。その結果得られるliは帯域ｉに対
して重み値のアレイVi（li）に対するインデクス
として使用され、ｉ番目のダビングと案内帯域間
の差の絶対値の２のべき乗の重みづけはスペクト
ル距離の全部にｉ番目の成分が寄与するように計
算される。スコア・アレイからのこのプロセス・ブロツク
へ導く付加データ路は、現在の検索窓で拒否され
るか又は作動されない拒否符号をつけた要素の検
出を許すので、不必要な距離計算が行なわれな
い。その動作数６は次のように簡単に実施される。
初めに、その残りの路セグメントの最初と最後の
要素を含むPATHの列が配置される。現在の路
セグメントの開始PSTARTを含む列のインデク
スおよび現在の路セグメントの終了要素PEを含
む列をコールする。MXPATHの路アレイにお
ける列の総数が与えられ、便宜上、擬似プログラ
ミング言語で表わされる次のアルゴリズムを使用
する。（注）£はコメントを示し、問題とその対
応する答（すなわち、YESおよびNO）は等しく
字下り（indent）にされる。ｉ＝PSTART £は列ポインタ・インデクス
ｉをセツトする。１すべての残りの路における同じ要素はｉにあ
るか YES：£路はこの列で特有である。路要素および分類を出力する。出力／拒否符号＝０を有する列ｉにおける
すべての入力をマークする。ｉ＝ｉ＋１。もし（ｉ MXPATH）がｉ＝１にセツ
トされるならば、もし（ｉ≠PE）が１に行
くならば、２に行く。 NO：£路はこの列で発散する。何か出力されたか（ｉ≠おSTART）。 NO：路アレイは満杯か。 YES：最良のスコアを有する最も古い路要素を出
力する。出力である要素と一致しない路を取除く。取除かれた路のためのスコア・アレイに距
否コードを付ける。ｉ＝ｉ＋１。もし（ｉ MXPTH）ｉ＝１ならば、２に行く。 NO：２に行く。 YES：２に行く。２ PSTART＝：ｉ £は次のパスのための
£の新しいPSTARTとして現在の列（£の可
能性のある路発散を有する）をとる。動作数７はこの実行に対して特有であり、次に
詳細に説明される。この動作を含む理由は使用さ
れるDP路発生ステツプの考察から得られ、第１
７図に関連して説明される。その第１７図は、
DPアルゴリズムが低レベル案内信号（案内雑音
平坦部で、または案内雑音平坦部の近くで）のい
くつかのフレームを通して進行し、対応するダビ
ング・フレームが無声音として分類された後、路
アレイの典型的な内容を概略的に表わしている。
案内フレームが低レベルにあるという事実は、案
内および無声音のダビング・フレーム間のスペク
トル距離量は非常に低いか、または０であり、し
たがつて、もしそうでなければ、通常検出できる
窓操縦を備える入力距離量およびスコアに特徴の
欠如を生じさせることを意味する。 DSTOREに記憶されているダビング・フレー
ムの位置は、ドツトによつて第17Pの垂直軸に示
されている。そして、交番的なｊの値でのダビン
グ・フレームは無声音の間に使用される。DPス
テツプの間に無声音において生じる路は一般にダ
ビング無声音のフレームの間により下方の対角線
へのDPステツプのバイアスにより４：１の傾斜
を有する。しかしながら、これらのステツプの間
に、各路に対するスコアは、無声音領域によつて
非常に柔軟性のある路を有することを許すために
極めてわずかに増加するかあるいは減少するかの
どちらかである（使用される低いペナルテイのた
め）。したがつて、最悪のスコアリング路のスコ
アは欄外に増加するのみであり、そのために、こ
れらの路はダビング無声音の間に一定のスレツシ
ユホールドの切除操作によつて一般に切除され
る。路の数は案内フレームごとに２個の割合で増
加し、したがつて、もし取除かれなければ、重大
で不必要な計算負担を負うことになる。ダビング
無声音において切除操作がないことに伴つて次の
ような事実が生じる。(1)最低路（例えば、第１７
図におけるｄからｅまで）は通常繰返されるフレ
ーム数を増大する。(2)最も早く上昇する路（例え
ば、第１７図におけるａからｃまで）は最低路
（すなわち、第１７図のｂからｃまで）における
繰返されるフレームに対応する路のセクシヨンに
対して約４：１の傾斜を有する。これらの事実の
結果、実施される分類に依存するDPアルゴリズ
ムを有するダビング無声音の間に路調査の形をと
つて現われる三角形状の路ビーム特性を生じる。
最も重要なことは、ペナルテイのあるものは負で
あるため、最良のスコアは必ずしも最適路を示さ
ないけれども、そのようにみえる。スペクトル距離量が、音声は前記の切除操作お
よび窓操作を作動するのに十分大きいスコア変化
で明らかにされる第１７図のｃあるいはｅのよう
な点で遭遇されるということを指示しないかぎり
では、この領域をとる路は一般に任意であるとい
うことである。最適な路は次のステツプ（PE＋１で）に入る
ことが確実には要求されないけれども、それにも
かかわらず、現在のDPアルゴリズムの特性を考
慮して最良の路の選択がされる。一般に、とるべ
き最良の路は最良のスコアを有する路である。し
かしながら、もし後述の手順が実施されるなら
ば、最良のスコアを有する路は大抵の場合最も高
速に上昇する路である。第１７図の例から、もし
次の案内フレームにPE＋１での路拡張を生じさ
せるものは音声であり、また、ｃ後の次のダビン
グ・フレームが次の案内フレームに対応する音声
フレームであるならば、示される最上位の路は案
内の路よりほぼ４倍長の無声音のギヤツプを圧縮
することになる。代替的に、もしダビングおよび
案内スペクトルが特徴もなく続くならば、DPア
ルゴリズムは点ｃでダビング・フレームを繰返す
路およびｃから４：１の割合で生じる路を同時に
調査し続けるので、最上位の路を除くすべての路
を放棄し、点ｃからのDPアルゴリズムの再開始
する故に、調査能力においていかなる損失もな
い。したがつて、この手続は期間tgのダビング無
声音ギヤツプを通して路を有効にみつけることが
でき、tg／４から∞までの期間の案内トラツクに
おける対応するギヤツプにそれを適合させる。前記の条件でダビング無声音を検出し出力する
のに使用される技術およびアルゴリズムが次に説
明される。RPTCNTとして最低路（繰返しとし
て第１番目の路を計数しない）に沿つてPEから
戻る繰返しフレームの数を規定すると、もし最高
路がダビング無声音の領域を通つて進むならば、
とることができる垂直ダビングフレーム・ステツ
プの最大数は４倍されたRPTCNTである。しか
しながら、すべてのステツプは４：１ステツプで
あることは期待されないし、２、３の小さいステ
ツプによつて、最も高速で生じる路に含まれるこ
とが許され、さらになお最大の増加によつてダビ
ング無声音領域のインジケータであるべきことを
許す４：１以下の平均傾斜に基づくｊのダビン
グ・フレームのスレツシユホールド数の増加を規
定することが好ましい。3.4：１の平均傾斜はそ
の路が無声音によつて生じる相応なインジケータ
である。次のようなアルゴリズムは再び擬似プロ
グラミング言語で説明される。 PEから戻つてPATHにおける最低の路の繰返
し要素数を計数する。この数をPRTCNTとする。（RPTCNT＞MAXRPT）であるか。£ 十分
長いギヤツプ。 £は調査されたか。 NO：戻り YES：もし上部の路が重要な特徴をみつけるこ
とができないならば、その路がRPTCNTフレ
ームに生じるフレーム（MNFRMS）の最小値
を計算する。 MHFRMS＝3.4^*RPTCNT。 PEでのダビング・フレーム数とPE−
RPTCNTでのダビング・フレーム間の上部の
路におけるフレームの実際のスパンNSPANを
計算する。（NSPAN＞MNFRMS）か。 YES：£ 次に特徴のない領域が調査される。最良のスコアをさがし、PEでの要素を含まな
いところまでの対応する路を出力する。 PEにおける最良の路端を除くすべての路要素
をクリアする。最良のものを除くあらゆるSCORE要素に拒否
コードを与える。戻り。 NO：戻り。ダビング編集プロセツサ第６図の“編集データの発生”としるされてい
る処理ブロツク49の目的はデイスクに記憶されて
いるダビング波形を編集するための全体の命令と
して時間ひずみ路および路要素の対応する音声／
無声音分類を使用することであり、さらに、正確
な編集命令（要求されると）をピツチ期間データ
およびダビング波形細部から導くことである。波
形の最終編集は編集データによつて規定されるセ
グメントにその信号を単にフエツチし、次のよう
な特性を有する編集されたダビング波形を一緒に
結合する“波形編集”としるされているプロセ
ス・ブロツク51で実行される。 (1) 時間ひずみ路のすべてのフレームに対して、
ひずみ路によつて指示されている時間領域にお
けるダビング波形の近似的なフレーム長セグメ
ントが出力である。 (2) ひずみ路における無声音として分類される各
フレームに対して、真（デイジタル０）の無声
音のフレーム長期間はダビング波形を置換する
ための出力である。 (3) ダビング波形フレーム（時間ひずみ路によつ
て特定されるように）の削除又は反復は有声音
におけるピツチと同期して実行される。すなわ
ち、削除される波形セグメントまたは繰返され
る波形セグメントはひずみ路およびロードされ
る最後の出力サンプルの要求を最良に満足する
長さにおけるピツチ期間の整数である。 (4) 一緒に接続される隣接しない波形セグメント
の端点は認識される不連続性を除くように一致
させられる。前記文節の(1)と(2)で引用された動作例は第１８
図に表わされている。あらゆる案内フレームｋに
対して、ダビング・フレームｊ＝Ｗ（kT）があ
る。第１８図において、路Ｗ（kT）は、もし
openがダビング・フレームが無声音分類を有す
ることを指示するならば、もしionならば、DEV
は指示されているようにDEV＝TESIIW−
TESIOW＋LESIOW−LESIIWとして計算され
るDESとして定義される一連の接続ドツトとし
て（ｋ、ｊ）面に示される。（例えば、ある音声
フレームは１回しかくり返されることがなく、ま
た、どの音声フレームでもいずれのステツプでも
スキツプされることはない。）これは編集プロセ
スをかなり簡単にする。ｊ軸に隣接して、典型的なダビング時間波形、
x₂（t′）はＴ秒のフレーム期間の終りで整列され
る各ダビング・フレーム数ｊと共に図示される。
それによつて、波形セグメントとフレーム数との
対応を固定する。ｊのフレームがスキツプされる
路Ｗ（kT）の点で、“Ｘ”は削除のため波形セク
シヨンにマークを付ける。同様に、二重矢印が反
復のためセグメントにマークを付ける。ダビング波形セグメントは選択波形セグメント
とデイジタル無声音（すなわち、０）から、X₂
（t″）とラベルを付けられる編集されたx₂（t′）を
図形的に（いかなる不連続性も無視する）再構成
するようにｋ軸（破線によつて区分されているセ
グメントによつて表わされるように）に隣接した
時間軸t″に投影される。このような再構成の結果
生じる不連続性は知覚的に受け入れることができ
ない。したがつて、次の技術はこの問題を軽減し
なお主要編集データとして時間ひずみ路の密接な
追跡を続けるものである。次の数量は編集プロセスを説明するさいに使用
するため定義される。定数 SMPRAT−記憶されたダビング波形のサンプル
率。 LENFRM−サンプルにおける波形フレームの長
さ。 ETIS−サンプル（＝LENFRM／２）における
編集スレツシユホールド。フレーム率変数 NG−（現在の）案内フレーム数（ｋに対応）。 ND−フレームNGにおけるひずみ路から得られ
る（現在の）ダビング・フレーム数（ｊに対
応）。 DCL−ダビング・フレームNDの分類。 PRVND−NG−１でのひずみ路からの前のダビ
ング・フレーム数。 PRVNCL−前のダビング・フレームPRVNDの
分類。サンプル率変数 TESIIW−入力（未編集ダビング）波形における
ターゲツト終了サンプル。 LESIIW−入力波形におけるロード終了サンプ
ル。 TESIOW−出力（編集ダビング）波形における
ターゲツト終了サンプル。 LESIOW−出力波形におけるロード終了サンプ
ル。 INCSMP−前から現在までの入力波形ターゲツ
トのサンプルにおける増分。 DEV−もし、次のフレームが現在のLESIOWの
あと、長さLENFRMでロードされるならば、
その結果生じるであろう出力波形終了サンプル
とターゲツト終了サンプル間のサンプルにおけ
る偏移。編集のさいに含まれる基本動作は第２０ａ，
ｂ，ｃ図に流れ図の形で示されている。第１８図の例からわかるように、時間ひずみ路
Ｗ（kT）は波形セグメントのサンプルにおけるタ
ーゲツト終了点の２つの組をLENFRM＝T^*
SMPRAT（長さにおけるサンプル）と定義する
（第２０ａ図も参照）。これらの第１は出力（編集
されている）波形におけるターゲツト終了点サン
プル数である。こゝで、案内フレームNG（＝ｋ）
におけるセグメントを終了させる。したがつて、もし信号がサンプル１で始まるな
らば、すなわち、ｋ番目のフレーム数がｋ番目の
セグメントの終了を指定するならばLENFRMは
出力波形におけるサンプル数k^*LENFRMであ
る。特定のフレームｋに対して、出力波形におけ
るターゲツト終了点サンプルはTESIOWとして
参照される。同様に、ｊ＝Ｗ（kT）としてひずみ路から得ら
れるダビング・フレーム数ND＝ｊはさらに、サ
ンプル数j^*LENFRMでの入力（未編集）波形セ
グメント終了点を指定する。ｊの特定のフレーム
に対して、入力波形におけるターゲツト終了サン
プルはTESIIWとして参照される。もし、編集プロセスが第１８図に例としてあげ
てあるように出力波形を単に生じることであるな
らば、その差（TESIIW−TESIOW）はいかな
るフレームに対しても０に等しいということはあ
りえない。したがつて、出力および入力波形にお
ける実際の終了点とターゲツトの終了点間の偏移
がいくつかの所定のステツシユホールド値より大
きくなるまで、編集プロセスは入力波形の連続的
なセグメントをフエツチすることを試みるように
設計されている。次に、編集プロセスは
TESIIWSのシーケンスで規定されるセグメント
境界で必ずしも終了しなくて、各ロード・セグメ
ントの終了サンプルがTESIOWのシーケンスに
よつて規定されるセグメント境界で必ずしも起ら
ない出力波形を形成するようにこれらのセグメン
トを結合するセグメントをロードすることができ
る。この引き続く偏移を計算するために、２個の
別の変数が導入される。これらの別異の２個の変数のうちの第１の
LESIOWは出力波形における実際の最後のロー
ド終了サンプルを参照し、出力信号を含む第１の
サンプルから計数され、最後にロードされたセグ
メントの終了でみつけられるサンプル数である。
同様に、第２のLESIIWは、入力波形におけるロ
ード終了サンプルを参照し、含まれる第１の入力
サンプルから計数され、出力波形信号バツフアに
最終にロードされるサンプル数である。これらの４つの変数、TESIOW、TESIIW、
LESIOW、LESIIWで、入力波形セグメントのど
れでもが出力波形のどの位置でもロードされたあ
と存在するＷ（kT）によつて規定される“ターゲ
ツト”波形からの偏移をみつけることは可能であ
る。DEVとして規定されるこの偏移は第２０ｂ
図のブロツク96に示されるように、 DEV＝TESIIW−TESIOW＋LESIOW−
LESIIWとして計算され、もし最後にロードされ
た波形終了サンプルが出力バツフアのその目標と
した位置を越えるならば、正である数（サンプル
において）を供給する。同様に、もし最後にロー
ドされた波形終了サンプルが出力バツフアのその
目標とした位置に達しないならば、DEVは負で
ある。偏移は、もしＷ(k)＝Ｗ（ｋ＋１）−１なら
ば、各ｋを変化することができるとすると、出力
波形はフレーム・バイ・フレームで組立てられ、
偏移は、各々の新しいセグメントがロードされる
前に計算される。もし、LESIIWのあと次の
LENFRMサンプルを次のLESIOWの出力波形の
位置にロードすることから生じる偏移の大きさは
ETIS（サンプルにおける編集スレツシユホール
ド）として規定される最大許容偏移より大きいな
らば、編集動作は第２０ｃ図に示されるように
YESの解答に続いて第２０ｂ図の決定97に対し
て適用される。音声として分類されているダビング波形のセグ
メントにおいて、もしセグメントが有声音を含む
ことが見出されるならば、編集動作はピツチと同
期して行なわれる。必要な動作は下記に説明され
る。第１９図の例に関して、ａで示されている入
力波形（未編集ダビング）はLENFRM＝100ご
とにサンプルに番号がつけられた軸上の周期性音
声を表わす。第１９図のｂにターゲツト終了サン
プルが示されている。そして、100の300への典型
的スキツプはTESIIWに対して示されるけれど
も、TESIOWはこのジヤンプをしない（できな
い）。もし第１のロードに対する偏移がLESIIW
＝100およびLESIOW＝100を使用して試験され
るならば、DEV＝０になる。したがつて、いか
なる編集も必要とされないし、このセグメントは
第１９図ｃで示されるように出力バツフアにロー
ドされる。しかしながら、第２のフレームにおい
て、もしLESIIW＝200でロードされ、次に
LESIIW＝300でロードされるならば、TESIOW
＝200およびLESIOW＝200、スキツプを指示す
るDEV＝100はTH＝50のスレツシユホールド以
下にDEVを減少するようにされる。この編集をするためにとられる一般的手順は以
下のようになる。 (1) 現在のLESIIW（第１９図のａにおけるサン
プルｑでの）に続く次の３個のフレームは検査
のために出力バツフアhqfta GESIOW（ｑ′で
の）にロードされる（第２０ｃ図のブロツク98
参照）。サンプルにおけるこの余分のセグメン
トは入力バツフアにおける点ｓから点ｕまでで
あり、ｓ′からｕ′まで出力バツフアにロードさ
れることが示されている。 (2) 現在および次のフレームに対する波形期間は
出力バツフアの波形を用いて測定され、その結
果（サンプルにおける）は変数PERIODに割
当てられる（第２０ｃ図のブロツク99参照）。
その期間をみつけるのに使用される計算方法
は、後述されるL.ラビンナとR.シヤアフアによ
る「音声信号のデイジタル信号処理」の第４章
におけるいくつかの他の等しく有用である技術
と共に詳細に説明されている平均量差関数（又
はAMDF）の方法である。 (3) サンプルNPOPTにおける積分波形期間の最
適数は、式｜DEV−NPOPT｜が最小にされ
るようにして見出される（第２０ｃ図のブロツ
ク100を参照）。これはスキツプ（すなわち削
除）されるべきサンプルの理想数とされる。
（注：もしDEV＝０ならば、さらにNPONTは
繰返されるべき期間の最適数を示す負数であ
る。） (4) LESIOWに最も近い零交叉点をさがし、第
１９図のｄで示され、また、第２０ｃ図のブロ
ツク101で示されるようにZCR１としてこの点
にマークをつける。 (5) この点から、ZCR１でみつけられる点の方
向と一致する零交叉のため一時的にロードされ
る波形の（NPOPT＋ZCR1）に位置にあるサ
ンプルのどちらかの側を探索する。この第２の
零交叉がみつかる点をZCR２としてマークを
つける。示されている例において、この点は
ZCR１（第２０ｃ図のブロツク102）から約１
ピツチ期間はなれたサンプルで見出される。 (6) ZCR２（すなわち、ZCR2＋１からｙ′まで）
に続くLENFRMサンプルからなるセグメント
は、第１９図のｅおよび第２０ｃ図のブロツク
103で示されるようにZCR1＋１（したがつて、
一時的データを書きすぎる）でのサンプルで始
まるように出力バツフアに転送される。これは
必要とされるピツチ同期編集動作を終了する。ｙ′でのサンプル数は次に、現在のLESIIW
とされ、入力信号の対応するサンプルｙはその
フレーム（第２０ｃのブロツク104を参照）に
対して現在のLESIIWとされる。いま、説明されたロードに続いて、その例で試
験される次のロードは｜DEV｜ETISであること
を示す。したがつて、入力波形（すなわちｚに）
のｙに続く次のLENFRMサンプルは第１９図の
ａおよびｅでそれぞれに示されるように編集され
ないでｙ′（すなわち、ｚ′に）に続いて出力バツ
フアにロードされる。もしDEV０ならば、もしNPOPTが負の値を
とることが許されるならば、さらに前記の手順が
継続する。それによつて、それはZCR２に対す
る検索はZCR２で始まり、ZCR１でのサンプル
のあと繰り返されるセグメントに対するサンプル
（ZCR1＋NPOPT）（すなわち、ZCR１の左へ）
のまわりでされることを示す。フレームごとのDEVを試験するプロセスは全
時間ひずみ路のために続く。しかしながら、信号
期間の測定が精査の下でのセグメントは無声音で
あるということを示すとき、特別な動作がされる
（第２０ｃ図の決定105を参照）。この状態が生じ
ると、スキツプ（又はリピート）されるサンプル
数NPOPTはDEVに等しくセツトされ、前記の
手順はステツプ４から続けられる。最後に、出力
されるセグメントが無声音として分類されると、
さらに動作上の差が生じる。この場合において、
デイジタル無声音（すなわち、０のフレーム）が
入力波形を置換するように使用されるため、
LESIIWは前のTESIIWと現在のTESIIW間のサ
ンプル上の差によつて増分される。したがつて、
偏移を一定にする。これは第２０ｂ図の決定108
および109に続く第２０ｃ図のブロツク106および
107で示されている。編集プロセス全部の流れ図は第２０図に示され
る。含まれている特徴（前に説明されていない）
はフレームのために計算された偏移が、編集が要
求されることを示すならば、第２０ｂ図の決定
110、すなわち次のフレームに対する偏移が計算
され、次のフレーム（現在のフレームで行なわれ
る編集もされないで）における偏移が編集スレツ
シユホールド、すなわち決定97以内にあるなら
ば、いかなる編集動作も現在のフレームで行なわ
れない“先回り”試験である。いくつかの簡単な修正が音声−無声音および無
声音−音声のフレーム境界での不連続の機会を減
少する前記の基本動作に対してなされる。例え
ば、音声フレームｊがもし無声音として分類され
るフレームｊ＋１に先行するならば、フレームｊ
＋１の実際の信号内容はデイジタル無声音の代り
に出力され、フレームｊ＋１における波形を通し
て後方への走査は第１の零交叉位置に位置付けさ
れる。次に、この位置からフレームｊ＋１の終り
までのすべての点はデイジタル０にセツトされ
る。交番的に、０への簡単な線形交叉フエードは
フレームｊ（又は、もし使用されるならば、ｊ＋
１）の終りで導入される。同様に、もし無声音が
フレームｊでの音声によつて継続されるならば、
フレームｊ−１は無声音の代りに出力され、フレ
ーム（ｊ−１）の始まりから最初の零交叉（又は
線形クロスフエード）までの波形を０に合わせる
ことが再び実行される。前記の説明で、出力波形は各フレームでの偏移
DEVの計算の結果にしたがつてフレーム・バ
イ・フレームに基づいて発生されるけれども、さ
らに、編集データから入力波形のサンプルのため
にポインタのテーブルを形成することができる。
そして、これらのポインタはシステム・メモリに
またはデイスク上で保持される。ポインタは再生
動作中フエツチされるべきであるセグメントの開
始および終了サンプルを示し、さらに出力される
べきであるデイジタル無声音のセグメントの位置
と期間を示すように使用される。したがつて、新
しい波形よりむしろ編集命令リストが発生され、
かなりのデイスク・スペースは非動作上の欠点と
共に節約される。第６図に関して前記で説明されているように処
理動作は調整され、およびまたは、第２図に示さ
れているハードウエアで作動するソフトウエアを
使用して次のように実行される。オペレータ・インタフエーシング、システム・
コントロール、および、信号編集のための別々の
手順は、元来はRATFOR（推論FORTRAN）言
語で書かれていて、ANSII FORTRAN−77コ
ードを生じるようにRATFORプリプロセツサに
よつてほん訳される。このソース・コードは再配
置できるオブジエクト・コードの形で個々のプロ
グラム・ユニツトを生じるようにインテル
FORTRAN−86コンパイラによつてコンパイル
される。適当な装置ドライバー、入出力システ
ム、オペレーテイング・システムの核と共にこれ
らのプログラム・ユニツトはインテルRMX−88
インタラクテイブ構成ユーテリテイを使用してロ
ード可能であるタスク・システムに構成される。
このシステムはアプリケーシヨン・タスクおよび
オペレーテイング・システムが走り、それが
SBC１（例えば、デイスク・フアイルから）の
ランダム・アクセス・メモリ（RAM）にロード
される実時間マルチタスキング環境を支持するの
に適当をソフトウエアを含む。タスクが走つてい
るとき、その優先順位は、オペレータ通信、マグ
テツク信号検出および制御、信号デイジタル化、
デイスク上の信号記憶、信号編集、SBC２との
通信がすべて同時に行なわれるように見えるよう
に配置される。もつと詳細に、これらの手順は、割り込み線に
受信される信号のような実時間イベント、したが
つて、サービス特定の外部イベントにただちに応
答する割込みサービス・ルーチン（ISR）、また
は、応答のもつと複雑なセツトのための処理装置
の動作を交換する割込みタスクのどちらかによつ
て処理される。SBC１での処理はMTE152プロ
セツサ１５からのマスタ録音（オン）信号の受信
のさい始まりしたがつて、割込みタスクに分類さ
れる。起動手順の中には次のようなものがある。
SBC１とSBC２間のメモリ写像されたフラグを
介して時間ひずみ処理装置を起動し、Ａ／Ｄ−Ｃ
バツフア・ハードウエア割込みを可能化し、マス
タ録音（オフ）における終了手順を可能化し、編
集プロセツサを起動する。編集プロセツサ（これ
もSBC１における）は同じタスクの一部として
作動するが、データが処理のために使用可能であ
るかどうかを確めるようにメモリマツピングを介
してSBC２上のポインタを調べ、さらに、書き
すぎをされる未処理データを中止するように
SBC２のメモリにポインタをセツトする。Ａ／Ｄ−Ｃバツフア・メモリからデイスクへの
データの転送は、Ａ／Ｄ−Ｃバツフア完全ハード
ウエア割込信号に応動し、適当なメモリおよびデ
イスク・アドレスをデイスク・コントローラに送
る割込みタスクによつて処理される。そのデイス
ク・コントローラは順番に作動し別のプロセツサ
調停なくして直接メモリ・アクセスによつてデー
タ転送を監視する。終了手順は、マスタ録音信号が作動しないよう
な動作を開始し、再びメモリ写像されたポイント
およびＩ／０ポート・ハンドシエイクはこの段階
の間のボード内部通信を維持する。 SBC２上の時間ひずみプロセツサ（TWP）は
RATFORで書かれ、前処理され、コンパイルさ
れ、デイスクからSBC２のRAMにロード可能で
あるシンプラ（simpler）、すなわち単一のタス
ク・モジユールに構成される。このボード上のタ
スクがいつたん開始されると、TWRを開始する
ためＩ／０ポートを介してSBC１から割込みを
受信するために待機する。TWPが始まつたあと、
パラメータ・バツフア・フル・ハードウエア割込
みが可能化され、これらのバツフアを空にして
SBC２のオン・ボード・メモリに入れることは
ISRを介してなされる。時間ひずみ路は前記で説
明したようにメモリ・マツピングを介してSBC
１に移され、TWP終了信号はＩ／Ｏ割込みおよ
びメモリ写像されたフラグを介して移される。第２１図は第２図および第３図のＡ／Ｄ装置２
８およびＤ／Ａ装置２９の詳細ブロツク線図であ
る。第３図に使用される参照数字はこれらの対応
する要素について第２１図で適用される。第２１
図は12.288MHzで動くクロツク発生器１１１を含
むように第３図の制御部３２を示す。さらに、装
置２８および２９は、もし必要ならば、マイクロ
ホンＨからのデイジタル化信号がＤ／Ａ変換装置
に送られることができるループ論理およびミユー
ト論理を含む。マイクロホン入力と第２図のダビ
ング・パラメータ抽出プロセツサとの結合はま
た、第２１図に示されている。マイクロホン入力
は第２１図にチヤネルＡオーデイオと指定された
チヤネルを通してMS2003デイジタル・フイルタ
およびプレシー社製の検出器（FAD）の形でフ
イルタバンク（図示されていない）に移される。
前記検出器（FAD）は、ブイテイツシユ・テレ
コム社のライセンスの下に英国のプレツシイ社p.
l.cによつて製造されたものであり、英国、ノー
サント、タウセスタ、カスウエルの、プレツシ
イ・リサーチ（カスウエル）社のアレン・クラー
ク・リサーチ・センタによつて発行されたプレツ
シイ・データ・シート公開誌第P.S.2246号に記述
されている。第２１図に示されるチヤネルＢオー
デイオは第２図と第４図の案内トラツク・パラメ
ータ抽出プロセツサ４３へのチヤネルである。第
２のMS2003デイジタル・フイルタおよび検出器
FAD２は第４図に示されるデイジタル・フイル
タバンク５７を構成する。チヤネルＡとＢは第２１図に示されているよう
に最終段としてそれぞれのバツフアを有しこれら
のバツフアからの出力は差分であり、これはオー
デイオ出力バツフア４１の場合のようにバツフア
段から２重線で示される。制御回路におけるそし
て制御回路の要素から制御される装置への内部接
続は簡単な又は複雑なバスでされる。第３図の大
容量バツフア３０は共通データおよびアドレス・
マルチプレクサを有する２つのメモリバンクＡお
よびＢのように配置される。パラメータ抽出プロセツサ４２および４３の
各々において、LOGとしるされている各ブロツ
クによつて実行されるプロセスは、この例におい
て、PROM（プログラム可能な読出し専用メモ
リ）における検索テーブルからのアドレス指定で
あり出力である。スイツチ５８はマルチプレクサ
である。先行技術の時間ひずみおよび言語認識の別の報
告が、1981年５月に発行された「通信に関する
IEEEトランザクシヨン」第COM−29巻、第５
号、第621頁−第659頁のL.R.ラビンナとS.E.レビ
ンソンの論文「分離され、接続された言語認識−
理論および選択応用」になされている。