JP4725948B2

JP4725948B2 - テキストのディスプレイとオーディオの再生とを同期させるためのシステム及び方法

Info

Publication number: JP4725948B2
Application number: JP2004296854A
Authority: JP
Inventors: マイケル・ルーク; ロバート・ロウ; ステイーブン・バン・ドカムバーグ
Original assignee: Agfa Healthcare Inc
Current assignee: Agfa Healthcare Inc
Priority date: 2003-10-08
Filing date: 2004-10-08
Publication date: 2011-07-13
Anticipated expiration: 2024-10-08
Also published as: US7346506B2; JP2005115391A; EP1522989A1; US20050080633A1

Description

本発明は、一般に言語認識に分野に関し、特に校正目的でテキストのディスプレイとオーディオの再生とを同期させることに関する。

言語認識システムにおける校正装置は、テキスト文書の校正と補正とを容易にするために、オーディオ及びテキストの両者を一語ずつ示す。単語が示されたとき、使用者は、再生を停止させ、そして関心のある部分を変更し又は修正するための選択肢を持つ。多くの市販の製品は、書写における誤りの識別について使用者を支援するために、オーディオが再生されるときにテキストと組み合わせて使用者に可視の合図を提供する。例えば、特許文献１は、組み合わせられたオーディオが再生されるときに単語を強調するシステムを明らかにする。しかし、このようなシステムは、認識されない単語の場合はうまく実行しない。このような場合は、一度に１個の単語しか強調されないため、認識されない単語のあるときは、強調されず、使用者はテキスト内のその単語の場所を見損なうであろう。

更に、大多数の用途においては、オーディオとテキストとの整合を提供するために使用される整合アルゴニズムにはかなりの制限がある。例えば、英国のドルフィン・オーディオ・パブリッシングにより製造されたEasePublisher^ＴＭは、同期するオーディオ／テキスト再生装置を持つ。これは、「あなたが聞くのと同期して」又は「あなたが話すのと同期して」テキストにオーディオを入れると吹聴するが、これらの機能の各は、使用者が同期点を手操作で特定することが必要である。また、米国ワシントン州シアトルのスプレックス・インクの製品ＬＳＭ^ＴＭは、サーバーにオーディオ及び平易なテキストファイルを提供する。この機構は、オーディオの正確なテキスト表現を提供することが重要であるため望ましくない。
米国特許第５，０３１，１１３号明細書

上述の諸問題は、請求項１において説明された特別の特徴を有するシステム及び請求項１１による方法により解決される。本発明の好ましい実施例についての特別な特徴が従属請求項において説明される。

本発明は、一態様においては、使用者により話された言語を含んでいるオリジナルオーディオファイルから認識されたテキストのディスプレイと、オリジナルオーディオファイルの再生との同期を提供するためのオーディオ処理システムであって、
（ａ）オリジナルオーディオファイルから認識されたテキストピース及び組み合わされたテキストピースを作るための言語認識モジュール；
（ｂ）オーディオピースを統合オーディオファイルに統合するための無音挿入モジュール；
（ｃ）オリジナルオーディオファイル及び統合オーディオファイルを、無音の検出されたオリジナルオーディオファイル及び無音の検出された統合オーディオファイルに変換するための無音検出モジュール、この場合、無音グループ及び非無音グループは閾値音量を使用して識別され；
（ｄ）前記無音挿入モジュールであって、更に
（ｉ）無音の検出されたオリジナルオーディオファイルと無音の検出された統合オーディオファイルとを比較し、そしてそれぞれのファイル内の非無音グループの位置の差を決定し、
（ii）無音の挿入されたオーディオピースの統合がオリジナルオーディオファイルに実質的に相当する統合された無音の挿入されたオーディオピースファイルを生むように、無音の挿入されたオーディオピースを作るために（ｉ）において決定された位置の差に従ってオーディオピース内に無音を挿入し；更に
（iii）オリジナルオーディオファイルから認識されたテキストピースのディスプレイと、オリジナルオーディオファイルからの組み合わせられたオーディオピースの再生とを同期させるために、無音の挿入されたオーディオピース及び組み合わせらたれ認識されたテキストピースの特性を利用する
ようにされた前記無音挿入モジュール
を備えたシステムを提供する。

使用者により話された言語を含んでいるオリジナルオーディオファイルから認識されたテキストのディスプレイとオリジナルオーディオファイルの再生との同期を提供するためのオーディオ処理方法であって、
（ａ）オリジナルオーディオファイル内の話された言語を認識し、そして認識されたテキストピース及び組み合わされたオーディオピースを作り；
（ｂ）オーディオピースを統合オーディオファイルに統合し；
（ｃ）オリジナルオーディオファイル及び統合オーディオファイルを無音の検出されたオリジナルオーディオファイル及び無音の検出された統合オーディオファイルに変換するために無音検出を適用し、この際、無音グループ及び非無音グループは閾値音量を使用して識別され；
（ｄ）無音の検出されたオリジナルオーディオファイルと無音の検出された統合オーディオファイルとを比較し、そして無音の検出されたオリジナルオーディオファイル及び無音の検出された統合オーディオファイル内の対応している非無音グループの位置の差を決定し、
（ｅ）無音の挿入されたオーディオピースの統合が、オリジナルオーディオファイルに実質的に相当する統合された無音の挿入されたオーディオピースファイルを生むように、無音の挿入されたオーディオピースを作るために、無音の検出されたオリジナルオーディオファイル及び無音の検出された統合オーディオファイル内の対応している非無音グループの位置の差に従ってオーディオピース内に無音を挿入し；更に
（ｆ）オリジナルオーディオファイルから認識されたテキストピのディスプレイと、オリジナルオーディオファイルの再生とを同期させるために、無音の挿入されたオーディオピース及び組み合わせらたれ認識されたテキストピースの特性を利用する
ことを含んだ前記方法。

本発明の更なる利点及び実施例は、以下の説明及び図面から明らかとなるであろう。

最初に図１及び２を参照すると、それらは、一緒に、本発明の好ましい実施例に従って作られたオーディオ処理システム（audio processing system）１０の基本要素（basic elements）と処理段階（processing stages）とを図解している。該オーディオ処理システム１０は言語認識モジュール（speech recognition module）１２，無音検出モジュール（silence detection module）１４、無音挿入モジュール（silence insertion module）１６そして再生デバイス（playback device）１８を有する。示される様に、使用者３はターミナル５と組み合わせられたマイクロホン４に話し、この言語はオリジナルオーディオファイル２５として記録される。該結果のオリジナルオーディオファイル２５は、（テキスト、オーディオ）要素｛（text, audio）elements｝を発生するために言語認識モジュール１２により解析される。無音挿入モジュール１６と無音検出モジュール１４は、説明される様に、再生デバイス１８上でのオリジナルオーディオファイルのオーディオ再生と同期して認識されたワード（words）を表示するために使われる。

ターミナル５はマイクロホン４，ディスプレイ６そしてスピーカー９を有し、それらは一緒に、使用者３が言語を記録しそして次いでオリジナルオーディオファイル２５の再生時にハイライトにされたテキストの協調させられたディスプレイを見ることを可能にする。ターミナル５がどんな有線又は無線の言語入力デバイスでもあり得るころは理解されるべきである｛例えば、パーソナルコンピュータ又は無線デイクタホンデバイス（wireless dictaphone device）、ディスプレイ付き無線電話他｝。

再生デバイス１８はディスプレイ６，キーボード８，スピーカー９を含みそして好ましくは筆写家（transcriptionist）２より使用されるための従来型デスクトップパーソナルコンピュータであるのがよい。好ましくは、再生デバイス１８は、オーディオ処理システム１０のサーバー７から物理的に分離され、ターミナル５とは区別されるのがよいが、再生デバイス１８が又サーバー７又はターミナル５内に実現され得ることは理解されるべきである。再生デバイス１８をどんな有線又は無線言語入力デバイスとすることも出来ることは考慮されている（例えば、パーソナルコンピュータ又は無線デイクタホンデバイス、ディスプレイ付き無線電話他）。

言語認識モジュール１２はオリジナルオーディオファイル２５を受信し、オリジナルオーディオファイル２５に従来公知の言語ツーテキスト変換操作（speech-to-text conversion operations）を行う。言語認識モジュール１２はオーディオ処理システム１０により更に処理するのに好適な特定フオーマットでの出力データ、すなわち複数の”（テキスト、オーディオ）”要素を発生するよう構成されており、そこでは各認識されたワード用に１つの（テキスト、オーディオ）要素が得られる。言語認識モジュール１２はエスエイピーアイ４適合音声認識エンジン（SAPI 4 compliant voice recognition engine）、すなわち｛米国、マサチューセッツのスキャンソフト（ScanSoft of Massachusetts, U.S.A.）により製造された｝ドラゴンナチュアラリースピーキングテーエム（Dragon Naturally Speaking^TM）を使って実現されるのが好ましい。しかしながら、（テキスト、オーディオ）要素を提供するどんな従来型言語認識ソフトウエアもオーディオ処理システム１０により利用され得ることは理解されるべきである〔例えば、米国、ニューヨーク、ホワイトプレーンのアイビーエム（IBM of White Plains, New Tork, U.S.A.）により製造されるバイヤボイス（Viavoice）そしてオーストリア（Austria）のフイリップスピードプロセシング（Philips Speed Processing）｛ピーエスピー（PSP）｝により製造される言語エスデーケー３．１テーエム（SDK 3.1^TM）〕。

無音検出モジュール１４は特定のオーディオファイル内で無音（すなわち、非言語）及び非無音（すなわち、言語）の期間（periods）を決定する。特に、無音検出モジュール１４はオーディオファイル内で無音及び非無音の期間を決定するために音量閾値（volume threshold）、平均化技術（averaging techniques）のみならず適応スライデイングウインドウアルゴリズム（adaptive sliding window algorithm）も適用する。結果は該オーディオファイルの簡単な表現となり、それは無音及び非無音の期間を示し、振幅値を該非無音に帰する（ascribes）。無音検出モジュールは無音挿入モジュール１６からオーディオファイルを受信し、無音の検出されたオーディオファイル（silence detected audio files）を返す。

無音挿入モジュール１６はマップ用ファイル（mapping file）１５を創るために要する必要な情報を全て発生するが、該マップ用ファイルはオリジナル言語記録の再生とその組み合わせられたテキストのディスプレイ時に使用される。無音挿入モジュール１６はターミナル５からオリジナルオーディオファイル２５を、その組み合わせられた認識された（テキスト、オーディオ）要素を言語認識モジュール１２から受信し、そして上記で論じた処理のために、オリジナルオーディオファイル２５と該オーディオピースの統合された版を、該（テキスト、オーディオ）要素から無音検出モジュール１４へ送る。無音検出モジュール１４により発生された該無音の検出されたオーディオファイルを使って、無音挿入モジュール１６は言語認識モジュール１２により認識された個別オーディオピース内で何処に無音が挿入されるべきかを決定するために、比較操作を行うことが出来る。一旦適当な無音が該個別オーディオピース内に挿入されると、無音挿入モジュール１６はマップ用ファイル１５を発生する。マップ用ファイル１５は再生デバイス１８での後刻の使用のために該オリジナルオーディオ２５と共に貯蔵される。マップ用ファイル１５は、ターミナル５上で使用者３用に鳴らされる（played）ワードのオーディオ版に対応する現在のワード（複数を含む）をハイライトにさせるために要する情報を提供する。

再生デバイス１８は次いでオリジナルオーディオファイル１５とマップ用ファイル１５を求める請求をサーバー７へ送りそれは次いで受信される。マップ用ファイル２５内に蓄えられた情報は、ディスプレイ６上での適当にハイライトにされたテキストのディスプレイと同期してスピーカー４を通してオーディオを鳴らす（play）再生デバイス１８により読まれる。筆写家２は直接、再生デバイス１８に組み合わせられたキーボード８上で認識されたテキストを編集する。筆写家２｛例えば、口述（dictatoin）を校正（proofread）するためにハイヤーされたスタッフの人｝は使用者３（例えば医者）と異なる人であることは考慮されるが、彼等は同じ人であることも出来る。一旦筆写家２が再生されたオーディオを聞きながら該認識されたテキストを校正すると、再生デバイス１８はターミナル５に修正されたマップ用ファイル１５を提供する。この点に於いて、使用者３は該表示されたテキストが該再生されたオーディオと異なる時に、該表示されたテキストを修正する必要があるだけである。再生時、もし筆写家２が該テキスト内のワードを除去するならば、該ワードに対応するオーディオ部分は、テキストとオーディオの全体的同期化が保持されるよう、無音により置き換えられることは注意されるべきである。

オーディオ処理システム１０はアールテーエフ（RTF）｛リッチテキストフオーマット（Rich Text Format）｝、エムエスワードテーエム（MS Word^TM）｛ワシントン、シアトルのマイクロソフト（Microsoft of Seattle, Washington）により製造された｝により認識される標準、及び他の高品質テキストエデイター（high quality text editors）、と両立するよう設計されている。これは肉太（bold）、アンダーライン（underlined）、イタリック（italics）のみならずテーブルの様な広範なフオーマッテイング（formatting）、そして他の整合機能（alignment functionality）を許容する。オーディオ処理システム１０は医学的及び法学的の様な特殊な職業用の語彙を含む多数でより多くのワードへのアクセスを提供するために高品質エスエイピーアイ（SAPI）認識エンジンを利用する。

今図１，２及び３を参照すると、オーディオ処理システム１０の基本的操作が図解されている。特に、図２は該オーディオ処理システム１０の基本的操作過程を図解し、図３はオリジナルオーディオファイル２５の１部分の振幅特性のグラフ表現を含むオーディオ処理システム１０内で利用される種々のオーディオファイルを図解する。示される様に、該グラフの細い範囲（例えば、Ａ及びＢで）は無音を表し、一方該ピーク（例えば、Ｃ及びＤで）はオリジナルオーディオファイル２５内の非無音を表す。

過程（５２）で使用者３はターミナル５でオリジナルオーディオファイル２５（図３）を記録するためにターミナル５に組み合わせられたマイクロホン４に話す。多くの他のオーディオフオーマットが使用され得ることが理解されるべきであるが、オリジナルオーディオファイル２５はウエーブファイル（.WAV file）フオーマットで記録されるのが好ましい。過程（５４）で、オリジナルオーディオファイル２５はメモリー内にセーブされる。過程（５６）で、オリジナルオーディオファイル２５は処理用に言語認識モジュール１２へ提供される。過程（６０）で、従来公知の技術を用いて、言語認識モジュール１２は該オリジナルオーディオファイル２５を処理し、該入力オーディオストリーム（input audio stream）のテキスト表現（textual representation）、すなわち各認識されたワード用の複数の（テキスト、オーディオ）要素を導き出す。

過程（６２）で、言語認識モジュール１２により発生された該（テキスト、オーディオ）要素からの該オーディオピースはオーディオピースファイル２７内で個別にアッセンブルされ（図３）、１つずつ統合オーディオファイル（a ggregated audio file）２９内へコンパイルされる（図３）。過程（６４）で、オリジナルオーディオファイル２５及び統合オーディオファイル２９は処理用に無音検出モジュール１４へ送られそして無音の検出されたオリジナルオーディオファイル（silence detected original audio file）３５（図７Ａ）と無音の検出されたの統合オーディオファイル（silence detected aggregated audio file）３９（図７Ａ）は無音挿入モジュール１６へ戻される。過程（６５）で、無音検出モジュール１４は、該オリジナルオーディオファイル２５と統合オーディオファイル２９を処理し、無音の検出されたオーディオファイルを発生するため使用される。特に、無音検出モジュール１４は無音の検出されたオリジナルオーディオファイル３５と無音の検出された統合オーディオファイル３９を発生する。過程（６６）で、無音挿入モジュール１６は該無音の検出されたオリジナルオーディオファイル３５と該無音の検出された統合オーディオファイル３９を解析し、それぞれのファイル内で非無音要素の位置の差を決定することを助けるため該オーディオピースファイル２７を使用する。これらの差に基づき、無音挿入モジュール１６は、個別に調整されたオーディオピースを作るためにオーディオピースファイル２７内（図３）の各オーディオピース内への無音挿入を行う。過程（６８）で、無音挿入モジュール１６は無音の挿入されたオーディオピースの特性に基づきマップ用ファイル１５を発生する。

過程（６９）で、再生デバイス１８は再生デバイス１８上でのオリジナルオーディオファイル２５の再生をディスプレイ６上の組み合わせられ認識されたテキストのディスプレイと同期化させるためにマップ用ファイル１５を使用する。すなわち、オリジナルオーディオファイル２５が再生される間に、認識されたテキストがディスプレイ６上に表示され、特定のワードが該表示されたテキスト内でハイライトにされる（highlighted）。これは筆写家２が、協調された仕方でターミナル５で、オリジナル言語口述（original speech dictation）から認識されたものを校正することを可能にする。マップ用ファイル１５は、オリジナルオーディオファイル２５の対応するオーディオセグメントが再生される時認識されたテキストの選択的にハイライトにされたセグメントに要する情報を含む。これは校正過程の効率を改善し、筆写家２が該認識されたテキストの正確さを検証することを可能にし、適当な修正を行う機会を提供する。

今図１，３，４Ａ、４Ｂ、そして５を参照すると、無音検出モジュール１４の動作がオリジナルオーディオファイル２５と関連して説明される。無音検出モジュール１４の処理過程５０は図５で図解される。図４Ａと４Ｂは、更に説明される様に、無音検出モジュール１４に提供されるオリジナルオーディオファイル２５のセグメント（図４Ａ）と無音検出モジュール１４の出力のセグメント３２（図４Ｂ）を図解する。しかしながら、無音検出モジュール１４はどんな種類のオーディオファイル上でも動作するよう適合されていることは理解されるべきである。

特に、図４Ａと５を参照すると、過程（９２）で、無音検出モジュール１４はオリジナルオーディオファイル２５を取り上げ、オリジナルオーディオファイル２５を、より小さいサイズの（smaller sized）”オーディオチャンク（audio chunks）”とより大きいサイズで”オーディオチャンク”を含む”オーディオブロック（au dio blocks）”と呼ばれるものにセグメント化（segments）する。図４Ａに示す様に、オリジナルオーディオファイル２５のセグメント３０が示される。図４Ａで”Ｘ”と名付けられる白の垂直線はオーディオブロック境界を表す。適当な大きさの（dimensioned）オーディオチャンク及びオーディオブロックを使って、オーディオ処理システム１０は該オリジナルオーディオファイル２５のより簡単な表現を創り、一方説明される様に、無音挿入モジュール１６用の合理的決定を行うために充分な詳細さ（detail）をなお残している。

オーディオブロックサイズは該無音検出過程の望まれる精度に基づいて選択されるが、それはオーディオブロックサイズがそのアルゴリズムの偏倚を命ずる（audio block size dictates the bias of the algorithm）からである。すなわち、より大きいオーディオブロックは無音又は非無音であると識別されるより大きいセクションのオーディオに帰着する。対応して、より小さいオーディオブロックは無音又は非無音であると識別されるより小さいセクションのオーディオに帰着する。もしより小さいサイズのオーディオブロックが使われるなら、無音及び非無音の境界に関してより多くの情報が提供される。非常に大きいオーディオブロックは望ましくなく、何故ならば充分でない無音／非無音境界の詳細さ（boundarry detail）しか提供されないからである。又、非常に小さいブロックも望ましくなく、何故ならば余りの多くの無音／非無音境界の詳細さが提供されるからである。

従って、各オーディオブロックが同数のオーディオチャンクを含み、該オーディオチャンクの各々が同持続時間（例えば、６ｍｓ）であるため各オーディオブロックも又同持続時間である（of the same duration）のが好ましい。これは重要であり、何故ならもし該オーディオブロックサイズが同じサイズでないなら入力オーディオファイル２５の持続時間に亘り一貫しない量の無音／非無音境界詳細さがもたらされるからである。オーディオ処理システム１０の動作が解析され得て、適当な精度（すなわち、詳細さ）レベルが必要な様に調整されるように、一貫したレベルの詳細さを保持することが重要である。この種の一貫性がないと、該オーディオ処理システム１０の動作を理解し、マップ用ファイル１５の品質への高い信頼を持つことは難しい。

過程（９３）で、適当な相互作用メニューオプションを通して使用者３に依るか、又はマイクロホン４と内部処理源とを使ってターミナル５で行われる或る種の環境ノイズ校正を通して自動的にか、何れかで、オーディオ処理システム１０用に閾値音量（threshold volume）が選択される。該選択された音量閾値が中で使用者３が働いている環境を反映すべきであることは理解されるべきである（例えば、静粛な家庭医のオフイスに対し救急処置室用では異なる設定が適当である）。該音量閾値音量（v olume threshold volume）は該音量閾値の上にある声音（voice）サンプルが言語（speech）を構成しそうであるよう選択される。図４Ａと４Ｂで”Ｋ”でマーク付けされた水平ラインはこの図解の目的で選択された音量閾値を示す。

無音検出モジュール１４は予め設定された数の無音及び非無音オーディオブロックがオーディオの予め決められた時間間隔（例えば、１分）内に見出されるように該音量閾値を選択する。もし音量閾値余りに高いなら全オーディオデータは無音であると検出され、同様に、もし該音量閾値が余りに低いなら全オーディオデータは非無音であると検出されるであろう。無音検出モジュール１４はより多い、或いは、より少ない無音及び非無音グループが適当な操作用に必要とされることに基づきより高く又はより低く該音量閾値を調整する。例えば、もし１分当たり１００無音グループを検出することが望ましく、オーディオ処理中所要の１００より少ない無音グループが検出されるなら、見出される無音ブロック数が増加するよう該音量閾値は下げられる。この過程は望まれる１００無音グループが見出されるまで繰り返される。本発明人は幾つかのテストに基づき１分当たり１００無音グループを検出出来ることが好ましいことを決定した。この値は多数のオーディオサンプルの場合に基づき最適の結果を提供するように見える。

過程（９４）で、オーディオチャンクは、該オーディオチャンクが該音量閾値を越えるかどうかを評価する目的で識別される。過程（９６）で、該オーディオチャンクは、それが該音量閾値を”越えるか”どうかを決定するため評価される。オーディオチャンク内の５つ毎に１つのサンプルを検査し該サンプルの値を平均することにより納得の行く動作が達成されることが決定されたが、多くの他の評価の取り組みが使用され得ることは理解されるべきである。もし該サンプルの平均値が選択された閾値以上ならば、該オーディオチャンクは該閾値を越えると考えられ、過程（９８）で非無音と識別される。しかしながら、オーディオチャンクが該音量閾値を越えるかどうかを決定する多くの他の方法が適用され得ることは理解されるべきである。本発明人はオーディオ処理システム１０用のオーディオファイル用の合理的サンプリングレートは１１，０２５Ｈｚであると決定した。従って、上記で注意した６ｍｓチャンクサイズを使って、オーディオの６ｍｓチャンク内に見出されるサンプル数は１１０２５／１０００＊６ｍｓ＝６６．１５（又は６６）サンプルである。

過程（１００）で、前に検査したオーディオチャンクがオーディオブロック内の最後のチャンクであるかどうかが決定される。もしそうでないならば、次のオーディオチャンクが過程（９４）で識別される。もしそうであるならば、該オーディオブロックが該閾値レベルを越えるかどうか決定するためオーディオブロック全体が評価される。特に、過程（１０２）で、該オーディオブロック内の該オーディオチャンクの予め決められた比率（例えば、７０％）より多くが該音量閾値以上であるかどうかが決定される。一般的に言って、５０％以上は適当な操作用に必要であるが、他の比率が使用され得ることは理解されるべきである。もしそうであるなら、過程（１０４）で、該オーディオブロックは該音量閾値を越えると思われ、非無音ブロックであると識別される。平均閾値も各非無音ブロック用に（１０７）で計算される。もしそうでないなら、過程（１０６）で、該オーディオブロックは無音ブロックである識別される。

最後に、過程（１０８）で、処理された該オーディオブロックが最後のオーディオブロックであるかどうかが決定される。もしそうでないなら、閾値決定が過程（９４）で続く。もしそうであるなら、過程（１０９）で、該オーディオブロックは図４Ｂに示す様にグループに集められる。特に、無音ブロックの隣接するセット（すなわち、相互に接触するブロック）は”無音グループ（silence group）”と呼ばれるものを形成する。

対応して、非無音ブロックの隣接するセットは”非無音グループ（non-silence group）”と呼ばれるものを形成する。無音ブロック及びグループは図４Ｂに示す様にゼロ音量を有することは理解されるべきである。

過程（１１３）で、短い無音グループは再分類（re-categorized）される。特に、予め決められた持続時間（例えば、持続時間で３０ｍｓより短い）より短い無音グループはもしそれが２つの非無音グループ間に落ちるなら”非無音”であると再分類される。同様に、過程（１１５）で、予め決められた持続時間（すなわち、持続時間で３０ｍｓより短い）より短い非無音グループはもしそれが２つの無音グループ間に落ちるなら”無音”であると再分類される。これらの場合は定例の言語の外の、鋭い咳、又は背景ノイズにより引き起こされることが多い。この分類過程は下記で説明される様に”左から右へ”の優先性規則（"left to right " priority rule）を使って行われる。

図４Ｃで図解される様に、長い無音グループＡは、短い無音グループＣ及び長い非無音グループＤにより追随される、短い非無音グループＢにより追随される。この情況で、左から右へ処理して、該短い非無音グループＢに遭遇した時、それは無音と考えられ、何故ならそれがより長い無音ブロックＡに追随するからである。すなわち、該長い無音グループＡと該短い非無音グループＢを含む無音グループの創成は、個別の非無音グループの創成より優先される。該短い無音グループＣに遭遇した時、長い無音グループＡと該短い非無音グループＢを含む無音グループと短い無音グループＣとの創成が行われる。最後に、該長い非無音グループＤに遭遇した時、個別の非無音グループの創成が優先される。この種の再分類は無音及び非無音のより長いグループを贔屓にするよう意図されている。

無音検出モジュール１４は、オリジナルオーディオファイル２５の様なオーディオファイルを通しての１回パス（single pass）として、上記で論じた図５の処理過程５０を行う。又注意された様に、図４Ａのオーディオセグメント３０上のこれらの処理過程の適用は図４Ｂの該処理されたオーディオセグメント３２に帰着する。特に、図４Ｂに示す様に、過程（１１７）で、非無音の該再分類されたグループは、何処に各再分類されたグループが該セグメントの高さｈ（図４Ｂに示す様な）により示された平均振幅（すなわち音量）を有するかを指示される。非無音の期間を表すセグメントはグレイ範囲（grey areas）Ｇとして図４Ｂのグラフ上で指示され、上記で注意した様に、これらの範囲の高さｈは平均振幅に依る。

戻って過程（１０９）を参照すると、無音検出モジュール１４はブロック毎ベースで行われる適合過程（adaptation process）を使って、与えられた非無音グループが非無音と考えられるべきかどうかを決定する。該適合過程は本質的にスライデイングウインドウアルゴリズム（sliding window algorithm）であり、そこでは該ウインドウは最後のｎの非無音グループの平均振幅を含んでいる。その平均振幅が前のｎのグループの平均と調和しているかどうか（if its average amplitude is in keeping with the average of previous n groups）を見るために新しい非無音グループが検査される。もしそれが調和していれば、該新しいグループは該ウインドウに付加され、該ウインドウ内の最も早期のグループは除去される。もし該新しいグループの該平均振幅が該前のｎのグループの平均と調和していないならば、該新しいグループは恰もそれが無音グループであるかの様に捨てられる。例のグループ振幅リスト化３４が図４Ｄで示される。

図４Ｄの該グループ振幅リスト化３４は処理されつつあるオリジナルオーディオファイル２５の１３の隣接グループについての平均振幅値を保持する。”Ｓ”としてラベル付けされたエントリー（entries）が無音グループであることは注意されるべきである。他のエントリーは該指示された平均振幅を有するものを備えた非無音グループである。スライデイングウインドウレジスター（sliding window register）３６（図４Ｄ）がグループ振幅リスト化３４内で該振幅値を処理するため使われる。この例の目的では、スライデイングウインドウレジスター３６の開始は該第１非無音グループ（すなわち、振幅７５００を有するグループ）にセットされ、スライデイングウインドウレジスター３６用の該ウインドウサイズは５にセットされる（すなわち、それでそれは５つの非無音振幅値を含む）。かくして、肉太の（in bold）該振幅値は現在のウインドウを形成する。この点に於いて、２０００の平均振幅を有する第６の非無音グループが処理されようとしている。現在該スライデイングウインドウレジスター３６内にある値の平均値は６４００である。今度のグループ（the current group）の平均振幅は該スライデイングウインドウレジスター３６内の値の平均の予め決められたパーセンテージ（例えば、６０％）内に現在あるかどうかが決定される。該今度のグループ（すなわち考慮中の第６グループ）の平均振幅は６０％より遙かに低いので、そのグループは無音と再分類され、その周囲無音ブロックに付属させられる。次いで次の非無音グループ（すなわち、振幅４０００を有するグループ）が丁度説明した同じスライデイングウインドウ決定過程を使って処理される。

この種の適合は、使用者３が全体の口述を通して同じレベルでは必ずしも話さないという理由で、オーディオ処理システム１０の実用的操作用に重要である。例えば、背景ノイズは該口述中増減し、使用者３は背景ノイズの変化を補償するために、従って、彼／彼女の声音を上げ、下げする。上記で論じたスライデイングウインドウレジスター３６を使うことにより、この種の振幅レベルの変化は斟酌され得る。従って、オーディオ処理システム１０に提供されるオリジナルの音量閾値が低水位（low water mark）を構成するがそれは確立された音量閾値レベル以上の非無音グループのみが可能性ある非無音候補と考えられるが、該音量閾値以上の全グループが無音検出モジュール１４により非無音セグメントとして選択されるのではないことは理解されるべきである。

今、図１，３、６Ａ、６Ｂ、そして６Ｃを参照すると、無音挿入モジュール１６の動作が今度は説明される。無音挿入モジュール１６はオーディオ処理システム１０用に該マップ用ファイル１５を創るため必要な全部の情報を発生する。上記で論じた様に、マップ用ファイル１５は、現在のワード（複数を含む）を適当にハイライトにすることが達成されるように、口述の可視ディスプレイを該オーディオの再生と相関させる手段を有する応用を提供する。図１に示す様に、無音検出モジュール１６はターミナル５から該オリジナルオーディオファイル２５を受信し、言語認識モジュール１２から該（テキスト、オーディオ）要素を得る。更に、無音挿入モジュール１６は言語認識モジュール１２から得られた該（テキスト、オーディオ）要素からの個別オーディオピースに基づき統合オーディオファイル２９を発生する。無音挿入モジュール１６は、説明される様に、マップ用ファイル１５を発生するために無音検出モジュール１４を利用する。

特に図３及び６Ａ、６Ｂ、６Ｃを参照すると、言語認識段階中に、言語認識モジュール１２は認識結果対象（recognition results objects）を発生する。各結果対象は、認識されたテキストピース、対応するオーディオピース｛すなわち、上記で参照された該（テキスト、オーディオ）要素｝のみならず信頼レベル（confidence level）（例えば１から１００の数）も含む大きなセットの情報から成る。該信頼レベルは、如何に或る言語認識モジュール１２が該オーディオピースの最終のテキスト的解釈（resulting textual interpretation）になっているかを指示する。該テキストピースを一緒に統合することにより、認識されたテキストストリームを得ることが出来る。又該対応するオーディオピース２７を統合されたオーディオファイル２９内に簡単に統合することは可能であるが、該統合されたオーディオファイル２９は該オリジナルオーディオファイル２５と正確には整合しない。

図３に示す様に、該統合されたオーディオファイル２９は該オリジナルオーディオファイル２５より持続時間で常に短く、何故なら該オリジナルオーディオファイル２５内の無音ピースが省略されているからである。該オリジナルオーディオファイル２５内の該無音は該言語認識モジュール１２には重要でないが、これらの無音ピースの存在は再生中該オリジナルオーディオファイル２５の該認識されたテキストストリームとの適当な同期化には重要である。無音挿入モジュール１６は、該認識されたテキストストリームと該オリジナルオーディオファイル２５の同期再生を達成するため精密なタイミング情報が使用され得るよう、該統合されたオーディオファイル２９内の欠けた無音ピースを取り戻す（reclaim）よう作用する。

今戻って図１，３，６Ａ、６Ｂ、６Ｃ、そして７Ａを参照すると、特に図６Ａ、６Ｂそして６Ｃは無音挿入モジュール１６の主動作過程１１０を図解する。過程（１１２）で、無音挿入モジュール１６はターミナル５からオリジナルオーディオファイル２５をそして言語認識モジュール１２から（テキスト、オーディオ）要素を得る。過程（１１４）で、無音挿入モジュール１６は該オリジナルオーディオファイル２５及び統合オーディオファイル２９の複雑さを減じるために無音検出モジュール１４を使用する。オリジナルオーディオファイル２５は実質的な量の情報を含む。例えば、オーディオの秒当たり１１，０００サンプルを有するオリジナルオーディオファイル２５内に、オーディオ処理システム１０による処理用に利用可能な分当たり６６０，０００個別ピースの情報、すなわち、必要なものより遙かに多い情報がある。該情報量を管理可能なサイズに減じるために、オリジナルオーディオファイル２５を対応する無音及び非無音期間のシーケンス、すなわち無音の検出されたオリジナルオーディオファイル（silence detected original audio file）３５，に減じ（図７Ａ）、そして統合オーディオファイル２９を対応する無音及び非無音期間のシーケンス、すなわち無音の検出された統合オーディオファイル（silence detected aggregated audio file）３９、に減じる（図７Ｂ）よう、無音検出モジュール１４が利用される。

（個別オーディオサンプルを使うことに相対して）無音検出モジュール１４により発生された表現、該無音の検出されたオリジナルオーディオファイル３５及び無音の検出された統合オーディオファイル３９（すなわち、無音及び非無音の期間のシーケンス）を使用することにより、約６、０００倍の情報の削減（reduction in information of approximately 6000 times）が達成され得ることが決定された。無音検出モジュール１４によるこの前以ての処理は全体的処理を簡単化し、関与する計算時間を減じる。再び、図７Ａに示す様に、該グレイの非無音期間の高さｈは、無音検出モジュール１４により計算された各期間内の成分オーディオブロックの平均振幅（音量）を表す。

戻って図１，３、６Ａ、６Ｂ、６Ｃ、７Ａ、そして７Ｂを参照すると、過程（１１６）で、オリジナルオーディオファイル２５と統合オーディオファイル３９の両者で種々のマーカー（図７Ｂのグラフで

により、“□”として、“＜”として示された）が識別される。これらのマーカーは余りに多くの無音の挿入を防止するために挿入される無音を制限するのに役立つ。又幾つかのマーカーは同期化点として役立つ。該マーカーは対で識別される（すなわち、該オリジナルオーディオファイル２５内の１つ及び該統合オーディオファイル２９内の対応する１つ）。無音の適当な挿入を通してマーカーの対をラインアップ（line up）することにより、例え無音挿入用の複雑な計算中でも、もし誤った決定が行われるなら、最終再生オーディオファイルは同期化点として役立つ該マーカーによりなお主に整合されることを保証する自己修正手順が創られる。すなわち、過ち（errors）は同期化マーカー間の領域内で隣接する同期化マーカー

間に含まれる。マーカーは該オリジナルオーディオファイル２５及び該統合オーディオファイル２９の両者内で種々の方法で識別され得る。

何よりも先ず、同期化点は、各場合のオーディオ信号の最大音量点（loudest points）を識別することによりオリジナルオーディオファイル２５及び統合オーディオファイル２９の両者のオーディオ信号内で決定される。上記で注意した様に、該オリジナルオーディオファイル２５と統合オーディオファイル２９の間の差は無音が統合オーディオファイル２９から欠けていることである。従って、オリジナルオーディオファイル２５の最大音量ピース（loudest pieces）が統合オーディオファイル２９内に存在するだろうと決定される。これらの同期化点は図７Ｂに示す同期化マーカーとして識別される。又、オリジナルオーディオファイル２５内の無音の長い期間は、該統合オーディオファイル２９内の何処に大きな量の無音が挿入される必要があるかの指示を提供する。発見的に言えば、この様な無音が統合オーディオファイル２９内で省略される高い信頼度があり得る。従って、無音の長い期間がオリジナルオーディオファイル２５内で識別される時、無音の意味の或るピースが統合オーディオファイル２９に付加されるべきことが安全に言える。図７Ｂはオリジナルオーディオファイル２５内に２つの無音マーカー“＜”及び１つの終了マーカー“□”を示す。オリジナルオーディオファイル２５内の該２つの無音マーカーが該統合オーディオファイル２９内に存在しないことが注意されるべきである。これはオリジナルオーディオファイル２５内の長い期間の無音が該統合オーディオファイル２９内に存在することは非常にありそうにないからである。最後に、オリジナルオーディオファイル２５の持続時間は全部の無音の挿入されたオーディオピースの持続時間と概略同じであるべきである。すなわち、統合オーディオファイル２９への無音の付加の最後の結果は、該オリジナルオーディオファイル２５の長さと概略同じ長さの持続時間を有するフアィルに帰着すべきであり、決して持続時間でより長くあるべきでない。従って、該オリジナルオーディオファイル２５の終わりに位置付けられた終了マーカー（end marker）は全ての無音挿入が行われた後該統合オーディオファイル２９の長さに上限をマーク付けするため使われる（図７Ｂ参照）。該オリジナルオーディオファイル２５は無音が挿入された後該統合オーディオファイル２９と同じ長さを有することが好ましい。開始マーカーの使用（beginning marker）は必ずしも必要ではなく、何故ならば全てのオーディオファイルは位置“ゼロ”でスタートすることは理解されるからであることは注意されるべきである。

今図１，６Ａ、６Ｂ、６Ｃ、そして８を参照すると、無音挿入モジュール１６は３つのオーディオファイル、すなわち無音の検出されたオリジナルオーディオファイル３５，言語認識モジュール１２から得られたオーディオピースファイル２７そして無音検出モジュール１４から得られた無音の検出された統合オーディオファイル３９、と共に働く。又無音挿入モジュール１６は、該オーディオ内で現在の位置を示すために、それぞれ上記で注意したファイルの各々用に１つとして、３つのポインター（pointers）、Ｍ、Ｎ、そしてＯ（図８）を使う。無音の検出されたオリジナルオーディオファイル３５は該オリジナルオーディオファイル２５に組み合わせられた種々のマーカー（例えば、同期化マーク、無音マーカー、終了マーカー）を含む。

過程（１１７）で、ポインターＭは初期に、Ｍ_ｉｎｔに配置されるが、そこではそれは、該無音の検出されたオリジナルオーディオストリーム３５内の第１非無音期間の始めを指し示す。各繰り返しの始めに、ポインターＭ，ＮそしてＯは整合されてないと仮定される（すなわち、無音が挿入されるべきオーディオのピースを必ずしも指し示していない）。従って、該ポインターはそれらがオーディオの同じピースを指し示すように調整される必要がある。該無音の検出されたオリジナルオーディオファイル３５は無音の検出された統合オーディオファイル３９より長いので、ポインターＭはポイントＯより該組み合わせられたオーディオストリーム内で前にいると安全に仮定され得る。ポインターＮ_ｉｎｔは初期にはオーディオピースファイル２７の始めに配置される。ポインターＯ_ｉｎｔは初期には該無音の検出された統合オーディオファイル３９内の最初の非無音期間を指し示す。

一般に、無音の検出された統合オーディオファイル３９は、測定されたオーディオピースの時刻位置と無音の検出されたオリジナルオーディオファイル３５の時刻位置の間の差を測定するのを助けるツールとしてのみ使用されることは注意されるべきである。無音挿入モジュール１６が非無音グループの比較を終わった後、無音の検出された統合オーディオファイル３９は捨てられる。

過程（１１８）から（１２８）で、無音挿入モジュール１６は、無音の検出されたオリジナルオーディオファイル３５と無音の検出された統合オーディオファイル３９との中の２つの特定の非無音グループ間に整合（match）があるかどうかを決定する。すなわち、挿入モジュール１６は整合する非無音グループ上にポインターＭとＯを位置付けようと企てる。例えば、図８に示す様に、それぞれ、無音の検出されたオリジナルオーディオファイル３５と無音の検出された統合オーディオファイル３９内のポインターＭとＯの位置は、非無音グループを参照する。ポインターＭとＯが事実同じ非無音グループを指し示しているか否かは、ポインターＭ及びＯに組み合わせられた１つ以上の非無音グループのそれぞれの持続時間と閾値の比較解析を通してのみならず無音マーカー及び同期化点の検出によっても決定され得る。

各繰り返しのスタートで、該ポインターＭ，Ｎ及びＯは、それらがオーディオの同じピースを指し示しているように調整される。一旦２つのグループが整合することが決定されると、それらの位置はそれぞれのオーディオファイル３５と３９内で決定され、それらの位置の差は個別のオーディオピースを補償するため使われる（すなわち、該差を該オーディオピースの前の無音期間として付加することにより）。従って、該無音挿入モジュール１６の各繰り返し中、オーディオピース内に挿入される必要のある無音の量が決定され該オーディオピースのオーディオファイル２７内に挿入される。ポインターＮは決して後方へ（）調整されることはなく、そしてポインターＭ及びＯは独立に進み、文脈を得るよう前方へ動きそしてそれらのそれぞれのオーディオファイル３５及び３９内の１つ以上の非無音グループの間に適合（fit）があるかどうかを決定するため使われることは注意されるべきである。

過程（１１８）で、ポインターＭ及びＯはそれらが指し示している該非無音グループの組み合わせられた持続時間と相対的閾値が相互の予め決められた偏差（variance）（例えば、８０％）内にあるかどうかを見るため検査される。ポインターＮが指している特定のオーディオピースについては、無音の期間がこのオーディオピースの前に挿入されるかどうかが決定され、もしそうであるなら、該無音の期間の該持続時間となる。この取り組み（すなわち、個別ワードに無音を組み合わせる）は統合オーディオファイル２９に無音を付加するよりも効果的であると本発明人により決定された。

もし過程（１１８）で、ポインターＭ及びＯが、相互の予め決められた偏差内に（すなわち、８０％内に）ある持続時間と閾値を有する非無音グループを指し示していると決定されるなら、過程（１２０）で、ポインターＮはポインターＮがポインターＭと整合されるまで１度に１つのオーディオピースだけ進められる。過程（１２１）で、無音挿入モジュール１６はそれらのそれぞれの無音の検出されたオーディオファイル３５及び３９内のポインターＭ及びＯ間の位置の差を、それぞれ、計算する。過程（１２２）で、無音挿入モジュール１６は該差が予め決められた時間の長さ（例えば、３００ｍｓ）より短いかどうかを決定する。過程（１２２）で、又もし無音挿入がこの差に等しい持続時間を有する無音を使って行われるなら、それはオリジナルオーディオファイル２５の長さより長いオーディオファイルには帰着しないことは確かめられる。もしこれらの両者が眞ならば、過程（１２４）で、計算された時間差に等しい持続時間を有する無音期間が、オーディオピースファイル２７内のポインターＮにより識別されるオーディオピースの前に挿入される。過程（１２６）で、ポインターＮは次のオーディオピースへ進められ、ポインターＭ及びＯはそれらがポインターＮを過ぎるまで進められる。それは非無音ブロックの終わりでないので、過程（１２８）で、過程（１１８）でスタートするもう１つの繰り返しが始められる。

もし過程（１２２）で、ポインターＭ及びＯの位置の差が予め決められた偏差（variance）内にないか、又はこの差に等しい持続時間を有する無音期間の付加が終了マーカーを越えるオーディオピースファイルの全部の長さに帰着するか、何れかならば、過程（１３２）が実行される。過程（１３２）で、ポインターＭ又はＯが無音マーカーの所に位置付けられるかどうかが決定される。もし過程（１３２）で、ポインターＭ又はＯが無音マーカーの所にあることが決定されれば、過程（１２４）で、過程（１２１）で計算された時間差に等しい持続時間を有する無音期間がオーディオピースファイル２７内のポインターＮにより識別されるオーディオピースの前に挿入される。過程（１２６）でポインターＮは次のオーディオピースへ進められ、ポインターＭ及びＯはそれらがポインターＮを過ぎるまで進められる。それは該非無音ブロックの終わりではないので、過程（１２８）で、過程（１１８）でスタートするもう１つの繰り返しが始められる。もし過程（１３２）で、ポインターＭ又はＯが無音マーカーのところにあると決定されないならば、ポインターＮにより現在指し示されるオーディオピース内にこの量の無音を挿入することは正しくない。従って、発行されている該オーディオピースへは無音は挿入されず、過程（１２６）で、ポインターＮは次のオーディオピースへ進められ、ポインターＭ及びＯはそれらがポインターＮを過ぎるまで進められる。

過程（１１８）では、もしポインターＭ及びＯが、予め決められた偏差内にない（すなわち、８０％内にない）持続時間と閾値を有する非無音グループを指し示していると決定されるなら、過程（１４０）で、より短い非無音グループを指し示すポインターＭ及びＯは次の非無音グループへ進められそして該次及び前の非無音グループは組み合わされそれらの特性はもう１つのポインターＭ及びＯにより指し示される非無音グループのそれらと比較される。しかしながら、もしポインターＭ及びＯにより指し示される該非無音グループが同じ持続時間なら、ポインターＭ及びＯの両者は進められ、ポインターＭに組み合わせられた２つの非無音オーディオグループについての持続時間と閾値は個別に平均化されそしてポインターＯに組み合わせられたそれらについても同じである。過程（１４２）で、再びポインターＭ及びＯが同様な持続時間と閾値を持つかどうかが同期化マーカーを使って決定される。益々多くのオーディオブロックが該平均化計算に組み入れられるので、同期化マーカーが過ごされないことを確認することが重要である。

例えば、図８に示す様に、無音の検出された統合オーディオファイル３９内で“Ｖ”としてマーク付けされた非無音グループは事実上無音の検出されたオリジナルオーディオファイル３５内で“Ｕ”としてマーク付けされた２つのより小さい非無音グループにより表されたと同じオーディオのピースである。過程（１４０）で、より短い持続時間を有する非無音グループを指し示すポインター（この場合ポインターＭ）は次の非無音グループへ進められる。“Ｕ”としてマーク付けされた両非無音ブロックは組み合わされ、それらの閾値と振幅は平均化される。過程（１４２）で、“Ｕ”としてマーク付けされた非無音ブロックの該平均化された閾値と振幅は“Ｖ”としてマーク付けされた非無音グループの閾値及び振幅と比較され、そしてこの場合予め決められた偏差内に（すなわち、８０％内に）あると見出される。

無音挿入過程のこの部分の更に進んだ図解として、図８に示す様に、Ｍ_ｉｎｉｔ、Ｎ_ｉｎｉｔそしてＯ_ｉｎｉｔに最初に位置付けられるポインターＭ，ＮそしてＯを考える。特にポインターＭ、Ｎ、そしてＯは次のオフセットで位置付けられる：
１００ｍｓでのＭ_ｉｎｉｔ；非無音持続時間＝１００ｍｓ；閾値＝６，０００
０ｍｓでのＮ_ｉｎｉｔ；非無音持続時間＝１００ｍｓ
５０ｍｓでのＯ_ｉｎｉｔ；非無音持続時間＝１００ｍｓ；閾値＝７，０００
本発明の無音挿入手順に従って、過程（１１８）で、ポインターＭ及びＯにより指し示される該非無音グループの持続時間と閾値が相互の予め決められたパーセンテージ範囲（例えば８０％）内にあるかどうかが決定される。この場合、それらは否なので、過程（１４０）が実行される。ポインターＭ及びＯにより指し示される該非無音グループの持続時間は等しく（すなわち、両者共１００ｍｓ）、従って、両ポインターＭ及びＯは次の非無音グループへ進められ、前及び次の非無音グループの各対用の平均持続時間と閾値が各ポインターＭ及びＯ用に計算されることは注意すべきである。ポインターＭ及びＯにより指し示される該非無音グループの持続時間が等しくない場合に、該より短い持続時間を有する該非無音グループと組み合わされたポインターＭ又はＯのみが進められることは理解されるべきである。

例の目的で、ポインターＭ及びＯ用の該次の非無音期間は下記の特性を有すると仮定される（それぞれ、Ｍ及びＯ用の次の非無音期間として図８で図解される様に）：
ポインターＭ用の次の非無音期間：
１００ｍｓの無音；非無音持続時間＝５０ｍｓ；閾値＝１０，０００
ポインターＯ用の次の非無音期間：
８０ｍｓの無音；非無音持続時間＝７０ｍｓ；閾値＝１０，０００
過程（１４２）で、該平均結果は次いで下記の様に計算される：
１００ｍｓに位置付けられたＭポインター；持続時間＝２５０ｍｓ；閾値＝
６０００＊１００／２５０＋０＋９５００＊７０／２５０＝５０６０
５０ｍｓに位置付けられたＯポインター；持続時間＝２５０ｍｓ；閾値＝
７０００＊１００／２５０＋０＋１０，０００＊７０／２５０＝４８００
従って、過程（１４２）で、ポインターＭ及びＯにより指し示された該非無音グループの平均持続時間と閾値が今予め決められたパーセンテージ偏差（例えば、８０％）内にあるかどうかが決定される。該平均持続時間が同じであり平均閾値がこの様な予め決められたパーセンテージ偏差内にあるので、ポインターＭ及びＯは無音挿入用に適当な位置にあると考えられ、過程（１２０）は実行される。特に、過程（１２０）で、ポインターＮはそれがポインターＭと整合するまで進められる。過程（１２１）で、ポインターＭ及びＯの位置間の差は５０ｍｓであると計算され、それはポインターＮにより現在指し示されるオーディオピースに付加される必要がある無音の量である。

従って、この差が該予め決められた偏差内にあると仮定して、過程（１２４）で。図８のオーディオピースファイル２７の前部（front）に示す様に、ポインターＮにより指し示されるオーディオピースの前部に付加される。過程（１２６）で、ポインターＮは次のオーディオピースへ進められ、ポインターＭ及びＯはそれらがポインターＮを過ぎるまで進められる。それは該非無音ブロックの終わりでないので、過程（１２８）で、過程（１１８）でスタートするもう１つの繰り返しが始められる。

もし過程（１４２）で、該組み合わされた非無音グループ用の平均持続時間と閾値がなお該予め決められた偏差内にない（すなわち、充分近くない）ことが決定されるなら、過程（１４４）で、該進められたポインターＭ及びＯの何れか又は両者が同期化マーカー上に位置付けられるかどうかが決定される。もし過程（１４４）で、ポインターＭ及びＯの１つが同期化マーカー上に位置付けられることが決定されるなら、過程（１４６）で、もう１つのポインターＭ又はＯは対応するオーディオファイル３５又は３９内の対応する同期化点へ進められる。この点で、ポインターＭ及びＯは無音挿入用に適当な位置にあると考えられ、過程（１２０）が実行される。特に、過程（１２０）で、ポインターＮはそれがポインターＭと整合されるまで進められる。過程（１２１）で、ポインターＭ及びＯの位置の間の差が計算され、この差が該予め決められた偏差内にあると仮定して、過程（１２４）で、この量の無音が、図８のオーディオピースファイル２７の前部に示される様に、ポインターＮにより指し示されるオーディオピースの前部に付加される。過程（１２６）で、ポインターＮは次のオーディオピースへ進められ、ポインターＭ及びＯはそれらがポインターＮを過ぎるまで進められる。それは該非無音ブロックの終わりでないので、過程（１２８）で、過程（１１８）でスタートするもう１つの繰り返しが始められる。

もし過程（１４４）で、ポインターＭ又はＯの何れも同期化マーカー上に位置付けられないことが決定されるなら、過程（１４５）で、予め決められた数の非無音グループが組み合わされるかどうかが決定される。或る数だけ非無音グループ（例えば、３つまで）を組み合わせることが望ましいことは理解されるべきである。この”文脈ウインドウ（context window）”は、如何にオーディオデータがそれぞれのオーディオファイル３５及び３９内で表されるかでの差を斟酌するため使われる。もしグループ組合せの上での予め決められた制限が越えられないならば、過程（１４０）で、最短の持続時間を有する該非無音グループと組み合わせられたポインターＭ又はＯ（又は、もし該持続時間が同じなら両ポインターＭ及びＯ）は次の非無音グループ（複数を含む）へ進められ、該グループは組み合わせられ、持続時間及び閾値は再度平均化され、そして過程（１４２）で、その平均持続時間と閾値が該予め決められた偏差内にあるかどうかの決定が再び行われる。

もし過程（１４５）で、予め決められた数の非無音グループが既に組み合わされたことが決定されれば、非無音グループを組み合わせることにより得られる該”文脈ウインドウ”の最大制限は到達されたことになる。この点で、無音の検出されたオリジナルオーディオファイル３５及び／又は無音の検出された統合オーディオファイル３９の何れかでアーチフアクト（artifact）に遭遇したようである。アーチフアクトは通常、１つのオーディオファイル３５又は３９には配置されるがもう１つには配置されないシャープな音（sharp sound）の結果である。従って、過程（１４７）で、何れかの最初の非無音グループの持続時間が予め決められたアーチフアクト長さ（例えば、５０ｍｓ）より短いかどうかを決定することによりそれ／それらが典型的“アーチフアクト”タイプの特性を示すかどうかを見るために該最初の指し示されたブロック（複数を含む）が検査される。

図４Ａ及び４Ｂを参照すると、図４Ｂの左の非無音グループはそれがアーチフアクトであるかも知れないことを示す比較的痩せた（skinny）非無音グループであることが見られる。更に、それは図４Ｂの右の非無音グループから実質的距離だけ離れて位置付けられており、それもこれがその場合であることを示す。特定の目標非無音グループ持続時間（例えば、５０ｍｓ）は無音検出モジュール１４内で使用されるオーディオブロック境界“Ｘ”の解像度（resolution）に左右される。もし過程（１４７）で、アーチフアクト持続時間が検出されるなら、過程（１４９）で、ポインターＭ及び／又はＯは該アーチフアクトを越えて進められ、次いで過程（１１８）が再実行される。もし過程（１４７）で、アーチフアクト持続時間が検出されないなら、過程（１４８）でポインターＭ及び／又はＯは該最初の非無音グループを越えて進められ、過程（１１８）が再実行される。

最後になるが、ステップ（１２６）で、ポインターNが次のオーディオピースに進められ、ポインターM及びOはポインターNを通り過ぎるまで、前進する。ステップ（１２８）で、ポインターM及びOが非無音グループのエンドに達したかどうか（即ち、無音が検出されたオリジナルオーディオファイル３５のエンド・マーカーにポインターMが達し、かつ、無音が検出された統合オーディオファイル３９のエンドにポインターOが達しているかどうか）が決定される。もしそうでなければ、反復サイクルがステップ（１１８）で再開され、かつ、無音挿入モジュール１６が非無音グループの次のセットについて、マッチング(matching)プロセスを繰返す。もしそうなら、ステップ（１３０）で、挿入された無音（即ち、無音が挿入されたオーディオピース）を用いて言語認識モジュール１２から最初に得られた認識結果オブジェクトのリストが検討され、特定の情報が抽出されて、マッピング・ファイル１５が形成される。

無音が挿入されたオーディオピースから抽出された情報は、文書の始めに関連した各ワードの開始キャラクターの位置、（含まれるフォーマッティングと共に）各ワード内のキャラクター数、そのワードに対応したオーディオピースの期間、及び、（上記のような）ワードの信頼度から成っている。個々のオーディオピースの期間には、与えられたオーディオピース（即ちワード）に挿入された無音も含まれていることを認識すべきである。この情報は各情報ピースについて４バイトとして記憶される。これにより、マッピング・ファイル１５内のワード当たり１６バイトの情報が記憶される。無音挿入モジュール１６がオーディオピース・ファイル２７内への無音挿入を完了すると、マッピング・ファイル１５が再生装置１８で再生するためにアセンブルされる。例示として、以下の表内の情報は、無音挿入モジュール１６がオリジナルオーディオファイル２５の処理を終了した後で利用できる情報を示している。以下の表では各欄が記載ワードを示している。

上記の表の中の引用符は個々のワードのそれぞれについて行なわれたフォーマッティング（即ち、無音の挿入）を表示するために用いられる。得られたマッピングファイル１５を以下に示す（太字の部分のみがこのファイルに含まれる）。

そこで、得られたマッピング・ファイル１５からの情報が再生装置１８により用いられて、図９A、９B、９Cに示す再生装置１８のグラフィカル・ユーザー・インターフェース（ＧＵＩ）と関連して例示用スクリーン・ディスプレー１５０により示されたオリジナルオーディオファイル２５の再生中に適当なテキストを強調する。

特に図９Ａに示すように、ＰＬＡＹとＳＴＯＰのボタンを用いて、オーディオファイルの再生を起動・停止する。好ましくは、ワードは一度に２個（例えば、"quick brown"）強調される。さらに、上記の認識の信頼度を反映した種々の色を付けてワードをプリントできる。例えば、“Ａ”として特定されたワードは高い信頼度で認識されたことを示す緑色でマークできる。“Ｂ”として特定されたワードは低い信頼度で認識されたことを示す赤色でマークできる（即ち、認識されていないか、又は、低い信頼度で認識されているワード）。中間の信頼度で認識されている他のワードを異なる色又はフォントで強調できることを認識すべきである。

図９Ａのスクリーン・ディスプレー１５０に示すように、変換担当者２はワード "quick" に強調カーソルを置いてから、再生ボタンを押す。図９Ｂのスクリーン・ディスプレー１５２に示すように、２個のワード "quick brown" が強調されている。示されているように、一度に２ワードを強調することが好ましいが、オーディオ処理システム１０は任意の数のワード（即ち、３個又は４個）を強調できることを認識すべきである。オーディオ処理システム１０が、図９Ｃのスクリーン・ディスプレー１５４に示すように、マッピングファイル１５からワード "quick brown" の再生を終了した後で、次の２ワード、即ち、"fox." (即ち、"fox"と".")に強調を進める。

マッピングファイル１５内に含まれる情報を用いるために、信頼度情報の使用を含めて、多様な方法がある。オーディオ再生と同期させたワードの強調を、希望に応じて、２又は３個のワード、又は、文章全体又は段落を同時に強調するために用いることができる。強調すべきワードの個数に基づいて、マッピングファイル１５内で適当なワードを特定できる。これは、全文の中で強調すべき第一のワードの開始位置を入手して、マッピングファイル１５内の適当な開始キャラクターに注目することにより実現される。マッピングファイル１５を用いて、強調すべき適当なワードの期間を個別のワードの期間と共に加算する。

上記の例から、２個のワード "the quick" を同時に強調する場合、合計１０キャラクターで５４５ｍｓの期間になる。５４５ｍｓの後で始まるようにタイマーを設定して、１０キャラクターがスクリーン１５０で強調される。オーディオ再生の位置が設定され、再生が５４５ｍｓの間に行なわれる。５４５ｍｓの後で、次の２ワードについてそのプロセスが繰返される。オーディオ再生が遮断されずに続けられ、テキストの強調とタイマー設定が行なわれるのに必要な処理は十分に低い。再生は任意のワードの境界で開始でき、必ずしも、ディクテーション(dictation)内の最初のワードで生じないことに留意すべきである。１ワードについてマッピングファイル１５内の適当な開始キャラクターに注目することにより、再生を希望するワードを先行ワードの期間を用い、オーディオのオフセットを決定できる。オーディオ処理システム１０が認識されていないワードに遭遇した時にいくつかの対応を用意できる。第一に、認識されないワードについての表示が無いことがあり、認識されないワードに対するオーディオが前のワードと結合することがありうる。

代わりに、ある種の視覚的待ち行列を用い、テキスト又は背景色の変化を用いるような方法により、ワードが認識されていないことを表示することができる。例えば、認識された（隣接している）ワードに用いられている色とは異なる背景色を用いて、認識されないワードを生じている空白領域を強調することも可能である。さらに、ワードが認識されていないことをより強く示すために、ワードを挿入し、かつ、色を付けることもできる。例えば、"<unrecognized>" の語句をテキストに、又は、他の設定可能なキーワード／フレーズを挿入して、変換担当者２を注目させる。最後になるが、認識結果内に見いだせる信頼度を用いて、全てのワードにカラーコードを付け、信頼度が一定の設定基準を下回っているワードを変換担当者２が識別できる。これにより、全てのワードが色体系に組込まれる（例えば、緑色のワードは高い信頼度を示し、黄色のワードは中の信頼度を示し、赤色のワードは低い信頼度即ち多分認識されなかったワードであるか、低い信頼度で認識されたワード）。

オーディオ処理システム１０内で用いられている個々の事前設定されたパラメーター及び比較範囲の多くが発明者により決定されていて、在来の処理機器と共に用いるのに、又、英語の言語に用いるのに適当である。特に、無音検出モジュール１４内で用いられるオーディオのチャンク(chunks)及びブロック(blocks)の閾値及びディメンジョン(dimensions)、関連ブロックの性格付けをするために閾値を上回るのに必要なチャンクのパーセンテージ、スライディング・ウインドウ３６内で用いられるディメンジョン及び許容パーセンテージ、用いられるサンプリング率、さらに、サンプルしたデータから検査したデータの解像度(典型的に５番目ごとのサンプルを検査）、類似の非無音のグループを識別するために無音挿入モジュール１６内で用いられるパーセンテージ範囲は、全て、個々のシステムの容量と機能の要件により、さらに、ターゲット言語により、調節できるシステム・パラメーターの例である。オーディオ処理システム１０内で用いられる事前設定されたパラメーターと比較範囲の推奨セットは、特定システムの容量、機能の要件又はユーザー３の言語により初期設定のセットとして提供できることが想定されている。そして、初期設定の適当なセットは、これらの特別な適用に固有な条件に基づいて選択できる。

オーディオ処理システム１０は、関連する計算の複雑度を低減することにより、オリジナルオーディオファイル２５からの認識されたテキスト要素とオリジナルオーディオファイル２５の再生との効果的同期を行える。前記のように、代表的な無音が検出されたオリジナルオーディオファイル３５と（個々のオーディオ・サンプルを用いるのとは反対の）無音部検出モジュールにより発生された無音が検出された統合オーディオファイル３９（即ち、無音と非無音の期間の順序）を用いることにより、約６０００倍の情報低減を達成できることが決定されている。さらに、オーディオ処理システム１０により利用されたアルゴリズムの単一経路特性により、多数の点でのデータの反復検査を防止する。無音が検出されたオリジナルオーディオファイル３５、オーディオピースファイル２７及び無音が検出された統合オーディオファイル３９のそれぞれからの関連情報は、無音が挿入されたオーディオファイルは無音が挿入されたオーディオファイルの作成中に多数回の代わりに１回のみ使用される。

当該分野の技術者に明らかなように、本発明の添付請求項に示された範囲から逸脱すること無しに上記の構成の種々の変更及び適合化が可能である。

本発明のオーディオ処理システムのブロック図である。図１のオーディオ処理システムの基本的な作動段階を示す流れ図である。オリジナルオーディオファイル、オーディオピースファイル、及び統合オーディオファイルの信号特性を示す一連のグラフである。図３のオリジナルオリジナルファイルのオーディオセグメントを示しているグラフである。無音検出モジュールが図４Ａのオーディオセグメントを処理するときに作られる無音の検出されたオリジナルオーディオファイルのセグメントを示すグラフである。図１の無音検出モジュールにより処理される無音グループ及び非無音グループの形態例の一表現である。図１の無音検出モジュール内で使用される例示グループの振幅リストの表現である。図１の無音検出モジュールにより導かれた処理段階を示す流れ図である。図１の無音挿入モジュールにより導かれる処理段階を示す流れ図である。図１の無音挿入モジュールにより導かれる処理段階を示す流れ図である。図１の無音挿入モジュールにより導かれる処理段階を示す流れ図である。無音の検出されたオリジナルオーディオファイルの例及び対応する無音の検出された統合オーディオファイルを示すグラフである。オリジナルオーディオファイル例及び対応する統合オーディオファイルを示すグラフである。無音の検出されたオリジナルオーディオファイルの例、対応するオーディオピースファイル、及び対応する無音の検出された統合オーディオファイルを示す一連のグラフである。オーディオ処理システムにより利用される図表式のユーザーインターフェース（ＧＵＩ）のスクリーン記録である。

符号の説明

２変換担当者
３ユーザー
１０オーディオ処理システム
１２言語認識モジュール
１４無音検出モジュール
１５マッピング・ファイル
１６無音挿入モジュール
１８再生装置
２５オリジナルオーディオファイル
２７オーディオピース・ファイル
３５無音が検出されたオリジナルオーディオファイル
３６スライディング・ウインドウ
３９無音が検出された統合オーディオファイル
１５０、１５２、１５４スクリーン・ディスプレー
Ｎ、Ｍ、Ｏポインター

Claims

使用者により話された言語を含むオリジナルオーディオファイルから認識されたテキストのディスプレイと、前記オリジナルオーディオファイルに再生とを同期させるためのオーディオ処理方法であって、
オリジナルオーディオファイル内の話された言語を認識して言語認識モジュールの手段により、認識されたテキストのピースと組み合わせられたオーディオピースとを作る過程、
無音挿入モジュールを使用してオーディオピースを統合オーディオファイルに統合する過程、
無音及び非無音のグループが閾値音量を使用して識別される、オリジナルオーディオファイルと統合オーディオファイルとの両者をそれぞれ無音の検出されたオリジナルオーディオファイルと無音の検出された統合オーディオファイルに変換するために無音検出モジュールを使用する過程と、
無音の検出されたオリジナルオーディオファイルと無音の検出された統合オーディオファイルとを比較し、前記無音の検出されたオリジナルオーディオファイル及び前記無音の検出された統合オーディオファイルの中の対応している非無音グループの位置の差を決定する過程と、
無音の挿入されたオーディオピースの統合が、オリジナルオーディオファイルに相当する統合された無音の挿入されたオーディオピースを生むように、無音の挿入されたオーディオピースを作るために、無音の検出されたオリジナルオーディオファイル及び無音の検出された統合オーディオファイルの中の対応している非無音グループの位置の差に従ってオーディオピース内に無音を挿入するために前記無音挿入モジュールを使用する過程と、そして
オリジナルオーディオファイルの再生と認識されたテキストのディスプレイとを同期させるために、無音の挿入されたオーディオピース及び組み合わせらたれ認識されたテキストピースを利用する過程と、
を具備する方法。
続行する非無音グループを非無音として考えるべきか、或いは無音として再分類するべきかを決定するために、多数の先行非無音グループの平均音量を維持するように、無音検出が、順応できるスライドする平均ウインドウレジスターを利用することを備えている請求項１記載の方法。
前記非無音グループの各々が、前記ブロック内のオーディオの平均音量に相当する高さで組み合わせられる請求項１又は２記載の方法。
オリジナルオーディオファイルが環境内において記録され、無音検出が環境を反映する閾値音量を選択することを備えている請求項１乃至３のいずれか１記載の方法。
前記の比較する過程が、
ｉ）オリジナルオーディオマーカーを無音の検出されたオリジナルオーディオファイル内の非無音グループの前方の位置に割り付け、統合されたマーカーを無音の検出された統合オーディオファイル内の非無音グループの前方の位置に割り付け、
ii）それぞれの非無音グループが適合するか否かを決定し、
iii)前記オリジナルオーディオマーカーと前記統合されたマーカーとの間の位置の差を決定し、
iv）該ｉ）乃至iii)の過程を少なくも１回繰り返す、
ことを備えている請求項１乃至４のいずれか１記載の方法。
無音の挿入されたオーディオピース及び組み合わせられた統合テキストピースの各々が複数の特性を備え、複数の特性が、オリジナルオーディオファイルの出発点に関するオーディオピース内のテキストピースの出発文字の位置、テキストピース内の文字の数、オーディオピースの持続時間、テキストピースと組み合わせられたテキスト認識の信頼のレベルよりなるグループの少なくも一つを備えている請求項１乃至５のいずれか１記載の方法。
無音の挿入されたオーディオピースのタイミング特性の利用により、組み合わせられたオーディオピースの再生と認識されたテキストピースのディスプレイとを同期させる過程を具備する請求項１乃至６のいずれか１記載の方法。
認識されたテキストピース及び少なくも１個の隣接した認識されたテキストピースに相当するオーディオピースの再生の間に、前記認識されたテキストピース及び少なくも１個の隣接した認識されたテキストピースを強調する認識されたテキストのディスプレイを同期させる過程を具備する請求項１乃至７のいずれか１記載の方法。
前記オリジナルオーディオファイルが、端末装置を使用している使用者から得られる請求項１乃至８のいずれか１記載の方法。
認識されたテキストピースがディスプレイされ、そして組み合わせられたオーディオピースが、認識されたテキストピースと同期する方法で、再生装置を使用して再生される請求項１乃至９のいずれか１記載の方法。
使用者により話された言語を含むオリジナルオーディオファイルから認識されたテキストのディスプレイを、前記オリジナルオーディオファイルの再生と同期させるようにオーディオ処理するためのコンピューターベースのシステムであって、
言語認識モジュール、
無音挿入モジュール、
無音検出モジュール、
請求項１から１０のいずれか１記載の方法を実行するコンピュータープログラム、
を具備するシステム。