JP4725948B2 - テキストのディスプレイとオーディオの再生とを同期させるためのシステム及び方法 - Google Patents

テキストのディスプレイとオーディオの再生とを同期させるためのシステム及び方法 Download PDF

Info

Publication number
JP4725948B2
JP4725948B2 JP2004296854A JP2004296854A JP4725948B2 JP 4725948 B2 JP4725948 B2 JP 4725948B2 JP 2004296854 A JP2004296854 A JP 2004296854A JP 2004296854 A JP2004296854 A JP 2004296854A JP 4725948 B2 JP4725948 B2 JP 4725948B2
Authority
JP
Japan
Prior art keywords
silence
audio
audio file
piece
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004296854A
Other languages
English (en)
Other versions
JP2005115391A (ja
Inventor
マイケル・ルーク
ロバート・ロウ
ステイーブン・バン・ドカムバーグ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agfa Healthcare Inc
Original Assignee
Agfa Healthcare Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agfa Healthcare Inc filed Critical Agfa Healthcare Inc
Publication of JP2005115391A publication Critical patent/JP2005115391A/ja
Application granted granted Critical
Publication of JP4725948B2 publication Critical patent/JP4725948B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Description

本発明は、一般に言語認識に分野に関し、特に校正目的でテキストのディスプレイとオーディオの再生とを同期させることに関する。
言語認識システムにおける校正装置は、テキスト文書の校正と補正とを容易にするために、オーディオ及びテキストの両者を一語ずつ示す。単語が示されたとき、使用者は、再生を停止させ、そして関心のある部分を変更し又は修正するための選択肢を持つ。多くの市販の製品は、書写における誤りの識別について使用者を支援するために、オーディオが再生されるときにテキストと組み合わせて使用者に可視の合図を提供する。例えば、特許文献1は、組み合わせられたオーディオが再生されるときに単語を強調するシステムを明らかにする。しかし、このようなシステムは、認識されない単語の場合はうまく実行しない。このような場合は、一度に1個の単語しか強調されないため、認識されない単語のあるときは、強調されず、使用者はテキスト内のその単語の場所を見損なうであろう。
更に、大多数の用途においては、オーディオとテキストとの整合を提供するために使用される整合アルゴニズムにはかなりの制限がある。例えば、英国のドルフィン・オーディオ・パブリッシングにより製造されたEasePublisherTMは、同期するオーディオ/テキスト再生装置を持つ。これは、「あなたが聞くのと同期して」又は「あなたが話すのと同期して」テキストにオーディオを入れると吹聴するが、これらの機能の各は、使用者が同期点を手操作で特定することが必要である。また、米国ワシントン州シアトルのスプレックス・インクの製品LSMTMは、サーバーにオーディオ及び平易なテキストファイルを提供する。この機構は、オーディオの正確なテキスト表現を提供することが重要であるため望ましくない。
米国特許第5,031,113号 明細書
上述の諸問題は、請求項1において説明された特別の特徴を有するシステム及び請求項11による方法により解決される。本発明の好ましい実施例についての特別な特徴が従属請求項において説明される。
本発明は、一態様においては、使用者により話された言語を含んでいるオリジナルオーディオファイルから認識されたテキストのディスプレイと、オリジナルオーディオファイルの再生との同期を提供するためのオーディオ処理システムであって、
(a)オリジナルオーディオファイルから認識されたテキストピース及び組み合わされたテキストピースを作るための言語認識モジュール;
(b)オーディオピースを統合オーディオファイルに統合するための無音挿入モジュール;
(c)オリジナルオーディオファイル及び統合オーディオファイルを、無音の検出されたオリジナルオーディオファイル及び無音の検出された統合オーディオファイルに変換するための無音検出モジュール、この場合、無音グループ及び非無音グループは閾値音量を使用して識別され;
(d)前記無音挿入モジュールであって、更に
(i)無音の検出されたオリジナルオーディオファイルと無音の検出された統合オーディオファイルとを比較し、そしてそれぞれのファイル内の非無音グループの位置の差を決定し、
(ii)無音の挿入されたオーディオピースの統合がオリジナルオーディオファイルに実質的に相当する統合された無音の挿入されたオーディオピースファイルを生むように、無音の挿入されたオーディオピースを作るために(i)において決定された位置の差に従ってオーディオピース内に無音を挿入し;更に
(iii)オリジナルオーディオファイルから認識されたテキストピースのディスプレイと、オリジナルオーディオファイルからの組み合わせられたオーディオピースの再生とを同期させるために、無音の挿入されたオーディオピース及び組み合わせらたれ認識されたテキストピースの特性を利用する
ようにされた前記無音挿入モジュール
を備えたシステムを提供する。
使用者により話された言語を含んでいるオリジナルオーディオファイルから認識されたテキストのディスプレイとオリジナルオーディオファイルの再生との同期を提供するためのオーディオ処理方法であって、
(a)オリジナルオーディオファイル内の話された言語を認識し、そして認識されたテキストピース及び組み合わされたオーディオピースを作り;
(b)オーディオピースを統合オーディオファイルに統合し;
(c)オリジナルオーディオファイル及び統合オーディオファイルを無音の検出されたオリジナルオーディオファイル及び無音の検出された統合オーディオファイルに変換するために無音検出を適用し、この際、無音グループ及び非無音グループは閾値音量を使用して識別され;
(d)無音の検出されたオリジナルオーディオファイルと無音の検出された統合オーディオファイルとを比較し、そして無音の検出されたオリジナルオーディオファイル及び無音の検出された統合オーディオファイル内の対応している非無音グループの位置の差を決定し、
(e)無音の挿入されたオーディオピースの統合が、オリジナルオーディオファイルに実質的に相当する統合された無音の挿入されたオーディオピースファイルを生むように、無音の挿入されたオーディオピースを作るために、無音の検出されたオリジナルオーディオファイル及び無音の検出された統合オーディオファイル内の対応している非無音グループの位置の差に従ってオーディオピース内に無音を挿入し;更に
(f)オリジナルオーディオファイルから認識されたテキストピのディスプレイと、オリジナルオーディオファイルの再生とを同期させるために、無音の挿入されたオーディオピース及び組み合わせらたれ認識されたテキストピースの特性を利用する
ことを含んだ前記方法。
本発明の更なる利点及び実施例は、以下の説明及び図面から明らかとなるであろう。
最初に図1及び2を参照すると、それらは、一緒に、本発明の好ましい実施例に従って作られたオーディオ処理システム(audio processing system)10の基本要素(basic elements)と処理段階(processing stages)とを図解している。該オーディオ処理システム10は言語認識モジュール(speech recognition module)12,無音検出モジュール(silence detection module)14、無音挿入モジュール(silence insertion module)16そして再生デバイス(playback device)18を有する。示される様に、使用者3はターミナル5と組み合わせられたマイクロホン4に話し、この言語はオリジナルオーディオファイル25として記録される。該結果のオリジナルオーディオファイル25は、(テキスト、オーディオ)要素{(text, audio)elements}を発生するために言語認識モジュール12により解析される。無音挿入モジュール16と無音検出モジュール14は、説明される様に、再生デバイス18上でのオリジナルオーディオファイルのオーディオ再生と同期して認識されたワード(words)を表示するために使われる。
ターミナル5はマイクロホン4,ディスプレイ6そしてスピーカー9を有し、それらは一緒に、使用者3が言語を記録しそして次いでオリジナルオーディオファイル25の再生時にハイライトにされたテキストの協調させられたディスプレイを見ることを可能にする。ターミナル5がどんな有線又は無線の言語入力デバイスでもあり得るころは理解されるべきである{例えば、パーソナルコンピュータ又は無線デイクタホンデバイス(wireless dictaphone device)、ディスプレイ付き無線電話他}。
再生デバイス18はディスプレイ6,キーボード8,スピーカー9を含みそして好ましくは筆写家(transcriptionist)2より使用されるための従来型デスクトップパーソナルコンピュータであるのがよい。好ましくは、再生デバイス18は、オーディオ処理システム10のサーバー7から物理的に分離され、ターミナル5とは区別されるのがよいが、再生デバイス18が又サーバー7又はターミナル5内に実現され得ることは理解されるべきである。再生デバイス18をどんな有線又は無線言語入力デバイスとすることも出来ることは考慮されている(例えば、パーソナルコンピュータ又は無線デイクタホンデバイス、ディスプレイ付き無線電話他)。
言語認識モジュール12はオリジナルオーディオファイル25を受信し、オリジナルオーディオファイル25に従来公知の言語ツーテキスト変換操作(speech-to-text conversion operations)を行う。言語認識モジュール12はオーディオ処理システム10により更に処理するのに好適な特定フオーマットでの出力データ、すなわち複数の”(テキスト、オーディオ)”要素を発生するよう構成されており、そこでは各認識されたワード用に1つの(テキスト、オーディオ)要素が得られる。言語認識モジュール12はエスエイピーアイ4適合音声認識エンジン(SAPI 4 compliant voice recognition engine)、すなわち{米国、マサチューセッツのスキャンソフト(ScanSoft of Massachusetts, U.S.A.)により製造された}ドラゴンナチュアラリースピーキングテーエム(Dragon Naturally SpeakingTM)を使って実現されるのが好ましい。しかしながら、(テキスト、オーディオ)要素を提供するどんな従来型言語認識ソフトウエアもオーディオ処理システム10により利用され得ることは理解されるべきである〔例えば、米国、ニューヨーク、ホワイトプレーンのアイビーエム(IBM of White Plains, New Tork, U.S.A.)により製造されるバイヤボイス(Viavoice)そしてオーストリア(Austria)のフイリップスピードプロセシング(Philips Speed Processing){ピーエスピー(PSP)}により製造される言語エスデーケー3.1テーエム(SDK 3.1TM)〕。
無音検出モジュール14は特定のオーディオファイル内で無音(すなわち、非言語)及び非無音(すなわち、言語)の期間(periods)を決定する。特に、無音検出モジュール14はオーディオファイル内で無音及び非無音の期間を決定するために音量閾値(volume threshold)、平均化技術(averaging techniques)のみならず適応スライデイングウインドウアルゴリズム(adaptive sliding window algorithm)も適用する。結果は該オーディオファイルの簡単な表現となり、それは無音及び非無音の期間を示し、振幅値を該非無音に帰する(ascribes)。無音検出モジュールは無音挿入モジュール16からオーディオファイルを受信し、無音の検出されたオーディオファイル(silence detected audio files)を返す。
無音挿入モジュール16はマップ用ファイル(mapping file)15を創るために要する必要な情報を全て発生するが、該マップ用ファイルはオリジナル言語記録の再生とその組み合わせられたテキストのディスプレイ時に使用される。無音挿入モジュール16はターミナル5からオリジナルオーディオファイル25を、その組み合わせられた認識された(テキスト、オーディオ)要素を言語認識モジュール12から受信し、そして上記で論じた処理のために、オリジナルオーディオファイル25と該オーディオピースの統合された版を、該(テキスト、オーディオ)要素から無音検出モジュール14へ送る。無音検出モジュール14により発生された該無音の検出されたオーディオファイルを使って、無音挿入モジュール16は言語認識モジュール12により認識された個別オーディオピース内で何処に無音が挿入されるべきかを決定するために、比較操作を行うことが出来る。一旦適当な無音が該個別オーディオピース内に挿入されると、無音挿入モジュール16はマップ用ファイル15を発生する。マップ用ファイル15は再生デバイス18での後刻の使用のために該オリジナルオーディオ25と共に貯蔵される。マップ用ファイル15は、ターミナル5上で使用者3用に鳴らされる(played)ワードのオーディオ版に対応する現在のワード(複数を含む)をハイライトにさせるために要する情報を提供する。
再生デバイス18は次いでオリジナルオーディオファイル15とマップ用ファイル15を求める請求をサーバー7へ送りそれは次いで受信される。マップ用ファイル25内に蓄えられた情報は、ディスプレイ6上での適当にハイライトにされたテキストのディスプレイと同期してスピーカー4を通してオーディオを鳴らす(play)再生デバイス18により読まれる。筆写家2は直接、再生デバイス18に組み合わせられたキーボード8上で認識されたテキストを編集する。筆写家2{例えば、口述(dictatoin)を校正(proofread)するためにハイヤーされたスタッフの人}は使用者3(例えば医者)と異なる人であることは考慮されるが、彼等は同じ人であることも出来る。一旦筆写家2が再生されたオーディオを聞きながら該認識されたテキストを校正すると、再生デバイス18はターミナル5に修正されたマップ用ファイル15を提供する。この点に於いて、使用者3は該表示されたテキストが該再生されたオーディオと異なる時に、該表示されたテキストを修正する必要があるだけである。再生時、もし筆写家2が該テキスト内のワードを除去するならば、該ワードに対応するオーディオ部分は、テキストとオーディオの全体的同期化が保持されるよう、無音により置き換えられることは注意されるべきである。
オーディオ処理システム10はアールテーエフ(RTF){リッチテキストフオーマット(Rich Text Format)}、エムエスワードテーエム(MS WordTM){ワシントン、シアトルのマイクロソフト(Microsoft of Seattle, Washington)により製造された}により認識される標準、及び他の高品質テキストエデイター(high quality text editors)、と両立するよう設計されている。これは肉太(bold)、アンダーライン(underlined)、イタリック(italics)のみならずテーブルの様な広範なフオーマッテイング(formatting)、そして他の整合機能(alignment functionality)を許容する。オーディオ処理システム10は医学的及び法学的の様な特殊な職業用の語彙を含む多数でより多くのワードへのアクセスを提供するために高品質エスエイピーアイ(SAPI)認識エンジンを利用する。
今図1,2及び3を参照すると、オーディオ処理システム10の基本的操作が図解されている。特に、図2は該オーディオ処理システム10の基本的操作過程を図解し、図3はオリジナルオーディオファイル25の1部分の振幅特性のグラフ表現を含むオーディオ処理システム10内で利用される種々のオーディオファイルを図解する。示される様に、該グラフの細い範囲(例えば、A及びBで)は無音を表し、一方該ピーク(例えば、C及びDで)はオリジナルオーディオファイル25内の非無音を表す。
過程(52)で使用者3はターミナル5でオリジナルオーディオファイル25(図3)を記録するためにターミナル5に組み合わせられたマイクロホン4に話す。多くの他のオーディオフオーマットが使用され得ることが理解されるべきであるが、オリジナルオーディオファイル25はウエーブファイル(.WAV file)フオーマットで記録されるのが好ましい。過程(54)で、オリジナルオーディオファイル25はメモリー内にセーブされる。過程(56)で、オリジナルオーディオファイル25は処理用に言語認識モジュール12へ提供される。過程(60)で、従来公知の技術を用いて、言語認識モジュール12は該オリジナルオーディオファイル25を処理し、該入力オーディオストリーム(input audio stream)のテキスト表現(textual representation)、すなわち各認識されたワード用の複数の(テキスト、オーディオ)要素を導き出す。
過程(62)で、言語認識モジュール12により発生された該(テキスト、オーディオ)要素からの該オーディオピースはオーディオピースファイル27内で個別にアッセンブルされ(図3)、1つずつ統合オーディオファイル(a ggregated audio file)29内へコンパイルされる(図3)。過程(64)で、オリジナルオーディオファイル25及び統合オーディオファイル29は処理用に無音検出モジュール14へ送られそして無音の検出されたオリジナルオーディオファイル(silence detected original audio file)35(図7A)と無音の検出されたの統合オーディオファイル(silence detected aggregated audio file)39(図7A)は無音挿入モジュール16へ戻される。過程(65)で、無音検出モジュール14は、該オリジナルオーディオファイル25と統合オーディオファイル29を処理し、無音の検出されたオーディオファイルを発生するため使用される。特に、無音検出モジュール14は無音の検出されたオリジナルオーディオファイル35と無音の検出された統合オーディオファイル39を発生する。過程(66)で、無音挿入モジュール16は該無音の検出されたオリジナルオーディオファイル35と該無音の検出された統合オーディオファイル39を解析し、それぞれのファイル内で非無音要素の位置の差を決定することを助けるため該オーディオピースファイル27を使用する。これらの差に基づき、無音挿入モジュール16は、個別に調整されたオーディオピースを作るためにオーディオピースファイル27内(図3)の各オーディオピース内への無音挿入を行う。過程(68)で、無音挿入モジュール16は無音の挿入されたオーディオピースの特性に基づきマップ用ファイル15を発生する。
過程(69)で、再生デバイス18は再生デバイス18上でのオリジナルオーディオファイル25の再生をディスプレイ6上の組み合わせられ認識されたテキストのディスプレイと同期化させるためにマップ用ファイル15を使用する。すなわち、オリジナルオーディオファイル25が再生される間に、認識されたテキストがディスプレイ6上に表示され、特定のワードが該表示されたテキスト内でハイライトにされる(highlighted)。これは筆写家2が、協調された仕方でターミナル5で、オリジナル言語口述(original speech dictation)から認識されたものを校正することを可能にする。マップ用ファイル15は、オリジナルオーディオファイル25の対応するオーディオセグメントが再生される時認識されたテキストの選択的にハイライトにされたセグメントに要する情報を含む。これは校正過程の効率を改善し、筆写家2が該認識されたテキストの正確さを検証することを可能にし、適当な修正を行う機会を提供する。
今図1,3,4A、4B、そして5を参照すると、無音検出モジュール14の動作がオリジナルオーディオファイル25と関連して説明される。無音検出モジュール14の処理過程50は図5で図解される。図4Aと4Bは、更に説明される様に、無音検出モジュール14に提供されるオリジナルオーディオファイル25のセグメント(図4A)と無音検出モジュール14の出力のセグメント32(図4B)を図解する。しかしながら、無音検出モジュール14はどんな種類のオーディオファイル上でも動作するよう適合されていることは理解されるべきである。
特に、図4Aと5を参照すると、過程(92)で、無音検出モジュール14はオリジナルオーディオファイル25を取り上げ、オリジナルオーディオファイル25を、より小さいサイズの(smaller sized)”オーディオチャンク(audio chunks)”とより大きいサイズで”オーディオチャンク”を含む”オーディオブロック(au dio blocks)”と呼ばれるものにセグメント化(segments)する。図4Aに示す様に、オリジナルオーディオファイル25のセグメント30が示される。図4Aで”X”と名付けられる白の垂直線はオーディオブロック境界を表す。適当な大きさの(dimensioned)オーディオチャンク及びオーディオブロックを使って、オーディオ処理システム10は該オリジナルオーディオファイル25のより簡単な表現を創り、一方説明される様に、無音挿入モジュール16用の合理的決定を行うために充分な詳細さ(detail)をなお残している。
オーディオブロックサイズは該無音検出過程の望まれる精度に基づいて選択されるが、それはオーディオブロックサイズがそのアルゴリズムの偏倚を命ずる(audio block size dictates the bias of the algorithm)からである。すなわち、より大きいオーディオブロックは無音又は非無音であると識別されるより大きいセクションのオーディオに帰着する。対応して、より小さいオーディオブロックは無音又は非無音であると識別されるより小さいセクションのオーディオに帰着する。もしより小さいサイズのオーディオブロックが使われるなら、無音及び非無音の境界に関してより多くの情報が提供される。非常に大きいオーディオブロックは望ましくなく、何故ならば充分でない無音/非無音境界の詳細さ(boundarry detail)しか提供されないからである。又、非常に小さいブロックも望ましくなく、何故ならば余りの多くの無音/非無音境界の詳細さが提供されるからである。
従って、各オーディオブロックが同数のオーディオチャンクを含み、該オーディオチャンクの各々が同持続時間(例えば、6ms)であるため各オーディオブロックも又同持続時間である(of the same duration)のが好ましい。これは重要であり、何故ならもし該オーディオブロックサイズが同じサイズでないなら入力オーディオファイル25の持続時間に亘り一貫しない量の無音/非無音境界詳細さがもたらされるからである。オーディオ処理システム10の動作が解析され得て、適当な精度(すなわち、詳細さ)レベルが必要な様に調整されるように、一貫したレベルの詳細さを保持することが重要である。この種の一貫性がないと、該オーディオ処理システム10の動作を理解し、マップ用ファイル15の品質への高い信頼を持つことは難しい。
過程(93)で、適当な相互作用メニューオプションを通して使用者3に依るか、又はマイクロホン4と内部処理源とを使ってターミナル5で行われる或る種の環境ノイズ校正を通して自動的にか、何れかで、オーディオ処理システム10用に閾値音量(threshold volume)が選択される。該選択された音量閾値が中で使用者3が働いている環境を反映すべきであることは理解されるべきである(例えば、静粛な家庭医のオフイスに対し救急処置室用では異なる設定が適当である)。該音量閾値音量(v olume threshold volume)は該音量閾値の上にある声音(voice)サンプルが言語(speech)を構成しそうであるよう選択される。図4Aと4Bで”K”でマーク付けされた水平ラインはこの図解の目的で選択された音量閾値を示す。
無音検出モジュール14は予め設定された数の無音及び非無音オーディオブロックがオーディオの予め決められた時間間隔(例えば、1分)内に見出されるように該音量閾値を選択する。もし音量閾値余りに高いなら全オーディオデータは無音であると検出され、同様に、もし該音量閾値が余りに低いなら全オーディオデータは非無音であると検出されるであろう。無音検出モジュール14はより多い、或いは、より少ない無音及び非無音グループが適当な操作用に必要とされることに基づきより高く又はより低く該音量閾値を調整する。例えば、もし1分当たり100無音グループを検出することが望ましく、オーディオ処理中所要の100より少ない無音グループが検出されるなら、見出される無音ブロック数が増加するよう該音量閾値は下げられる。この過程は望まれる100無音グループが見出されるまで繰り返される。本発明人は幾つかのテストに基づき1分当たり100無音グループを検出出来ることが好ましいことを決定した。この値は多数のオーディオサンプルの場合に基づき最適の結果を提供するように見える。
過程(94)で、オーディオチャンクは、該オーディオチャンクが該音量閾値を越えるかどうかを評価する目的で識別される。過程(96)で、該オーディオチャンクは、それが該音量閾値を”越えるか”どうかを決定するため評価される。オーディオチャンク内の5つ毎に1つのサンプルを検査し該サンプルの値を平均することにより納得の行く動作が達成されることが決定されたが、多くの他の評価の取り組みが使用され得ることは理解されるべきである。もし該サンプルの平均値が選択された閾値以上ならば、該オーディオチャンクは該閾値を越えると考えられ、過程(98)で非無音と識別される。しかしながら、オーディオチャンクが該音量閾値を越えるかどうかを決定する多くの他の方法が適用され得ることは理解されるべきである。本発明人はオーディオ処理システム10用のオーディオファイル用の合理的サンプリングレートは11,025Hzであると決定した。従って、上記で注意した6msチャンクサイズを使って、オーディオの6msチャンク内に見出されるサンプル数は11025/1000*6ms=66.15(又は66)サンプルである。
過程(100)で、前に検査したオーディオチャンクがオーディオブロック内の最後のチャンクであるかどうかが決定される。もしそうでないならば、次のオーディオチャンクが過程(94)で識別される。もしそうであるならば、該オーディオブロックが該閾値レベルを越えるかどうか決定するためオーディオブロック全体が評価される。特に、過程(102)で、該オーディオブロック内の該オーディオチャンクの予め決められた比率(例えば、70%)より多くが該音量閾値以上であるかどうかが決定される。一般的に言って、50%以上は適当な操作用に必要であるが、他の比率が使用され得ることは理解されるべきである。もしそうであるなら、過程(104)で、該オーディオブロックは該音量閾値を越えると思われ、非無音ブロックであると識別される。平均閾値も各非無音ブロック用に(107)で計算される。もしそうでないなら、過程(106)で、該オーディオブロックは無音ブロックである識別される。
最後に、過程(108)で、処理された該オーディオブロックが最後のオーディオブロックであるかどうかが決定される。もしそうでないなら、閾値決定が過程(94)で続く。もしそうであるなら、過程(109)で、該オーディオブロックは図4Bに示す様にグループに集められる。特に、無音ブロックの隣接するセット(すなわち、相互に接触するブロック)は”無音グループ(silence group)”と呼ばれるものを形成する。
対応して、非無音ブロックの隣接するセットは”非無音グループ(non-silence group)”と呼ばれるものを形成する。無音ブロック及びグループは図4Bに示す様にゼロ音量を有することは理解されるべきである。
過程(113)で、短い無音グループは再分類(re-categorized)される。特に、予め決められた持続時間(例えば、持続時間で30msより短い)より短い無音グループはもしそれが2つの非無音グループ間に落ちるなら”非無音”であると再分類される。同様に、過程(115)で、予め決められた持続時間(すなわち、持続時間で30msより短い)より短い非無音グループはもしそれが2つの無音グループ間に落ちるなら”無音”であると再分類される。これらの場合は定例の言語の外の、鋭い咳、又は背景ノイズにより引き起こされることが多い。この分類過程は下記で説明される様に”左から右へ”の優先性規則("left to right " priority rule)を使って行われる。
図4Cで図解される様に、長い無音グループAは、短い無音グループC及び長い非無音グループDにより追随される、短い非無音グループBにより追随される。この情況で、左から右へ処理して、該短い非無音グループBに遭遇した時、それは無音と考えられ、何故ならそれがより長い無音ブロックAに追随するからである。すなわち、該長い無音グループAと該短い非無音グループBを含む無音グループの創成は、個別の非無音グループの創成より優先される。該短い無音グループCに遭遇した時、長い無音グループAと該短い非無音グループBを含む無音グループと短い無音グループCとの創成が行われる。最後に、該長い非無音グループDに遭遇した時、個別の非無音グループの創成が優先される。この種の再分類は無音及び非無音のより長いグループを贔屓にするよう意図されている。
無音検出モジュール14は、オリジナルオーディオファイル25の様なオーディオファイルを通しての1回パス(single pass)として、上記で論じた図5の処理過程50を行う。又注意された様に、図4Aのオーディオセグメント30上のこれらの処理過程の適用は図4Bの該処理されたオーディオセグメント32に帰着する。特に、図4Bに示す様に、過程(117)で、非無音の該再分類されたグループは、何処に各再分類されたグループが該セグメントの高さh(図4Bに示す様な)により示された平均振幅(すなわち音量)を有するかを指示される。非無音の期間を表すセグメントはグレイ範囲(grey areas)Gとして図4Bのグラフ上で指示され、上記で注意した様に、これらの範囲の高さhは平均振幅に依る。
戻って過程(109)を参照すると、無音検出モジュール14はブロック毎ベースで行われる適合過程(adaptation process)を使って、与えられた非無音グループが非無音と考えられるべきかどうかを決定する。該適合過程は本質的にスライデイングウインドウアルゴリズム(sliding window algorithm)であり、そこでは該ウインドウは最後のnの非無音グループの平均振幅を含んでいる。その平均振幅が前のnのグループの平均と調和しているかどうか(if its average amplitude is in keeping with the average of previous n groups)を見るために新しい非無音グループが検査される。もしそれが調和していれば、該新しいグループは該ウインドウに付加され、該ウインドウ内の最も早期のグループは除去される。もし該新しいグループの該平均振幅が該前のnのグループの平均と調和していないならば、該新しいグループは恰もそれが無音グループであるかの様に捨てられる。例のグループ振幅リスト化34が図4Dで示される。
図4Dの該グループ振幅リスト化34は処理されつつあるオリジナルオーディオファイル25の13の隣接グループについての平均振幅値を保持する。”S”としてラベル付けされたエントリー(entries)が無音グループであることは注意されるべきである。他のエントリーは該指示された平均振幅を有するものを備えた非無音グループである。スライデイングウインドウレジスター(sliding window register)36(図4D)がグループ振幅リスト化34内で該振幅値を処理するため使われる。この例の目的では、スライデイングウインドウレジスター36の開始は該第1非無音グループ(すなわち、振幅7500を有するグループ)にセットされ、スライデイングウインドウレジスター36用の該ウインドウサイズは5にセットされる(すなわち、それでそれは5つの非無音振幅値を含む)。かくして、肉太の(in bold)該振幅値は現在のウインドウを形成する。この点に於いて、2000の平均振幅を有する第6の非無音グループが処理されようとしている。現在該スライデイングウインドウレジスター36内にある値の平均値は6400である。今度のグループ(the current group)の平均振幅は該スライデイングウインドウレジスター36内の値の平均の予め決められたパーセンテージ(例えば、60%)内に現在あるかどうかが決定される。該今度のグループ(すなわち考慮中の第6グループ)の平均振幅は60%より遙かに低いので、そのグループは無音と再分類され、その周囲無音ブロックに付属させられる。次いで次の非無音グループ(すなわち、振幅4000を有するグループ)が丁度説明した同じスライデイングウインドウ決定過程を使って処理される。
この種の適合は、使用者3が全体の口述を通して同じレベルでは必ずしも話さないという理由で、オーディオ処理システム10の実用的操作用に重要である。例えば、背景ノイズは該口述中増減し、使用者3は背景ノイズの変化を補償するために、従って、彼/彼女の声音を上げ、下げする。上記で論じたスライデイングウインドウレジスター36を使うことにより、この種の振幅レベルの変化は斟酌され得る。従って、オーディオ処理システム10に提供されるオリジナルの音量閾値が低水位(low water mark)を構成するがそれは確立された音量閾値レベル以上の非無音グループのみが可能性ある非無音候補と考えられるが、該音量閾値以上の全グループが無音検出モジュール14により非無音セグメントとして選択されるのではないことは理解されるべきである。
今、図1,3、6A、6B、そして6Cを参照すると、無音挿入モジュール16の動作が今度は説明される。無音挿入モジュール16はオーディオ処理システム10用に該マップ用ファイル15を創るため必要な全部の情報を発生する。上記で論じた様に、マップ用ファイル15は、現在のワード(複数を含む)を適当にハイライトにすることが達成されるように、口述の可視ディスプレイを該オーディオの再生と相関させる手段を有する応用を提供する。図1に示す様に、無音検出モジュール16はターミナル5から該オリジナルオーディオファイル25を受信し、言語認識モジュール12から該(テキスト、オーディオ)要素を得る。更に、無音挿入モジュール16は言語認識モジュール12から得られた該(テキスト、オーディオ)要素からの個別オーディオピースに基づき統合オーディオファイル29を発生する。無音挿入モジュール16は、説明される様に、マップ用ファイル15を発生するために無音検出モジュール14を利用する。
特に図3及び6A、6B、6Cを参照すると、言語認識段階中に、言語認識モジュール12は認識結果対象(recognition results objects)を発生する。各結果対象は、認識されたテキストピース、対応するオーディオピース{すなわち、上記で参照された該(テキスト、オーディオ)要素}のみならず信頼レベル(confidence level)(例えば1から100の数)も含む大きなセットの情報から成る。該信頼レベルは、如何に或る言語認識モジュール12が該オーディオピースの最終のテキスト的解釈(resulting textual interpretation)になっているかを指示する。該テキストピースを一緒に統合することにより、認識されたテキストストリームを得ることが出来る。又該対応するオーディオピース27を統合されたオーディオファイル29内に簡単に統合することは可能であるが、該統合されたオーディオファイル29は該オリジナルオーディオファイル25と正確には整合しない。
図3に示す様に、該統合されたオーディオファイル29は該オリジナルオーディオファイル25より持続時間で常に短く、何故なら該オリジナルオーディオファイル25内の無音ピースが省略されているからである。該オリジナルオーディオファイル25内の該無音は該言語認識モジュール12には重要でないが、これらの無音ピースの存在は再生中該オリジナルオーディオファイル25の該認識されたテキストストリームとの適当な同期化には重要である。無音挿入モジュール16は、該認識されたテキストストリームと該オリジナルオーディオファイル25の同期再生を達成するため精密なタイミング情報が使用され得るよう、該統合されたオーディオファイル29内の欠けた無音ピースを取り戻す(reclaim)よう作用する。
今戻って図1,3,6A、6B、6C、そして7Aを参照すると、特に図6A、6Bそして6Cは無音挿入モジュール16の主動作過程110を図解する。過程(112)で、無音挿入モジュール16はターミナル5からオリジナルオーディオファイル25をそして言語認識モジュール12から(テキスト、オーディオ)要素を得る。過程(114)で、無音挿入モジュール16は該オリジナルオーディオファイル25及び統合オーディオファイル29の複雑さを減じるために無音検出モジュール14を使用する。オリジナルオーディオファイル25は実質的な量の情報を含む。例えば、オーディオの秒当たり11,000サンプルを有するオリジナルオーディオファイル25内に、オーディオ処理システム10による処理用に利用可能な分当たり660,000個別ピースの情報、すなわち、必要なものより遙かに多い情報がある。該情報量を管理可能なサイズに減じるために、オリジナルオーディオファイル25を対応する無音及び非無音期間のシーケンス、すなわち無音の検出されたオリジナルオーディオファイル(silence detected original audio file)35,に減じ(図7A)、そして統合オーディオファイル29を対応する無音及び非無音期間のシーケンス、すなわち無音の検出された統合オーディオファイル(silence detected aggregated audio file)39、に減じる(図7B)よう、無音検出モジュール14が利用される。
(個別オーディオサンプルを使うことに相対して)無音検出モジュール14により発生された表現、該無音の検出されたオリジナルオーディオファイル35及び無音の検出された統合オーディオファイル39(すなわち、無音及び非無音の期間のシーケンス)を使用することにより、約6、000倍の情報の削減(reduction in information of approximately 6000 times)が達成され得ることが決定された。無音検出モジュール14によるこの前以ての処理は全体的処理を簡単化し、関与する計算時間を減じる。再び、図7Aに示す様に、該グレイの非無音期間の高さhは、無音検出モジュール14により計算された各期間内の成分オーディオブロックの平均振幅(音量)を表す。
戻って図1,3、6A、6B、6C、7A、そして7Bを参照すると、過程(116)で、オリジナルオーディオファイル25と統合オーディオファイル39の両者で種々のマーカー(図7Bのグラフで
Figure 0004725948
により、“□”として、“<”として示された)が識別される。これらのマーカーは余りに多くの無音の挿入を防止するために挿入される無音を制限するのに役立つ。又幾つかのマーカーは同期化点として役立つ。該マーカーは対で識別される(すなわち、該オリジナルオーディオファイル25内の1つ及び該統合オーディオファイル29内の対応する1つ)。無音の適当な挿入を通してマーカーの対をラインアップ(line up)することにより、例え無音挿入用の複雑な計算中でも、もし誤った決定が行われるなら、最終再生オーディオファイルは同期化点として役立つ該マーカーによりなお主に整合されることを保証する自己修正手順が創られる。すなわち、過ち(errors)は同期化マーカー間の領域内で隣接する同期化マーカー
Figure 0004725948
間に含まれる。マーカーは該オリジナルオーディオファイル25及び該統合オーディオファイル29の両者内で種々の方法で識別され得る。
何よりも先ず、同期化点は、各場合のオーディオ信号の最大音量点(loudest points)を識別することによりオリジナルオーディオファイル25及び統合オーディオファイル29の両者のオーディオ信号内で決定される。上記で注意した様に、該オリジナルオーディオファイル25と統合オーディオファイル29の間の差は無音が統合オーディオファイル29から欠けていることである。従って、オリジナルオーディオファイル25の最大音量ピース(loudest pieces)が統合オーディオファイル29内に存在するだろうと決定される。これらの同期化点は図7Bに示す同期化マーカーとして識別される。又、オリジナルオーディオファイル25内の無音の長い期間は、該統合オーディオファイル29内の何処に大きな量の無音が挿入される必要があるかの指示を提供する。発見的に言えば、この様な無音が統合オーディオファイル29内で省略される高い信頼度があり得る。従って、無音の長い期間がオリジナルオーディオファイル25内で識別される時、無音の意味の或るピースが統合オーディオファイル29に付加されるべきことが安全に言える。図7Bはオリジナルオーディオファイル25内に2つの無音マーカー“<”及び1つの終了マーカー“□”を示す。オリジナルオーディオファイル25内の該2つの無音マーカーが該統合オーディオファイル29内に存在しないことが注意されるべきである。これはオリジナルオーディオファイル25内の長い期間の無音が該統合オーディオファイル29内に存在することは非常にありそうにないからである。最後に、オリジナルオーディオファイル25の持続時間は全部の無音の挿入されたオーディオピースの持続時間と概略同じであるべきである。すなわち、統合オーディオファイル29への無音の付加の最後の結果は、該オリジナルオーディオファイル25の長さと概略同じ長さの持続時間を有するフアィルに帰着すべきであり、決して持続時間でより長くあるべきでない。従って、該オリジナルオーディオファイル25の終わりに位置付けられた終了マーカー(end marker)は全ての無音挿入が行われた後該統合オーディオファイル29の長さに上限をマーク付けするため使われる(図7B参照)。該オリジナルオーディオファイル25は無音が挿入された後該統合オーディオファイル29と同じ長さを有することが好ましい。開始マーカーの使用(beginning marker)は必ずしも必要ではなく、何故ならば全てのオーディオファイルは位置“ゼロ”でスタートすることは理解されるからであることは注意されるべきである。
今図1,6A、6B、6C、そして8を参照すると、無音挿入モジュール16は3つのオーディオファイル、すなわち無音の検出されたオリジナルオーディオファイル35,言語認識モジュール12から得られたオーディオピースファイル27そして無音検出モジュール14から得られた無音の検出された統合オーディオファイル39、と共に働く。又無音挿入モジュール16は、該オーディオ内で現在の位置を示すために、それぞれ上記で注意したファイルの各々用に1つとして、3つのポインター(pointers)、M、N、そしてO(図8)を使う。無音の検出されたオリジナルオーディオファイル35は該オリジナルオーディオファイル25に組み合わせられた種々のマーカー(例えば、同期化マーク、無音マーカー、終了マーカー)を含む。
過程(117)で、ポインターMは初期に、Mintに配置されるが、そこではそれは、該無音の検出されたオリジナルオーディオストリーム35内の第1非無音期間の始めを指し示す。各繰り返しの始めに、ポインターM,NそしてOは整合されてないと仮定される(すなわち、無音が挿入されるべきオーディオのピースを必ずしも指し示していない)。従って、該ポインターはそれらがオーディオの同じピースを指し示すように調整される必要がある。該無音の検出されたオリジナルオーディオファイル35は無音の検出された統合オーディオファイル39より長いので、ポインターMはポイントOより該組み合わせられたオーディオストリーム内で前にいると安全に仮定され得る。ポインターNintは初期にはオーディオピースファイル27の始めに配置される。ポインターOintは初期には該無音の検出された統合オーディオファイル39内の最初の非無音期間を指し示す。
一般に、無音の検出された統合オーディオファイル39は、測定されたオーディオピースの時刻位置と無音の検出されたオリジナルオーディオファイル35の時刻位置の間の差を測定するのを助けるツールとしてのみ使用されることは注意されるべきである。無音挿入モジュール16が非無音グループの比較を終わった後、無音の検出された統合オーディオファイル39は捨てられる。
過程(118)から(128)で、無音挿入モジュール16は、無音の検出されたオリジナルオーディオファイル35と無音の検出された統合オーディオファイル39との中の2つの特定の非無音グループ間に整合(match)があるかどうかを決定する。すなわち、挿入モジュール16は整合する非無音グループ上にポインターMとOを位置付けようと企てる。例えば、図8に示す様に、それぞれ、無音の検出されたオリジナルオーディオファイル35と無音の検出された統合オーディオファイル39内のポインターMとOの位置は、非無音グループを参照する。ポインターMとOが事実同じ非無音グループを指し示しているか否かは、ポインターM及びOに組み合わせられた1つ以上の非無音グループのそれぞれの持続時間と閾値の比較解析を通してのみならず無音マーカー及び同期化点の検出によっても決定され得る。
各繰り返しのスタートで、該ポインターM,N及びOは、それらがオーディオの同じピースを指し示しているように調整される。一旦2つのグループが整合することが決定されると、それらの位置はそれぞれのオーディオファイル35と39内で決定され、それらの位置の差は個別のオーディオピースを補償するため使われる(すなわち、該差を該オーディオピースの前の無音期間として付加することにより)。従って、該無音挿入モジュール16の各繰り返し中、オーディオピース内に挿入される必要のある無音の量が決定され該オーディオピースのオーディオファイル27内に挿入される。ポインターNは決して後方へ()調整されることはなく、そしてポインターM及びOは独立に進み、文脈を得るよう前方へ動きそしてそれらのそれぞれのオーディオファイル35及び39内の1つ以上の非無音グループの間に適合(fit)があるかどうかを決定するため使われることは注意されるべきである。
過程(118)で、ポインターM及びOはそれらが指し示している該非無音グループの組み合わせられた持続時間と相対的閾値が相互の予め決められた偏差(variance)(例えば、80%)内にあるかどうかを見るため検査される。ポインターNが指している特定のオーディオピースについては、無音の期間がこのオーディオピースの前に挿入されるかどうかが決定され、もしそうであるなら、該無音の期間の該持続時間となる。この取り組み(すなわち、個別ワードに無音を組み合わせる)は統合オーディオファイル29に無音を付加するよりも効果的であると本発明人により決定された。
もし過程(118)で、ポインターM及びOが、相互の予め決められた偏差内に(すなわち、80%内に)ある持続時間と閾値を有する非無音グループを指し示していると決定されるなら、過程(120)で、ポインターNはポインターNがポインターMと整合されるまで1度に1つのオーディオピースだけ進められる。過程(121)で、無音挿入モジュール16はそれらのそれぞれの無音の検出されたオーディオファイル35及び39内のポインターM及びO間の位置の差を、それぞれ、計算する。過程(122)で、無音挿入モジュール16は該差が予め決められた時間の長さ(例えば、300ms)より短いかどうかを決定する。過程(122)で、又もし無音挿入がこの差に等しい持続時間を有する無音を使って行われるなら、それはオリジナルオーディオファイル25の長さより長いオーディオファイルには帰着しないことは確かめられる。もしこれらの両者が眞ならば、過程(124)で、計算された時間差に等しい持続時間を有する無音期間が、オーディオピースファイル27内のポインターNにより識別されるオーディオピースの前に挿入される。過程(126)で、ポインターNは次のオーディオピースへ進められ、ポインターM及びOはそれらがポインターNを過ぎるまで進められる。それは非無音ブロックの終わりでないので、過程(128)で、過程(118)でスタートするもう1つの繰り返しが始められる。
もし過程(122)で、ポインターM及びOの位置の差が予め決められた偏差(variance)内にないか、又はこの差に等しい持続時間を有する無音期間の付加が終了マーカーを越えるオーディオピースファイルの全部の長さに帰着するか、何れかならば、過程(132)が実行される。過程(132)で、ポインターM又はOが無音マーカーの所に位置付けられるかどうかが決定される。もし過程(132)で、ポインターM又はOが無音マーカーの所にあることが決定されれば、過程(124)で、過程(121)で計算された時間差に等しい持続時間を有する無音期間がオーディオピースファイル27内のポインターNにより識別されるオーディオピースの前に挿入される。過程(126)でポインターNは次のオーディオピースへ進められ、ポインターM及びOはそれらがポインターNを過ぎるまで進められる。それは該非無音ブロックの終わりではないので、過程(128)で、過程(118)でスタートするもう1つの繰り返しが始められる。もし過程(132)で、ポインターM又はOが無音マーカーのところにあると決定されないならば、ポインターNにより現在指し示されるオーディオピース内にこの量の無音を挿入することは正しくない。従って、発行されている該オーディオピースへは無音は挿入されず、過程(126)で、ポインターNは次のオーディオピースへ進められ、ポインターM及びOはそれらがポインターNを過ぎるまで進められる。
過程(118)では、もしポインターM及びOが、予め決められた偏差内にない(すなわち、80%内にない)持続時間と閾値を有する非無音グループを指し示していると決定されるなら、過程(140)で、より短い非無音グループを指し示すポインターM及びOは次の非無音グループへ進められそして該次及び前の非無音グループは組み合わされそれらの特性はもう1つのポインターM及びOにより指し示される非無音グループのそれらと比較される。しかしながら、もしポインターM及びOにより指し示される該非無音グループが同じ持続時間なら、ポインターM及びOの両者は進められ、ポインターMに組み合わせられた2つの非無音オーディオグループについての持続時間と閾値は個別に平均化されそしてポインターOに組み合わせられたそれらについても同じである。過程(142)で、再びポインターM及びOが同様な持続時間と閾値を持つかどうかが同期化マーカーを使って決定される。益々多くのオーディオブロックが該平均化計算に組み入れられるので、同期化マーカーが過ごされないことを確認することが重要である。
例えば、図8に示す様に、無音の検出された統合オーディオファイル39内で“V”としてマーク付けされた非無音グループは事実上無音の検出されたオリジナルオーディオファイル35内で“U”としてマーク付けされた2つのより小さい非無音グループにより表されたと同じオーディオのピースである。過程(140)で、より短い持続時間を有する非無音グループを指し示すポインター(この場合ポインターM)は次の非無音グループへ進められる。“U”としてマーク付けされた両非無音ブロックは組み合わされ、それらの閾値と振幅は平均化される。過程(142)で、“U”としてマーク付けされた非無音ブロックの該平均化された閾値と振幅は“V”としてマーク付けされた非無音グループの閾値及び振幅と比較され、そしてこの場合予め決められた偏差内に(すなわち、80%内に)あると見出される。
無音挿入過程のこの部分の更に進んだ図解として、図8に示す様に、Minit、NinitそしてOinitに最初に位置付けられるポインターM,NそしてOを考える。特にポインターM、N、そしてOは次のオフセットで位置付けられる:
100msでのMinit;非無音持続時間=100ms;閾値=6,000
0msでのNinit;非無音持続時間=100ms
50msでのOinit;非無音持続時間=100ms;閾値=7,000
本発明の無音挿入手順に従って、過程(118)で、ポインターM及びOにより指し示される該非無音グループの持続時間と閾値が相互の予め決められたパーセンテージ範囲(例えば80%)内にあるかどうかが決定される。この場合、それらは否なので、過程(140)が実行される。ポインターM及びOにより指し示される該非無音グループの持続時間は等しく(すなわち、両者共100ms)、従って、両ポインターM及びOは次の非無音グループへ進められ、前及び次の非無音グループの各対用の平均持続時間と閾値が各ポインターM及びO用に計算されることは注意すべきである。ポインターM及びOにより指し示される該非無音グループの持続時間が等しくない場合に、該より短い持続時間を有する該非無音グループと組み合わされたポインターM又はOのみが進められることは理解されるべきである。
例の目的で、ポインターM及びO用の該次の非無音期間は下記の特性を有すると仮定される(それぞれ、M及びO用の次の非無音期間として図8で図解される様に):
ポインターM用の次の非無音期間:
100msの無音;非無音持続時間=50ms;閾値=10,000
ポインターO用の次の非無音期間:
80msの無音;非無音持続時間=70ms;閾値=10,000
過程(142)で、該平均結果は次いで下記の様に計算される:
100msに位置付けられたMポインター;持続時間=250ms;閾値=
6000*100/250+0+9500*70/250=5060
50msに位置付けられたOポインター;持続時間=250ms;閾値=
7000*100/250+0+10,000*70/250=4800
従って、過程(142)で、ポインターM及びOにより指し示された該非無音グループの平均持続時間と閾値が今予め決められたパーセンテージ偏差(例えば、80%)内にあるかどうかが決定される。該平均持続時間が同じであり平均閾値がこの様な予め決められたパーセンテージ偏差内にあるので、ポインターM及びOは無音挿入用に適当な位置にあると考えられ、過程(120)は実行される。特に、過程(120)で、ポインターNはそれがポインターMと整合するまで進められる。過程(121)で、ポインターM及びOの位置間の差は50msであると計算され、それはポインターNにより現在指し示されるオーディオピースに付加される必要がある無音の量である。
従って、この差が該予め決められた偏差内にあると仮定して、過程(124)で。図8のオーディオピースファイル27の前部(front)に示す様に、ポインターNにより指し示されるオーディオピースの前部に付加される。過程(126)で、ポインターNは次のオーディオピースへ進められ、ポインターM及びOはそれらがポインターNを過ぎるまで進められる。それは該非無音ブロックの終わりでないので、過程(128)で、過程(118)でスタートするもう1つの繰り返しが始められる。
もし過程(142)で、該組み合わされた非無音グループ用の平均持続時間と閾値がなお該予め決められた偏差内にない(すなわち、充分近くない)ことが決定されるなら、過程(144)で、該進められたポインターM及びOの何れか又は両者が同期化マーカー上に位置付けられるかどうかが決定される。もし過程(144)で、ポインターM及びOの1つが同期化マーカー上に位置付けられることが決定されるなら、過程(146)で、もう1つのポインターM又はOは対応するオーディオファイル35又は39内の対応する同期化点へ進められる。この点で、ポインターM及びOは無音挿入用に適当な位置にあると考えられ、過程(120)が実行される。特に、過程(120)で、ポインターNはそれがポインターMと整合されるまで進められる。過程(121)で、ポインターM及びOの位置の間の差が計算され、この差が該予め決められた偏差内にあると仮定して、過程(124)で、この量の無音が、図8のオーディオピースファイル27の前部に示される様に、ポインターNにより指し示されるオーディオピースの前部に付加される。過程(126)で、ポインターNは次のオーディオピースへ進められ、ポインターM及びOはそれらがポインターNを過ぎるまで進められる。それは該非無音ブロックの終わりでないので、過程(128)で、過程(118)でスタートするもう1つの繰り返しが始められる。
もし過程(144)で、ポインターM又はOの何れも同期化マーカー上に位置付けられないことが決定されるなら、過程(145)で、予め決められた数の非無音グループが組み合わされるかどうかが決定される。或る数だけ非無音グループ(例えば、3つまで)を組み合わせることが望ましいことは理解されるべきである。この”文脈ウインドウ(context window)”は、如何にオーディオデータがそれぞれのオーディオファイル35及び39内で表されるかでの差を斟酌するため使われる。もしグループ組合せの上での予め決められた制限が越えられないならば、過程(140)で、最短の持続時間を有する該非無音グループと組み合わせられたポインターM又はO(又は、もし該持続時間が同じなら両ポインターM及びO)は次の非無音グループ(複数を含む)へ進められ、該グループは組み合わせられ、持続時間及び閾値は再度平均化され、そして過程(142)で、その平均持続時間と閾値が該予め決められた偏差内にあるかどうかの決定が再び行われる。
もし過程(145)で、予め決められた数の非無音グループが既に組み合わされたことが決定されれば、非無音グループを組み合わせることにより得られる該”文脈ウインドウ”の最大制限は到達されたことになる。この点で、無音の検出されたオリジナルオーディオファイル35及び/又は無音の検出された統合オーディオファイル39の何れかでアーチフアクト(artifact)に遭遇したようである。アーチフアクトは通常、1つのオーディオファイル35又は39には配置されるがもう1つには配置されないシャープな音(sharp sound)の結果である。従って、過程(147)で、何れかの最初の非無音グループの持続時間が予め決められたアーチフアクト長さ(例えば、50ms)より短いかどうかを決定することによりそれ/それらが典型的“アーチフアクト”タイプの特性を示すかどうかを見るために該最初の指し示されたブロック(複数を含む)が検査される。
図4A及び4Bを参照すると、図4Bの左の非無音グループはそれがアーチフアクトであるかも知れないことを示す比較的痩せた(skinny)非無音グループであることが見られる。更に、それは図4Bの右の非無音グループから実質的距離だけ離れて位置付けられており、それもこれがその場合であることを示す。特定の目標非無音グループ持続時間(例えば、50ms)は無音検出モジュール14内で使用されるオーディオブロック境界“X”の解像度(resolution)に左右される。もし過程(147)で、アーチフアクト持続時間が検出されるなら、過程(149)で、ポインターM及び/又はOは該アーチフアクトを越えて進められ、次いで過程(118)が再実行される。もし過程(147)で、アーチフアクト持続時間が検出されないなら、過程(148)でポインターM及び/又はOは該最初の非無音グループを越えて進められ、過程(118)が再実行される。
最後になるが、ステップ(126)で、ポインターNが次のオーディオピースに進められ、ポインターM及びOはポインターNを通り過ぎるまで、前進する。ステップ(128)で、ポインターM及びOが非無音グループのエンドに達したかどうか(即ち、無音が検出されたオリジナルオーディオファイル35のエンド・マーカーにポインターMが達し、かつ、無音が検出された統合オーディオファイル39のエンドにポインターOが達しているかどうか)が決定される。もしそうでなければ、反復サイクルがステップ(118)で再開され、かつ、無音挿入モジュール16が非無音グループの次のセットについて、マッチング(matching)プロセスを繰返す。もしそうなら、ステップ(130)で、挿入された無音(即ち、無音が挿入されたオーディオピース)を用いて言語認識モジュール12から最初に得られた認識結果オブジェクトのリストが検討され、特定の情報が抽出されて、マッピング・ファイル15が形成される。
無音が挿入されたオーディオピースから抽出された情報は、文書の始めに関連した各ワードの開始キャラクターの位置、(含まれるフォーマッティングと共に)各ワード内のキャラクター数、そのワードに対応したオーディオピースの期間、及び、(上記のような)ワードの信頼度から成っている。個々のオーディオピースの期間には、与えられたオーディオピース(即ちワード)に挿入された無音も含まれていることを認識すべきである。この情報は各情報ピースについて4バイトとして記憶される。これにより、マッピング・ファイル15内のワード当たり16バイトの情報が記憶される。無音挿入モジュール16がオーディオピース・ファイル27内への無音挿入を完了すると、マッピング・ファイル15が再生装置18で再生するためにアセンブルされる。例示として、以下の表内の情報は、無音挿入モジュール16がオリジナルオーディオファイル25の処理を終了した後で利用できる情報を示している。以下の表では各欄が記載ワードを示している。
Figure 0004725948
上記の表の中の引用符は個々のワードのそれぞれについて行なわれたフォーマッティング(即ち、無音の挿入)を表示するために用いられる。得られたマッピングファイル15を以下に示す(太字の部分のみがこのファイルに含まれる)。
Figure 0004725948
そこで、得られたマッピング・ファイル15からの情報が再生装置18により用いられて、図9A、9B、9Cに示す再生装置18のグラフィカル・ユーザー・インターフェース(GUI)と関連して例示用スクリーン・ディスプレー150により示されたオリジナルオーディオファイル25の再生中に適当なテキストを強調する。
特に図9Aに示すように、PLAYとSTOPのボタンを用いて、オーディオファイルの再生を起動・停止する。好ましくは、ワードは一度に2個(例えば、"quick brown")強調される。さらに、上記の認識の信頼度を反映した種々の色を付けてワードをプリントできる。例えば、“A”として特定されたワードは高い信頼度で認識されたことを示す緑色でマークできる。“B”として特定されたワードは低い信頼度で認識されたことを示す赤色でマークできる(即ち、認識されていないか、又は、低い信頼度で認識されているワード)。中間の信頼度で認識されている他のワードを異なる色又はフォントで強調できることを認識すべきである。
図9Aのスクリーン・ディスプレー150に示すように、変換担当者2はワード "quick" に強調カーソルを置いてから、再生ボタンを押す。図9Bのスクリーン・ディスプレー152に示すように、2個のワード "quick brown" が強調されている。示されているように、一度に2ワードを強調することが好ましいが、オーディオ処理システム10は任意の数のワード(即ち、3個又は4個)を強調できることを認識すべきである。オーディオ処理システム10が、図9Cのスクリーン・ディスプレー154に示すように、マッピングファイル15からワード "quick brown" の再生を終了した後で、次の2ワード、即ち、"fox." (即ち、"fox"と".")に強調を進める。
マッピングファイル15内に含まれる情報を用いるために、信頼度情報の使用を含めて、多様な方法がある。オーディオ再生と同期させたワードの強調を、希望に応じて、2又は3個のワード、又は、文章全体又は段落を同時に強調するために用いることができる。強調すべきワードの個数に基づいて、マッピングファイル15内で適当なワードを特定できる。これは、全文の中で強調すべき第一のワードの開始位置を入手して、マッピングファイル15内の適当な開始キャラクターに注目することにより実現される。マッピングファイル15を用いて、強調すべき適当なワードの期間を個別のワードの期間と共に加算する。
上記の例から、2個のワード "the quick" を同時に強調する場合、合計10キャラクターで545msの期間になる。545msの後で始まるようにタイマーを設定して、10キャラクターがスクリーン150で強調される。オーディオ再生の位置が設定され、再生が545msの間に行なわれる。545msの後で、次の2ワードについてそのプロセスが繰返される。オーディオ再生が遮断されずに続けられ、テキストの強調とタイマー設定が行なわれるのに必要な処理は十分に低い。再生は任意のワードの境界で開始でき、必ずしも、ディクテーション(dictation)内の最初のワードで生じないことに留意すべきである。1ワードについてマッピングファイル15内の適当な開始キャラクターに注目することにより、再生を希望するワードを先行ワードの期間を用い、オーディオのオフセットを決定できる。オーディオ処理システム10が認識されていないワードに遭遇した時にいくつかの対応を用意できる。第一に、認識されないワードについての表示が無いことがあり、認識されないワードに対するオーディオが前のワードと結合することがありうる。
代わりに、ある種の視覚的待ち行列を用い、テキスト又は背景色の変化を用いるような方法により、ワードが認識されていないことを表示することができる。例えば、認識された(隣接している)ワードに用いられている色とは異なる背景色を用いて、認識されないワードを生じている空白領域を強調することも可能である。さらに、ワードが認識されていないことをより強く示すために、ワードを挿入し、かつ、色を付けることもできる。例えば、"<unrecognized>" の語句をテキストに、又は、他の設定可能なキーワード/フレーズを挿入して、変換担当者2を注目させる。最後になるが、認識結果内に見いだせる信頼度を用いて、全てのワードにカラーコードを付け、信頼度が一定の設定基準を下回っているワードを変換担当者2が識別できる。これにより、全てのワードが色体系に組込まれる(例えば、緑色のワードは高い信頼度を示し、黄色のワードは中の信頼度を示し、赤色のワードは低い信頼度即ち多分認識されなかったワードであるか、低い信頼度で認識されたワード)。
オーディオ処理システム10内で用いられている個々の事前設定されたパラメーター及び比較範囲の多くが発明者により決定されていて、在来の処理機器と共に用いるのに、又、英語の言語に用いるのに適当である。特に、無音検出モジュール14内で用いられるオーディオのチャンク(chunks)及びブロック(blocks)の閾値及びディメンジョン(dimensions)、関連ブロックの性格付けをするために閾値を上回るのに必要なチャンクのパーセンテージ、スライディング・ウインドウ36内で用いられるディメンジョン及び許容パーセンテージ、用いられるサンプリング率、さらに、サンプルしたデータから検査したデータの解像度(典型的に5番目ごとのサンプルを検査)、類似の非無音のグループを識別するために無音挿入モジュール16内で用いられるパーセンテージ範囲は、全て、個々のシステムの容量と機能の要件により、さらに、ターゲット言語により、調節できるシステム・パラメーターの例である。オーディオ処理システム10内で用いられる事前設定されたパラメーターと比較範囲の推奨セットは、特定システムの容量、機能の要件又はユーザー3の言語により初期設定のセットとして提供できることが想定されている。そして、初期設定の適当なセットは、これらの特別な適用に固有な条件に基づいて選択できる。
オーディオ処理システム10は、関連する計算の複雑度を低減することにより、オリジナルオーディオファイル25からの認識されたテキスト要素とオリジナルオーディオファイル25の再生との効果的同期を行える。前記のように、代表的な無音が検出されたオリジナルオーディオファイル35と(個々のオーディオ・サンプルを用いるのとは反対の)無音部検出モジュールにより発生された無音が検出された統合オーディオファイル39(即ち、無音と非無音の期間の順序)を用いることにより、約6000倍の情報低減を達成できることが決定されている。さらに、オーディオ処理システム10により利用されたアルゴリズムの単一経路特性により、多数の点でのデータの反復検査を防止する。無音が検出されたオリジナルオーディオファイル35、オーディオピースファイル27及び無音が検出された統合オーディオファイル39のそれぞれからの関連情報は、無音が挿入されたオーディオファイルは無音が挿入されたオーディオファイルの作成中に多数回の代わりに1回のみ使用される。
当該分野の技術者に明らかなように、本発明の添付請求項に示された範囲から逸脱すること無しに上記の構成の種々の変更及び適合化が可能である。
本発明のオーディオ処理システムのブロック図である。 図1のオーディオ処理システムの基本的な作動段階を示す流れ図である。 オリジナルオーディオファイル、オーディオピースファイル、及び統合オーディオファイルの信号特性を示す一連のグラフである。 図3のオリジナルオリジナルファイルのオーディオセグメントを示しているグラフである。 無音検出モジュールが図4Aのオーディオセグメントを処理するときに作られる無音の検出されたオリジナルオーディオファイルのセグメントを示すグラフである。 図1の無音検出モジュールにより処理される無音グループ及び非無音グループの形態例の一表現である。 図1の無音検出モジュール内で使用される例示グループの振幅リストの表現である。 図1の無音検出モジュールにより導かれた処理段階を示す流れ図である。 図1の無音挿入モジュールにより導かれる処理段階を示す流れ図である。 図1の無音挿入モジュールにより導かれる処理段階を示す流れ図である。 図1の無音挿入モジュールにより導かれる処理段階を示す流れ図である。 無音の検出されたオリジナルオーディオファイルの例及び対応する無音の検出された統合オーディオファイルを示すグラフである。 オリジナルオーディオファイル例及び対応する統合オーディオファイルを示すグラフである。 無音の検出されたオリジナルオーディオファイルの例、対応するオーディオピースファイル、及び対応する無音の検出された統合オーディオファイルを示す一連のグラフである。 オーディオ処理システムにより利用される図表式のユーザーインターフェース(GUI)のスクリーン記録である。
符号の説明
2 変換担当者
3 ユーザー
10 オーディオ処理システム
12 言語認識モジュール
14 無音検出モジュール
15 マッピング・ファイル
16 無音挿入モジュール
18 再生装置
25 オリジナルオーディオファイル
27 オーディオピース・ファイル
35 無音が検出されたオリジナルオーディオファイル
36 スライディング・ウインドウ
39 無音が検出された統合オーディオファイル
150、152、154 スクリーン・ディスプレー
N、M、O ポインター

Claims (11)

  1. 使用者により話された言語を含むオリジナルオーディオファイルから認識されたテキストのディスプレイと、前記オリジナルオーディオファイルに再生とを同期させるためのオーディオ処理方法であって、
    オリジナルオーディオファイル内の話され言語を認識して言語認識モジュールの手段により、認識されたテキストのピースと組み合わせられたオーディオピースとを作る過程
    無音挿入モジュールを使用してオーディオピースを統合オーディオファイルに統合する過程、
    無音及び非無音のグループが閾値音量を使用して識別される、オリジナルオーディオファイルと統合オーディオファイルとの両者をそれぞれ無音の検出されたオリジナルオーディオファイルと無音の検出された統合オーディオファイルに変換するために無音検出モジュールを使用する過程と、
    無音の検出されたオリジナルオーディオファイルと無音の検出された統合オーディオファイルとを比較し、前記無音の検出されたオリジナルオーディオファイル及び前記無音の検出された統合オーディオファイルの中の対応している非無音グループの位置の差を決定する過程と
    無音の挿入されたオーディオピースの統合が、オリジナルオーディオファイルに相当する統合された無音の挿入されたオーディオピースを生むように、無音の挿入されたオーディオピースを作るために、無音の検出されたオリジナルオーディオファイル及び無音の検出された統合オーディオファイルの中の対応している非無音グループの位置の差に従ってオーディオピース内に無音を挿入するために前記無音挿入モジュールを使用する過程と、そして
    オリジナルオーディオファイルの再生と認識されたテキストのディスプレイとを同期させるために、無音の挿入されたオーディオピース及び組み合わせらたれ認識されたテキストピースを利用する過程と
    を具備する方法。
  2. 続行する非無音グループを無音として考えるべきか、或いは無音として再分類するべきかを決定するために、多数の先行非無音グループの平均音量を維持するように、無音検出が、順応できるスライドする平均ウインドウレジスターを利用することを備えている請求項1記載の方法。
  3. 前記非無音グループの各が、前記ブロック内のオーディオの平均音量に相当する高さで組み合わせられる請求項1又は2記載の方法
  4. オリジナルオーディオファイルが環境内において記録され、無音検出が環境を反映する閾値音量を選択することを備えている請求項1乃至3のいずれか1記載の方法。
  5. 前記の比較する過程が
    i)オリジナルオーディオマーカーを無音の検出されたオリジナルオーディオファイル内の非無音グループの前方の位置に割り付け、統合されたマーカーを無音の検出された統合オーディオファイル内の非無音グループの前方の位置に割り付け、
    ii)それぞれの非無音グループが適合するか否かを決定し、
    iii)前記オリジナルオーディオマーカーと前記統合されたマーカーとの間の位置の差を決定し、
    iv)該i)乃至iii)の過程を少なくも1回繰り返す、
    ことを備えている請求項1乃至4のいずれか1記載の方法。
  6. 無音の挿入されたオーディオピース及び組み合わせられた統合テキストピースの各々が複数の特性を備え、複数の特性が、オリジナルオーディオファイルの出発点に関するオーディオピース内のテキストピースの出発文字の位置、テキストピース内の文字の数、オーディオピースの持続時間、テキストピースと組み合わせられたテキスト認識の信頼のレベルよりなるグループの少なくも一つを備えている請求項1乃至5のいずれか1記載の方法。
  7. 無音の挿入されたオーディオピースのタイミング特性の利用により、組み合わせられたオーディオピースの再生と認識されたテキストピースのディスプレイとを同期させる過程を具備する請求項1乃至6のいずれか1記載の方法。
  8. 認識されたテキストピース及び少なくも1個の隣接した認識されたテキストピースに相当するオーディオピースの再生の間に、前記認識されたテキストピース及び少なくも1個の隣接した認識されたテキストピースを強調する認識されたテキストのディスプレイを同期させる過程を具備する請求項1乃至7のいずれか1記載の方法。
  9. 前記オリジナルオーディオファイルが、端末装置を使用している使用者から得られる請求項1乃至8のいずれか1記載の方法。
  10. 認識されたテキストピースがディスプレイされ、そして組み合わせられたオーディオピースが、認識されたテキストピースと同期する方法で、再生装置を使用して再生される請求項1乃至9のいずれか1記載の方法。
  11. 使用者により話された言語を含むオリジナルオーディオファイルから認識されたテキストのディスプレイを、前記オリジナルオーディオファイルの再生と同期させるようにオーディオ処理するためのコンピューターベースのシステムであって、
    言語認識モジュール、
    無音挿入モジュール、
    無音検出モジュール、
    請求項1から10のいずれか1記載の方法を実行するコンピュータープログラム、
    具備するシステム。
JP2004296854A 2003-10-08 2004-10-08 テキストのディスプレイとオーディオの再生とを同期させるためのシステム及び方法 Expired - Fee Related JP4725948B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/681428 2003-10-08
US10/681,428 US7346506B2 (en) 2003-10-08 2003-10-08 System and method for synchronized text display and audio playback

Publications (2)

Publication Number Publication Date
JP2005115391A JP2005115391A (ja) 2005-04-28
JP4725948B2 true JP4725948B2 (ja) 2011-07-13

Family

ID=34314122

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004296854A Expired - Fee Related JP4725948B2 (ja) 2003-10-08 2004-10-08 テキストのディスプレイとオーディオの再生とを同期させるためのシステム及び方法

Country Status (3)

Country Link
US (1) US7346506B2 (ja)
EP (1) EP1522989A1 (ja)
JP (1) JP4725948B2 (ja)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997044780A1 (en) * 1996-05-20 1997-11-27 International Business Machines Corporation Shape memory alloy recording medium, storage devices based thereon, and method for using these storage devices
US7466992B1 (en) 2001-10-18 2008-12-16 Iwao Fujisaki Communication device
US7107081B1 (en) 2001-10-18 2006-09-12 Iwao Fujisaki Communication device
US8090402B1 (en) 2003-09-26 2012-01-03 Iwao Fujisaki Communication device
US8121635B1 (en) 2003-11-22 2012-02-21 Iwao Fujisaki Communication device
DE102004035244A1 (de) * 2004-07-21 2006-02-16 Givemepower Gmbh Verfahren zum abrufbaren Speichern von Audiodaten in einer Computervorrichtung
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
US8677274B2 (en) * 2004-11-10 2014-03-18 Apple Inc. Highlighting items for search results
US8208954B1 (en) 2005-04-08 2012-06-26 Iwao Fujisaki Communication device
US8738787B2 (en) 2005-04-20 2014-05-27 Limelight Networks, Inc. Ad server integration
US7693717B2 (en) * 2006-04-12 2010-04-06 Custom Speech Usa, Inc. Session file modification with annotation using speech recognition or text to speech
US20070244700A1 (en) * 2006-04-12 2007-10-18 Jonathan Kahn Session File Modification with Selective Replacement of Session File Components
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
US9870796B2 (en) 2007-05-25 2018-01-16 Tigerfish Editing video using a corresponding synchronized written transcript by selection from a text viewer
WO2008148102A1 (en) 2007-05-25 2008-12-04 Tigerfish Method and system for rapid transcription
US8676273B1 (en) * 2007-08-24 2014-03-18 Iwao Fujisaki Communication device
US8340726B1 (en) 2008-06-30 2012-12-25 Iwao Fujisaki Communication device
US20100017208A1 (en) * 2008-07-16 2010-01-21 Oki Electric Industry Co., Ltd. Integrated circuit for processing voice
KR100998566B1 (ko) * 2008-08-11 2010-12-07 엘지전자 주식회사 음성인식을 이용한 언어 번역 방법 및 장치
ATE449400T1 (de) * 2008-09-03 2009-12-15 Svox Ag Sprachsynthese mit dynamischen einschränkungen
US8954328B2 (en) * 2009-01-15 2015-02-10 K-Nfb Reading Technology, Inc. Systems and methods for document narration with multiple characters having multiple moods
US20110153330A1 (en) * 2009-11-27 2011-06-23 i-SCROLL System and method for rendering text synchronized audio
US8392186B2 (en) * 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
CN102314874A (zh) * 2010-06-29 2012-01-11 鸿富锦精密工业(深圳)有限公司 文本到语音转换系统与方法
KR101030777B1 (ko) * 2010-11-10 2011-05-25 김인송 스크립트 데이터 생성 방법 및 장치
US9800941B2 (en) * 2011-01-03 2017-10-24 Curt Evans Text-synchronized media utilization and manipulation for transcripts
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US20130002532A1 (en) * 2011-07-01 2013-01-03 Nokia Corporation Method, apparatus, and computer program product for shared synchronous viewing of content
JP5638479B2 (ja) * 2011-07-26 2014-12-10 株式会社東芝 書き起こし支援システムおよび書き起こし支援方法
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US9117195B2 (en) * 2012-02-13 2015-08-25 Google Inc. Synchronized consumption modes for e-books
US20140013192A1 (en) * 2012-07-09 2014-01-09 Sas Institute Inc. Techniques for touch-based digital document audio and user interface enhancement
US20140047073A1 (en) * 2012-08-10 2014-02-13 Marcin Beme Platform Independent Multimedia Playback Apparatuses, Methods, and Systems
JP2014202848A (ja) * 2013-04-03 2014-10-27 株式会社東芝 テキスト生成装置、方法、及びプログラム
KR20150024650A (ko) * 2013-08-27 2015-03-09 삼성전자주식회사 전자 장치에서 사운드를 시각적으로 제공하기 위한 방법 및 장치
US10748523B2 (en) 2014-02-28 2020-08-18 Ultratec, Inc. Semiautomated relay method and apparatus
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US20180034961A1 (en) 2014-02-28 2018-02-01 Ultratec, Inc. Semiautomated Relay Method and Apparatus
US10878721B2 (en) 2014-02-28 2020-12-29 Ultratec, Inc. Semiautomated relay method and apparatus
US10776419B2 (en) 2014-05-16 2020-09-15 Gracenote Digital Ventures, Llc Audio file quality and accuracy assessment
KR20150144031A (ko) * 2014-06-16 2015-12-24 삼성전자주식회사 음성 인식을 이용하는 사용자 인터페이스 제공 방법 및 사용자 인터페이스 제공 장치
JP5943436B2 (ja) * 2014-06-30 2016-07-05 シナノケンシ株式会社 テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム
CA3004970C (en) * 2015-03-13 2022-05-03 Trint Limited Media generating and editing system
JP6432405B2 (ja) * 2015-03-18 2018-12-05 富士通株式会社 プレゼンテーション支援装置、プレゼンテーション支援方法及びプレゼンテーション支援プログラム
DK179496B1 (en) * 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11539900B2 (en) 2020-02-21 2022-12-27 Ultratec, Inc. Caption modification and augmentation systems and methods for use by hearing assisted user
CN112669814B (zh) * 2020-12-17 2024-06-14 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质
CN112634907B (zh) * 2020-12-24 2024-05-17 百果园技术(新加坡)有限公司 用于语音识别的音频数据处理方法及装置
CN116030789B (zh) * 2022-12-28 2024-01-26 南京硅基智能科技有限公司 一种生成语音合成训练数据的方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6193484A (ja) * 1984-10-12 1986-05-12 松下電器産業株式会社 発音練習装置
JPH01172900A (ja) * 1987-12-21 1989-07-07 Internatl Business Mach Corp <Ibm> 音声データ処理装置
JPH07182325A (ja) * 1994-09-16 1995-07-21 Casio Comput Co Ltd 文書処理装置
JP2001228897A (ja) * 2000-02-18 2001-08-24 Canon Inc 音声入力装置及びその制御方法並びにプログラムコードを格納した記憶媒体
JP2002091472A (ja) * 2000-09-19 2002-03-27 Nippon Hoso Kyokai <Nhk> 音声言語の韻律表示装置、再生装置、類似度判定装置、音声言語処理装置、および記録媒体
JP2002165153A (ja) * 2000-11-27 2002-06-07 Asaka Co Ltd 映像/音声ずれ補正方法及び装置
JP2002351490A (ja) * 2001-05-29 2002-12-06 Telecommunication Advancement Organization Of Japan 字幕へのタイミング情報付与方法
JP2003131694A (ja) * 2001-08-04 2003-05-09 Koninkl Philips Electronics Nv 認識の信頼性に適合される再生速度により、音声認識されたテキストの校正を支援する方法
JP2003186379A (ja) * 2001-12-13 2003-07-04 Animo:Kk 音声可視化処理のためのプログラム、音声可視化図形表示と音声及び動画像の再生処理のためのプログラム、及び訓練結果表示のためのプログラム、並びに発声発話訓練装置及びコンピュータ・システム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4449190A (en) * 1982-01-27 1984-05-15 Bell Telephone Laboratories, Incorporated Silence editing speech processor
AT390685B (de) 1988-10-25 1990-06-11 Philips Nv System zur textverarbeitung
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
GB2323693B (en) 1997-03-27 2001-09-26 Forum Technology Ltd Speech to text conversion
US6076059A (en) * 1997-08-29 2000-06-13 Digital Equipment Corporation Method for aligning text with audio signals
US6457031B1 (en) 1998-09-02 2002-09-24 International Business Machines Corp. Method of marking previously dictated text for deferred correction in a speech recognition proofreader
US6360237B1 (en) 1998-10-05 2002-03-19 Lernout & Hauspie Speech Products N.V. Method and system for performing text edits during audio recording playback
DE69931783T2 (de) * 1999-10-18 2007-06-14 Lucent Technologies Inc. Verbesserung bei digitaler Kommunikationseinrichtung
US6446041B1 (en) 1999-10-27 2002-09-03 Microsoft Corporation Method and system for providing audio playback of a multi-source document
GB9930731D0 (en) 1999-12-22 2000-02-16 Ibm Voice processing apparatus
US6260011B1 (en) * 2000-03-20 2001-07-10 Microsoft Corporation Methods and apparatus for automatically synchronizing electronic audio files with electronic text files
WO2002080143A1 (en) 2001-03-29 2002-10-10 Koninklijke Philips Electronics N.V. Synchronise an audio cursor and a text cursor during editing

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6193484A (ja) * 1984-10-12 1986-05-12 松下電器産業株式会社 発音練習装置
JPH01172900A (ja) * 1987-12-21 1989-07-07 Internatl Business Mach Corp <Ibm> 音声データ処理装置
JPH07182325A (ja) * 1994-09-16 1995-07-21 Casio Comput Co Ltd 文書処理装置
JP2001228897A (ja) * 2000-02-18 2001-08-24 Canon Inc 音声入力装置及びその制御方法並びにプログラムコードを格納した記憶媒体
JP2002091472A (ja) * 2000-09-19 2002-03-27 Nippon Hoso Kyokai <Nhk> 音声言語の韻律表示装置、再生装置、類似度判定装置、音声言語処理装置、および記録媒体
JP2002165153A (ja) * 2000-11-27 2002-06-07 Asaka Co Ltd 映像/音声ずれ補正方法及び装置
JP2002351490A (ja) * 2001-05-29 2002-12-06 Telecommunication Advancement Organization Of Japan 字幕へのタイミング情報付与方法
JP2003131694A (ja) * 2001-08-04 2003-05-09 Koninkl Philips Electronics Nv 認識の信頼性に適合される再生速度により、音声認識されたテキストの校正を支援する方法
JP2003186379A (ja) * 2001-12-13 2003-07-04 Animo:Kk 音声可視化処理のためのプログラム、音声可視化図形表示と音声及び動画像の再生処理のためのプログラム、及び訓練結果表示のためのプログラム、並びに発声発話訓練装置及びコンピュータ・システム

Also Published As

Publication number Publication date
US7346506B2 (en) 2008-03-18
JP2005115391A (ja) 2005-04-28
EP1522989A1 (en) 2005-04-13
US20050080633A1 (en) 2005-04-14

Similar Documents

Publication Publication Date Title
JP4725948B2 (ja) テキストのディスプレイとオーディオの再生とを同期させるためのシステム及び方法
WO2020024690A1 (zh) 语音标注方法、装置及设备
JP5255769B2 (ja) テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
US7292975B2 (en) Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US20030004724A1 (en) Speech recognition program mapping tool to align an audio file to verbatim text
US20080255837A1 (en) Method for locating an audio segment within an audio file
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
US7516070B2 (en) Method for simultaneously creating audio-aligned final and verbatim text with the assistance of a speech recognition program as may be useful in form completion using a verbal entry method
US20020095290A1 (en) Speech recognition program mapping tool to align an audio file to verbatim text
US20060190249A1 (en) Method for comparing a transcribed text file with a previously created file
WO2020224217A1 (zh) 语音处理方法、装置、计算机设备及存储介质
US20020163533A1 (en) Synchronizing text/visual information with audio playback
US20050131559A1 (en) Method for locating an audio segment within an audio file
Cervera et al. Acoustical analysis of Spanish vowels produced by laryngectomized subjects
US20070106508A1 (en) Methods and systems for creating a second generation session file
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
WO2013052292A9 (en) Waveform analysis of speech
TWI299855B (en) Detection method for voice activity endpoint
WO2021127975A1 (zh) 一种声音采集对象声纹检测方法、装置和设备
Veiga et al. Towards automatic classification of speech styles
Fletcher et al. Comparing lexical cues in listener processing of dysarthria and speech in noise
US20140207456A1 (en) Waveform analysis of speech
Fayan et al. Automatic Speech Recognition with Machine Learning: Techniques and Evaluation of Current Tools
Chen et al. A proof-of-concept study for automatic speech recognition to transcribe AAC speakers’ speech from high-technology AAC systems
Greibus et al. Segmentation analysis using synthetic speech signals

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071005

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20080726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100720

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101020

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101025

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101119

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101125

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101217

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110120

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110405

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140422

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees