JP4972645B2 - サウンド及び手作業により転写されるテキストを同期させるシステム及び方法 - Google Patents

サウンド及び手作業により転写されるテキストを同期させるシステム及び方法 Download PDF

Info

Publication number
JP4972645B2
JP4972645B2 JP2008527565A JP2008527565A JP4972645B2 JP 4972645 B2 JP4972645 B2 JP 4972645B2 JP 2008527565 A JP2008527565 A JP 2008527565A JP 2008527565 A JP2008527565 A JP 2008527565A JP 4972645 B2 JP4972645 B2 JP 4972645B2
Authority
JP
Japan
Prior art keywords
data
sound
text data
sound data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008527565A
Other languages
English (en)
Other versions
JP2009506356A (ja
Inventor
アンドゥレアス ノイバヒェル
ミクロス パパイ
Original Assignee
ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー filed Critical ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー
Publication of JP2009506356A publication Critical patent/JP2009506356A/ja
Application granted granted Critical
Publication of JP4972645B2 publication Critical patent/JP4972645B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、一般に、特に人間のスピーチのようなサウンドの手作業による転写に関する。より具体的には、本発明は、例えば補正を目的とするサウンド及びテキストデータの連続的な同期再生の観点で、サウンドデータと、サウンドデータの再生中にサウンドデータの手作業による転写(トランスクリプション)によって得られるテキストデータと、の同期に関する。
人間のスピーチのようなサウンドが、スピーチ認識システムによって自動的にテキストに転写されるとき、例えばスピーチ認識システムによって生成されるテキストファイルにサウンドデータから導き出されるタイミングデータを自動的に含めることによって、以下テキストデータと呼ばれる各々のワード又はより小さい語彙的なサブユニットを、(サウンドデータとも呼ばれる)対応するサウンドセグメントに関連付けることは一般的に容易に可能である。タイミングデータは、所与のサウンドデータに対応するテキストデータに直接的にアクセスするために使用されることができ、その逆も同様である。このような関連付けは、例えば同期再生のような一般に知られているフィーチャのために特に必要とされており、このような同期再生において、現在再生されているサウンドセグメントに対応するワード又は音節のようなテキスト(テキストデータ)のセグメントは、例えばディスプレイ上に当該テキストセグメントを強調表示することによって、ユーザに対して表示される。このようなフィーチャは、特に、スピーチ認識を通じて確立される転写の補正並びにレビュー及び品質保証のために特に有用である。
しかしながら、例えば低い品質又は高度に特化した専門用語のサウンドデータを処理する際、今日のスピーチ認識システムのよく知られた欠点によりよくあることであるが、サウンドが、手作業により転写される場合、このような関連付けは、一般に、自動的に得られるものではない。従って、従来技術において、テキスト及びサウンドの同期は、数ミリ秒のオーダーの精度でサウンドセグメントにマークを付し、続いて対応するテキストを入力することによって、手作業により行われなければならない。このような方法は、非常に時間がかかり、ゆえに、費用の重要な問題を提示する。それにもかかわらず、上記の方法は、例えば心理学、マーケティング等の分野において、更なる解析のために転写の重要なフィーチャを構成する。同様の方法が、Bainbridge, D.及びCunningham, S. J.による「Making oral history accessible over the World Wide Web」(History and Computing, vol. 10, no. 1-3, pp. 73-81 (1998))に発表されている。
従って、サウンドデータの手作業による転写に関してサウンド及びテキストを費用効果的に同期させることを可能にすることが従来技術において必要である。
本発明の目的は、サウンドデータと、サウンドデータの再生中に前記サウンドデータの手作業の転写によって得られるテキストデータと、を同期させるための、上述の不利益を取り除いた方法を提供することである。更に、本発明の目的は、サウンドデータ及びテキストデータを同期させるための本発明の方法を取り入れ、それにより、スピーチ認識を使用するシステムにもっぱら運命づけられていた同期再生の従来技術の一般の不利益を取り除く、サウンドデータ及び対応するテキストデータを同期再生するための方法を提供することである。更に、本発明は、その目的のために、前述の個々の本発明の方法を実行するように適応されるシステムを提供しなければならない。
本発明の第1の見地によれば、サウンドデータと、前記サウンドデータの再生中に前記サウンドデータの手作業による転写によって得られるテキストデータとを同期させるための方法であって、現在再生されているサウンドデータに対応する現在時間位置及び現在転写されているテキストデータを得るために、前記サウンドデータ及び前記テキストデータを反復的にクエリするステップと、転写遅延に従って時間補正値を適用することによって、前記現在時間位置を補正するステップと、前記補正された時間位置及び前記現在転写されているテキストデータの間の同期関連付けを示す少なくとも1の関連付けデータを生成するステップと、を含む方法が提供される。
ここで及び以下の詳述において、「サウンドデータ」なる語は、例えば人間のスピーチのようなオーディオデータをさし、前記オーディオデータは、特にサウンドデータから再生されうるサウンドを聞き、一般にはキーボードによって文字のストリームの形でサウンドに対応するテキストを入力する(タイプする)秘書である、ユーザ(トランスクリプション)によるその後の手作業による転写のために、好適には適切なデジタルデータ形式のデータファイルとして、録音され、そののち記憶される。この文脈において、「サウンドデータ」なる語は、サウンドデータのセグメントをさし、最小の可能なサウンドデータは、単一サウンドデータビットである。
同様に、「テキストデータ」なる語は、転写セッション中に入力されるテキスト、すなわち文字の連続をさし、これは更に、好適には、適切なデジタルデータ形式でデータファイルとして記憶される。この文脈において、「テキストデータ」なる語は、テキストデータのセグメントをさし、最小の可能なテキストデータは、明らかに、単一テキストデータビット、すなわち単一テキスト文字である。
「再生」なる語は、上述のタイプのデータの任意のものに対応する個々の出力を生成する動作をさし、例えば、サウンドカード及び関連付けられたスピーカシステムのような適切な出力システムによって、サウンドデータから、ユーザにより知覚できる可聴の物理的サウンドを生成すること、又は表示スクリーン上にテキストデータに対応するテキストを表示することをさす。サウンドデータの再生中、再生されるべき所与のサウンドデータは、サウンドデータ、すなわちそこから得られるオーディオストリーム、内の「時間位置」に対応する。例えば、所与のサウンドデータの時間位置は、オーディオストリームの始まりから測定される前記サウンドデータの開始時間を示すことができる。
本発明の範囲内で、「反復的に」なる語は、本質的に規則的に、例えば1乃至10Hz(0.1−1秒ごとに1クエリ)の繰り返し頻度で、複数回実行される動作をさす。例えば、サウンドデータ及びテキストデータをそれぞれ「クエリする」ことは、本発明の範囲内で反復的に実行される具体的な動作であり、すなわち、サウンドデータ及びテキストデータは、現在オーディオ時間位置及び最近入力されたテキストデータをそれぞれクエリ値として得るために、転写セッション中に頻繁にアドレスされ、テキストデータの実際の長さは、クエリ頻度に依存する。
更に、この文脈において、「補正する」なる語は、予め決められた補正値を適用することによってクエリ値を変更することをさし、例えば補正された時間位置を得るために、時間位置のクエリ値から遅延時間値を減ずることをさす。
最後に、本願明細書において「関連付けデータ」なる語は、サウンドとテキストとの間の関連付けを含む/確立するデータのセグメントをさす。このようなデータは、好適には、サウンドデータと完全に調和するようにユーザによって特定のテキストデータが入力されたサウンド時間位置に関する情報を含み、これにより、例えばワード又は文字の任意の連続のような前記テキストデータと、サウンドデータとの間の同期関連付けを完全に生成する。
このようにして、本発明の方法は、サウンドが手作業で転写されている場合、サウンドとテキストとの間の密接な関連付けを自動的に達成する。言い換えると、本発明によれば、手作業による転写中、所与の時点に入力されるテキストセグメントは、タイミングに関する限り、再生されたサウンドに密接に関連するという仮定に基づいて、関連付けが、すでに再生されたサウンドと、現在入力されている、例えばタイプされているテキストとの間に、生成されることができる。再生されたサウンドと、入力されたテキストとの間のこのタイミングの関係は、転記者の有限の反応スピードによる転写遅延によって主に支配される。
ユーザ、すなわち転記者の転写スキル及び/又はタイピングスピードに従って、転写遅延、すなわち時間補正値を予め決めることによって、本発明の方法は、手作業でサウンドを記述するための方法を使用するいかなる類のユーザにも満足な結果を提供するように、容易にカスタマイズされることができる。
有利に、時間補正値は、転写テキストを入力する際のサウンドに遅れるユーザの「ラグ」に対応する時間遅延、すなわち持続時間の形をとる。このような遅延時間は、転写セッションの前に知られているサウンドデータをユーザに対して再生し、そののち、対応するテキストデータを入力するためにユーザが要する時間を測定し、統計学的に処理することによって、容易に決定されることができる。結果は、のちの利用のためにユーザプロファイルとして本発明の方法を使用して、システムに記憶されることができる。ユーザ登録を必要とする上述の方法に代わるものとして、同期再生中、遅延の調整を可能にし、及び/又は転写されるセクションの始め及び終わりにおける関連付けのユーザによる手作業の補正を行い、セクションの残りの部分について遅延を補間することが考えられる。
サウンドとテキストとの間の同時性を更に改善するために、本発明の方法の更なる展開によれば、特に前記テキストデータ内の文章区切り(句読点類、interpunctation)に対応する前記サウンドデータ内のポーズのような、前記サウンドデータ内の特徴的なスピーチ関連情報は、前記スピーチ関連情報に対応する前記サウンドデータ内の時間位置と、関連するテキストデータとの間の付加的な関連付けデータを生成するために使用される。このような特徴的なフィーチャに関する典型的な例は、転写されたテキスト内の終止符又は他の文章区切り記号に対応する、文の終わりのスピーチポーズである。本発明の方法の好適な実施例において、前記方法は、転写遅延計算論理の一部である。サウンドデータ内のポーズは、転写遅延を調整し、これに基づいて、対応するテキストに関連する補正されたサウンド時間位置を計算するために使用される。
本発明の方法の変形例によれば、前記関連付けデータは、前記テキストデータと共に、共通の同期されるテキストデータファイルに記憶される。このようにして、有利にはタイムスタンプ、すなわち対応するサウンドデータファイルの始まりから測定される経過時間のようなサウンドデータ内の時間位置を示す数、の形をとりうる、関連付けデータの記憶は、スピーチ認識器によって生成される転写と同様に達成され、それにより、原則として、知られている同期再生の方法/システムが、本発明の方法により得られる関連付けられたサウンド-テキストデータの同期再生を提供するために使用されることができる。
代替として、更なるデータ処理に適する場合、前記関連付けデータは、同期ファイル内に、前記テキストデータとは別個に記憶されることができる。
本発明の第2の見地によれば、サウンドデータ及び対応するテキストデータを同期再生するための方法であって、所与の時間ポイントに個々のサウンドデータを反復的に再生するステップと、実質的に同じ前記時間ポイントに当該サウンドデータに関連付けられたテキストデータを表示するステップと、を含み、前記関連付けられたテキストデータが、本発明の同期方法の前記変形例の任意の1つにより得られる関連付けデータに従って得られる、方法が提供される。このようにして、同期再生は、例えば補正目的のために、サウンドを手作業で転写するときにも容易に利用可能である。
本発明の第3の見地によれば、サウンドデータ及びテキストデータを同期させるシステムであって、
−特に人間のスピーチの形の前記サウンドデータを供給するためのサウンド入力手段と、
−前記サウンドデータを記憶するための記憶手段と、
−ユーザに対して前記サウンドデータを再生するための再生手段と、
−前記テキストデータの入力によって、前記サウンドデータを手作業により転写するための入力手段と、
−前記サウンドデータ及び前記テキストデータの間の同期関連付けを示す関連付けデータを生成するためのデータ処理手段と、
を有し、前記データ処理手段が、
−現在再生されているサウンドデータに対応する現在時間位置及び現在入力されているテキストデータを得るために、前記サウンドデータ及び前記テキストデータを反復的にクエリするためのクエリ手段と、
−転写遅延に従って時間補正値を適用することによって、前記現在時間位置を補正するための補正手段と、
−前記補正された時間位置と前記現在入力されているテキストデータとの間の同期関連付けを示す関連付けデータを生成するためのデータ生成手段と、
を有するシステムが提供される。
このようなシステムは、上述したような本発明の第1の見地による本発明の方法を実行するのに特に適している。
本発明のシステムの別の実施例において、前記データ処理手段は、特に前記テキストデータ内の文章区切りに対応する前記サウンドデータ内のポーズのような前記サウンドデータ内の特徴的なスピーチ関連の情報を識別し、前記サウンドデータ内の対応する時間位置及び関連するテキストデータに従って時間補正値を改善するように適応される。これは、例えばフレーズの終わりのスピーチポーズを、それに時間的に近いところに入力される終止符又はコンマのような対応する文章区切り記号にリンクする付加的な関連付けデータを生成することによって、サウンドとテキストとの間の同時性を更に改善することを助ける。
同期再生の知られている実現と互換させるために、本発明のシステムは、前記関連付けデータが、テキストデータを生成するためのスピーチ認識に依存する知られているシステムの場合に一般的であるように、前記テキストデータと共に、共通の同期されたテキストデータファイルに記憶されるように構成される。これは、例えばスピーチ認識器が、サウンドデータのより長いセクションを処理することができず、それゆえそのサウンドデータのセクションが、手作業で転写されなければならなかった場合、認識されたテキスト及び転写されたテキストの単一ドキュメントにおける混在を可能にするので、特に興味深い。しかしながら、実現を完全に柔軟にするために、代替例として、前記関連付けデータは、同期ファイルにおいて前記テキストデータとは別個に記憶されることができる。
本発明の第4の見地によれば、サウンドデータ及び対応するテキストデータを同期再生するためのシステムであって、所与の時間ポイントに個々のサウンドデータを再生するための再生手段と、実質的に同じ前記時間ポイントに当該サウンドデータに関連付けられるテキストデータを表示するための表示手段と、を有し、前記システムが更に、サウンドデータ及びテキストデータを同期させるための本発明のシステムの上述の変形例の任意の1つによるサブシステムを有する、システムが提供される。この手段によって、本発明の前記第4の見地による本発明のシステムは、例えば補正の目的で、手作業でサウンドを転写するときにも、同期再生フィーチャを容易に取り入れることができる。
本発明の前記第4の見地による同期再生システムは、特に医療転写に関する、サウンドからテキストへの転写に有用である。
より一般的にいえば、本発明の前記第4の見地による同期再生システムは、特に、少なくともディクテーションステージ、スピーチ認識ステージ及び補正ステージを含み、任意には更なるレビュー/品質保証ステージを含む文書作成ワークフローの中の補正ステージの一部として有用である。
本発明の更なる利点及び特徴は、添付の図面を参照して以下の実施例の詳細な説明から得られることができる。前述及び後述のフィーチャは、本発明に従って個別に又は連係して使用されることができる。言及される実施例は、網羅的な列挙として理解されるべきではなく、本発明の根底にある概念に関する例示として理解されるべきである。
本発明の以下の詳細な説明は、添付の図面を参照する。同じ参照数字が、同じ又は同様の構成要素を識別するために、それぞれ異なる図面において使用されることができる。
図1は、本発明と一致して、サウンドデータ及び対応するテキストデータを同期再生するためのシステム1のブロック図を示している。サウンドデータ及びテキストデータを同期させるためのシステム1は、例えば任意の必要なドライバ電子機器を備えるマイクロフォンの形で、特に人間のスピーチの形の前記サウンドデータを供給するためのサウンド入力手段2を有する。しかしながら、サウンドデータは、例えばCD−ROMのような持ち運びできるデータキャリア又はインターネットを介する、別のやり方で供給されることもでき、その場合、入力手段2は、対応する適切な形、すなわちCD−ROMドライブ及びインターネット接続手段の形をそれぞれとる。システム1は、任意の適切なデータ形式のサウンドデータファイルSDFとして前記サウンドデータSDを記憶するための記憶手段3を更に有する。特定のシステム要求に基づいて、記憶手段3は、当業者に知られているような揮発性又は不揮発性のいずれのタイプであってもよい。本発明のシステム1は、ユーザに対して前記サウンドデータを再生するための再生手段4を更に有し、再生手段4は、図示される実施例において、任意の必要なドライバ電子機器を備えるオーディオスピーカシステムの形をとる。前記サウンドデータの手作業による転写のために、本発明によるシステム1は、キーボードの形のテキスト入力手段5を更に有し、テキスト入力手段5によって、前記テキストデータは、ユーザ、すなわちサウンドデータから導き出されるオーディオ信号を聞き、キーボードによって供給される文字を使用して対応するテキストをタイプする転写者、によって供給されることができる。
上述した特定の動作を実施することを可能にするために、上述のシステム構成要素2−5の全ては、少なくとも1のタイマユニット6aを有するマイクロプロセッサのようなデータ処理手段6の形の中央制御ユニットに接続される。このようにして、本発明のシステム1は、好適には、図1において一点鎖線で示されるボックスによって示されるようなPCに基づくシステム7として構成される。従って、上述のシステム構成要素2−5は、適切なインタフェース(詳細に図示せず)によって、PCシステム7に接続される周辺装置の形をとる。図1にも示されるように、記憶手段3は、PCシステム7の内部又は外部のいずれにも配されることができる。
本発明の基本的な概念によれば、前記サウンドデータ及び前記テキストデータの間の同期関連付けを示す関連付けデータを生成するために、前記データ処理手段6は、現在再生されているサウンドデータに対応する現在時間位置及び現在入力されているテキストデータを得るために、前記サウンドデータSD及び前記テキストデータを反復的にクエリするためのクエリ手段8を有する。更に、データ処理手段6は、転写遅延に従って時間補正値を適用することによって、前記現在時間位置を補正する補正手段9と、前記補正された時間位置と前記現在入力されているテキストデータとの間の同期関連付けを示す関連付けデータを生成するためのデータ生成手段10と、を有する。データ処理手段6の上述した構成要素8−10は、好適には、ソフトウェア形式で実現される。この文脈において、図1を参照して、データ処理手段は、少なくともソフトウェアコンポーネント8−10を実行し、調和させるためのプログラム実行手段11を更に有する。ここまで説明された本発明のシステム1の動作は、図2を参照して以下に詳しく説明される。
入力手段5によって入力されるテキストデータTDもまた、テキストデータファイルTDFとして、好適には前記関連付けデータ(下記参照)と共に、記憶手段3に記憶されることができる。例示的なファイル形式は、図3を参照して以下に説明される。更に、システム1は、特に前記記憶手段3に記憶する前に、入力されたテキストデータTD及び/又は時間位置データ(図2参照)をバッファするためのデータバッファ12と、データ処理手段6内にソフトウェアモジュールとして配されるスピーチ認識手段13と、を有する。スピーチ認識手段13の使用は、以下に明らかになる。
サウンドデータSD及び対応するテキストデータTDを同期再生するために、システム1は、サウンドデータSDを再生する、すなわち所与の時間ポイントに個々のサウンドデータを再生するためのオーディオ再生手段4に加えて、再生されているサウンドデータに関連付けられるテキストデータを実質的に同じ時間ポイントに表示するための、データ処理手段6に接続された表示手段14を有し、それによって前記同期再生を達成する。前記表示手段14は、有利には、標準のPC表示スクリーンの形をとり、表示スクリーン上には、前記テキストデータが、単にスクリーン上にそれを書くことによって又はそれを強調表示すること等によって表示されることができる。このようにして、サウンドデータファイルの全コンテントを連続的に再生することによって、全体の対応する転写テキストデータTDが、同期して表示される。
任意に、本発明によるシステム1、すなわちデータ処理手段6は、図1に破線で示されるように、タイマ17を有するサウンドデータレベルモニタ15及びテキスト入力モニタ16のような監視手段15、16を更に有する。監視手段15、16の本発明による使用は、以下に明らかになる。
図2は、一般的な手作業による転写セッション中の、データストリームの形の例示的なサウンドデータSD及び対応する転写テキストデータTD(「This is an example.」)を、時間的に連続するサウンドセグメント(セグメントの各々は、SDiと示される個別のサウンドデータであり、ここで、iは0より大きい整数である)及び入力文字(個々のテキストデータTDjにグループ化され、ここで、jは0より大きい整数)として示している。水平軸tは、時間を示す。サウンドデータSDは、図2の上半分に示されており、テキストデータTDは、図2の下半分に示されている。個別のサウンドセグメントは、破線のボックスにより表わされている。サウンドデータSDストリーム内のハッチングされた領域は、サウンド信号レベルが予め決められた値より低く低下する時間を示し、従って、サウンドデータ内の、例えばワード間又は文の終わりの、ポーズを示す。しかしながら、ワード間のポーズは、通常、連続するスピーチにおいては検出可能でなく、従って、ワード間のハッチングされた領域は、実際に、ゼロの傾向があり、完全を期すために示されているだけである。テキストデータTD入力ストリームは、小さいセグメントに視覚的に細分されており、小さいセグメントの各々は、例えば文字「T」又は半角スペース記号のような単一のテキスト入力文字を含む。前記セグメントはすべて、ほぼ同等の大きさ、すなわち時間長さであるように描かれているが、転写者は、或る文字、例えば文字「a」のような標準のラテン文字と比較して「α」のようなギリシア文字、を入力するために、より長い時間を必要としうるので、かなりのバリエーションが起こりうる。
本発明によれば、サウンドデータSD及び入力されたテキストデータTDは共に、クエリ手段8(図1)によって、好適には規則的な時間に、繰り返しクエリされる。図2において、iが、0より大きい整数であるとして、クエリ時間は、Qiと示され、時間軸t上に表わされている。連続するクエリ間の時間間隔ΔQは、好適には、0.1乃至1秒である。固定の時間間隔ΔQを使用することに代わって、クエリは、ワード境界においてサウンド及びテキストのより良い関連付けを得るために、空白又は文章区切りのような或るテキストによって、トリガされることもできる。このようにして、現在再生されているサウンドデータSDiに対応する現在時間位置TPi及び現在入力されているテキストデータTDjをそれぞれ得ることが可能である。ここで、iは、0より大きい整数である。前記時間位置TPiを得ることは、図2のサウンドデータSDの方をさす垂直矢印によって示されている。矢印位置は、個別のサウンドセグメントSDiの時間境界を規定するためにも使用される。現在入力されているテキストデータTDjは、直前のクエリ時間Qi−1の後、現在のクエリ時間Qiまでに入力された文字のグループとして規定される。例えばi=7として、QiにおいてTDj=「is 」(is+半角スペース記号)である。参照符号TD及びSDは、手作業による転写セッション中に発生し、以下に詳細に説明されるサウンドデータSDとテキストデータTDとの間のタイムラグのため、異なるインデックス変数i,jによる添え字を有する。このように、上述したような現在入力されているテキストデータTDjは、一般に、それらの個々のコンテントに関する限り、現在再生されているサウンドデータSDiに対応しない。
転写者の限りあるヒアリング及び反応スピードにより、テキストデータTDは、図2に示されるように、一般にサウンドデータSDに遅れをとる。転写のタイムラグLは、静的な値でなく、転写セッションを通じて変化する。例えば、転写者がワード「This」をタイプし始める前に、直前に再生された1又はいくつかのサウンドセグメントに対応する或るタイムラグL0がある。対応するサウンドが再生されたのち、転写者がワード「This」の入力を終えるのに要する時間に対応するタイムラグL1は、一般に、上述したタイムラグL0と異なる。加えて、タイムラグは、音響的に難しいサウンドパッセージの間、又は集中力の欠如により長い転写セッションの終わりに向かって、より顕著になりうる。それにもかかわらず、システムユーザの転写能力に依存する平均タイムラグLを少なくとも導き出すことは可能であり、すなわち、図2に与えられる例において、L1≦L≦L0である。前記タイムラグLに関するユーザ依存の値は、例えばテキスト入力手段5によって、転写セッションの前にシステムに入力されることが好ましく、更に、当業者に知られているユーザプロファイルに関係して記憶されることができる。代替例として、前記タイムラグ値は、例えばデータ処理手段6が(上述したような)ユーザ登録の最中に転写スピードを測定することよって、又はサウンドデータ再生の始まりと第1の対応するテキストデータの入力との間の時間を決定し、前記測定される/決定されるタイムラグにLの値を設定することによって、本発明のシステムによって動的に導き出されることができる。しかしながら、上述した最初の遅延は、通常、Lについてあまり良い評価ではなく、従って前記第1の代替例が好ましい。
上述したタイムラグLにもかかわらず、本発明のシステム1(図1)によって、のちの同期再生のためにサウンドデータSD及び入力されるテキストデータTDの間の関連付けを生成するために、サウンドデータSDをクエリすることによって現在入力されているテキストデータTDjに関して最初に導かれる時間位置情報は、サウンドデータSD及びテキストデータTDの間のタイムラグLを考慮するように時間を補正されなければならない:
本発明によれば、現在入力されているテキストデータTDj、例えばQ7におけるテキストデータTD7=「is a」(is+半角スペース+a)は、データバッファ12に記憶されるとともに(図1)、タイムラグLを減じ、すなわちTP7':=TP7−Lとして、転写遅延に従って時間補正値を適用することにより、前記補正手段9(図1)において現在時間位置TP7を補正することによって、対応する以前に再生されたサウンドデータ(例えばSD5)にほぼ関連付けられる。テキストデータTD7、及び前記テキストデータTD7に最も密接に関連するサウンドデータの実際時間位置に少なくともほぼ対応する補正された時間位置TP7'が、データ生成手段10(図1)によって、テキストデータファイルTDF(図1)に加えられ、こうして、前記補正された時間位置TP7'及び前記現在入力されているテキストデータTD7との間の同期関連付けを示す関連付けデータ<TP7'>(図3参照)を生成する。
図3は、図2に示される例に対応する共通の同期されたテキストデータファイルTDF(図1)からの例示的な抜粋を示しており、前記関連付けデータは、データ処理手段6(図1)におけるバッファリング及び時間補正ののち、前記入力されたテキストデータと共に記憶手段3(図1)に記憶される。BEOF及びEOFは、テキストデータファイルTDFの始まり及び終わりをそれぞれ示している。個別のデータセグメントTDjは、"…"と表わされている。各々のテキストデータTDjに続いて、ファイルは、対応する補正された時間位置TPi'を関連付けデータ<TPi'>の形で含み、補正された時間位置TPi'は、個々の出力データの同期を提供するために、サウンドデータ及びテキストデータの合同再生中に使用されることができる。これは、図5を参照して以下に説明される。
サウンドデータとテキストデータとの間の同時性を更に改善するために、サウンドデータ内の特徴的なスピーチ関連情報、特にテキストデータ内の文章区切りに対応するサウンドデータ内のポーズが、前記スピーチ関連情報に対応するサウンドデータ内の時間位置と関連するテキストデータとの間の付加的な関連付けデータを生成するために使用される。このために、本発明のシステム1の変形例によれば、サウンドデータレベルモニタ15(図1)が、手作業による転写セッションの文脈において、サウンドデータ内のスピーチポーズを表わすデータセグメント(図2の例示の文章の終わりにおけるハッチングされた領域を参照)を検出するために、再生中にサウンドデータSDのレベルを連続的に監視する。サウンドレベルが、ユーザによって供給されることができる予め決められた閾値より低く低下するときはいつでも、前記レベルモニタ15に含まれるタイマ17が、リセットされ、スタートされる。サウンドレベルが前記閾値より高い値を取り戻す前に、前記タイマ17が、予め決められた別の値t(図2参照)に達する場合、追加のクエリが、前記データバッファ12(図1)にバッファされるサウンドデータの現在時間位置TPXを得るために行われる。前記追加のクエリは、図2においてQXと示される。サウンドドライバのよく知られている「ボイス駆動の記録」機能(スピーチ認識のためにも使用される)が、オーディオ内のポーズを検出するために使用されることができ、すなわち、ドライバは、時間位置yにおいてxミリ秒のポーズがあったことを知らせる。このようなポーズは、概して、コンマ、終止符、疑問符又は感嘆符のようなテキストデータ内の文章区切りに対応し、それに続き、又はそれに関係して生じるので、次のテキスト入力データTDjが、例えば図2に示される終止符のような文章区切り記号を含むとすぐ、補正された時間位置TPj'=TPj−Lは、TPXの近くとなる(<1秒の時間差)べきである。そうでない場合、検出されたポーズは、文章区切りに関連せず、人間のスピーチの不規則性に関連するものとされる。しかしながら、TPj'が、TPXに近い場合、平均の転写遅延Lの改善された評価が、L=ABS(TPj−TPX)を使用することによって計算されることができる。更に、ポーズの時間位置及び関連するテキストデータTDjの間の付加的な関連付けデータ<TPX'>が、生成され、テキストデータファイルTDF(図3参照)に記憶される。
このようにして、レベルモニタ15(図1)は、転写ラグLを再調整するために使用されることができる。このために、(テキスト入力モニタ16によって提供される)文章区切り記号の発生時にタイマ17によって提供される時間値は、本質的に、対応するサウンドデータの再生より遅れる転写入力の実際のタイムラグL'に対応するものとされる。こうして、転写タイムラグLを再調整するために、その値は、実際のタイムラグL'の値、すなわちタイマ17によって提供される対応する値に設定される。
図4は、サウンドデータ及びテキストデータを同期させるための本発明の方法を説明するフローチャートを示しており、前記テキストデータは、前記サウンドデータの手作業による転写によって提供される。特に人間のスピーチの形のサウンドデータが、前記サウンド入力手段2(図1)を介して提供され、再生のために前記記憶手段3(図1)に記憶されているものとして、本発明の方法は、ステップS1において始まる。ステップS1ののち、タイマ6aをリセット(t=0)しスタートさせるとともに、任意にはユーザ入力を要求することによって、時間補正/遅延値L及び付加の閾値(例えばt、上記参照)を設定することを含むステップS2におけるシステムの初期化が続く。更に、ユーザによって入力されるべき転写テキストデータを記憶するためのテキストデータファイルTDF(図1)が、記憶手段3に開かれる。サウンドデータに対応するオーディオストリームの再生が、ステップS3において始められ、サウンドデータファイルSDF(図1)の終わりに達するまで(ステップS10、下記参照)又は再生がユーザによって明確に中断されるまで、間断なく続く。次のステップS4において、システムは、ユーザが再生されているサウンドデータに対応するテキストデータを最初に入力するまで、すなわちTD≠""まで、待つ。そののち、次のステップS5−S9は、サウンドデータファイルSDFの終わりに達したことが、ステップS10において検出されるまで、繰り返される。ステップS5において、サウンドデータ及びテキストデータの双方が、現在再生されているサウンドデータSDiに対応する現在時間位置TPi及び現在転写されているテキストデータTDjを得るためにそれぞれクエリされる。次のステップS6において、得られた時間位置TPi、及びテキストデータTDjすなわち文字列が、データバッファ12(図1)に一時的に記憶される。ステップS7は、転写遅延に従って時間遅延値Lを減ずることによって、前記現在時刻位置TPiを補正することを含み、次のステップS8において、前記補正された時間位置TPi'と前記現在転写されているテキストデータTPjとの間の同期関連付けを示す少なくとも1の関連付けデータ<TPi'>が、生成される。最後に、ステップS9において、テキストデータTPj及び対応する関連付けデータ<TPi'>が、図3を参照してすでに上述したように、テキストデータファイルTDFに加えられる。そののち、次のステップS11−S15は、ステップS5−S9に関して記述したのと同様の動作を含み、大きな違いは、サウンドデータの再生が既に終了しているので、ステップS11においてはテキストデータのみがクエリされることである。しかしながら、時間位置情報は、なお、サウンドデータの再生を始める直前にリセットされたシステムタイマ6aから少なくともほぼ導き出されることができる。従って、ステップS12において、前記タイマ6aによって提供されるタイミング情報tは、テキストデータと共にバッファされ、ステップS13において、前記タイミング情報tは、上述したように補正され、t'=t−Lを与える。ステップS14及びS15は、以前のステップS8及びS9に対応し、TPi'及び<TPi>は、t'及び<t'>によって置き換えられなければならない。ユーザ入力の終わりがステップS16において検出される場合、本発明の方法は、次のステップS17において終わる。
図5は、図2及び図4に関して上述した本発明の方法を通じて得られる同期されたテキストデータファイルTDF(図1、図3)を使用する、サウンドデータ及び対応するテキストデータの同期された再生のための本発明の方法を説明するフローチャートを示している。サウンドデータ及び対応するテキストデータを同期再生するための前記方法は、ステップS18において始まる。次のステップS19は、特にシステムタイマ6aをリセット(t=0)し、スタートし、テキストポインタをテキストデータファイルTDF(図3)の始まりに割り当てるための初期化ステップである。テキストデータファイルTDFは、サウンドデータと共に同期して表示される転写テキストデータを含む。次のステップS20において、サウンドデータの再生が開始される。その直後、テキストデータファイルTDFの終わりにまだ達していない(検出ステップ21)間、ステップS22において、第1のテキストデータセグメントTDjが示され、例えば表示手段14に表示される。図2及び図3に関して記述したように、前記第1のテキストデータセグメントTDjは、図2に与えられる例では<TP5'>である第1の対応する関連付けデータ<TPi'>に先行するテキストデータの全てを含む。前記テキストデータセグメントTDjが、ワードのような語彙単位の中央で終わる場合(図2参照)、前記データセグメントは、語彙単位の終わりを示す「 」(半角スペース)記号に達するまで、次のテキストデータセグメントTDj+1の部分を含むように拡張されることができる。このようにして、本発明の方法は、同期データ出力の向上された知覚可能性を提供する。更に、テキスト出力は、例えば音節等の他の知られている語彙的なフィーチャを使用して構築されることができる。次のステップS23において、テキストポインタは、テキストデータファイルTDF内の現在位置に移動され、それによって次の出力は、前の出力ステップS22の間にまだ示されなかった転写されたテキストの最初の文字から始める。そののち、ステップS24において、本発明のシステムは、システムタイマ6aが値t≧<TPi'>に達するのを待ち、すなわち、システム初期化からの経過時間が、前記第1の関連付けデータに対応する時間になるまで、待つ。次のステップS25において、インデックス変数iがインクリメントされ、方法は、ステップ21に続く。ステップS21乃至S25は、転写されたテキストの全てが示される(ステップS26)まで、繰り返される。上述したステップS24の改善された代替例として、システムタイマ6aを使用する代わりに、テキスト出力を制御するための現在時間位置が、再生中にサウンドデータを直接クエリすることによって前述のように得られることができ(図2、図4参照)、従ってより一層直接的にサウンド及びテキスト出力をリンクすることが可能である。この文脈において、現在サウンド位置は、周期的にクエリされ、又はサウンドドライバは、現在サウンド位置を示す周期的なイベントを送り出す。前記サウンド位置は、表示されるべきテキストデータを選択するために使用される。同期再生中、テキストは、通常、MS Wordのようなテキストプロセッサにおいて表示され、当該部分が、強調表示される。
本発明のシステム1(図1)は、特に医療転写に関して、サウンドからテキストへの転写のために一般的なやり方で使用されることができる。有利には、システム1は、文書作成ワークフローの中の補正ステージの一部として含まれる。文書作成ワークフローは、
−例えばマイクロフォンの形の適切に適応化されたサウンド入力手段2(図1)によって、サウンドデータの録音のようなディクテーション、及びそれに続く記憶装置3へのサウンドデータの記憶を行うステージと、
−テキストデータを自動的に生成するためにスピーチ認識手段13(図1)によってスピーチ認識を行うステージと、
−本発明の方法による前記テキストデータ内の不良パッセージの手作業による転写のやり直しによって、前記自動的に生成されたテキストデータを補正するステージと、
を少なくとも含む。
任意には、詳細に上述された本発明の方法を同様に使用することができる更なるレビュー/品質保証ステージが提供されることができる。
本発明によるサウンドデータ及び対応するテキストデータを同期再生するためのシステムの概略ブロック図。 サウンドデータ及びテキストデータを同期させるための本発明の方法を示す図。 本発明により、関連付けデータがテキストデータと共に記憶される例示の共通の同期されたテキストデータファイルを示す図。 サウンドデータ及びテキストデータを同期させるための本発明の方法を更に示すフローチャート。 サウンドデータ及び対応するテキストデータを同期再生するための本発明の方法を示すフローチャート。

Claims (12)

  1. サウンドデータと、前記サウンドデータの再生中に前記サウンドデータの手作業による転写によって得られるテキストデータと、を同期させる方法であって、
    現在再生されているサウンドデータに対応する現在時間位置及び現在転写されているテキストデータを得るために、前記サウンドデータ及び前記テキストデータを反復的にクエリするステップと、
    転写遅延に従って時間補正値を適用することによって、前記現在時間位置を補正するステップと、
    前記補正された時間位置と前記現在転写されているテキストデータとの間の同期関連付けを示す少なくとも1の関連付けデータを生成するステップと、
    を含む、方法。
  2. 特に前記テキストデータ内の文章区切りに対応する前記サウンドデータ内のポーズのような前記サウンドデータ内の特徴的なスピーチ関連情報が、前記スピーチ関連情報に対応する前記サウンドデータ内の時間位置と、関連するテキストデータと、の間の付加的な関連付けデータを生成するために使用されることを特徴とする、請求項1に記載の方法。
  3. 前記関連付けデータは、前記テキストデータと共に、共通の同期されたテキストデータファイルに記憶されることを特徴とする、請求項2に記載の方法。
  4. 前記関連付けデータは、同期ファイルに、前記テキストデータとは別個に記憶されることを特徴とする、請求項2に記載の方法。
  5. 所与の時間ポイントに個々のサウンドデータを再生するステップと、
    実質的に同じ前記時間ポイントに前記サウンドデータに関連付けられたテキストデータを表示するステップと、
    を繰り返すことを含む、サウンドデータ及び対応するテキストデータを同期再生するための方法であって、
    前記関連付けられたテキストデータが、請求項1に記載の方法によって得られることを特徴とする、方法。
  6. 特に前記テキストデータ内の文章区切りに対応する前記サウンドデータ内のポーズのような、前記サウンドデータ内の特徴的なスピーチ関連情報に対応するテキストデータが、本質的に、前記サウンドデータが前記特徴的なスピーチ関連情報を示す予め決められた基準を満たす時間ポイントに、表示されることを特徴とする、請求項5に記載の方法。
  7. サウンドデータ及びテキストデータを同期させるためのシステムであって、
    特に人間のスピーチの形の前記サウンドデータを供給するためのサウンド入力手段と、
    前記サウンドデータを記憶する記憶手段と、
    ユーザに対して前記サウンドデータを再生する再生手段と、
    前記テキストデータを供給することにより前記サウンドデータを手作業で転写するためのテキスト入力手段と、
    前記サウンドデータと前記テキストデータとの間の同期関連付けを示す関連付けデータを生成するためのデータ処理手段と、
    を有し、前記データ処理手段は、
    現在再生されているサウンドデータに対応する現在時間位置及び現在入力されているテキストデータを得るために、前記サウンドデータ及び前記テキストデータを反復的にクエリするクエリ手段と、
    転写遅延に従って時間補正値を適用することによって、前記現在時間位置を補正する補正手段と、
    前記補正された時間位置と前記現在入力されているテキストデータとの間の同期関連付けを示す関連付けデータを生成するデータ生成手段と、
    を有する、システム。
  8. 前記データ処理手段は、特に前記テキストデータ内の文章区切りに対応する前記サウンドデータ内のポーズのような、前記サウンドデータ内の特徴的なスピーチ関連情報を識別し、前記サウンドデータ内の対応する時間位置と、関連するテキストデータと、の間の付加的な関連付けデータを生成するように適応されることを特徴とする、請求項7に記載のシステム。
  9. 前記関連付けデータは、前記テキストデータと共に、共通の同期されたテキストデータファイルに記憶されることを特徴とする、請求項7に記載のシステム。
  10. 前記関連付けデータは、同期ファイルに、前記テキストデータとは別個に記憶されることを特徴とする、請求項7に記載のシステム。
  11. 所与の時間ポイントに個々のサウンドデータを再生する再生手段と、
    実質的に同じ前記時間ポイントに前記サウンドデータに関連付けられたテキストデータを表示する表示手段と、
    を有する、サウンドデータ及び対応するテキストデータを同期再生するためのシステムであって、
    前記関連付けられたテキストデータを得るために請求項7に記載のシステムを有することを特徴とする、システム。
  12. 前記データ処理手段は、特に前記テキストデータ内の文章区切りに対応する前記サウンドデータ内のポーズのような、前記サウンドデータ内の特徴的なスピーチ関連情報を識別し、本質的に、前記サウンドデータが前記特徴的なスピーチ関連情報を示す予め決められた基準を満たす時間ポイントに、前記特徴的なスピーチ関連情報に対応する個々のテキストデータを表示するように前記表示手段に命じるように適応されることを特徴とする、請求項11に記載のシステム。
JP2008527565A 2005-08-26 2006-08-18 サウンド及び手作業により転写されるテキストを同期させるシステム及び方法 Expired - Fee Related JP4972645B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP05107861.6 2005-08-26
EP05107861 2005-08-26
PCT/IB2006/052865 WO2007023436A1 (en) 2005-08-26 2006-08-18 System and method for synchronizing sound and manually transcribed text

Publications (2)

Publication Number Publication Date
JP2009506356A JP2009506356A (ja) 2009-02-12
JP4972645B2 true JP4972645B2 (ja) 2012-07-11

Family

ID=37607161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008527565A Expired - Fee Related JP4972645B2 (ja) 2005-08-26 2006-08-18 サウンド及び手作業により転写されるテキストを同期させるシステム及び方法

Country Status (5)

Country Link
US (2) US8560327B2 (ja)
EP (1) EP1922720B1 (ja)
JP (1) JP4972645B2 (ja)
CN (1) CN101253549B (ja)
WO (1) WO2007023436A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4972645B2 (ja) 2005-08-26 2012-07-11 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー サウンド及び手作業により転写されるテキストを同期させるシステム及び方法
ES2386673T3 (es) * 2008-07-03 2012-08-24 Mobiter Dicta Oy Procedimiento y dispositivo de conversión de voz
US8498867B2 (en) * 2009-01-15 2013-07-30 K-Nfb Reading Technology, Inc. Systems and methods for selection and use of multiple characters for document narration
US20180060430A1 (en) * 2009-05-27 2018-03-01 Hon Hai Precision Industry Co., Ltd. Voice command processing method and electronic device utilizing the same
JP2011215358A (ja) * 2010-03-31 2011-10-27 Sony Corp 情報処理装置、情報処理方法及びプログラム
US8392186B2 (en) 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
US9774747B2 (en) * 2011-04-29 2017-09-26 Nexidia Inc. Transcription system
US9236045B2 (en) * 2011-05-23 2016-01-12 Nuance Communications, Inc. Methods and apparatus for proofing of a text input
JP5638479B2 (ja) 2011-07-26 2014-12-10 株式会社東芝 書き起こし支援システムおよび書き起こし支援方法
JP2013025299A (ja) 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
US20130035936A1 (en) * 2011-08-02 2013-02-07 Nexidia Inc. Language transcription
US9536567B2 (en) * 2011-09-02 2017-01-03 Nexidia Inc. Transcript re-sync
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
GB2502944A (en) * 2012-03-30 2013-12-18 Jpal Ltd Segmentation and transcription of speech
CN103838723B (zh) * 2012-11-20 2017-04-19 联想(北京)有限公司 数据关联方法和电子设备
JP2014142501A (ja) * 2013-01-24 2014-08-07 Toshiba Corp テキスト再生装置、方法、及びプログラム
JP6235280B2 (ja) * 2013-09-19 2017-11-22 株式会社東芝 音声同時処理装置、方法およびプログラム
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
CN104751846B (zh) * 2015-03-20 2019-03-01 努比亚技术有限公司 语音到文本转换的方法及装置
US10726197B2 (en) * 2015-03-26 2020-07-28 Lenovo (Singapore) Pte. Ltd. Text correction using a second input
CN105791713A (zh) * 2016-03-21 2016-07-20 安徽声讯信息技术有限公司 一种智能语音文字字幕同步播音的装置
US9697835B1 (en) * 2016-03-31 2017-07-04 International Business Machines Corporation Acoustic model training
CN106059895A (zh) * 2016-04-25 2016-10-26 上海云睦网络科技有限公司 协同任务生成方法、装置和系统
CN105827417A (zh) * 2016-05-31 2016-08-03 安徽声讯信息技术有限公司 一种用于会议记录并可随时修改的语音速记装置
CN107690089A (zh) 2016-08-05 2018-02-13 阿里巴巴集团控股有限公司 数据处理方法、直播方法及装置
CN106409296A (zh) * 2016-09-14 2017-02-15 安徽声讯信息技术有限公司 基于分核处理技术的语音快速转写校正系统
CN107886939B (zh) * 2016-09-30 2021-03-30 北京京东尚科信息技术有限公司 一种在客户端的中止-接续式文本语音播放方法和装置
CN107968942B (zh) * 2017-11-24 2021-06-04 网易(杭州)网络有限公司 一种直播平台音视频时间差测量方法与系统
CN109275009B (zh) * 2018-09-29 2021-10-19 安徽听见科技有限公司 一种控制音频与文本同步的方法及装置
US11410658B1 (en) * 2019-10-29 2022-08-09 Dialpad, Inc. Maintainable and scalable pipeline for automatic speech recognition language modeling
DE102020128699A1 (de) 2020-10-30 2022-05-05 Daniel Hromada Verfahren zur Segmentierung von Audiodateien mittels haptischer Schnittstelle

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5369704A (en) * 1993-03-24 1994-11-29 Engate Incorporated Down-line transcription system for manipulating real-time testimony
EP0895617A4 (en) * 1996-04-26 1999-07-14 Eloquent Inc METHOD AND SYSTEM FOR SYCHRONIZING AND NAVIGATING MULTIPLE FLOWS OF ISOCHRONOUS AND NON-ISOCHRONOUS DATA
US6338038B1 (en) * 1998-09-02 2002-01-08 International Business Machines Corp. Variable speed audio playback in speech recognition proofreader
US6360237B1 (en) * 1998-10-05 2002-03-19 Lernout & Hauspie Speech Products N.V. Method and system for performing text edits during audio recording playback
US6636238B1 (en) * 1999-04-20 2003-10-21 International Business Machines Corporation System and method for linking an audio stream with accompanying text material
US7010489B1 (en) * 2000-03-09 2006-03-07 International Business Mahcines Corporation Method for guiding text-to-speech output timing using speech recognition markers
US6260011B1 (en) * 2000-03-20 2001-07-10 Microsoft Corporation Methods and apparatus for automatically synchronizing electronic audio files with electronic text files
US6505153B1 (en) 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
US6766328B2 (en) * 2000-11-07 2004-07-20 Ascriptus, Inc. System for the creation of database and structured information from verbal input
US7058889B2 (en) * 2001-03-23 2006-06-06 Koninklijke Philips Electronics N.V. Synchronizing text/visual information with audio playback
WO2002080144A1 (en) 2001-03-29 2002-10-10 Koninklijke Philips Electronics N.V. Text editing for recognized speech during synchronous playback
US6708148B2 (en) * 2001-10-12 2004-03-16 Koninklijke Philips Electronics N.V. Correction device to mark parts of a recognized text
JP3586254B2 (ja) * 2002-03-07 2004-11-10 株式会社東芝 オーディオ情報の記録媒体と記録方法及び再生装置
US20040024598A1 (en) 2002-07-03 2004-02-05 Amit Srivastava Thematic segmentation of speech
US20040204939A1 (en) 2002-10-17 2004-10-14 Daben Liu Systems and methods for speaker change detection
US7444285B2 (en) 2002-12-06 2008-10-28 3M Innovative Properties Company Method and system for sequential insertion of speech recognition results to facilitate deferred transcription services
JP3884016B2 (ja) * 2004-02-13 2007-02-21 ダイキン工業株式会社 情報処理装置および情報処理方法、プログラム、並びに、情報処理システム
JP4972645B2 (ja) 2005-08-26 2012-07-11 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー サウンド及び手作業により転写されるテキストを同期させるシステム及び方法

Also Published As

Publication number Publication date
EP1922720A1 (en) 2008-05-21
US8924216B2 (en) 2014-12-30
US20140095165A1 (en) 2014-04-03
US20080195370A1 (en) 2008-08-14
WO2007023436A1 (en) 2007-03-01
CN101253549A (zh) 2008-08-27
JP2009506356A (ja) 2009-02-12
EP1922720B1 (en) 2017-06-21
CN101253549B (zh) 2012-04-25
US8560327B2 (en) 2013-10-15

Similar Documents

Publication Publication Date Title
JP4972645B2 (ja) サウンド及び手作業により転写されるテキストを同期させるシステム及び方法
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP6078964B2 (ja) 音声対話システム及びプログラム
US6859778B1 (en) Method and apparatus for translating natural-language speech using multiple output phrases
JP2007206317A (ja) オーサリング方法、オーサリング装置およびプログラム
JP5787780B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
US20140372117A1 (en) Transcription support device, method, and computer program product
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
KR101054699B1 (ko) 지원 디바이스, 프로그램 및 지원 방법
JP6728116B2 (ja) 音声認識装置、音声認識方法およびプログラム
JP2015099289A (ja) 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム
JP2008116643A (ja) 音声生成装置
EP0982684A1 (en) Moving picture generating device and image control network learning device
JP6486582B2 (ja) 電子機器、音声制御方法、およびプログラム
JP5518621B2 (ja) 音声合成装置およびコンピュータプログラム
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
Pillai Self-monitoring and self-repair in spontaneous speech
JP2006284645A (ja) 音声再生装置およびその再生プログラムならびにその再生方法
JP2019211737A (ja) 音声処理装置および翻訳装置
JP2005077678A (ja) テキスト音声同期装置およびテキスト音声同期処理プログラム
JP6387044B2 (ja) テキスト処理装置、テキスト処理方法およびテキスト処理プログラム
JP2007140079A (ja) 再生装置
JP2009075526A (ja) 音声合成利用の総合的英語学習システム
JPH10340095A (ja) 文章読み上げ装置
JP3830200B2 (ja) 人物画像合成装置

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090507

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090715

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090731

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120409

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4972645

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees