JP4972645B2

JP4972645B2 - サウンド及び手作業により転写されるテキストを同期させるシステム及び方法

Info

Publication number: JP4972645B2
Application number: JP2008527565A
Authority: JP
Inventors: アンドゥレアスノイバヒェル; ミクロスパパイ
Original assignee: ニュアンスコミュニケーションズオーストリアゲーエムベーハー
Priority date: 2005-08-26
Filing date: 2006-08-18
Publication date: 2012-07-11
Anticipated expiration: 2026-08-18
Also published as: EP1922720A1; US8924216B2; US20140095165A1; US20080195370A1; WO2007023436A1; CN101253549A; JP2009506356A; EP1922720B1; CN101253549B; US8560327B2

Description

本発明は、一般に、特に人間のスピーチのようなサウンドの手作業による転写に関する。より具体的には、本発明は、例えば補正を目的とするサウンド及びテキストデータの連続的な同期再生の観点で、サウンドデータと、サウンドデータの再生中にサウンドデータの手作業による転写（トランスクリプション）によって得られるテキストデータと、の同期に関する。

人間のスピーチのようなサウンドが、スピーチ認識システムによって自動的にテキストに転写されるとき、例えばスピーチ認識システムによって生成されるテキストファイルにサウンドデータから導き出されるタイミングデータを自動的に含めることによって、以下テキストデータと呼ばれる各々のワード又はより小さい語彙的なサブユニットを、（サウンドデータとも呼ばれる）対応するサウンドセグメントに関連付けることは一般的に容易に可能である。タイミングデータは、所与のサウンドデータに対応するテキストデータに直接的にアクセスするために使用されることができ、その逆も同様である。このような関連付けは、例えば同期再生のような一般に知られているフィーチャのために特に必要とされており、このような同期再生において、現在再生されているサウンドセグメントに対応するワード又は音節のようなテキスト（テキストデータ）のセグメントは、例えばディスプレイ上に当該テキストセグメントを強調表示することによって、ユーザに対して表示される。このようなフィーチャは、特に、スピーチ認識を通じて確立される転写の補正並びにレビュー及び品質保証のために特に有用である。

しかしながら、例えば低い品質又は高度に特化した専門用語のサウンドデータを処理する際、今日のスピーチ認識システムのよく知られた欠点によりよくあることであるが、サウンドが、手作業により転写される場合、このような関連付けは、一般に、自動的に得られるものではない。従って、従来技術において、テキスト及びサウンドの同期は、数ミリ秒のオーダーの精度でサウンドセグメントにマークを付し、続いて対応するテキストを入力することによって、手作業により行われなければならない。このような方法は、非常に時間がかかり、ゆえに、費用の重要な問題を提示する。それにもかかわらず、上記の方法は、例えば心理学、マーケティング等の分野において、更なる解析のために転写の重要なフィーチャを構成する。同様の方法が、Bainbridge, D.及びCunningham, S. J.による「Making oral history accessible over the World Wide Web」（History and Computing, vol. 10, no. 1-3, pp. 73-81 (1998))に発表されている。

従って、サウンドデータの手作業による転写に関してサウンド及びテキストを費用効果的に同期させることを可能にすることが従来技術において必要である。

本発明の目的は、サウンドデータと、サウンドデータの再生中に前記サウンドデータの手作業の転写によって得られるテキストデータと、を同期させるための、上述の不利益を取り除いた方法を提供することである。更に、本発明の目的は、サウンドデータ及びテキストデータを同期させるための本発明の方法を取り入れ、それにより、スピーチ認識を使用するシステムにもっぱら運命づけられていた同期再生の従来技術の一般の不利益を取り除く、サウンドデータ及び対応するテキストデータを同期再生するための方法を提供することである。更に、本発明は、その目的のために、前述の個々の本発明の方法を実行するように適応されるシステムを提供しなければならない。

本発明の第１の見地によれば、サウンドデータと、前記サウンドデータの再生中に前記サウンドデータの手作業による転写によって得られるテキストデータとを同期させるための方法であって、現在再生されているサウンドデータに対応する現在時間位置及び現在転写されているテキストデータを得るために、前記サウンドデータ及び前記テキストデータを反復的にクエリするステップと、転写遅延に従って時間補正値を適用することによって、前記現在時間位置を補正するステップと、前記補正された時間位置及び前記現在転写されているテキストデータの間の同期関連付けを示す少なくとも１の関連付けデータを生成するステップと、を含む方法が提供される。

ここで及び以下の詳述において、「サウンドデータ」なる語は、例えば人間のスピーチのようなオーディオデータをさし、前記オーディオデータは、特にサウンドデータから再生されうるサウンドを聞き、一般にはキーボードによって文字のストリームの形でサウンドに対応するテキストを入力する（タイプする）秘書である、ユーザ（トランスクリプション）によるその後の手作業による転写のために、好適には適切なデジタルデータ形式のデータファイルとして、録音され、そののち記憶される。この文脈において、「サウンドデータ」なる語は、サウンドデータのセグメントをさし、最小の可能なサウンドデータは、単一サウンドデータビットである。

同様に、「テキストデータ」なる語は、転写セッション中に入力されるテキスト、すなわち文字の連続をさし、これは更に、好適には、適切なデジタルデータ形式でデータファイルとして記憶される。この文脈において、「テキストデータ」なる語は、テキストデータのセグメントをさし、最小の可能なテキストデータは、明らかに、単一テキストデータビット、すなわち単一テキスト文字である。

「再生」なる語は、上述のタイプのデータの任意のものに対応する個々の出力を生成する動作をさし、例えば、サウンドカード及び関連付けられたスピーカシステムのような適切な出力システムによって、サウンドデータから、ユーザにより知覚できる可聴の物理的サウンドを生成すること、又は表示スクリーン上にテキストデータに対応するテキストを表示することをさす。サウンドデータの再生中、再生されるべき所与のサウンドデータは、サウンドデータ、すなわちそこから得られるオーディオストリーム、内の「時間位置」に対応する。例えば、所与のサウンドデータの時間位置は、オーディオストリームの始まりから測定される前記サウンドデータの開始時間を示すことができる。

本発明の範囲内で、「反復的に」なる語は、本質的に規則的に、例えば１乃至１０Ｈｚ（０．１−１秒ごとに１クエリ）の繰り返し頻度で、複数回実行される動作をさす。例えば、サウンドデータ及びテキストデータをそれぞれ「クエリする」ことは、本発明の範囲内で反復的に実行される具体的な動作であり、すなわち、サウンドデータ及びテキストデータは、現在オーディオ時間位置及び最近入力されたテキストデータをそれぞれクエリ値として得るために、転写セッション中に頻繁にアドレスされ、テキストデータの実際の長さは、クエリ頻度に依存する。

更に、この文脈において、「補正する」なる語は、予め決められた補正値を適用することによってクエリ値を変更することをさし、例えば補正された時間位置を得るために、時間位置のクエリ値から遅延時間値を減ずることをさす。

最後に、本願明細書において「関連付けデータ」なる語は、サウンドとテキストとの間の関連付けを含む／確立するデータのセグメントをさす。このようなデータは、好適には、サウンドデータと完全に調和するようにユーザによって特定のテキストデータが入力されたサウンド時間位置に関する情報を含み、これにより、例えばワード又は文字の任意の連続のような前記テキストデータと、サウンドデータとの間の同期関連付けを完全に生成する。

このようにして、本発明の方法は、サウンドが手作業で転写されている場合、サウンドとテキストとの間の密接な関連付けを自動的に達成する。言い換えると、本発明によれば、手作業による転写中、所与の時点に入力されるテキストセグメントは、タイミングに関する限り、再生されたサウンドに密接に関連するという仮定に基づいて、関連付けが、すでに再生されたサウンドと、現在入力されている、例えばタイプされているテキストとの間に、生成されることができる。再生されたサウンドと、入力されたテキストとの間のこのタイミングの関係は、転記者の有限の反応スピードによる転写遅延によって主に支配される。

ユーザ、すなわち転記者の転写スキル及び／又はタイピングスピードに従って、転写遅延、すなわち時間補正値を予め決めることによって、本発明の方法は、手作業でサウンドを記述するための方法を使用するいかなる類のユーザにも満足な結果を提供するように、容易にカスタマイズされることができる。

有利に、時間補正値は、転写テキストを入力する際のサウンドに遅れるユーザの「ラグ」に対応する時間遅延、すなわち持続時間の形をとる。このような遅延時間は、転写セッションの前に知られているサウンドデータをユーザに対して再生し、そののち、対応するテキストデータを入力するためにユーザが要する時間を測定し、統計学的に処理することによって、容易に決定されることができる。結果は、のちの利用のためにユーザプロファイルとして本発明の方法を使用して、システムに記憶されることができる。ユーザ登録を必要とする上述の方法に代わるものとして、同期再生中、遅延の調整を可能にし、及び／又は転写されるセクションの始め及び終わりにおける関連付けのユーザによる手作業の補正を行い、セクションの残りの部分について遅延を補間することが考えられる。

サウンドとテキストとの間の同時性を更に改善するために、本発明の方法の更なる展開によれば、特に前記テキストデータ内の文章区切り（句読点類、interpunctation）に対応する前記サウンドデータ内のポーズのような、前記サウンドデータ内の特徴的なスピーチ関連情報は、前記スピーチ関連情報に対応する前記サウンドデータ内の時間位置と、関連するテキストデータとの間の付加的な関連付けデータを生成するために使用される。このような特徴的なフィーチャに関する典型的な例は、転写されたテキスト内の終止符又は他の文章区切り記号に対応する、文の終わりのスピーチポーズである。本発明の方法の好適な実施例において、前記方法は、転写遅延計算論理の一部である。サウンドデータ内のポーズは、転写遅延を調整し、これに基づいて、対応するテキストに関連する補正されたサウンド時間位置を計算するために使用される。

本発明の方法の変形例によれば、前記関連付けデータは、前記テキストデータと共に、共通の同期されるテキストデータファイルに記憶される。このようにして、有利にはタイムスタンプ、すなわち対応するサウンドデータファイルの始まりから測定される経過時間のようなサウンドデータ内の時間位置を示す数、の形をとりうる、関連付けデータの記憶は、スピーチ認識器によって生成される転写と同様に達成され、それにより、原則として、知られている同期再生の方法／システムが、本発明の方法により得られる関連付けられたサウンド-テキストデータの同期再生を提供するために使用されることができる。

代替として、更なるデータ処理に適する場合、前記関連付けデータは、同期ファイル内に、前記テキストデータとは別個に記憶されることができる。

本発明の第２の見地によれば、サウンドデータ及び対応するテキストデータを同期再生するための方法であって、所与の時間ポイントに個々のサウンドデータを反復的に再生するステップと、実質的に同じ前記時間ポイントに当該サウンドデータに関連付けられたテキストデータを表示するステップと、を含み、前記関連付けられたテキストデータが、本発明の同期方法の前記変形例の任意の１つにより得られる関連付けデータに従って得られる、方法が提供される。このようにして、同期再生は、例えば補正目的のために、サウンドを手作業で転写するときにも容易に利用可能である。

本発明の第３の見地によれば、サウンドデータ及びテキストデータを同期させるシステムであって、
−特に人間のスピーチの形の前記サウンドデータを供給するためのサウンド入力手段と、
−前記サウンドデータを記憶するための記憶手段と、
−ユーザに対して前記サウンドデータを再生するための再生手段と、
−前記テキストデータの入力によって、前記サウンドデータを手作業により転写するための入力手段と、
−前記サウンドデータ及び前記テキストデータの間の同期関連付けを示す関連付けデータを生成するためのデータ処理手段と、
を有し、前記データ処理手段が、
−現在再生されているサウンドデータに対応する現在時間位置及び現在入力されているテキストデータを得るために、前記サウンドデータ及び前記テキストデータを反復的にクエリするためのクエリ手段と、
−転写遅延に従って時間補正値を適用することによって、前記現在時間位置を補正するための補正手段と、
−前記補正された時間位置と前記現在入力されているテキストデータとの間の同期関連付けを示す関連付けデータを生成するためのデータ生成手段と、
を有するシステムが提供される。

このようなシステムは、上述したような本発明の第１の見地による本発明の方法を実行するのに特に適している。

本発明のシステムの別の実施例において、前記データ処理手段は、特に前記テキストデータ内の文章区切りに対応する前記サウンドデータ内のポーズのような前記サウンドデータ内の特徴的なスピーチ関連の情報を識別し、前記サウンドデータ内の対応する時間位置及び関連するテキストデータに従って時間補正値を改善するように適応される。これは、例えばフレーズの終わりのスピーチポーズを、それに時間的に近いところに入力される終止符又はコンマのような対応する文章区切り記号にリンクする付加的な関連付けデータを生成することによって、サウンドとテキストとの間の同時性を更に改善することを助ける。

同期再生の知られている実現と互換させるために、本発明のシステムは、前記関連付けデータが、テキストデータを生成するためのスピーチ認識に依存する知られているシステムの場合に一般的であるように、前記テキストデータと共に、共通の同期されたテキストデータファイルに記憶されるように構成される。これは、例えばスピーチ認識器が、サウンドデータのより長いセクションを処理することができず、それゆえそのサウンドデータのセクションが、手作業で転写されなければならなかった場合、認識されたテキスト及び転写されたテキストの単一ドキュメントにおける混在を可能にするので、特に興味深い。しかしながら、実現を完全に柔軟にするために、代替例として、前記関連付けデータは、同期ファイルにおいて前記テキストデータとは別個に記憶されることができる。

本発明の第４の見地によれば、サウンドデータ及び対応するテキストデータを同期再生するためのシステムであって、所与の時間ポイントに個々のサウンドデータを再生するための再生手段と、実質的に同じ前記時間ポイントに当該サウンドデータに関連付けられるテキストデータを表示するための表示手段と、を有し、前記システムが更に、サウンドデータ及びテキストデータを同期させるための本発明のシステムの上述の変形例の任意の１つによるサブシステムを有する、システムが提供される。この手段によって、本発明の前記第４の見地による本発明のシステムは、例えば補正の目的で、手作業でサウンドを転写するときにも、同期再生フィーチャを容易に取り入れることができる。

本発明の前記第４の見地による同期再生システムは、特に医療転写に関する、サウンドからテキストへの転写に有用である。

より一般的にいえば、本発明の前記第４の見地による同期再生システムは、特に、少なくともディクテーションステージ、スピーチ認識ステージ及び補正ステージを含み、任意には更なるレビュー／品質保証ステージを含む文書作成ワークフローの中の補正ステージの一部として有用である。

本発明の更なる利点及び特徴は、添付の図面を参照して以下の実施例の詳細な説明から得られることができる。前述及び後述のフィーチャは、本発明に従って個別に又は連係して使用されることができる。言及される実施例は、網羅的な列挙として理解されるべきではなく、本発明の根底にある概念に関する例示として理解されるべきである。

本発明の以下の詳細な説明は、添付の図面を参照する。同じ参照数字が、同じ又は同様の構成要素を識別するために、それぞれ異なる図面において使用されることができる。

図１は、本発明と一致して、サウンドデータ及び対応するテキストデータを同期再生するためのシステム１のブロック図を示している。サウンドデータ及びテキストデータを同期させるためのシステム１は、例えば任意の必要なドライバ電子機器を備えるマイクロフォンの形で、特に人間のスピーチの形の前記サウンドデータを供給するためのサウンド入力手段２を有する。しかしながら、サウンドデータは、例えばＣＤ−ＲＯＭのような持ち運びできるデータキャリア又はインターネットを介する、別のやり方で供給されることもでき、その場合、入力手段２は、対応する適切な形、すなわちＣＤ−ＲＯＭドライブ及びインターネット接続手段の形をそれぞれとる。システム１は、任意の適切なデータ形式のサウンドデータファイルＳＤＦとして前記サウンドデータＳＤを記憶するための記憶手段３を更に有する。特定のシステム要求に基づいて、記憶手段３は、当業者に知られているような揮発性又は不揮発性のいずれのタイプであってもよい。本発明のシステム１は、ユーザに対して前記サウンドデータを再生するための再生手段４を更に有し、再生手段４は、図示される実施例において、任意の必要なドライバ電子機器を備えるオーディオスピーカシステムの形をとる。前記サウンドデータの手作業による転写のために、本発明によるシステム１は、キーボードの形のテキスト入力手段５を更に有し、テキスト入力手段５によって、前記テキストデータは、ユーザ、すなわちサウンドデータから導き出されるオーディオ信号を聞き、キーボードによって供給される文字を使用して対応するテキストをタイプする転写者、によって供給されることができる。

上述した特定の動作を実施することを可能にするために、上述のシステム構成要素２−５の全ては、少なくとも１のタイマユニット６ａを有するマイクロプロセッサのようなデータ処理手段６の形の中央制御ユニットに接続される。このようにして、本発明のシステム１は、好適には、図１において一点鎖線で示されるボックスによって示されるようなＰＣに基づくシステム７として構成される。従って、上述のシステム構成要素２−５は、適切なインタフェース（詳細に図示せず）によって、ＰＣシステム７に接続される周辺装置の形をとる。図１にも示されるように、記憶手段３は、ＰＣシステム７の内部又は外部のいずれにも配されることができる。

本発明の基本的な概念によれば、前記サウンドデータ及び前記テキストデータの間の同期関連付けを示す関連付けデータを生成するために、前記データ処理手段６は、現在再生されているサウンドデータに対応する現在時間位置及び現在入力されているテキストデータを得るために、前記サウンドデータＳＤ及び前記テキストデータを反復的にクエリするためのクエリ手段８を有する。更に、データ処理手段６は、転写遅延に従って時間補正値を適用することによって、前記現在時間位置を補正する補正手段９と、前記補正された時間位置と前記現在入力されているテキストデータとの間の同期関連付けを示す関連付けデータを生成するためのデータ生成手段１０と、を有する。データ処理手段６の上述した構成要素８−１０は、好適には、ソフトウェア形式で実現される。この文脈において、図１を参照して、データ処理手段は、少なくともソフトウェアコンポーネント８−１０を実行し、調和させるためのプログラム実行手段１１を更に有する。ここまで説明された本発明のシステム１の動作は、図２を参照して以下に詳しく説明される。

入力手段５によって入力されるテキストデータＴＤもまた、テキストデータファイルＴＤＦとして、好適には前記関連付けデータ（下記参照）と共に、記憶手段３に記憶されることができる。例示的なファイル形式は、図３を参照して以下に説明される。更に、システム１は、特に前記記憶手段３に記憶する前に、入力されたテキストデータＴＤ及び／又は時間位置データ（図２参照）をバッファするためのデータバッファ１２と、データ処理手段６内にソフトウェアモジュールとして配されるスピーチ認識手段１３と、を有する。スピーチ認識手段１３の使用は、以下に明らかになる。

サウンドデータＳＤ及び対応するテキストデータＴＤを同期再生するために、システム１は、サウンドデータＳＤを再生する、すなわち所与の時間ポイントに個々のサウンドデータを再生するためのオーディオ再生手段４に加えて、再生されているサウンドデータに関連付けられるテキストデータを実質的に同じ時間ポイントに表示するための、データ処理手段６に接続された表示手段１４を有し、それによって前記同期再生を達成する。前記表示手段１４は、有利には、標準のＰＣ表示スクリーンの形をとり、表示スクリーン上には、前記テキストデータが、単にスクリーン上にそれを書くことによって又はそれを強調表示すること等によって表示されることができる。このようにして、サウンドデータファイルの全コンテントを連続的に再生することによって、全体の対応する転写テキストデータＴＤが、同期して表示される。

任意に、本発明によるシステム１、すなわちデータ処理手段６は、図１に破線で示されるように、タイマ１７を有するサウンドデータレベルモニタ１５及びテキスト入力モニタ１６のような監視手段１５、１６を更に有する。監視手段１５、１６の本発明による使用は、以下に明らかになる。

図２は、一般的な手作業による転写セッション中の、データストリームの形の例示的なサウンドデータＳＤ及び対応する転写テキストデータＴＤ（「This is an example.」）を、時間的に連続するサウンドセグメント（セグメントの各々は、ＳＤｉと示される個別のサウンドデータであり、ここで、ｉは０より大きい整数である）及び入力文字（個々のテキストデータＴＤｊにグループ化され、ここで、ｊは０より大きい整数）として示している。水平軸ｔは、時間を示す。サウンドデータＳＤは、図２の上半分に示されており、テキストデータＴＤは、図２の下半分に示されている。個別のサウンドセグメントは、破線のボックスにより表わされている。サウンドデータＳＤストリーム内のハッチングされた領域は、サウンド信号レベルが予め決められた値より低く低下する時間を示し、従って、サウンドデータ内の、例えばワード間又は文の終わりの、ポーズを示す。しかしながら、ワード間のポーズは、通常、連続するスピーチにおいては検出可能でなく、従って、ワード間のハッチングされた領域は、実際に、ゼロの傾向があり、完全を期すために示されているだけである。テキストデータＴＤ入力ストリームは、小さいセグメントに視覚的に細分されており、小さいセグメントの各々は、例えば文字「T」又は半角スペース記号のような単一のテキスト入力文字を含む。前記セグメントはすべて、ほぼ同等の大きさ、すなわち時間長さであるように描かれているが、転写者は、或る文字、例えば文字「a」のような標準のラテン文字と比較して「α」のようなギリシア文字、を入力するために、より長い時間を必要としうるので、かなりのバリエーションが起こりうる。

本発明によれば、サウンドデータＳＤ及び入力されたテキストデータＴＤは共に、クエリ手段８（図１）によって、好適には規則的な時間に、繰り返しクエリされる。図２において、ｉが、０より大きい整数であるとして、クエリ時間は、Ｑｉと示され、時間軸ｔ上に表わされている。連続するクエリ間の時間間隔ΔＱは、好適には、０．１乃至１秒である。固定の時間間隔ΔＱを使用することに代わって、クエリは、ワード境界においてサウンド及びテキストのより良い関連付けを得るために、空白又は文章区切りのような或るテキストによって、トリガされることもできる。このようにして、現在再生されているサウンドデータＳＤｉに対応する現在時間位置ＴＰｉ及び現在入力されているテキストデータＴＤｊをそれぞれ得ることが可能である。ここで、ｉは、０より大きい整数である。前記時間位置ＴＰｉを得ることは、図２のサウンドデータＳＤの方をさす垂直矢印によって示されている。矢印位置は、個別のサウンドセグメントＳＤｉの時間境界を規定するためにも使用される。現在入力されているテキストデータＴＤｊは、直前のクエリ時間Ｑｉ−１の後、現在のクエリ時間Ｑｉまでに入力された文字のグループとして規定される。例えばｉ＝７として、ＱｉにおいてＴＤｊ＝「is 」(is＋半角スペース記号)である。参照符号ＴＤ及びＳＤは、手作業による転写セッション中に発生し、以下に詳細に説明されるサウンドデータＳＤとテキストデータＴＤとの間のタイムラグのため、異なるインデックス変数ｉ，ｊによる添え字を有する。このように、上述したような現在入力されているテキストデータＴＤｊは、一般に、それらの個々のコンテントに関する限り、現在再生されているサウンドデータＳＤｉに対応しない。

転写者の限りあるヒアリング及び反応スピードにより、テキストデータＴＤは、図２に示されるように、一般にサウンドデータＳＤに遅れをとる。転写のタイムラグＬは、静的な値でなく、転写セッションを通じて変化する。例えば、転写者がワード「This」をタイプし始める前に、直前に再生された１又はいくつかのサウンドセグメントに対応する或るタイムラグＬ０がある。対応するサウンドが再生されたのち、転写者がワード「This」の入力を終えるのに要する時間に対応するタイムラグＬ１は、一般に、上述したタイムラグＬ０と異なる。加えて、タイムラグは、音響的に難しいサウンドパッセージの間、又は集中力の欠如により長い転写セッションの終わりに向かって、より顕著になりうる。それにもかかわらず、システムユーザの転写能力に依存する平均タイムラグＬを少なくとも導き出すことは可能であり、すなわち、図２に与えられる例において、Ｌ１≦Ｌ≦Ｌ０である。前記タイムラグＬに関するユーザ依存の値は、例えばテキスト入力手段５によって、転写セッションの前にシステムに入力されることが好ましく、更に、当業者に知られているユーザプロファイルに関係して記憶されることができる。代替例として、前記タイムラグ値は、例えばデータ処理手段６が（上述したような）ユーザ登録の最中に転写スピードを測定することよって、又はサウンドデータ再生の始まりと第１の対応するテキストデータの入力との間の時間を決定し、前記測定される／決定されるタイムラグにＬの値を設定することによって、本発明のシステムによって動的に導き出されることができる。しかしながら、上述した最初の遅延は、通常、Ｌについてあまり良い評価ではなく、従って前記第１の代替例が好ましい。

上述したタイムラグＬにもかかわらず、本発明のシステム１（図１）によって、のちの同期再生のためにサウンドデータＳＤ及び入力されるテキストデータＴＤの間の関連付けを生成するために、サウンドデータＳＤをクエリすることによって現在入力されているテキストデータＴＤｊに関して最初に導かれる時間位置情報は、サウンドデータＳＤ及びテキストデータＴＤの間のタイムラグＬを考慮するように時間を補正されなければならない：

本発明によれば、現在入力されているテキストデータＴＤｊ、例えばＱ７におけるテキストデータＴＤ７＝「is a」（is＋半角スペース＋a）は、データバッファ１２に記憶されるとともに（図１）、タイムラグＬを減じ、すなわちＴＰ７'：＝ＴＰ７−Ｌとして、転写遅延に従って時間補正値を適用することにより、前記補正手段９（図１）において現在時間位置ＴＰ７を補正することによって、対応する以前に再生されたサウンドデータ（例えばＳＤ５）にほぼ関連付けられる。テキストデータＴＤ７、及び前記テキストデータＴＤ７に最も密接に関連するサウンドデータの実際時間位置に少なくともほぼ対応する補正された時間位置ＴＰ７'が、データ生成手段１０（図１）によって、テキストデータファイルＴＤＦ（図１）に加えられ、こうして、前記補正された時間位置ＴＰ７'及び前記現在入力されているテキストデータＴＤ７との間の同期関連付けを示す関連付けデータ＜ＴＰ７'＞（図３参照）を生成する。

図３は、図２に示される例に対応する共通の同期されたテキストデータファイルＴＤＦ（図１）からの例示的な抜粋を示しており、前記関連付けデータは、データ処理手段６（図１）におけるバッファリング及び時間補正ののち、前記入力されたテキストデータと共に記憶手段３（図１）に記憶される。ＢＥＯＦ及びＥＯＦは、テキストデータファイルＴＤＦの始まり及び終わりをそれぞれ示している。個別のデータセグメントＴＤｊは、"…"と表わされている。各々のテキストデータＴＤｊに続いて、ファイルは、対応する補正された時間位置ＴＰｉ'を関連付けデータ＜ＴＰｉ'＞の形で含み、補正された時間位置ＴＰｉ'は、個々の出力データの同期を提供するために、サウンドデータ及びテキストデータの合同再生中に使用されることができる。これは、図５を参照して以下に説明される。

サウンドデータとテキストデータとの間の同時性を更に改善するために、サウンドデータ内の特徴的なスピーチ関連情報、特にテキストデータ内の文章区切りに対応するサウンドデータ内のポーズが、前記スピーチ関連情報に対応するサウンドデータ内の時間位置と関連するテキストデータとの間の付加的な関連付けデータを生成するために使用される。このために、本発明のシステム１の変形例によれば、サウンドデータレベルモニタ１５（図１）が、手作業による転写セッションの文脈において、サウンドデータ内のスピーチポーズを表わすデータセグメント（図２の例示の文章の終わりにおけるハッチングされた領域を参照）を検出するために、再生中にサウンドデータＳＤのレベルを連続的に監視する。サウンドレベルが、ユーザによって供給されることができる予め決められた閾値より低く低下するときはいつでも、前記レベルモニタ１５に含まれるタイマ１７が、リセットされ、スタートされる。サウンドレベルが前記閾値より高い値を取り戻す前に、前記タイマ１７が、予め決められた別の値ｔ^＊（図２参照）に達する場合、追加のクエリが、前記データバッファ１２（図１）にバッファされるサウンドデータの現在時間位置ＴＰＸを得るために行われる。前記追加のクエリは、図２においてＱＸと示される。サウンドドライバのよく知られている「ボイス駆動の記録」機能（スピーチ認識のためにも使用される）が、オーディオ内のポーズを検出するために使用されることができ、すなわち、ドライバは、時間位置ｙにおいてｘミリ秒のポーズがあったことを知らせる。このようなポーズは、概して、コンマ、終止符、疑問符又は感嘆符のようなテキストデータ内の文章区切りに対応し、それに続き、又はそれに関係して生じるので、次のテキスト入力データＴＤｊが、例えば図２に示される終止符のような文章区切り記号を含むとすぐ、補正された時間位置ＴＰｊ'＝ＴＰｊ−Ｌは、ＴＰＸの近くとなる（＜１秒の時間差）べきである。そうでない場合、検出されたポーズは、文章区切りに関連せず、人間のスピーチの不規則性に関連するものとされる。しかしながら、ＴＰｊ'が、ＴＰＸに近い場合、平均の転写遅延Ｌの改善された評価が、Ｌ＝ＡＢＳ（ＴＰｊ−ＴＰＸ）を使用することによって計算されることができる。更に、ポーズの時間位置及び関連するテキストデータＴＤｊの間の付加的な関連付けデータ＜ＴＰＸ'＞が、生成され、テキストデータファイルＴＤＦ（図３参照）に記憶される。

このようにして、レベルモニタ１５（図１）は、転写ラグＬを再調整するために使用されることができる。このために、（テキスト入力モニタ１６によって提供される）文章区切り記号の発生時にタイマ１７によって提供される時間値は、本質的に、対応するサウンドデータの再生より遅れる転写入力の実際のタイムラグＬ'に対応するものとされる。こうして、転写タイムラグＬを再調整するために、その値は、実際のタイムラグＬ'の値、すなわちタイマ１７によって提供される対応する値に設定される。

図４は、サウンドデータ及びテキストデータを同期させるための本発明の方法を説明するフローチャートを示しており、前記テキストデータは、前記サウンドデータの手作業による転写によって提供される。特に人間のスピーチの形のサウンドデータが、前記サウンド入力手段２（図１）を介して提供され、再生のために前記記憶手段３（図１）に記憶されているものとして、本発明の方法は、ステップＳ１において始まる。ステップＳ１ののち、タイマ６ａをリセット（ｔ＝０）しスタートさせるとともに、任意にはユーザ入力を要求することによって、時間補正／遅延値Ｌ及び付加の閾値（例えばｔ^＊、上記参照）を設定することを含むステップＳ２におけるシステムの初期化が続く。更に、ユーザによって入力されるべき転写テキストデータを記憶するためのテキストデータファイルＴＤＦ（図１）が、記憶手段３に開かれる。サウンドデータに対応するオーディオストリームの再生が、ステップＳ３において始められ、サウンドデータファイルＳＤＦ（図１）の終わりに達するまで（ステップＳ１０、下記参照）又は再生がユーザによって明確に中断されるまで、間断なく続く。次のステップＳ４において、システムは、ユーザが再生されているサウンドデータに対応するテキストデータを最初に入力するまで、すなわちＴＤ≠""まで、待つ。そののち、次のステップＳ５−Ｓ９は、サウンドデータファイルＳＤＦの終わりに達したことが、ステップＳ１０において検出されるまで、繰り返される。ステップＳ５において、サウンドデータ及びテキストデータの双方が、現在再生されているサウンドデータＳＤｉに対応する現在時間位置ＴＰｉ及び現在転写されているテキストデータＴＤｊを得るためにそれぞれクエリされる。次のステップＳ６において、得られた時間位置ＴＰｉ、及びテキストデータＴＤｊすなわち文字列が、データバッファ１２（図１）に一時的に記憶される。ステップＳ７は、転写遅延に従って時間遅延値Ｌを減ずることによって、前記現在時刻位置ＴＰｉを補正することを含み、次のステップＳ８において、前記補正された時間位置ＴＰｉ'と前記現在転写されているテキストデータＴＰｊとの間の同期関連付けを示す少なくとも１の関連付けデータ＜ＴＰｉ'＞が、生成される。最後に、ステップＳ９において、テキストデータＴＰｊ及び対応する関連付けデータ＜ＴＰｉ'＞が、図３を参照してすでに上述したように、テキストデータファイルＴＤＦに加えられる。そののち、次のステップＳ１１−Ｓ１５は、ステップＳ５−Ｓ９に関して記述したのと同様の動作を含み、大きな違いは、サウンドデータの再生が既に終了しているので、ステップＳ１１においてはテキストデータのみがクエリされることである。しかしながら、時間位置情報は、なお、サウンドデータの再生を始める直前にリセットされたシステムタイマ６ａから少なくともほぼ導き出されることができる。従って、ステップＳ１２において、前記タイマ６ａによって提供されるタイミング情報ｔは、テキストデータと共にバッファされ、ステップＳ１３において、前記タイミング情報ｔは、上述したように補正され、ｔ'＝ｔ−Ｌを与える。ステップＳ１４及びＳ１５は、以前のステップＳ８及びＳ９に対応し、ＴＰｉ'及び＜ＴＰｉ＞は、ｔ'及び＜ｔ'＞によって置き換えられなければならない。ユーザ入力の終わりがステップＳ１６において検出される場合、本発明の方法は、次のステップＳ１７において終わる。

図５は、図２及び図４に関して上述した本発明の方法を通じて得られる同期されたテキストデータファイルＴＤＦ（図１、図３）を使用する、サウンドデータ及び対応するテキストデータの同期された再生のための本発明の方法を説明するフローチャートを示している。サウンドデータ及び対応するテキストデータを同期再生するための前記方法は、ステップＳ１８において始まる。次のステップＳ１９は、特にシステムタイマ６ａをリセット（ｔ＝０）し、スタートし、テキストポインタをテキストデータファイルＴＤＦ（図３）の始まりに割り当てるための初期化ステップである。テキストデータファイルＴＤＦは、サウンドデータと共に同期して表示される転写テキストデータを含む。次のステップＳ２０において、サウンドデータの再生が開始される。その直後、テキストデータファイルＴＤＦの終わりにまだ達していない（検出ステップ２１）間、ステップＳ２２において、第１のテキストデータセグメントＴＤｊが示され、例えば表示手段１４に表示される。図２及び図３に関して記述したように、前記第１のテキストデータセグメントＴＤｊは、図２に与えられる例では＜ＴＰ５'＞である第１の対応する関連付けデータ＜ＴＰｉ'＞に先行するテキストデータの全てを含む。前記テキストデータセグメントＴＤｊが、ワードのような語彙単位の中央で終わる場合（図２参照）、前記データセグメントは、語彙単位の終わりを示す「」（半角スペース）記号に達するまで、次のテキストデータセグメントＴＤｊ＋１の部分を含むように拡張されることができる。このようにして、本発明の方法は、同期データ出力の向上された知覚可能性を提供する。更に、テキスト出力は、例えば音節等の他の知られている語彙的なフィーチャを使用して構築されることができる。次のステップＳ２３において、テキストポインタは、テキストデータファイルＴＤＦ内の現在位置に移動され、それによって次の出力は、前の出力ステップＳ２２の間にまだ示されなかった転写されたテキストの最初の文字から始める。そののち、ステップＳ２４において、本発明のシステムは、システムタイマ６ａが値ｔ≧＜ＴＰｉ'＞に達するのを待ち、すなわち、システム初期化からの経過時間が、前記第１の関連付けデータに対応する時間になるまで、待つ。次のステップＳ２５において、インデックス変数ｉがインクリメントされ、方法は、ステップ２１に続く。ステップＳ２１乃至Ｓ２５は、転写されたテキストの全てが示される（ステップＳ２６）まで、繰り返される。上述したステップＳ２４の改善された代替例として、システムタイマ６ａを使用する代わりに、テキスト出力を制御するための現在時間位置が、再生中にサウンドデータを直接クエリすることによって前述のように得られることができ（図２、図４参照）、従ってより一層直接的にサウンド及びテキスト出力をリンクすることが可能である。この文脈において、現在サウンド位置は、周期的にクエリされ、又はサウンドドライバは、現在サウンド位置を示す周期的なイベントを送り出す。前記サウンド位置は、表示されるべきテキストデータを選択するために使用される。同期再生中、テキストは、通常、ＭＳＷｏｒｄのようなテキストプロセッサにおいて表示され、当該部分が、強調表示される。

本発明のシステム１（図１）は、特に医療転写に関して、サウンドからテキストへの転写のために一般的なやり方で使用されることができる。有利には、システム１は、文書作成ワークフローの中の補正ステージの一部として含まれる。文書作成ワークフローは、
−例えばマイクロフォンの形の適切に適応化されたサウンド入力手段２（図１）によって、サウンドデータの録音のようなディクテーション、及びそれに続く記憶装置３へのサウンドデータの記憶を行うステージと、
−テキストデータを自動的に生成するためにスピーチ認識手段１３（図１）によってスピーチ認識を行うステージと、
−本発明の方法による前記テキストデータ内の不良パッセージの手作業による転写のやり直しによって、前記自動的に生成されたテキストデータを補正するステージと、
を少なくとも含む。

任意には、詳細に上述された本発明の方法を同様に使用することができる更なるレビュー／品質保証ステージが提供されることができる。

本発明によるサウンドデータ及び対応するテキストデータを同期再生するためのシステムの概略ブロック図。サウンドデータ及びテキストデータを同期させるための本発明の方法を示す図。本発明により、関連付けデータがテキストデータと共に記憶される例示の共通の同期されたテキストデータファイルを示す図。サウンドデータ及びテキストデータを同期させるための本発明の方法を更に示すフローチャート。サウンドデータ及び対応するテキストデータを同期再生するための本発明の方法を示すフローチャート。

Claims

サウンドデータと、前記サウンドデータの再生中に前記サウンドデータの手作業による転写によって得られるテキストデータと、を同期させる方法であって、
現在再生されているサウンドデータに対応する現在時間位置及び現在転写されているテキストデータを得るために、前記サウンドデータ及び前記テキストデータを反復的にクエリするステップと、
転写遅延に従って時間補正値を適用することによって、前記現在時間位置を補正するステップと、
前記補正された時間位置と前記現在転写されているテキストデータとの間の同期関連付けを示す少なくとも１の関連付けデータを生成するステップと、
を含む、方法。
特に前記テキストデータ内の文章区切りに対応する前記サウンドデータ内のポーズのような前記サウンドデータ内の特徴的なスピーチ関連情報が、前記スピーチ関連情報に対応する前記サウンドデータ内の時間位置と、関連するテキストデータと、の間の付加的な関連付けデータを生成するために使用されることを特徴とする、請求項１に記載の方法。
前記関連付けデータは、前記テキストデータと共に、共通の同期されたテキストデータファイルに記憶されることを特徴とする、請求項２に記載の方法。
前記関連付けデータは、同期ファイルに、前記テキストデータとは別個に記憶されることを特徴とする、請求項２に記載の方法。
所与の時間ポイントに個々のサウンドデータを再生するステップと、
実質的に同じ前記時間ポイントに前記サウンドデータに関連付けられたテキストデータを表示するステップと、
を繰り返すことを含む、サウンドデータ及び対応するテキストデータを同期再生するための方法であって、
前記関連付けられたテキストデータが、請求項１に記載の方法によって得られることを特徴とする、方法。
特に前記テキストデータ内の文章区切りに対応する前記サウンドデータ内のポーズのような、前記サウンドデータ内の特徴的なスピーチ関連情報に対応するテキストデータが、本質的に、前記サウンドデータが前記特徴的なスピーチ関連情報を示す予め決められた基準を満たす時間ポイントに、表示されることを特徴とする、請求項５に記載の方法。
サウンドデータ及びテキストデータを同期させるためのシステムであって、
特に人間のスピーチの形の前記サウンドデータを供給するためのサウンド入力手段と、
前記サウンドデータを記憶する記憶手段と、
ユーザに対して前記サウンドデータを再生する再生手段と、
前記テキストデータを供給することにより前記サウンドデータを手作業で転写するためのテキスト入力手段と、
前記サウンドデータと前記テキストデータとの間の同期関連付けを示す関連付けデータを生成するためのデータ処理手段と、
を有し、前記データ処理手段は、
現在再生されているサウンドデータに対応する現在時間位置及び現在入力されているテキストデータを得るために、前記サウンドデータ及び前記テキストデータを反復的にクエリするクエリ手段と、
転写遅延に従って時間補正値を適用することによって、前記現在時間位置を補正する補正手段と、
前記補正された時間位置と前記現在入力されているテキストデータとの間の同期関連付けを示す関連付けデータを生成するデータ生成手段と、
を有する、システム。
前記データ処理手段は、特に前記テキストデータ内の文章区切りに対応する前記サウンドデータ内のポーズのような、前記サウンドデータ内の特徴的なスピーチ関連情報を識別し、前記サウンドデータ内の対応する時間位置と、関連するテキストデータと、の間の付加的な関連付けデータを生成するように適応されることを特徴とする、請求項７に記載のシステム。
前記関連付けデータは、前記テキストデータと共に、共通の同期されたテキストデータファイルに記憶されることを特徴とする、請求項７に記載のシステム。
前記関連付けデータは、同期ファイルに、前記テキストデータとは別個に記憶されることを特徴とする、請求項７に記載のシステム。
所与の時間ポイントに個々のサウンドデータを再生する再生手段と、
実質的に同じ前記時間ポイントに前記サウンドデータに関連付けられたテキストデータを表示する表示手段と、
を有する、サウンドデータ及び対応するテキストデータを同期再生するためのシステムであって、
前記関連付けられたテキストデータを得るために請求項７に記載のシステムを有することを特徴とする、システム。
前記データ処理手段は、特に前記テキストデータ内の文章区切りに対応する前記サウンドデータ内のポーズのような、前記サウンドデータ内の特徴的なスピーチ関連情報を識別し、本質的に、前記サウンドデータが前記特徴的なスピーチ関連情報を示す予め決められた基準を満たす時間ポイントに、前記特徴的なスピーチ関連情報に対応する個々のテキストデータを表示するように前記表示手段に命じるように適応されることを特徴とする、請求項１１に記載のシステム。