JP2007512612A

JP2007512612A - オーディオ信号を転記する方法及び装置

Info

Publication number: JP2007512612A
Application number: JP2006540755A
Authority: JP
Inventors: ゲルハルドグロバウエル; ミクロスパパイ; クワクフリムポング−アンサー
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-11-28
Filing date: 2004-11-24
Publication date: 2007-05-17
Also published as: US20070067168A1; EP1692610A2; WO2005052785A3; WO2005052785A2; CN1886726A

Abstract

信号部（ＳＰ）を含んでいるオーディオ信号（ＡＳ）を、文書（ＤＯ）用のテキスト部（ＴＰ）を含んでいるテキストに転記する方法において、この文書（ＤＯ）は情報の再現を意図し、この情報は転記により得られたテキスト部（ＴＰ）に少なくとも部分的に対応していている場合、信号部（ＳＰ）がテキスト部（ＴＰ）に転記され、少なくとも１つの信号部（ＳＰ）と、前記転記により得られた少なくとも１つのテキスト部（ＴＰ）との間に少なくとも１つの時間的関係が存在する関係データ（ＲＤ）が生成され、及び前記文書（ＤＯ）の構造が認識され、この認識された文書（ＤＯ）の構造は前記関係データ（ＲＤ）に記述されると考えられる。

Description

本発明は、信号部を含んでいるオーディオ信号を、文書用のテキスト部を含んでいるテキストに転記する方法に関する。この文書は情報の再現を意図し、この情報は前記転記により得られたテキスト部に少なくとも部分的に対応している。

本発明はさらに、信号部を含んでいるオーディオ信号を、文書用のテキスト部を含んでいるテキストに転記する装置にも関する。この文書は情報の再現を意図し、この情報は前記転記により得られたテキスト部に少なくとも部分的に対応している。

本発明はさらに、オーディオ信号を転記するのに適したコンピュータプログラムにも関する。

本発明はさらに、前段落に記載したコンピュータプログラムを実行するコンピュータにも関する。

上記方法、上記装置、上記コンピュータプログラム及び上記コンピュータは、米国特許公報US 5,031,113号から知られている。

既知の装置において、この装置を使用して既知の方法が実行可能であり、この装置は既知のコンピュータプログラムを処理する既知のコンピュータを用いて達成され、オーディオ信号に基づいて文書が生成される。この間に、オーディオ信号に含まれる信号部はテキスト部であると認識され、記憶される。さらに、認識されたテキスト部との信号部の時間的関係を表す関係データが生成され、記憶される。この装置を使用して、オーディオ信号はスピーカにより音響方式で再現されることができ、文書はモニタにより視覚方式で再現されることができる。オーディオ信号の音響再現において、前記関係データは、個々の信号部と時間的な関係に位置するテキスト部の同期する視覚強調に用いられる。このことは“同期再生(synchronous playback)”と言う用語により当業者に知られている。

既知の装置において、転記により生成されるテキストだけでなく、例えば変更不可能なフォームフィールド指定、画像、テキストブロック又は音響映像オブジェクトのような他の要素も含んでいる文書では、“同期再生”が用いられる場合に問題が存在し、実際、特に転記により生成されるテキストがテキストを口述していない使用人により最後まで読まれ、チェックされる状況に関して、転記により生成されなかった他の要素が考慮されない、すなわち十分に考慮されていないためにかなりの問題が生じる。

本発明の目的は、第１の段落に述べた形式の方法における問題、第２の段落に述べた形式の装置における問題、第３の段落に述べた形式のコンピュータプログラムにおける問題、及び第４の段落に述べた形式のコンピュータにおける問題を解消すると共に、改良した方法、改良した装置、改良したコンピュータプログラム、及び改良したコンピュータを作成することである。

上述した目的を達成するために、本発明による方法では、本発明による特徴が考えられるので、本発明による方法は、以下に述べるような方法で特徴付けされることができる。

信号部を含んでいるオーディオ信号を、文書用のテキスト部を含んでいるテキストに転記するための方法であり、この文書は情報の再現を意図し、この情報は前記転記により得られたテキスト部に少なくとも部分的に対応している。この方法は、
−信号部をテキスト部に転記するステップ、
−少なくとも１つの信号部と、転記により得られた少なくとも１つのテキスト部との間に少なくとも１つの時間的関係を表す関係データを生成するステップ、
−前記文書の構造を認識するステップ、及び
−前記関係データに前記文書の認識された構造を描写するステップ
を有する。

上述した方法を達成するために、本発明による装置では、本発明による特徴が考えられるので、本発明による装置は、以下に述べるような方法で特徴付けされることができる。

信号部を含んでいるオーディオ信号を、文書用のテキスト部を含んでいるテキストに転記する装置であり、この文書は情報の再現を意図し、この情報は前記転記により得られたテキスト部に少なくとも部分的に対応している。この装置は、
−信号部をテキスト部に転記する転記手段、
−少なくとも１つの信号部と、転記により得られた少なくとも１つのテキスト部との間に少なくとも１つの時間的関係を表す関係データを生成するように構成される関係データ生成手段、
−前記文書の構造を認識するように構成される構造認識手段、及び
−前記関係データに前記文書の認識された構造を描写するように構成される構造描写手段
を備える。

上述した目的を達成するために、オーディオ信号を転記するのに適したコンピュータプログラムでは、本発明に従って、このコンピュータプログラムは、コンピュータのメモリに直にロードされることが可能であり、ソフトウェアコードセクションを有すると考えられ、このコンピュータプログラムがコンピュータ上で実行される場合、このコンピュータを用いて本発明による方法が実施されることが可能である。

上述した目的を達成するために、本発明によるコンピュータを用いて、コンピュータは、計算ユニット及び内部メモリを有し、上述した段落に従って前記コンピュータプログラムを実行すると考えられる。

本発明による方法を提供することにより、生成されるべき文書の構造がその文書自体だけでなく、関係データにおいても表されることが達成され、これによって、かなり複雑な文書が生成されることが可能であり、とりわけ音響映像方式でさらに処理されることが可能である。

請求項２又は請求項９に記載されるような追加の方法を提供することにより、さらに、テンプレートとして用意される文書に既に存在している構造、例えば既定のフォームフィールドに与えられる文書構造は、関係データに確実に描写されるという利点が達成される。

請求項３又は請求項１０に記載されるような追加の方法を提供することにより、さらに、例えば構造上の指示が人間により口述されたために、転記されるオーディオ信号に含まれるこれら構造上の指示だけによって認識される文書の構造はこれにより、事実上リアルタイムで、すなわち転記中にも認識され、関係データに確実に描写される。

本発明による解決法では、例えば文書の認識された構造要素の各々に対し、関係データを備える別個のファイルが生成される、すなわち関係データの物理的グループ化が行われると考えられる。しかしながら、さらに請求項４又は請求項１１に記載の方法が意図される場合、これを用いて、単一のファイルへのできる限り簡単且つ容易なグループ化が達成されるので、特に有利であると示され、幾つかのファイルの処理するのにかなりの時間を消費することを回避する。この場合、関係データのグループ化は、文書の認識された構造を表す構造データを使用して、この関係データのマーキングすることにより行われる。しかしながら、構造上一緒に属している関係データが単一のファイルにおけるセクションにグループ化されると考えることも可能であり、各セクションは文書の認識された構造の構造要素に割り当てられている。

請求項５又は請求項１２に記載の方法を提供することによりさらに、テキスト部の認識における効率が増大する利点が達成される。例えば放射線専門医によるレポートを表す文書であり、この放射線専門医による管理上の指示を転記する場合、放射線医学のコンテクストは必要とされず、一般的な指示に関連する大幅に制限されたコンテクストで十分であるために特にそうなる。同じことがレポートの要約が転記される場合にも適用され、例えば本質的に、この要約において、主に標準的な表現又は標準的なフレーズが用いられることが予め知られている。同じことが文書内の構造が異なる言語により与えられ場合にも適用され、これは例えばセクションにおいて用いられる。これにより、第１の言語モデル又は第２の言語モデルが利用可能である場合、個々の言語モデルを自動的に選択して、転記が行われることを保証し、応用可能であれば、この文書は、２つの異なる言語により与えられる構造に従って、異なる編集者によりその後、選択的に処理されることが保証される。

請求項６又は請求項１３に記載の方法を提供することにより、転記により生じた文書の全てのテキスト要素は問題無くコヒーレントのように再現されることができ、とりわけ正しいシーケンスにおいて、非テキスト要素が省略される利点が達成される。

請求項７又は請求項１４に記載の方法を提供することにより、テキスト部のコヒーレントの音響再現が実行されることが可能である利点が達成され、一方では、このテキスト部はオーディオ信号の転記によりもたらされ、他方ではオーディオ信号の転記以外の方法で生じさせている。他の方法で生じた上記テキスト部は、テキストを手動で文書に入力したり、例えばフォームのフィールド指定のような既定のテキスト要素又はテキストオブジェクトを挿入したり、既定のテキストブロックを挿入したり、若しくは転記により生じたテキストを訂正したりすることにより生じることができる。

本発明のこれら及び他の態様は、以下に説明される実施例から明らかであり、この実施例を参照して説明される。

本発明は、図に示される実施例に基づいて以下に詳細に説明されているが、本発明がそれに限定されることはない。

信号部ＳＰを含んでいるオーディオ信号ＡＳを、文書ＤＯ用のテキスト部ＴＰを含んでいるテキストに転記するように構成される装置１が図１に示されている。このオーディオ信号は、話し手により与えられる口述を表している。情報の再現を意図する文書ＤＯが図２に示され、この情報は転記によって得られたテキスト部ＴＰに少なくとも部分的に対応している。本実施例では、文書ＤＯは、転記された前記テキスト部ＴＰには対応していないテンプレート部、例えば“Author”又は“Date”のような既定のフォームフィールド指定を持ち、これらは文書テンプレートにおいて固定様式で設定される。

装置１は第１の入力部ＩＮ１を有し、この入力部において、オーディオ信号ＡＳが前記装置に供給される。このオーディオ信号ＡＳは、装置１が本質的に類似するやり方で設定される手段を持つ場合、他のやり方、例えばデータ担体を利用して又はデータネットワークを介してデジタル表示形式で供給されることも可能である。

装置１はさらに第２の入力部ＩＮ２を持ち、ここで処理信号ＷＳがそこに供給されることができ、これは後で詳細に論じられる。

装置１はさらにオーディオ信号ＡＳを入力し、信号部ＳＰをテキスト部ＴＰに転記するように構成される転記手段２を有する。この点について、オーディオ信号ＡＳをそれに応じて適応させることは当業者にとって明らかな事項であり、例えばデジタル表示に変換するためにフィルタ要素及び変換要素が用いられること（ここではさらに詳しくは述べない）に注意されたい。話し手のデータ（図１には明瞭に示されない）及び選択可能なコンテクストを考慮して信号部ＳＰの転記が行われる。コンテクストデータ（同様に図１には明瞭に示されない）は、選択するのに利用可能である様々なコンテクスト（ここで各コンテクストは言語、言語モデル及び語彙を規定又は有している）を表す。これら話し手のデータは夫々の話し手に対し代表するものである。転記手段２は、印加されたオーディオ信号ＡＳに基づいてテキストデータＴＸＤを生成するように構成され、これは認識されたテキスト部ＴＰを表している。

装置１はさらに、文書ＤＯ、この文書ＤＯ用のテンプレートデータＴＤ及びテキストデータＴＸＤを記憶するように構成され及び設けられる文書データ記憶媒体３を有する。前記転記手段２はこの文書データ記憶媒体３と共に働くように構成されるので、テキストデータＴＸＤはそれ用の文書ＤＯの領域に挿入されることが可能である。その上、文書データ記憶媒体３を使用して、文書ＤＯに挿入されるオブジェクトＯＯを表すオブジェクトデータＯＤが記憶されることができる（このことは以下に詳細に説明される）。

装置１はさらに、第２の入力部ＩＮ２を介して処理信号ＷＳを入力するように構成される文書処理手段４を有する。この文書処理手段４は、処理信号ＷＳを考慮して、処理データＷＤを生成及び送出するように構成される。文書処理手段４は、文書データ記憶媒体３における信号部ＳＰの転記を使用して生成されるテキスト部ＴＰを変更するために設けられる。文書処理手段４を使用して、例えば図２に示され、明らかに間違って認識されたテキスト部ＴＰは、時間マーカｔ９３とｔ１００との間において訂正されることができ、これは、テキストマーカｔ９３とｔ１００との間にあるテキスト部ＴＰを抹消し、テキストマーカｔ１００とｔ１０１との間の訂正したテキスト部ＴＰ’を挿入することにより説明されている。訂正手段により得られた他のテキスト部ＴＰ’に対しては、これらテキスト部ＴＰ’が手動で挿入されるために、オーディオ信号ＡＳに対応する信号部ＳＰは存在しない。同じことが図２に示されるオブジェクトＯＯにも当てはまる。

転記手段２は、さらにオーディオ信号ＡＳ内の信号部ＳＰの時間に関する始点ｔｎ及び終点ｔｍの情報、並びに転記手段２を使用して夫々生成されるテキスト部ＴＰの番号を表すテキスト部番号ＷＮの情報を生成及び送出するように構成される。

装置１はさらに、少なくとも１つの信号部ＳＰと、少なくとも１つの転記されたテキスト部ＴＰとの間における時間的関係を表している関係データＲＤを生成するように構造化した関係データ生成手段５を有する。この目的のために、前記関係データ生成手段５は、オーディオ信号ＡＳ内の信号部ＡＰの時間に関する始点ｔｎ及び終点ｔｍの情報、並びにテキスト部番号ＷＮの情報を入力及び処理するように構成される。この関係データ生成手段５はさらに、関係データＲＤを送出するようにも構成される。

装置１はさらに、文書ＤＯの構造を認識するように構成される構造認識手段６も有する。これは以下に詳細に説明される。

文書ＤＯの構造を認識することを目的として、この構造認識手段６は、文書ＤＯを構造に関して分析するように構成される第１の分析段７を有する。この第１に分析段７［ｓｉｃ］は、文書データ記憶媒体３にアクセスして、テンプレートデータＴＤを読み取り、考慮するように構成される。この第１の分析段７［ｓｉｃ］は、第１の分析データをその分析の結果として送出し、そのデータはテンプレートデータＴＤに基づいて認識可能である文書ＤＯの構造を表している。本実施例では、この認識可能な構造は、２つのフォームフィールド指定“Author:”又は“Date”の横に配されるテキストの入力のために考えられる２つのフォームフィールドの存在に関する。しかしながら、認識可能な構造は、画像又はテキストの変更不可能な部分により与えられることも可能である。文書のユーザに見ることが可能である構造要素とは別に、文書の通常の使用においてさえも、目に見えない文書要素が考慮されることに注意すべきである。これら要素は、例えば現在の言語処理プログラムでは、いわゆるブックマーク又はストラクチャリング(structuring)として知られる設定により規定され、それらが入力の制御、出力の制御、又は文書の処理の自動化に結び付けて主に用いられているので、ユーザがその文書により再現されるべき情報であるとみなすことはできない。

文書ＤＯの構造を認識することを目的として、構造認識手段５はさらに、前記得られたテキスト部ＴＰをこの文書ＤＯの構造に関して分析するように構成される第２の分析段８を有する。この第２の分析段８は、信号部ＳＰから転記されたテキストデータＴＸＤを入力し、このテキストデータＴＸＤを話し手により発せられた構造上の指示に関して分析するように構成される。ここで構造上の指示とは、文書ＤＯにおける構造を生成、変更及び／又は設定するために考えられる、又はするのに適している。これは例えば、ヘッディング(heading)としてフォーマットされるべきテキストの個々の部分への口語フォーマット割り当て、例えばヘッディングのフォーマット用であるヘッディングフォーマットの割り当て、すなわち話される指示によりもたらされるテキスト部ＴＰの挿入、削除又は上書きを含むことができる。

第２の分析段８はさらに、処理データＷＤを入力し、この処理データＷＤを使用して生じた文書ＤＣの現在の構造の変更に関して、又はこの文書ＤＯにおいて新しく規定される構造に関して前記処理データを分析するように構成される。これは、ヘッディングの階層の変更又は例えば画像、テキスト若しくはオブジェクトのような要素の挿入又は除去を含むことができ、そのための対応する信号部ＳＰはオーディオ信号ＡＳには無い。第２の分析段８も文書データ記憶媒体３にアクセスし、言語又は手動処理により生じた文書の構造を分析するように構成されることもこの点において留意される。

第２の分析段８は、第１の分析段７に類似であり、分析の結果を示す第２の分析データＡＤ２を送出するように構成される。

装置１はさらに、第１の分析データＡＤ１、第２の分析データＡＤ２及び関係データＲＤを入力するように構成される構造描写手段９を有する。この構造記述手段９は、第１の分析データＡＤ１及び第２の分析データＡＤ２を使用して、これら分析データＡＤ１及びＡＤ２により表示又は認識される文書ＯＤの構造を関係データＲＤに描写するように構成される。この構造描写手段９はさらに、文書ＤＯの構造に関して構造化した関係データＳＲＤを送出するように構成され、本実施例では、この関係データＳＲＤは図３に示される関係データＲＤの論理的グループ化を表している。

装置１はさらに、構造化した関係データＳＲＤを記憶するために構造化した関係データ記憶媒体１０を有する。前記関係データ記憶媒体１０にアクセスするための前記構造描写手段９が設けられ、ここで前記構造化した関係データＳＲＤが前記関係データ記憶媒体１０に記憶される、又は既に記憶された関係データＳＲＤが変更されることができる。

図３において、図２に示される文書ＤＯに対する前記構造化した関係データＳＲＤの描写がプレーンテキストで再現される。図３は、文書ＤＯの要素に対応し、１から５６の番号を使用して番号付けされるライン毎にリスト化されたエントリを示す。第１の列Ｃ１は、個々の文書エントリの番号を示す。第２のライン［ｓｉｃ］Ｃ２は、オーディオ信号ＡＳ内における信号部ＳＰの時間に関する個々の始点を示し、これは例えば信号部ＳＰから転記されるテキスト部ＴＰのような、個々の番号により前記文書ＤＯの要素に対応している。第３の列Ｃ３は、オーディオ信号ＡＳ内における前述した信号部ＳＰの時間に関する個々の終点を示す。図３から理解できるように、前記構造化した関係データを使用して表される文書エントリは、オーディオ信号ＡＳの転記を使用して生成された要素だけではなく、他のやり方で生成され、例えばライン４０及び５２の要素のようなオーディオ信号ＡＳの信号部ＳＰ間にある文書に配置される要素にも関する。列Ｃ４は、個々の文書エントリに対し、文書ＤＯに含まれる構造との関係を示す。必要であれば、後に上記要素を含む又は省いたオーディオ信号ＡＳのオーディオ再現を保証する、若しくは文書の形式及び／又は変更を遡ることが可能であると保証することを可能にするために、ここでは特に、文書エントリ、例えば時間マーカｔ７８からｔ７９又はｔ１００からｔ１０１の間に記録される文書エントリでさえも、関係データＲＤにおいて明示され、この文書エントリに対し、オーディオ信号ＡＳは存在しない。

装置１はさらに、オーディオ信号ＡＳを表すと共に、転記手段２によりオーディオデータ記憶媒体１１に送出されるオーディオデータＡＤを記憶するように構成されるオーディオデータ記憶媒体を有する。このオーディオデータＡＤは、オーディオ信号ＡＳを本質的に類似のやり方によりデジタル表現で示し、ここで、信号部ＳＰは、前記構造化した関係データＳＲＤを考慮して、前記オーディオ信号ＡＳを後で復元するためにアクセスすることが可能である。

転記手段２はさらに、文書ＤＯの認識された構造に依存、すなわち構造化した関係データＳＲＤに依存して構成され、本実施例では、前記構造に依存する３つの異なるコンテクスト間において選択が行われる。これにより、構造要素“report heading”を扱っていると認識される場合、第１のコンテクストが選択され、構造要素“chapter heading”を扱っていると認識される場合、第２のコンテクストが選択され、構造要素“text”を扱っていると認識される場合、第３のコンテクストが選択される。これにより、構造要素“text”が存在すると直ちに、最大の構文スコープを持つコンテクストが供給されることが保証される。これは通常、構造要素“report heading”又は“chapter heading”に関連する信号部ＳＰの転記には必要ない。その上、構造要素“author”を含んでいると認識される場合、本質的には名前に関連する第４のコンテクストが選択される。その上、構造要素“date”を含んでいると認識される場合、本質的には日付詳細に関連する第５のコンテクストが選択される。

この点において、認識された構造の考慮、若しくは言語、言語モデル又は別の話者のデータ間における選択も行われることに注意されたい。さらに、認識された構造が前記構造化した関係データＳＲＤに既に一度だけ到達していれば、転記手段２の場合における文書ＤＯの構造を考慮する必要は無いが、構造認識手段６により例えば前記転記手段２に直接送出されるとすぐに、前記構造が既に前記第１の分析データＡＤ１及び／又は前記第２の分析データＡＤ２に基づいて考慮される。

装置１はさらに、適合手段１２を有する。この適合手段１２は、構造化した関係データＳＲＤの援助により、個々のコンテクストを転記手段２に適合させるように構成される。この目的のために、この適合手段１２は、関係データ記憶媒体１０から前記構造化した関係データＳＲＤを読み取り、文書データ記憶媒体３からテキストデータＴＸＤを読み取り、前記構造化した関係データＳＲＤを用いて前記テキストデータＴＸＤを分析し、及び／又はテキストデータＴＸＤを最初に生成し、記憶した後に、前記構造化した関係データＳＲＤを使用して、ログ記録されたテキストデータＴＸＤに対する変更を分析するように構成される。このテキストデータＴＸＤの分析の結果として、適合手段１２は、個々のコンテクストが適合可能であることを使用して、変更又は適合情報ＣＩを転記手段２に送出するように構成されるので、将来的には、転記の場合に良好な結果が得られる。

装置１はさらに再現制御手段１３を有する。この手段１３は、文書ＤＯの認識された構造を考慮して、この文書ＤＯのテキスト部ＴＰを視覚的に再現する場合、前記転記したテキスト部ＴＰを視覚的に強調するのと同時に、オーディオ信号ＡＳの信号部ＳＰを音響的に再現するように構成される。この目的のために、再現制御手段１３はさらに、関係データ記憶媒体１０に記憶される構造化した関係データＳＲＤにアクセスし、文書データ記憶媒体３に記憶されるこれらのテキストデータＴＸＤにアクセスするように構成され、これらは、前記構造化した関係データＳＲＤを使用して、信号データＳＰが存在しているテキストデータＴＸＤと識別され、オーディオデータＡＤを使用して表される。再現制御手段１３はさらに、オーディオ信号ＡＤにおける信号部ＳＰにアクセスするように構成され、これら信号部ＳＰは、構造化した関係データＳＲＤにログ記録される個々の時間マーカｔｎ及びｔｍにより時間的に制限されている。この再現制御手段１３はさらに、個々の信号ＳＰを表すオーディオデータＡＤを第１の再現装置１４に同時に送出し、時系列に対応するテキスト表示制御データＴＤＣＤを第２の再現装置１５に送信するように構成される。このテキスト表示制御データＴＤＣＤを使用して、先ず始めに、文書ＤＯの情報が、この情報を視覚的に再現するために構成される第２の再現装置１５に送出され、次に個々のテキスト部ＴＰの同時強調が規定される一方、それに対応する信号部ＳＰはオーディオデータＡＤの形式で第１の再現装置１４に送出される。

本場合において、組み込み型スピーカを備えるオーディオ増幅器により達成される第１の再現装置１４、及びモニタにより達成される第２の再現装置１５は共に、割り当てられた信号出力部ＯＵＴ１及びＯＵＴ２を夫々介して装置１に接続されている。しかしながら、この点において、これら２つの装置１４及び１５は、装置１の単一の信号出力部を介してこの装置１に接続される一体型の装置によって形成されることも可能であることを述べておく。さらに、これら２つの装置１４及び１５が装置１に組み込まれることも可能である。

装置１は音声合成手段１６を有し、この手段１６は、テキストデータＴＸＤを合成音声に合成し、合成手段により、音声信号ＡＳに信号部ＳＰが存在していないテキスト部ＴＰ’に音響再現をアクセス可能にするように構成される。この音声合成手段１６は、入力部側は再現制御手段１３に接続され、出力部側は信号出力部ＯＵＴ１に接続されている。

再現制御手段１３はさらに、音声合成手段１６と協働し、音声合成手段１６の援助により、音声信号ＡＳの転記により得られるテキスト部ＴＰに対し、付加的に生成された他のテキスト部ＴＰ’を音響的に再現するように構成され、これら他のテキスト部ＴＰ’は文書ＤＯにおけるオーディオ信号ＡＳの転記により得られるテキスト部ＴＰに隣接して存在している。必要であれば、図２に基づいて説明されるように、これら他のテキスト部ＴＰ’が文書ＤＯにおいて、オブジェクトＯＯ又は取り消し訂正の文節(constituent part)として現れる場合、これら他のテキスト部ＴＰ’の再現中、再現制御手段１３をモニタリングしながら、オーディオ信号ＡＳの再現の中断を行うことが可能である。

以下のように、装置１の操作方法は、図１による装置１の実施例に基づいて説明されている。

応用例によれば、ビジネスマンがビジネスプランに関する報告書を口述していると仮定する。第１の入力部ＩＮ１に接続されているマイク１７を使用して、オーディオ信号ＡＳが生成され、装置１へ印加される。

この装置１を使用して、このオーディオ信号ＡＳを転記する方法が実行される。口述を開始する際、図２に示される文書ＤＯは、その最後の処理段において本質的に空であり、既定且つ変更不可能なテンプレートデータＴＤだけを有する。このデータＴＤは既定のフォームフィールド指定を表し、実際に本実施例では、“Author.”及び“Date.”のフォームフィールド指定を表す。

この方法の場合、信号部ＳＰは対応するテキスト部ＴＰに転記され、ある信号部ＳＰと、少なくとも１つの転記したテキスト部ＴＰとの間における時間的関係を表す関係データＲＤが生成される。

本場合において、ビジネスマンは最初に、言語“Auther: Michael Schneider”を口述する。

前記認識及び転記処理を改善させるために、装置１を使用して、文書ＤＯの構造が認識され、この文書ＤＯの認識された構造は関係データＲＤに描写される。これを目的とするために、オーディオ信号ＡＳの入力を始める場合、この文書ＤＯの構造は第１の分析段７を使用して分析され、２つの前述したフォームフィールド指定が存在することが設定される。第１の分析データＡＤ１はこの分析の結果を表し、この結果は構造描写手段９を使用して、構造化した関係データＳＲＤの生成により関係データＲＤに描写され、転記手段２の場合、話された言語“Auther.”を表す信号部を捨てるのに用いられる。その上、第４のコンテクストが転記を行うために選択され、これは、幾つかの知られる名前だけしか選択に利用可能ではない。これは、図２に示されるテキスト時間マーカｔ１からｔ４の間に含まれる言語の転記を促進及び改善させる。日付の転記も類似して行われ、これは第５のコンテクストを用いて、幾つかの信号部ＳＰを使用して表される。ここで、日付を示す構造要素を認識する際、転記手段２は既定の日付フォームを供給するので、時間マーカｔ５とｔ６との間に生じる信号部ＳＰは一緒にグループ化される。

フォームフィールドに対するエントリを口述した後、ビジネスマンは、後続するテキストに対する如何なる構造も規定することができる。これを考慮するために、この方法に従って、作成されるべき文書ＤＯの構造に関して、認識されるテキスト部ＴＰ、すなわちテキストデータＴＸＤの分析が行われる。従って、例えばビジネスマンが“Report heading Business Plan Report”のフレーズを口述する。第２の分析段８を使用して、前記認識されたテキスト部ＴＰを用いて、このフレーズが文書ＤＯのメインヘッディングに関連する構造要素であると認識される。

これにより、時間マーカｔ７とｔ８との間、ｔ９とｔ１０との間、及びｔ１１とｔ１２との間において認識されたテキスト部ＴＰは、図３に示されるように、前記構造要素“report heading”に割り当てられ、構造化した関係データＳＲＤとして、関連データＲＤの論理的グループ化が行われている。

この構造要素が“report heading”の言語に基づいて認識された後、これら認識された構造要素に基づいて、転記手段２に対し、第２のコンテクストが用いられるように、この転記手段２の構成が行われ、この第２のコンテクストは、毎日のビジネスのコンテクストにおけるヘッディングに対し最も一般的な表現を含んでいる。

ビジネスマンは、“chapter heading introduction”の言語を用いて口述を続け、これは他の構造要素、すなわち認識されている構造要素“chapter heading”を同様に導く。この場合、第２のコンテクストが選択される。しかしながらこれは、メインヘッディングに関連するコンテクストと比べ、より広域な構文スコープを有する。その上、時間マーカｔ１３とｔ１４との間にある信号部ＳＰに対応する認識されるテキスト部ＴＰは、構造要素“chapter heading”により関係データ記憶媒体１０においてマーキングされる。

他の話される構造上の指示が時間マーカｔ１５とｔ４４との間における信号部ＳＰにより表される次の話されるフレーズには生じないので、最大の構文を含むコンテクストが転記のために選択され、これら信号部ＳＰに対する関係データＲＤは、構文要素“text”に割り当てられる。

その後、もう一度、口述したテキストに基づいて、構造要素“chapter heading”が認識され、時間マーカｔ４５とｔ４６との間における信号部に対応するテキスト部ＴＰがこの構造要素に論理的に割り当てられる。

時間マーカｔ４７からｔ７８により境界付けされる、発せられるべき次の文は、認識可能な構造要素の何れかが欠けているため、構造要素“text”に割り当てられる。ここで、最大の構文を持つ第３のコンテクストがもう一度この転記のために用いられる。

その後、ビジネスマンは、グラフィック及びテキストの両方を有するオブジェクトを文書ＤＯに挿入する。しかしながら、このオブジェクトはテキスト入力により生成されるので、オーディオ信号ＡＳはこのテキストには対応していない。この場合、オブジェクトＯＯの挿入は、タクト型(tactile)の入力手段１８、すなわち第２の入力手段ＩＮ２に接続されるキーボード、及び言語処理媒体４を使用して行われる。しかしながら、オブジェクトＯＯの挿入は、話される命令によりもたらされることも可能であり、これら話される命令は、転記手段２を使用して転記され、命令として認識され、装置１の他の手段（図示せず）により実行されることが述べられている。これによって、本場合において、オブジェクトＯＯ［ｓｉｃ］の挿入は、第２の分析段８を使用して認識され、関連データ記憶媒体９において、時間マーカｔ７８からｔ７９の間にこのオブジェクトの存在が記録される。

時間マーカｔ７９とｔ１００との間における次の口述されるテキストは最初に、構造要素“text”に割り当てられる。しかしながら、第３のコンテクストを使用する転記では、時間マーカｔ９３とｔ１００との間にエラーが生じ、このエラーは入力手段１８を使用してビジネスマンにより訂正される。これを目的とするために、時間マーカｔ９３とｔ１００との間にあるテキスト部ＴＰは削除され、この削除されたテキスト部ＴＰに取って代わり、時間マーカｔ１０１の前に設定される新しいテキスト部ＴＰ’が追加される。第２の分析段８を使用して、この変更が文書ＤＯに記録又は認識され、時間マーカｔ９３とｔ１００との間の前に本来は置かれるテキスト部ＴＰは、構造要素“text to skip”でマーキングされるので、記憶されたオーディオデータＡＤを音響再現する場合、これらテキスト部ＴＰはスキップされる。その上、時間マーカｔ１０１より前に手動で挿入された他のテキストデータＴＰ’は、構造要素“text inserted: no audio”によりマーキングされ、この構造要素は、後に訂正又は改正された口述したテキストである、及び新しく追加したテキスト部ＴＰ’に対し、対応する信号部ＴＰが記憶されたオーディオデータＡＤに含まれない事実を規定する。

口述において次に発生する信号部ＳＰは、他の構造要素が構造認識手段５を使用して認識されず、これにより割り当てられることができないため、関係データ記憶媒体１０において構造要素“text”により特徴付けされる。

テキストの口述及び場合によっては口述したテキストの訂正に次いで、ビジネスマンは、本発明に従い、転記したオーディオ信号ＡＳの正確な音響映像トラッキングが可能になることを使用して、時間マーカｔｎ及びｔｍにより夫々示される信号部ＳＰに対応するテキスト部ＴＰの視覚強調に同期する再現モードを稼動させる。ここでテキスト部ＴＰ及び信号部ＳＰの同期した音響映像再現は、構造化した関係データＳＲＤを利用して行われる。これにより、視覚強調の場合、例えば文書ＤＯの口述されない要素はスキップ又は無視されることが達成される。

本発明によれば、オーディオ信号ＡＳの転記により生成されたテキスト部ＴＰに加え、生成される他のテキスト部ＴＰ’は、合成手段、すなわち音声合成手段１６により生成されることができる音声を使用して再現されることもさらに保証される。この方法はさらに、必要ならば、他のテキスト部が転記により生成されたテキスト部ＴＰ間に組み込まれる場合、他のテキスト部ＴＰ’の再現中にオーディオ信号ＡＳの再現が中断されることも保証する。

これにより、文書ＤＯにおけるそれらの位置に従って、訂正又は挿入も、転記により生じたテキスト部ＴＰと正しく接続する又は正しいシーケンスでの再現において考慮されることが達成される。

本場合において、装置１は、コンピュータプログラムを実行する、計算ユニット及び内部メモリを備えるコンピュータ（図１には図示せず）により達成される。このコンピュータプログラムは、例えばＤＶＤ又はＤＣ若しくは不揮発性半導体メモリのようなコンピュータ読み取り可能データ担体又は媒体（図１に図示せず）に記憶される。このコンピュータプログラムは、コンピュータ読み取り可能媒体からコンピュータの内部メモリへロードされることが可能であるため、このコンピュータを使用して、信号部ＳＰをテキスト部ＴＰに転記するための本発明による方法は、コンピュータプログラムがコンピュータ上で実行される場合に行われる。

この点において、装置１は、コンピュータネットワークを介して分布し、コンピュータシステムとして一緒に働く幾つかのコンピュータにより達成されることも可能であるため、この装置１の個々の機能は例えば個々のコンピュータにより引き継がれることが可能であることを述べておく。

テキスト部ＴＰ及び他のテキスト部ＴＰ’のコヒーレント再現は、他のやり方により得られた他のテキスト部ＴＰ’が、転記により得られたテキスト部ＴＰの最初又は最後に置かれたとしても保証されることを述べておく。

構造化した関係データＳＲＤはさらに、話された命令又は手動で稼動する命令も有し、これにより、文書により再現されることが可能である情報の形式を再トレースする機能にさらに寄与することを述べておく。

本発明による装置は、私用、若しくは医療目的又は安全工学の分野にも用いられることも可能であり、これを列挙することが最終的なものではないこともさらに述べておく。

信号部ＳＰと、転記により得られたテキスト部ＴＰとの間の割り当てに関して、例えば“Today”と話された言葉がコヒーレント信号部ＳＰと認識され、そこから幾つかのテキスト部ＴＰ、すなわち“31st Nov. 2003”が転記により生成されるので、本場合では、関係データＲＤが単一の信号部ＳＰと３つのテキスト部ＴＰとの間に時間的関係を生成する。この点について、信号部ＳＰと、転記により得られたテキスト部ＴＰとの間の割り当ては、少なくとも３つの信号部ＳＰ、すなわち単語“31^st”、“November”及び“2003”を表す信号部ＳＰにより表される、例えば発話した日付“31st Nov. 2003”が例えば“today”、“tomorrow”又は“yesterday”のような単一のテキスト部ＴＰへの転記により一緒にグループ化されるように与えられることも可能であるので、本場合において、関係データＲＤは、３つの信号部ＴＰと１つのテキスト部ＴＰとの間における時間的関係を再現表することをさらに述べておく。

本発明の実施例による装置を、概略的にブロック図形式で示す。図１による装置を使用して処理される文書に含まれる幾つかの情報をプレーンテキストで示す。オーディオ信号の信号部と、前記文書のテキストのテキスト部との間に少なくとも１つの時間的関係を生成している、図２による文書の構造に関して分割される関係データをプレーンテキストで示す。

Claims

信号部を含んでいるオーディオ信号を、文書用のテキスト部を含んでいるテキストに転記する方法であり、前記文書は情報の再現を意図し、前記情報は前記転記により得られた前記テキスト部に少なくとも部分的に対応している方法において、
−前記信号部を前記テキスト部に転記するステップ
−少なくとも１つの信号部と、前記転記により得られた少なくとも１つのテキスト部との間に少なくとも１つの時間的関係を表す関係データを生成するステップ、
−前記文書の構造を認識するステップ、及び
−前記関係データに前記文書の認識された構造を描写するステップ
を有する方法。
前記文書の構造の前記認識は、前記文書の分析により行われる請求項１に記載の方法。
前記文書の構造の前記認識は、前記認識されたテキスト部の分析により行われる請求項１に記載の方法。
前記文書の認識された構造の前記描写は、前記関係データの論理的グループ化により行われる請求項１に記載の方法。
前記テキスト部の転記を備える転記手段は、前記認識された構造に依存して構成される請求項１に記載の方法。
前記オーディオ信号の前記信号部の音響再現は、前記テキスト部の視覚再現を用いた前記転記されたテキスト部の視覚強調と同時に行われ、その間に前記文書の認識された構造が考慮される請求項１に記載の方法。
前記オーディオ信号の転記により得られた前記テキスト部に加えて生成され、前記文書における前記オーディオ信号の前記転記により得られた前記テキスト部に隣接して存在している他のテキスト部は、合成手段により作成されることが可能であるスピーチを使用して再現され、必要であれば前記オーディオ信号の前記再現は、前記他のテキスト部の前記再現中は中断される請求項３に記載の方法。
信号部を含んでいるオーディオ信号を、文書用のテキスト部を含んでいるテキストに転記する装置であり、前記文書は情報の再現を意図し、前記情報は前記転記により得られた前記テキスト部に少なくとも部分的に対応している装置において、
−前記信号部を前記テキスト部に転記する転記手段、
−少なくとも１つの信号部と、前記転記により得られた少なくとも１つのテキスト部との間に少なくとも１つの時間的関係を表す関係データを生成するように構成される関係データ生成手段、
−前記文書の構造を認識するように構成される構造認識手段、及び
−前記関係データに前記文書の認識された構造を描写するように構成される構造描写手段
を有する装置。
前記構造認識手段は、前記文書を構造に関して分析するように構成される第１の分析段を使用して実現される請求項８に記載の装置。
前記構造認識手段は、前記文書の構造に関して得られた前記テキスト部を分析するように構成される第２の分析段を使用して実現される請求項８に記載の装置。
前記構造描写手段は、前記関係データの論理的グループ化を構成する請求項８に記載の装置。
前記転記手段は、前記認識された構造に依存して構成されることが可能である請求項８に記載の装置。
前記文書の認識された構造を考慮して、前記オーディオ信号の前記信号部の音響再現を、前記テキスト部の視覚再現において前記転記されたテキスト部の視覚強調と同時にもたらすように構成される再現制御手段を備える請求項８に記載の装置。
テキスト部を音声に同期させるように構成される音声合成手段を備える請求項１３に記載の装置において、当該音声合成手段を使用して、前記再現制御手段は、前記オーディオ信号の転記により得られた前記テキスト部に加えて生成され、前記文書における前記オーディオ信号の前記転記により得られた前記テキスト部に隣接して存在している他のテキスト部の音響再現をもたらすように構成され、必要であれば前記オーディオ信号の再現が前記他のテキスト部の再現中、中断させることが可能である装置。
オーディオ信号を転記するのに適し、コンピュータのメモリに直にロードされることが可能であると共にソフトウェアコードセクションを含んでいるコンピュータプログラムにおいて、前記コンピュータプログラムが前記コンピュータ上で実行される場合、前記コンピュータを用いて請求項１に記載の方法が実施されることが可能であるコンピュータプログラム。
請求項１５に記載のコンピュータプログラムにおいて、前記コンピュータプログラムはコンピュータ読み取り可能媒体に記憶されているコンピュータプログラム。
請求項１５に記載のコンピュータプログラムを実行する、計算ユニット及び内部メモリを備えるコンピュータ。