JP2007512612A - オーディオ信号を転記する方法及び装置 - Google Patents

オーディオ信号を転記する方法及び装置 Download PDF

Info

Publication number
JP2007512612A
JP2007512612A JP2006540755A JP2006540755A JP2007512612A JP 2007512612 A JP2007512612 A JP 2007512612A JP 2006540755 A JP2006540755 A JP 2006540755A JP 2006540755 A JP2006540755 A JP 2006540755A JP 2007512612 A JP2007512612 A JP 2007512612A
Authority
JP
Japan
Prior art keywords
text
document
transcription
signal
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006540755A
Other languages
English (en)
Inventor
ゲルハルド グロバウエル
ミクロス パパイ
クワク フリムポング−アンサー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2007512612A publication Critical patent/JP2007512612A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Document Processing Apparatus (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

信号部(SP)を含んでいるオーディオ信号(AS)を、文書(DO)用のテキスト部(TP)を含んでいるテキストに転記する方法において、この文書(DO)は情報の再現を意図し、この情報は転記により得られたテキスト部(TP)に少なくとも部分的に対応していている場合、信号部(SP)がテキスト部(TP)に転記され、少なくとも1つの信号部(SP)と、前記転記により得られた少なくとも1つのテキスト部(TP)との間に少なくとも1つの時間的関係が存在する関係データ(RD)が生成され、及び前記文書(DO)の構造が認識され、この認識された文書(DO)の構造は前記関係データ(RD)に記述されると考えられる。

Description

本発明は、信号部を含んでいるオーディオ信号を、文書用のテキスト部を含んでいるテキストに転記する方法に関する。この文書は情報の再現を意図し、この情報は前記転記により得られたテキスト部に少なくとも部分的に対応している。
本発明はさらに、信号部を含んでいるオーディオ信号を、文書用のテキスト部を含んでいるテキストに転記する装置にも関する。この文書は情報の再現を意図し、この情報は前記転記により得られたテキスト部に少なくとも部分的に対応している。
本発明はさらに、オーディオ信号を転記するのに適したコンピュータプログラムにも関する。
本発明はさらに、前段落に記載したコンピュータプログラムを実行するコンピュータにも関する。
上記方法、上記装置、上記コンピュータプログラム及び上記コンピュータは、米国特許公報US 5,031,113号から知られている。
既知の装置において、この装置を使用して既知の方法が実行可能であり、この装置は既知のコンピュータプログラムを処理する既知のコンピュータを用いて達成され、オーディオ信号に基づいて文書が生成される。この間に、オーディオ信号に含まれる信号部はテキスト部であると認識され、記憶される。さらに、認識されたテキスト部との信号部の時間的関係を表す関係データが生成され、記憶される。この装置を使用して、オーディオ信号はスピーカにより音響方式で再現されることができ、文書はモニタにより視覚方式で再現されることができる。オーディオ信号の音響再現において、前記関係データは、個々の信号部と時間的な関係に位置するテキスト部の同期する視覚強調に用いられる。このことは“同期再生(synchronous playback)”と言う用語により当業者に知られている。
既知の装置において、転記により生成されるテキストだけでなく、例えば変更不可能なフォームフィールド指定、画像、テキストブロック又は音響映像オブジェクトのような他の要素も含んでいる文書では、“同期再生”が用いられる場合に問題が存在し、実際、特に転記により生成されるテキストがテキストを口述していない使用人により最後まで読まれ、チェックされる状況に関して、転記により生成されなかった他の要素が考慮されない、すなわち十分に考慮されていないためにかなりの問題が生じる。
本発明の目的は、第1の段落に述べた形式の方法における問題、第2の段落に述べた形式の装置における問題、第3の段落に述べた形式のコンピュータプログラムにおける問題、及び第4の段落に述べた形式のコンピュータにおける問題を解消すると共に、改良した方法、改良した装置、改良したコンピュータプログラム、及び改良したコンピュータを作成することである。
上述した目的を達成するために、本発明による方法では、本発明による特徴が考えられるので、本発明による方法は、以下に述べるような方法で特徴付けされることができる。
信号部を含んでいるオーディオ信号を、文書用のテキスト部を含んでいるテキストに転記するための方法であり、この文書は情報の再現を意図し、この情報は前記転記により得られたテキスト部に少なくとも部分的に対応している。この方法は、
−信号部をテキスト部に転記するステップ、
−少なくとも1つの信号部と、転記により得られた少なくとも1つのテキスト部との間に少なくとも1つの時間的関係を表す関係データを生成するステップ、
−前記文書の構造を認識するステップ、及び
−前記関係データに前記文書の認識された構造を描写するステップ
を有する。
上述した方法を達成するために、本発明による装置では、本発明による特徴が考えられるので、本発明による装置は、以下に述べるような方法で特徴付けされることができる。
信号部を含んでいるオーディオ信号を、文書用のテキスト部を含んでいるテキストに転記する装置であり、この文書は情報の再現を意図し、この情報は前記転記により得られたテキスト部に少なくとも部分的に対応している。この装置は、
−信号部をテキスト部に転記する転記手段、
−少なくとも1つの信号部と、転記により得られた少なくとも1つのテキスト部との間に少なくとも1つの時間的関係を表す関係データを生成するように構成される関係データ生成手段、
−前記文書の構造を認識するように構成される構造認識手段、及び
−前記関係データに前記文書の認識された構造を描写するように構成される構造描写手段
を備える。
上述した目的を達成するために、オーディオ信号を転記するのに適したコンピュータプログラムでは、本発明に従って、このコンピュータプログラムは、コンピュータのメモリに直にロードされることが可能であり、ソフトウェアコードセクションを有すると考えられ、このコンピュータプログラムがコンピュータ上で実行される場合、このコンピュータを用いて本発明による方法が実施されることが可能である。
上述した目的を達成するために、本発明によるコンピュータを用いて、コンピュータは、計算ユニット及び内部メモリを有し、上述した段落に従って前記コンピュータプログラムを実行すると考えられる。
本発明による方法を提供することにより、生成されるべき文書の構造がその文書自体だけでなく、関係データにおいても表されることが達成され、これによって、かなり複雑な文書が生成されることが可能であり、とりわけ音響映像方式でさらに処理されることが可能である。
請求項2又は請求項9に記載されるような追加の方法を提供することにより、さらに、テンプレートとして用意される文書に既に存在している構造、例えば既定のフォームフィールドに与えられる文書構造は、関係データに確実に描写されるという利点が達成される。
請求項3又は請求項10に記載されるような追加の方法を提供することにより、さらに、例えば構造上の指示が人間により口述されたために、転記されるオーディオ信号に含まれるこれら構造上の指示だけによって認識される文書の構造はこれにより、事実上リアルタイムで、すなわち転記中にも認識され、関係データに確実に描写される。
本発明による解決法では、例えば文書の認識された構造要素の各々に対し、関係データを備える別個のファイルが生成される、すなわち関係データの物理的グループ化が行われると考えられる。しかしながら、さらに請求項4又は請求項11に記載の方法が意図される場合、これを用いて、単一のファイルへのできる限り簡単且つ容易なグループ化が達成されるので、特に有利であると示され、幾つかのファイルの処理するのにかなりの時間を消費することを回避する。この場合、関係データのグループ化は、文書の認識された構造を表す構造データを使用して、この関係データのマーキングすることにより行われる。しかしながら、構造上一緒に属している関係データが単一のファイルにおけるセクションにグループ化されると考えることも可能であり、各セクションは文書の認識された構造の構造要素に割り当てられている。
請求項5又は請求項12に記載の方法を提供することによりさらに、テキスト部の認識における効率が増大する利点が達成される。例えば放射線専門医によるレポートを表す文書であり、この放射線専門医による管理上の指示を転記する場合、放射線医学のコンテクストは必要とされず、一般的な指示に関連する大幅に制限されたコンテクストで十分であるために特にそうなる。同じことがレポートの要約が転記される場合にも適用され、例えば本質的に、この要約において、主に標準的な表現又は標準的なフレーズが用いられることが予め知られている。同じことが文書内の構造が異なる言語により与えられ場合にも適用され、これは例えばセクションにおいて用いられる。これにより、第1の言語モデル又は第2の言語モデルが利用可能である場合、個々の言語モデルを自動的に選択して、転記が行われることを保証し、応用可能であれば、この文書は、2つの異なる言語により与えられる構造に従って、異なる編集者によりその後、選択的に処理されることが保証される。
請求項6又は請求項13に記載の方法を提供することにより、転記により生じた文書の全てのテキスト要素は問題無くコヒーレントのように再現されることができ、とりわけ正しいシーケンスにおいて、非テキスト要素が省略される利点が達成される。
請求項7又は請求項14に記載の方法を提供することにより、テキスト部のコヒーレントの音響再現が実行されることが可能である利点が達成され、一方では、このテキスト部はオーディオ信号の転記によりもたらされ、他方ではオーディオ信号の転記以外の方法で生じさせている。他の方法で生じた上記テキスト部は、テキストを手動で文書に入力したり、例えばフォームのフィールド指定のような既定のテキスト要素又はテキストオブジェクトを挿入したり、既定のテキストブロックを挿入したり、若しくは転記により生じたテキストを訂正したりすることにより生じることができる。
本発明のこれら及び他の態様は、以下に説明される実施例から明らかであり、この実施例を参照して説明される。
本発明は、図に示される実施例に基づいて以下に詳細に説明されているが、本発明がそれに限定されることはない。
信号部SPを含んでいるオーディオ信号ASを、文書DO用のテキスト部TPを含んでいるテキストに転記するように構成される装置1が図1に示されている。このオーディオ信号は、話し手により与えられる口述を表している。情報の再現を意図する文書DOが図2に示され、この情報は転記によって得られたテキスト部TPに少なくとも部分的に対応している。本実施例では、文書DOは、転記された前記テキスト部TPには対応していないテンプレート部、例えば“Author”又は“Date”のような既定のフォームフィールド指定を持ち、これらは文書テンプレートにおいて固定様式で設定される。
装置1は第1の入力部IN1を有し、この入力部において、オーディオ信号ASが前記装置に供給される。このオーディオ信号ASは、装置1が本質的に類似するやり方で設定される手段を持つ場合、他のやり方、例えばデータ担体を利用して又はデータネットワークを介してデジタル表示形式で供給されることも可能である。
装置1はさらに第2の入力部IN2を持ち、ここで処理信号WSがそこに供給されることができ、これは後で詳細に論じられる。
装置1はさらにオーディオ信号ASを入力し、信号部SPをテキスト部TPに転記するように構成される転記手段2を有する。この点について、オーディオ信号ASをそれに応じて適応させることは当業者にとって明らかな事項であり、例えばデジタル表示に変換するためにフィルタ要素及び変換要素が用いられること(ここではさらに詳しくは述べない)に注意されたい。話し手のデータ(図1には明瞭に示されない)及び選択可能なコンテクストを考慮して信号部SPの転記が行われる。コンテクストデータ(同様に図1には明瞭に示されない)は、選択するのに利用可能である様々なコンテクスト(ここで各コンテクストは言語、言語モデル及び語彙を規定又は有している)を表す。これら話し手のデータは夫々の話し手に対し代表するものである。転記手段2は、印加されたオーディオ信号ASに基づいてテキストデータTXDを生成するように構成され、これは認識されたテキスト部TPを表している。
装置1はさらに、文書DO、この文書DO用のテンプレートデータTD及びテキストデータTXDを記憶するように構成され及び設けられる文書データ記憶媒体3を有する。前記転記手段2はこの文書データ記憶媒体3と共に働くように構成されるので、テキストデータTXDはそれ用の文書DOの領域に挿入されることが可能である。その上、文書データ記憶媒体3を使用して、文書DOに挿入されるオブジェクトOOを表すオブジェクトデータODが記憶されることができる(このことは以下に詳細に説明される)。
装置1はさらに、第2の入力部IN2を介して処理信号WSを入力するように構成される文書処理手段4を有する。この文書処理手段4は、処理信号WSを考慮して、処理データWDを生成及び送出するように構成される。文書処理手段4は、文書データ記憶媒体3における信号部SPの転記を使用して生成されるテキスト部TPを変更するために設けられる。文書処理手段4を使用して、例えば図2に示され、明らかに間違って認識されたテキスト部TPは、時間マーカt93とt100との間において訂正されることができ、これは、テキストマーカt93とt100との間にあるテキスト部TPを抹消し、テキストマーカt100とt101との間の訂正したテキスト部TP’を挿入することにより説明されている。訂正手段により得られた他のテキスト部TP’に対しては、これらテキスト部TP’が手動で挿入されるために、オーディオ信号ASに対応する信号部SPは存在しない。同じことが図2に示されるオブジェクトOOにも当てはまる。
転記手段2は、さらにオーディオ信号AS内の信号部SPの時間に関する始点tn及び終点tmの情報、並びに転記手段2を使用して夫々生成されるテキスト部TPの番号を表すテキスト部番号WNの情報を生成及び送出するように構成される。
装置1はさらに、少なくとも1つの信号部SPと、少なくとも1つの転記されたテキスト部TPとの間における時間的関係を表している関係データRDを生成するように構造化した関係データ生成手段5を有する。この目的のために、前記関係データ生成手段5は、オーディオ信号AS内の信号部APの時間に関する始点tn及び終点tmの情報、並びにテキスト部番号WNの情報を入力及び処理するように構成される。この関係データ生成手段5はさらに、関係データRDを送出するようにも構成される。
装置1はさらに、文書DOの構造を認識するように構成される構造認識手段6も有する。これは以下に詳細に説明される。
文書DOの構造を認識することを目的として、この構造認識手段6は、文書DOを構造に関して分析するように構成される第1の分析段7を有する。この第1に分析段7[sic]は、文書データ記憶媒体3にアクセスして、テンプレートデータTDを読み取り、考慮するように構成される。この第1の分析段7[sic]は、第1の分析データをその分析の結果として送出し、そのデータはテンプレートデータTDに基づいて認識可能である文書DOの構造を表している。本実施例では、この認識可能な構造は、2つのフォームフィールド指定“Author:”又は“Date”の横に配されるテキストの入力のために考えられる2つのフォームフィールドの存在に関する。しかしながら、認識可能な構造は、画像又はテキストの変更不可能な部分により与えられることも可能である。文書のユーザに見ることが可能である構造要素とは別に、文書の通常の使用においてさえも、目に見えない文書要素が考慮されることに注意すべきである。これら要素は、例えば現在の言語処理プログラムでは、いわゆるブックマーク又はストラクチャリング(structuring)として知られる設定により規定され、それらが入力の制御、出力の制御、又は文書の処理の自動化に結び付けて主に用いられているので、ユーザがその文書により再現されるべき情報であるとみなすことはできない。
文書DOの構造を認識することを目的として、構造認識手段5はさらに、前記得られたテキスト部TPをこの文書DOの構造に関して分析するように構成される第2の分析段8を有する。この第2の分析段8は、信号部SPから転記されたテキストデータTXDを入力し、このテキストデータTXDを話し手により発せられた構造上の指示に関して分析するように構成される。ここで構造上の指示とは、文書DOにおける構造を生成、変更及び/又は設定するために考えられる、又はするのに適している。これは例えば、ヘッディング(heading)としてフォーマットされるべきテキストの個々の部分への口語フォーマット割り当て、例えばヘッディングのフォーマット用であるヘッディングフォーマットの割り当て、すなわち話される指示によりもたらされるテキスト部TPの挿入、削除又は上書きを含むことができる。
第2の分析段8はさらに、処理データWDを入力し、この処理データWDを使用して生じた文書DCの現在の構造の変更に関して、又はこの文書DOにおいて新しく規定される構造に関して前記処理データを分析するように構成される。これは、ヘッディングの階層の変更又は例えば画像、テキスト若しくはオブジェクトのような要素の挿入又は除去を含むことができ、そのための対応する信号部SPはオーディオ信号ASには無い。第2の分析段8も文書データ記憶媒体3にアクセスし、言語又は手動処理により生じた文書の構造を分析するように構成されることもこの点において留意される。
第2の分析段8は、第1の分析段7に類似であり、分析の結果を示す第2の分析データAD2を送出するように構成される。
装置1はさらに、第1の分析データAD1、第2の分析データAD2及び関係データRDを入力するように構成される構造描写手段9を有する。この構造記述手段9は、第1の分析データAD1及び第2の分析データAD2を使用して、これら分析データAD1及びAD2により表示又は認識される文書ODの構造を関係データRDに描写するように構成される。この構造描写手段9はさらに、文書DOの構造に関して構造化した関係データSRDを送出するように構成され、本実施例では、この関係データSRDは図3に示される関係データRDの論理的グループ化を表している。
装置1はさらに、構造化した関係データSRDを記憶するために構造化した関係データ記憶媒体10を有する。前記関係データ記憶媒体10にアクセスするための前記構造描写手段9が設けられ、ここで前記構造化した関係データSRDが前記関係データ記憶媒体10に記憶される、又は既に記憶された関係データSRDが変更されることができる。
図3において、図2に示される文書DOに対する前記構造化した関係データSRDの描写がプレーンテキストで再現される。図3は、文書DOの要素に対応し、1から56の番号を使用して番号付けされるライン毎にリスト化されたエントリを示す。第1の列C1は、個々の文書エントリの番号を示す。第2のライン[sic]C2は、オーディオ信号AS内における信号部SPの時間に関する個々の始点を示し、これは例えば信号部SPから転記されるテキスト部TPのような、個々の番号により前記文書DOの要素に対応している。第3の列C3は、オーディオ信号AS内における前述した信号部SPの時間に関する個々の終点を示す。図3から理解できるように、前記構造化した関係データを使用して表される文書エントリは、オーディオ信号ASの転記を使用して生成された要素だけではなく、他のやり方で生成され、例えばライン40及び52の要素のようなオーディオ信号ASの信号部SP間にある文書に配置される要素にも関する。列C4は、個々の文書エントリに対し、文書DOに含まれる構造との関係を示す。必要であれば、後に上記要素を含む又は省いたオーディオ信号ASのオーディオ再現を保証する、若しくは文書の形式及び/又は変更を遡ることが可能であると保証することを可能にするために、ここでは特に、文書エントリ、例えば時間マーカt78からt79又はt100からt101の間に記録される文書エントリでさえも、関係データRDにおいて明示され、この文書エントリに対し、オーディオ信号ASは存在しない。
装置1はさらに、オーディオ信号ASを表すと共に、転記手段2によりオーディオデータ記憶媒体11に送出されるオーディオデータADを記憶するように構成されるオーディオデータ記憶媒体を有する。このオーディオデータADは、オーディオ信号ASを本質的に類似のやり方によりデジタル表現で示し、ここで、信号部SPは、前記構造化した関係データSRDを考慮して、前記オーディオ信号ASを後で復元するためにアクセスすることが可能である。
転記手段2はさらに、文書DOの認識された構造に依存、すなわち構造化した関係データSRDに依存して構成され、本実施例では、前記構造に依存する3つの異なるコンテクスト間において選択が行われる。これにより、構造要素“report heading”を扱っていると認識される場合、第1のコンテクストが選択され、構造要素“chapter heading”を扱っていると認識される場合、第2のコンテクストが選択され、構造要素“text”を扱っていると認識される場合、第3のコンテクストが選択される。これにより、構造要素“text”が存在すると直ちに、最大の構文スコープを持つコンテクストが供給されることが保証される。これは通常、構造要素“report heading”又は“chapter heading”に関連する信号部SPの転記には必要ない。その上、構造要素“author”を含んでいると認識される場合、本質的には名前に関連する第4のコンテクストが選択される。その上、構造要素“date”を含んでいると認識される場合、本質的には日付詳細に関連する第5のコンテクストが選択される。
この点において、認識された構造の考慮、若しくは言語、言語モデル又は別の話者のデータ間における選択も行われることに注意されたい。さらに、認識された構造が前記構造化した関係データSRDに既に一度だけ到達していれば、転記手段2の場合における文書DOの構造を考慮する必要は無いが、構造認識手段6により例えば前記転記手段2に直接送出されるとすぐに、前記構造が既に前記第1の分析データAD1及び/又は前記第2の分析データAD2に基づいて考慮される。
装置1はさらに、適合手段12を有する。この適合手段12は、構造化した関係データSRDの援助により、個々のコンテクストを転記手段2に適合させるように構成される。この目的のために、この適合手段12は、関係データ記憶媒体10から前記構造化した関係データSRDを読み取り、文書データ記憶媒体3からテキストデータTXDを読み取り、前記構造化した関係データSRDを用いて前記テキストデータTXDを分析し、及び/又はテキストデータTXDを最初に生成し、記憶した後に、前記構造化した関係データSRDを使用して、ログ記録されたテキストデータTXDに対する変更を分析するように構成される。このテキストデータTXDの分析の結果として、適合手段12は、個々のコンテクストが適合可能であることを使用して、変更又は適合情報CIを転記手段2に送出するように構成されるので、将来的には、転記の場合に良好な結果が得られる。
装置1はさらに再現制御手段13を有する。この手段13は、文書DOの認識された構造を考慮して、この文書DOのテキスト部TPを視覚的に再現する場合、前記転記したテキスト部TPを視覚的に強調するのと同時に、オーディオ信号ASの信号部SPを音響的に再現するように構成される。この目的のために、再現制御手段13はさらに、関係データ記憶媒体10に記憶される構造化した関係データSRDにアクセスし、文書データ記憶媒体3に記憶されるこれらのテキストデータTXDにアクセスするように構成され、これらは、前記構造化した関係データSRDを使用して、信号データSPが存在しているテキストデータTXDと識別され、オーディオデータADを使用して表される。再現制御手段13はさらに、オーディオ信号ADにおける信号部SPにアクセスするように構成され、これら信号部SPは、構造化した関係データSRDにログ記録される個々の時間マーカtn及びtmにより時間的に制限されている。この再現制御手段13はさらに、個々の信号SPを表すオーディオデータADを第1の再現装置14に同時に送出し、時系列に対応するテキスト表示制御データTDCDを第2の再現装置15に送信するように構成される。このテキスト表示制御データTDCDを使用して、先ず始めに、文書DOの情報が、この情報を視覚的に再現するために構成される第2の再現装置15に送出され、次に個々のテキスト部TPの同時強調が規定される一方、それに対応する信号部SPはオーディオデータADの形式で第1の再現装置14に送出される。
本場合において、組み込み型スピーカを備えるオーディオ増幅器により達成される第1の再現装置14、及びモニタにより達成される第2の再現装置15は共に、割り当てられた信号出力部OUT1及びOUT2を夫々介して装置1に接続されている。しかしながら、この点において、これら2つの装置14及び15は、装置1の単一の信号出力部を介してこの装置1に接続される一体型の装置によって形成されることも可能であることを述べておく。さらに、これら2つの装置14及び15が装置1に組み込まれることも可能である。
装置1は音声合成手段16を有し、この手段16は、テキストデータTXDを合成音声に合成し、合成手段により、音声信号ASに信号部SPが存在していないテキスト部TP’に音響再現をアクセス可能にするように構成される。この音声合成手段16は、入力部側は再現制御手段13に接続され、出力部側は信号出力部OUT1に接続されている。
再現制御手段13はさらに、音声合成手段16と協働し、音声合成手段16の援助により、音声信号ASの転記により得られるテキスト部TPに対し、付加的に生成された他のテキスト部TP’を音響的に再現するように構成され、これら他のテキスト部TP’は文書DOにおけるオーディオ信号ASの転記により得られるテキスト部TPに隣接して存在している。必要であれば、図2に基づいて説明されるように、これら他のテキスト部TP’が文書DOにおいて、オブジェクトOO又は取り消し訂正の文節(constituent part)として現れる場合、これら他のテキスト部TP’の再現中、再現制御手段13をモニタリングしながら、オーディオ信号ASの再現の中断を行うことが可能である。
以下のように、装置1の操作方法は、図1による装置1の実施例に基づいて説明されている。
応用例によれば、ビジネスマンがビジネスプランに関する報告書を口述していると仮定する。第1の入力部IN1に接続されているマイク17を使用して、オーディオ信号ASが生成され、装置1へ印加される。
この装置1を使用して、このオーディオ信号ASを転記する方法が実行される。口述を開始する際、図2に示される文書DOは、その最後の処理段において本質的に空であり、既定且つ変更不可能なテンプレートデータTDだけを有する。このデータTDは既定のフォームフィールド指定を表し、実際に本実施例では、“Author.”及び“Date.”のフォームフィールド指定を表す。
この方法の場合、信号部SPは対応するテキスト部TPに転記され、ある信号部SPと、少なくとも1つの転記したテキスト部TPとの間における時間的関係を表す関係データRDが生成される。
本場合において、ビジネスマンは最初に、言語“Auther: Michael Schneider”を口述する。
前記認識及び転記処理を改善させるために、装置1を使用して、文書DOの構造が認識され、この文書DOの認識された構造は関係データRDに描写される。これを目的とするために、オーディオ信号ASの入力を始める場合、この文書DOの構造は第1の分析段7を使用して分析され、2つの前述したフォームフィールド指定が存在することが設定される。第1の分析データAD1はこの分析の結果を表し、この結果は構造描写手段9を使用して、構造化した関係データSRDの生成により関係データRDに描写され、転記手段2の場合、話された言語“Auther.”を表す信号部を捨てるのに用いられる。その上、第4のコンテクストが転記を行うために選択され、これは、幾つかの知られる名前だけしか選択に利用可能ではない。これは、図2に示されるテキスト時間マーカt1からt4の間に含まれる言語の転記を促進及び改善させる。日付の転記も類似して行われ、これは第5のコンテクストを用いて、幾つかの信号部SPを使用して表される。ここで、日付を示す構造要素を認識する際、転記手段2は既定の日付フォームを供給するので、時間マーカt5とt6との間に生じる信号部SPは一緒にグループ化される。
フォームフィールドに対するエントリを口述した後、ビジネスマンは、後続するテキストに対する如何なる構造も規定することができる。これを考慮するために、この方法に従って、作成されるべき文書DOの構造に関して、認識されるテキスト部TP、すなわちテキストデータTXDの分析が行われる。従って、例えばビジネスマンが“Report heading Business Plan Report”のフレーズを口述する。第2の分析段8を使用して、前記認識されたテキスト部TPを用いて、このフレーズが文書DOのメインヘッディングに関連する構造要素であると認識される。
これにより、時間マーカt7とt8との間、t9とt10との間、及びt11とt12との間において認識されたテキスト部TPは、図3に示されるように、前記構造要素“report heading”に割り当てられ、構造化した関係データSRDとして、関連データRDの論理的グループ化が行われている。
この構造要素が“report heading”の言語に基づいて認識された後、これら認識された構造要素に基づいて、転記手段2に対し、第2のコンテクストが用いられるように、この転記手段2の構成が行われ、この第2のコンテクストは、毎日のビジネスのコンテクストにおけるヘッディングに対し最も一般的な表現を含んでいる。
ビジネスマンは、“chapter heading introduction”の言語を用いて口述を続け、これは他の構造要素、すなわち認識されている構造要素“chapter heading”を同様に導く。この場合、第2のコンテクストが選択される。しかしながらこれは、メインヘッディングに関連するコンテクストと比べ、より広域な構文スコープを有する。その上、時間マーカt13とt14との間にある信号部SPに対応する認識されるテキスト部TPは、構造要素“chapter heading”により関係データ記憶媒体10においてマーキングされる。
他の話される構造上の指示が時間マーカt15とt44との間における信号部SPにより表される次の話されるフレーズには生じないので、最大の構文を含むコンテクストが転記のために選択され、これら信号部SPに対する関係データRDは、構文要素“text”に割り当てられる。
その後、もう一度、口述したテキストに基づいて、構造要素“chapter heading”が認識され、時間マーカt45とt46との間における信号部に対応するテキスト部TPがこの構造要素に論理的に割り当てられる。
時間マーカt47からt78により境界付けされる、発せられるべき次の文は、認識可能な構造要素の何れかが欠けているため、構造要素“text”に割り当てられる。ここで、最大の構文を持つ第3のコンテクストがもう一度この転記のために用いられる。
その後、ビジネスマンは、グラフィック及びテキストの両方を有するオブジェクトを文書DOに挿入する。しかしながら、このオブジェクトはテキスト入力により生成されるので、オーディオ信号ASはこのテキストには対応していない。この場合、オブジェクトOOの挿入は、タクト型(tactile)の入力手段18、すなわち第2の入力手段IN2に接続されるキーボード、及び言語処理媒体4を使用して行われる。しかしながら、オブジェクトOOの挿入は、話される命令によりもたらされることも可能であり、これら話される命令は、転記手段2を使用して転記され、命令として認識され、装置1の他の手段(図示せず)により実行されることが述べられている。これによって、本場合において、オブジェクトOO[sic]の挿入は、第2の分析段8を使用して認識され、関連データ記憶媒体9において、時間マーカt78からt79の間にこのオブジェクトの存在が記録される。
時間マーカt79とt100との間における次の口述されるテキストは最初に、構造要素“text”に割り当てられる。しかしながら、第3のコンテクストを使用する転記では、時間マーカt93とt100との間にエラーが生じ、このエラーは入力手段18を使用してビジネスマンにより訂正される。これを目的とするために、時間マーカt93とt100との間にあるテキスト部TPは削除され、この削除されたテキスト部TPに取って代わり、時間マーカt101の前に設定される新しいテキスト部TP’が追加される。第2の分析段8を使用して、この変更が文書DOに記録又は認識され、時間マーカt93とt100との間の前に本来は置かれるテキスト部TPは、構造要素“text to skip”でマーキングされるので、記憶されたオーディオデータADを音響再現する場合、これらテキスト部TPはスキップされる。その上、時間マーカt101より前に手動で挿入された他のテキストデータTP’は、構造要素“text inserted: no audio”によりマーキングされ、この構造要素は、後に訂正又は改正された口述したテキストである、及び新しく追加したテキスト部TP’に対し、対応する信号部TPが記憶されたオーディオデータADに含まれない事実を規定する。
口述において次に発生する信号部SPは、他の構造要素が構造認識手段5を使用して認識されず、これにより割り当てられることができないため、関係データ記憶媒体10において構造要素“text”により特徴付けされる。
テキストの口述及び場合によっては口述したテキストの訂正に次いで、ビジネスマンは、本発明に従い、転記したオーディオ信号ASの正確な音響映像トラッキングが可能になることを使用して、時間マーカtn及びtmにより夫々示される信号部SPに対応するテキスト部TPの視覚強調に同期する再現モードを稼動させる。ここでテキスト部TP及び信号部SPの同期した音響映像再現は、構造化した関係データSRDを利用して行われる。これにより、視覚強調の場合、例えば文書DOの口述されない要素はスキップ又は無視されることが達成される。
本発明によれば、オーディオ信号ASの転記により生成されたテキスト部TPに加え、生成される他のテキスト部TP’は、合成手段、すなわち音声合成手段16により生成されることができる音声を使用して再現されることもさらに保証される。この方法はさらに、必要ならば、他のテキスト部が転記により生成されたテキスト部TP間に組み込まれる場合、他のテキスト部TP’の再現中にオーディオ信号ASの再現が中断されることも保証する。
これにより、文書DOにおけるそれらの位置に従って、訂正又は挿入も、転記により生じたテキスト部TPと正しく接続する又は正しいシーケンスでの再現において考慮されることが達成される。
本場合において、装置1は、コンピュータプログラムを実行する、計算ユニット及び内部メモリを備えるコンピュータ(図1には図示せず)により達成される。このコンピュータプログラムは、例えばDVD又はDC若しくは不揮発性半導体メモリのようなコンピュータ読み取り可能データ担体又は媒体(図1に図示せず)に記憶される。このコンピュータプログラムは、コンピュータ読み取り可能媒体からコンピュータの内部メモリへロードされることが可能であるため、このコンピュータを使用して、信号部SPをテキスト部TPに転記するための本発明による方法は、コンピュータプログラムがコンピュータ上で実行される場合に行われる。
この点において、装置1は、コンピュータネットワークを介して分布し、コンピュータシステムとして一緒に働く幾つかのコンピュータにより達成されることも可能であるため、この装置1の個々の機能は例えば個々のコンピュータにより引き継がれることが可能であることを述べておく。
テキスト部TP及び他のテキスト部TP’のコヒーレント再現は、他のやり方により得られた他のテキスト部TP’が、転記により得られたテキスト部TPの最初又は最後に置かれたとしても保証されることを述べておく。
構造化した関係データSRDはさらに、話された命令又は手動で稼動する命令も有し、これにより、文書により再現されることが可能である情報の形式を再トレースする機能にさらに寄与することを述べておく。
本発明による装置は、私用、若しくは医療目的又は安全工学の分野にも用いられることも可能であり、これを列挙することが最終的なものではないこともさらに述べておく。
信号部SPと、転記により得られたテキスト部TPとの間の割り当てに関して、例えば“Today”と話された言葉がコヒーレント信号部SPと認識され、そこから幾つかのテキスト部TP、すなわち“31st Nov. 2003”が転記により生成されるので、本場合では、関係データRDが単一の信号部SPと3つのテキスト部TPとの間に時間的関係を生成する。この点について、信号部SPと、転記により得られたテキスト部TPとの間の割り当ては、少なくとも3つの信号部SP、すなわち単語“31st”、“November”及び“2003”を表す信号部SPにより表される、例えば発話した日付“31st Nov. 2003”が例えば“today”、“tomorrow”又は“yesterday”のような単一のテキスト部TPへの転記により一緒にグループ化されるように与えられることも可能であるので、本場合において、関係データRDは、3つの信号部TPと1つのテキスト部TPとの間における時間的関係を再現表することをさらに述べておく。
本発明の実施例による装置を、概略的にブロック図形式で示す。 図1による装置を使用して処理される文書に含まれる幾つかの情報をプレーンテキストで示す。 オーディオ信号の信号部と、前記文書のテキストのテキスト部との間に少なくとも1つの時間的関係を生成している、図2による文書の構造に関して分割される関係データをプレーンテキストで示す。

Claims (17)

  1. 信号部を含んでいるオーディオ信号を、文書用のテキスト部を含んでいるテキストに転記する方法であり、前記文書は情報の再現を意図し、前記情報は前記転記により得られた前記テキスト部に少なくとも部分的に対応している方法において、
    −前記信号部を前記テキスト部に転記するステップ
    −少なくとも1つの信号部と、前記転記により得られた少なくとも1つのテキスト部との間に少なくとも1つの時間的関係を表す関係データを生成するステップ、
    −前記文書の構造を認識するステップ、及び
    −前記関係データに前記文書の認識された構造を描写するステップ
    を有する方法。
  2. 前記文書の構造の前記認識は、前記文書の分析により行われる請求項1に記載の方法。
  3. 前記文書の構造の前記認識は、前記認識されたテキスト部の分析により行われる請求項1に記載の方法。
  4. 前記文書の認識された構造の前記描写は、前記関係データの論理的グループ化により行われる請求項1に記載の方法。
  5. 前記テキスト部の転記を備える転記手段は、前記認識された構造に依存して構成される請求項1に記載の方法。
  6. 前記オーディオ信号の前記信号部の音響再現は、前記テキスト部の視覚再現を用いた前記転記されたテキスト部の視覚強調と同時に行われ、その間に前記文書の認識された構造が考慮される請求項1に記載の方法。
  7. 前記オーディオ信号の転記により得られた前記テキスト部に加えて生成され、前記文書における前記オーディオ信号の前記転記により得られた前記テキスト部に隣接して存在している他のテキスト部は、合成手段により作成されることが可能であるスピーチを使用して再現され、必要であれば前記オーディオ信号の前記再現は、前記他のテキスト部の前記再現中は中断される請求項3に記載の方法。
  8. 信号部を含んでいるオーディオ信号を、文書用のテキスト部を含んでいるテキストに転記する装置であり、前記文書は情報の再現を意図し、前記情報は前記転記により得られた前記テキスト部に少なくとも部分的に対応している装置において、
    −前記信号部を前記テキスト部に転記する転記手段、
    −少なくとも1つの信号部と、前記転記により得られた少なくとも1つのテキスト部との間に少なくとも1つの時間的関係を表す関係データを生成するように構成される関係データ生成手段、
    −前記文書の構造を認識するように構成される構造認識手段、及び
    −前記関係データに前記文書の認識された構造を描写するように構成される構造描写手段
    を有する装置。
  9. 前記構造認識手段は、前記文書を構造に関して分析するように構成される第1の分析段を使用して実現される請求項8に記載の装置。
  10. 前記構造認識手段は、前記文書の構造に関して得られた前記テキスト部を分析するように構成される第2の分析段を使用して実現される請求項8に記載の装置。
  11. 前記構造描写手段は、前記関係データの論理的グループ化を構成する請求項8に記載の装置。
  12. 前記転記手段は、前記認識された構造に依存して構成されることが可能である請求項8に記載の装置。
  13. 前記文書の認識された構造を考慮して、前記オーディオ信号の前記信号部の音響再現を、前記テキスト部の視覚再現において前記転記されたテキスト部の視覚強調と同時にもたらすように構成される再現制御手段を備える請求項8に記載の装置。
  14. テキスト部を音声に同期させるように構成される音声合成手段を備える請求項13に記載の装置において、当該音声合成手段を使用して、前記再現制御手段は、前記オーディオ信号の転記により得られた前記テキスト部に加えて生成され、前記文書における前記オーディオ信号の前記転記により得られた前記テキスト部に隣接して存在している他のテキスト部の音響再現をもたらすように構成され、必要であれば前記オーディオ信号の再現が前記他のテキスト部の再現中、中断させることが可能である装置。
  15. オーディオ信号を転記するのに適し、コンピュータのメモリに直にロードされることが可能であると共にソフトウェアコードセクションを含んでいるコンピュータプログラムにおいて、前記コンピュータプログラムが前記コンピュータ上で実行される場合、前記コンピュータを用いて請求項1に記載の方法が実施されることが可能であるコンピュータプログラム。
  16. 請求項15に記載のコンピュータプログラムにおいて、前記コンピュータプログラムはコンピュータ読み取り可能媒体に記憶されているコンピュータプログラム。
  17. 請求項15に記載のコンピュータプログラムを実行する、計算ユニット及び内部メモリを備えるコンピュータ。
JP2006540755A 2003-11-28 2004-11-24 オーディオ信号を転記する方法及び装置 Withdrawn JP2007512612A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP03104444 2003-11-28
PCT/IB2004/052529 WO2005052785A2 (en) 2003-11-28 2004-11-24 Method and device for transcribing an audio signal

Publications (1)

Publication Number Publication Date
JP2007512612A true JP2007512612A (ja) 2007-05-17

Family

ID=34626426

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006540755A Withdrawn JP2007512612A (ja) 2003-11-28 2004-11-24 オーディオ信号を転記する方法及び装置

Country Status (5)

Country Link
US (1) US20070067168A1 (ja)
EP (1) EP1692610A2 (ja)
JP (1) JP2007512612A (ja)
CN (1) CN1886726A (ja)
WO (1) WO2005052785A2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
EP1960998B1 (en) 2005-12-08 2011-06-22 Nuance Communications Austria GmbH Dynamic creation of contexts for speech recognition
US8036889B2 (en) * 2006-02-27 2011-10-11 Nuance Communications, Inc. Systems and methods for filtering dictated and non-dictated sections of documents
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
US9412372B2 (en) * 2012-05-08 2016-08-09 SpeakWrite, LLC Method and system for audio-video integration

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
AT390685B (de) * 1988-10-25 1990-06-11 Philips Nv System zur textverarbeitung
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
US5857099A (en) * 1996-09-27 1999-01-05 Allvoice Computing Plc Speech-to-text dictation system with audio message capability
US5995936A (en) * 1997-02-04 1999-11-30 Brais; Louis Report generation system and method for capturing prose, audio, and video by voice command and automatically linking sound and image to formatted text locations
US6446041B1 (en) * 1999-10-27 2002-09-03 Microsoft Corporation Method and system for providing audio playback of a multi-source document
WO2001046853A1 (en) * 1999-12-20 2001-06-28 Koninklijke Philips Electronics N.V. Audio playback for text edition in a speech recognition system
US6813603B1 (en) * 2000-01-26 2004-11-02 Korteam International, Inc. System and method for user controlled insertion of standardized text in user selected fields while dictating text entries for completing a form
US6834264B2 (en) * 2001-03-29 2004-12-21 Provox Technologies Corporation Method and apparatus for voice dictation and document production
US7444285B2 (en) * 2002-12-06 2008-10-28 3M Innovative Properties Company Method and system for sequential insertion of speech recognition results to facilitate deferred transcription services

Also Published As

Publication number Publication date
US20070067168A1 (en) 2007-03-22
EP1692610A2 (en) 2006-08-23
WO2005052785A3 (en) 2006-03-16
WO2005052785A2 (en) 2005-06-09
CN1886726A (zh) 2006-12-27

Similar Documents

Publication Publication Date Title
US20200294487A1 (en) Hands-free annotations of audio text
US20190196666A1 (en) Systems and Methods Document Narration
US8498866B2 (en) Systems and methods for multiple language document narration
US8548618B1 (en) Systems and methods for creating narration audio
US8793133B2 (en) Systems and methods document narration
JP2016048565A (ja) 音声認識方法
US6915258B2 (en) Method and apparatus for displaying and manipulating account information using the human voice
JP2005165066A (ja) 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
WO2007055233A1 (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
JP2010060850A (ja) 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム
CN105637503B (zh) 具有同时文本编辑的语音识别方法和系统
JP4020083B2 (ja) 書き起こしテキスト作成支援システムおよびプログラム
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2007512612A (ja) オーディオ信号を転記する方法及び装置
US20030097253A1 (en) Device to edit a text in predefined windows
JP5818753B2 (ja) 音声対話システム及び音声対話方法
JP2001325250A (ja) 議事録作成装置および議事録作成方法および記録媒体
JP6387044B2 (ja) テキスト処理装置、テキスト処理方法およびテキスト処理プログラム
JP3308929B2 (ja) 音声入力機能付き情報処理装置
JP2005017949A (ja) 文書作成支援システム
JP2015187733A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2006277705A (ja) 議事録自動調製システム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080205