JP2005505804A

JP2005505804A - 認識されたテキストの一部をマークするための音声認識装置

Info

Publication number: JP2005505804A
Application number: JP2003537051A
Authority: JP
Inventors: ヘインリッヒエフバルトシク; クレシミルラジク
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-10-12
Filing date: 2002-10-07
Publication date: 2005-02-24
Also published as: CN1312657C; US20030074195A1; US7376560B2; EP1438710A1; ATE496363T1; WO2003034404A1; EP1438710B1; DE60239005D1; CN1568500A

Abstract

話されたテキスト（ＧＴ）を認識されたテキスト（ＥＴ）に転写し、認識されたテキスト（ＥＴ）の間違って認識された部分を編集するためのトランスクリプション装置（１）において、話されたテキスト（ＧＴ）及び／又は認識されたテキスト（ＥＴ）のうち共通の特性を有する部分を自動的に及び手動でマークするためのマーキング手段（１２、１５、１７）が提供される。その結果、テキストのうち共通の特性を有するマークされた部分の後続する統一された処理が可能になる。

Description

【技術分野】
【０００１】
本発明は、話されたテキストを認識されたテキストに転写し、認識されたテキストの間違って認識された部分を編集するためのトランスクリプション装置であって、話されたテキストのそれぞれの部分に関するリンク情報が関連する認識されたテキストにフラグを立てる装置に関する。
【０００２】
本発明は更に、話されたテキストを認識されたテキストに転写し、認識されたテキストの間違って認識された部分を編集するためのトランスクリプション方法であって、話されたテキストのそれぞれの部分に関するリンク情報が関連する認識されたテキストにフラグを立てる方法に関する。
【背景技術】
【０００３】
この種のトランスクリプション装置及びこの種のトランスクリプション方法は米国特許第５，０３１，１１３号公報から既知であり、この公報にはディクテーティング装置が開示されている。既知のディクテーティング装置は、音声認識ソフトウェア及びテキスト処理ソフトウェアを走らせるコンピュータによって形成される。既知のディクテーティング装置のユーザは、コンピュータに接続されたマイクロフォンに向かって話されたテキストを話すことができる。トランスクリプション装置を形成する音声認識ソフトウェアは、トランスクリプション方法を実施し、その際、認識されたワードを話されたテキストのそれぞれの話されたワードに割り当てる。この結果、話されたテキストについて、認識されたテキストが得られる。更に、トランスクリプション方法の一部分として、話されたテキストのそれぞれの話されたワードについて認識された認識されたテキストのワードにフラグを立てるリンク情報が決定される。
【０００４】
既知のディクテーション装置は更に、マーキング情報を自動的に決定し記憶するためのマーキング手段を有する。認識されたテキストのうち１つ又は複数のワードは、例えばこのケースではコマンドとして認識されることができ、このコマンドは、例えば認識されたテキストをフォーマットする際に実行されうる。こうして、認識されたテキストにおけるワードのシーケンス（以後、ワードシーケンスと呼ぶ）「...next word bold...」は、認識されたテキストにおける後続のワードをフォーマットするためのコマンドとして解釈されることができる。これらの既知のマーキング手段は、共通の特性をもつ認識されたテキストにおけるワードシーケンスをマークするコマンドマーキング情報を自動的に決定し記憶するように構成されており、これによって、このようなワードシーケンスは、認識されたテキストのワードをフォーマットするためのコマンドとして使用されることができる。
【０００５】
既知のディクテーション装置は更に、テキスト処理ソフトウェアを走らせ、こうして補正装置を形成し、この補正装置により、間違って認識されたワードが編集されることができる。この目的で、補正装置のユーザは、補正装置の同期再生モードを起動させることができ、同期再生モードにおいて、話されたテキストが音響的に再生され、これと同時に、リンク情報によってフラグを立てられた認識されたテキストのワードが、視覚的に強調される（すなわちマークされる）。同期再生モードは、実際には、音声認識装置により認識されたテキストの補正に特に有利なことがわかった。
【発明の開示】
【発明が解決しようとする課題】
【０００６】
実際には、多くのユーザにとってコマンドのための正しいワードシーケンスを覚えることが困難であることが分かった。従ってユーザは、例えば「...next word should be bold...」と言うが、マーキング手段はこのワードシーケンスをコマンドとして認識せず、それゆえそれをマークしない。従って、ユーザは、この認識されたテキストを補正するとき、認識されたテキストからそのようなワードシーケンス全体を削除し、そのシーケンスのあとに続くワードを手動でフォーマットしなければならず、これは非常に時間がかかる。更に同期再生モードに関連して生じる不利益がある。すなわち、認識されたテキストがこのようにして補正されたのち、認識されたテキストから削除されたこのワードシーケンスの話されたテキストに関するリンク情報が、認識されたテキストにおける間違ったワードを指すか又はその中のいかなるワードも指さないかのいずれかであり、これは、後続の同期再生においてエラーを生じさせ、ユーザを混乱させる。
【０００７】
本発明の目的は、上述の不利益が回避されるような上述の第１の段落に規定される種類のトランスクリプション装置及び上述の第２の段落に規定される種類のトランスクリプション方法を提供することである。
【課題を解決するための手段】
【０００８】
この目的を達成するため、本発明による特徴は、この種のトランスクリプション装置において提供され、このようなトランスクリプション装置は、以下に記述される態様において特徴付けられることができる。
【０００９】
話されたテキストを認識されたテキストに転写し、認識されたテキストの間違って認識された部分を編集するためのトランスクリプション装置であって、話されたテキストのそれぞれの部分に関するリンク情報が関連する認識されたテキストにフラグを立て、前記トランスクリプション装置は、受け取られた話されたテキストを認識されたテキストに転写し、リンク情報を生成するための音声認識手段と、話されたテキスト、認識されたテキスト及びリンク情報を記憶するためのメモリ手段と、認識されたテキスト及び／又は話されたテキストのうち、該テキストのすべてのマークされた部分に共通する特定の特性をもつ部分にフラグを立てるマーキング情報を自動的に決定し、決定された該マーキング情報をメモリ手段に記憶するためのマーキング手段であって、認識された又は話されたテキストのうちこの共通の特性をもつ他の部分が、このマーキング情報によりマークされることを可能にするために、マーキング情報を手動で入力するための入力手段を有するマーキング手段と、テキストのマークされた部分を統一的に処理するための処理手段とを有する。
【００１０】
上述の目的を達成するため、本発明による特徴は、上述の種類のトランスクリプション方法において提供され、このようなトランスクリプション方法は、以下に記述される態様において特徴付けられることができる。
【００１１】
話されたテキストを認識されたテキストに転写し、認識されたテキストの間違って認識された部分を編集するためのトランスクリプション方法において、話されたテキストのそれぞれの部分に関するリンク情報が関連する認識されたテキストにフラグを立て、受け取られた話されたテキストを認識されたテキストに転写し、リンク情報を生成するステップと、話されたテキスト、認識されたテキスト及びリンク情報を記憶するステップと、マーキング情報を自動的に決定し、決定されたマーキング情報を記憶するステップであって、該マーキング情報が、認識されたテキスト及び／又は話されたテキストのうち該テキストのすべてのマークされた部分に共通する特定の特性をもつ部分にフラグを立てるものである、ステップと、認識された又は話されたテキストのうちこの共通の特性をもつ他の部分がこのマーキング情報によりマークされることを可能にするためにマーキング情報を手動で入力するステップと、テキストのマークされた部分を統一的に処理するステップとが実施される。
【００１２】
本発明による特徴は、ユーザが、認識されたテキスト及び／又は話されたテキストの一部を、認識されたテキストの特定の他の部分が以前に自動的にマークされたことがありうる同じマーキング情報により手動でマークすることができるようにする。後続の処理動作において、テキストのうち共通の特性をもつこれらの自動的に又は手動でマークされた部分は、処理手段により統一されたやり方で処理されることができる。テキストのマークされた部分の共通の特性は、このケースでは例えば以下のが挙げられる。認識されたテキストにおけるマークされたワードのシーケンスはコマンドに割り当てられ又はヘッダとしてフラグを立てられる。認識されたテキストのマークされた部分は、リンク情報によって、言いよどみサウンド、ポーズ、話されたテキストの不明瞭な部分、又は繰り返されたワードのようなテキストの冗長な部分を含む話されたテキストの部分に割り当てられる。
【００１３】
その結果として、テキストのすでに自動的にマークされた部分は、手動マーキングにより補足されることができ、それによって話されたテキスト及び／又は認識されたテキストのうち特定の特性をもつすべてのマークされた部分が、後続の処理動作において統一されたやり方で処理されることができるという利点が得られる。こうして、例えば、テキストのうち音声認識手段によって困難を伴って、すなわちおそらく認識の多くのエラーを伴って認識されるの部分のすべて及びテキストのうち同期再生モードにおいて補正者によって困難なものとして手動で認識される部分のすべては、話されたテキストの作者をチェックの目的でテキストのこれらのマークされた部分に注目させるために、統一されたやり方でマークされることができる。同様に、マーキング手段がコマンドが割り当てられているワードシーケンスを自動的にマークするためにすでに使用したのと同じコマンドマーキング情報により、異なるワードシーケンスがマークされることができる。この結果、そのコマンドは、テキストのこれらの手動でマークされた部分にも割り当てられる。
【００１４】
請求項２の規定は、テキストの自動的に及び手動でマークされた部分がパラメータ適応化のために評価されることができ、このパラメータ適合化によって、認識されたテキストの品質が改善されることができるという利点を与える。更に、認識されたテキストにおけるワードシーケンスは、手動マーキングによってコマンドマーキング情報を用いてコマンドに割り当てられることができ、このようなワードシーケンスは、適合化中にマーキング手段においてコマンドの組に加えられ、次回は自動的にマークされる。
【００１５】
請求項３及び請求項１０の規定は、例えばテキストのうち言いよどみサウンドとして自動的に及び手動でマークされた部分のすべてが、同期再生モードにおいて音響的に再生されるわけではなく、認識されたテキストの光学的な再生中は隠されるという利点を与える。その結果、音響再生中の時間が節約されるとともに、ユーザは認識されたテキストの重要な部分に集中できるので、認識されたテキストは、より一層効率的に補正されることができる。
【００１６】
請求項４及び請求項１１の規定は、認識されたテキスト及び／又は話されたテキストのうち同期再生モードが起動されたとき少なくとも一度音響的に再生され視覚的にマークされた部分が、マーキング手段によって再生マーキング情報を用いて自動的にマークされるという利点を与える。補正をより容易にするため、トランスクリプション装置は、有利には、テキストのうち再生マーキング情報によりすでにマークされた部分の同期再生中に、例えば言いよどみサウンド及び反復されたワードのすべてを音響的に再生することができる。その結果、本発明による補正装置のユーザは、認識されたテキストをより一層効率的に補正することができる。
【００１７】
請求項５の規定は、認識されたテキストにおいて、テキストのうち抑制されているマークされた部分が位置するところに置き換えテキストが表示されるという利点を与える。この置き換え情報がテキストのうち抑制されたマークされた部分の特性にフラグを立てる場合は特に有利である。
【００１８】
請求項６の規定は、ユーザが、そのときにより有利であるような認識されたテキストの表示の態様を簡単なやり方で選択できるという利点を与える。
【００１９】
請求項７の規定は、テキストモジュールを表示する他の有利な態様に切り替えることが可能であるという利点を与える。
【００２０】
請求項８及び請求項１２の規定は、テキストのうち複数の特性をもつ部分は、マーキング情報の適当な異なるアイテムによりマークされることができるという利点をもつ。テキストの一部は、例えばヘッダとしてマークされるとともに、言いよどみサウンドを含むことができる。この場合、言いよどみサウンドは、ヘッダマーキング情報と、言いよどみサウンドマーキング情報との双方によりマークされ、こうして話された及び認識されたテキストにおけるヘッダの後続の編集中及びこれらのテキストにおける言いよどみサウンドの編集中に編集される。
【発明を実施するための最良の形態】
【００２１】
本発明は、１つの実施例を示す図面を参照してより詳しく記述されるが、本発明はこれに限定されない。
【００２２】
図１は、話されたテキストＧＴを認識されたテキストＥＴに転写し、認識されたテキストＥＴのうち正しく認識されなかった部分を編集するためのトランスクリプション装置１を示している。トランスクリプション装置１は、第１のコンピュータによって並びに第２及び第３のコンピュータによって形成される。第１のコンピュータは、音声認識ソフトウェアを走らせ、音声認識装置２を形成する。第２及び第３のコンピュータはそれぞれテキスト処理ソフトウェアを走らせ、テキストの正しく認識されなかった部分を補正するために第１の補正装置３及び第２の補正装置４を形成する。本発明によるトランスクリプション装置は、音声認識装置及び補正装置の双方を形成するただ１つのコンピュータによって形成されることもできることを述べることができる。そのようなコンピュータは、音声認識ソフトウェア及びテキスト処理ソフトウェアの双方を走らせる必要がある。
【００２３】
音声認識装置２を形成する第１のコンピュータにはマイクロフォン５が接続され、話されたテキストＧＴを表すオーディオ信号Ａはマイクロフォン５から送り出されることができる。音声認識装置２は、Ａ／Ｄコンバータ６、音声認識手段７、メモリ手段８、パラメータメモリ手段９、コマンドメモリ手段１０及び適応化段１１を有する。マイクロフォン５によって送り出されるオーディオ信号ＡはＡ／Ｄコンバータ６に供給されることができ、Ａ／Ｄコンバータ６はオーディオ信号ＡをデジタルオーディオデータＡＤに変換する。
【００２４】
話されたテキストＧＴを表すオーディオデータＡＤは音声認識手段７に供給されることができ、それによってメモリ手段８に記憶されることができる。音声認識プロセスが音声認識手段７によって実施されているとき、音声認識手段７は、認識されたテキストＥＴを決定し、その際、パラメータメモリ手段９に記憶されているパラメータ情報ＰＩが考慮に入れられる。パラメータ情報ＰＩは、この例ではボキャブラリ情報、言語モデル情報及び音響情報を含む。
【００２５】
ボキャブラリ情報は、音声認識手段７によって認識されることができるすべてのワードと、関連する音素シーケンスとを含む。言語モデル情報は、話されたテキストＧＴの言語において通常使用されるワードシーケンスに関する統計情報を含む。音響情報は、トランスクリプション装置１のユーザの発音の特徴に関する情報と、マイクロフォン５及びＡ／Ｄコンバータ６の音響特性に関する情報とを含む。
【００２６】
米国特許第５，０３１，１１３号公報の開示は、参照によって本発明の開示に盛り込まれるものとする。この種のパラメータ情報ＰＩを考慮した音声認識プロセスの実施は、前述の米国特許公報に開示されているので、その詳細な記述はここに示されない。音声認識プロセスの結果として、認識されたテキストＥＴを含むテキストデータが音声認識手段７によってメモリ手段８に記憶されることができる。
【００２７】
音声認識プロセスの実施中、話されたテキストＧＴのそれぞれの部分について音声認識手段７によって認識される関連するテキストＥＴにフラグを立てるリンク情報ＬＩもまた、音声認識手段７によって決定されることができる。リンク情報ＬＩの生成は、米国特許第５，０３１，１１３号公報に同様に開示されており、この理由のためここに詳細に記述されない。
【００２８】
図２において、作成者（author、話者）すなわち音声認識装置２のユーザによってマイクロフォン５に向かって話されたテキストＧＴが、時間軸ｔに沿って記号的な形式で図示されている。この話されたテキストＧＴについて音声認識手段７によって認識されたテキストＥＴも図示されている。音声認識プロセスが実施されているとき、話されたテキストＧＴは、関連する音響情報を含むオーディオセグメントＡＳに分割される。この種の関連する音響情報は、例えばワード、２つのワード間の長めの音声ポーズ、「あー（aah）」又は「んー（mm）」のようないわゆる言いよどみサウンド、又はノイズでありうる。
【００２９】
リンク情報ＬＩは、話されたテキストＧＴのそれぞれのオーディオセグメントＡＳ及び認識されたテキストＥＴの関連するセグメントＴＳの始め及び終わりにフラグを立てる。第１のオーディオセグメントＡＳ１は、例えば話されたテキストＧＴの第１のワード「The」について１．５秒間つづく音響情報を含み、リンク情報ＬＩによって割り当てられる第１のテキストセグメントＴＳ１は、音声認識手段７によって認識されたワード「The」のテキストを含む。
【００３０】
コマンドメモリ段１０は、音声認識装置２によって認識されるワードシーケンスをコマンドとして記憶する。コマンドメモリ段１０に記憶されるコマンドテーブルＢＴの一部が図３に示されている。コマンドテーブルＢＴを参照することにより、音声認識手段７は、「next word bold」なるワードシーケンスを、例えば認識されたテキストＥＴにおける次のワードがボールド体で示されるようにするためのコマンドとして認識する。コマンドテーブルＢＴにおいて、このコマンドにはコマンド番号ＢＩ１２が割り当てられる。「insert text of module 1」なるワードシーケンスは、同様に、このケースではコマンドメモリ段１０の位置「２３４１」のメモリ位置に記憶されたテキストモジュールから標準テキストが認識されたテキストＥＴに挿入されるようにするためのコマンドとして認識される。
【００３１】
音声認識手段７は第１のマーキング段１２を更に有し、この第１のマーキング段１２は、マーキング情報ＭＩのさまざまな異なるアイテムを自動的に決定し、そのように決定されたマーキング情報ＭＩのアイテムをメモリ手段８に記憶するように構成される。マーキング情報ＭＩのアイテムは、認識されたテキストＥＴ及び話されたテキストＧＴのうち、テキストのそのようにマークされた部分すべてに共通する特定の特性を有する部分にフラグを立てる。「自動的」なる語は、「トランスクリプション装置１のユーザによるいかなるアクションもなしで」という意味としてこのコンテキストにおいて理解されるべきである。第１のマーキング段１２は、ポーズマーキング情報ＰＭＩによって長めの音声ポーズを、言いよどみサウンドマーキング情報ＨＭＩによって言いよどみサウンドを、コマンドマーキング情報ＣＭＩによってコマンドを、反復マーキング情報ＲＭＩによって反復されたワードを、日付マーキング情報ＤＭＩによって日付を、ノイズマーキング情報ＧＭＩによってノイズを、自動的にマークするように構成される。
【００３２】
図４は、メモリ手段８に記憶されるマーキングテーブルＭＴを示しており、マーキングテーブルＭＴには、第１のマーキング段１２によって自動的に決定されたマーキング情報ＭＩのアイテムが第１のマーキング段１２によって入力される。認識されたテキストＥＴにおけるコマンドを自動的にマークするために、第１のマーキング段１２は、コマンドテーブルＢＴに含まれるワードシーケンスを、認識されたテキストＥＴに含まれるワードシーケンスと比較する。コマンドテーブルＢＴに含まれるワードシーケンスが認識されたテキストＥＴに見つけられると、第１のマーキング段１２は、このワードシーケンスを識別する認識されたテキストＥＴのテキストセグメントＴＳと、関連するコマンド番号ＢＩとを、マーキングテーブルＭＴにコマンドマーキング情報ＣＭＩとして入力する。これは、適用例を参照して以下により詳しく記述される。
【００３３】
マーキングテーブルＭＴにおいて認識されたテキストＥＴの特定のテキストセグメントＴＳを識別するのではなく、話されたテキストＧＴの適当なオーディオセグメントＡＳがそれぞれのケースにおいて入力されることも可能であることを述べることができる。それぞれのケースにおいて関連付けられるオーディオセグメントＡＳ及びテキストセグメントＴＳは、リンク情報ＬＩの助けによって決定されることができる。
【００３４】
音声認識手段７は、２つのワード間の音声ポーズ（無音）を認識するように構成され、第１のマーキング段１２は、マーキングテーブルＭＴにおいて話されたテキストＧＴの対応するオーディオセグメントＡＳをポーズマーキング情報ＰＭＩにより自動的にマークするように構成される。
【００３５】
第１のマーキング段１２は、第１のマーキング段１２に記憶された言いよどみサウンド（例えば「あー（aah）」又は「んー（mhh）」）を、認識されたテキストＥＴに含まれるワードと比較し、このような言いよどみサウンドを含む認識されたテキストＥＴのテキストセグメントＴＳを言いよどみサウンドマーキング情報ＺＭＩにより自動的にマークするように構成される。
【００３６】
第１のマーキング段１２は更に、話されたテキストＧＴのオーディオセグメントＡＳがノイズ及び／又はサウンドを含む場合、話されたテキストＧＴのこれらオーディオセグメントＡＳをノイズマーキング情報ＧＭＩにより自動的にマークするように構成される。この目的のため、マーキング段１２は、ノイズ及び／又はサウンドを、ワードを含むオーディオセグメントと区別することができるノイズ検出器を有する。
【００３７】
認識されたテキストＥＴにおける反復されたワードを反復マーキング情報ＲＭＩによりマークするために、第１のマーキング段１２は、認識されたテキストＥＴにおいて次々と続くワード又はワードシーケンスを比較するように構成される。マーキングテーブルＭＴは更に、適用例を参照してより詳しく以下に示される日付マーキング情報ＤＭＩを含む。
【００３８】
トランスクリプション装置１の第１の補正装置３は再生手段１３を有し、再生手段１３は、メモリ手段８及びコマンドメモリ段１０と共に、テキスト処理ソフトウェアを走らせる第２のコンピュータによって形成される。更に第２のコンピュータには、モニタ１４、キーボード１５及びスピーカ１６が接続され、これらは、第１の補正装置３にも同様に関連付けられる。再生手段１３は、同期再生モードが第１の補正装置３において起動されるとき、話されたテキストＧＴを音響的に再生し、同時に、リンク情報ＬＩによってフラグを立てられる関連する認識されたテキストＥＴを視覚的又は光学的にマークするように構成される。
【００３９】
起動された同期再生モードにおける認識されたテキストＥＴの補正は再び米国特許第５，０３１，１１３号公報に開示されており、実際に非常に有利であることがわかった。このケースでは、補正者すなわち認識されたテキストＥＴを補正している第１の補正装置３のユーザは、作成者によってマイクロフォン５に向かって話されたテキストＧＴを聞くことと、その話されたテキストＧＴについて音声認識手段７によって認識されたテキストＥＴをチェックし又は編集することが同時に可能である。認識されたテキストＥＴは、モニタ１４上に光学的に表示され、ちょうど音響的に再生された話されたワードについて音声認識手段７によって認識されたワードは、再生手段１３によって光学的にマークされ、それゆえモニタ１４に表示される。補正者は、同期再生モードを起動させ、中断し、停止させることができるとともに、認識されたテキストＥＴをキーボード１５を用いて編集することができる。
【００４０】
第２の補正装置４の構造は、図１に詳しく示された第１の補正装置３の構造とほぼ同じであり、この理由で、第２の補正装置４は、図１に単にブロックとして図示されている。しかしながら、第２の補正装置４は、音声認識装置２とは物理的に異なる。この理由で、第２の補正装置４は更に、第１の補正装置３により補正された認識されたテキストＥＴが編集される前に、メモリ手段８及びコマンドメモリ段１０に記憶された情報が記憶されるメモリ手段及びコマンドメモリ手段を有する。
【００４１】
第２の補正装置４は、例えば検査者、すなわち第２の補正装置４のユーザによって使用されることができる。検査者は、メモリ手段８に記憶された認識されたテキストＥＴが補正者によって補正されたのち、補正者によってなされた作業の品質をチェックする。この目的のため、検査者は、認識されたテキストＥＴにおけるエラーを補正者が見逃がしたかどうかチェックする。このような検査者は主にトランスクリプション会社によって雇われており、そのような会社は、補正された認識されたテキストをランダムにチェックすることによって転写されたテキストの品質を保証する。これは、トランスクリプション装置１の適用例を参照して詳しく記述される。
【００４２】
トランスクリプション装置１の再生手段１３は、第２のマーキング段１７を更に有し、この第２のマーキング段１７は、キーボード１５及び第１のマーキング段１２と共に、話されたテキストＧＴ又は認識されたテキストＥＴの一部を自動的に及び手動でマークするためのマーキング手段を形成する。第２のマーキング段１７により、補正者は、認識されたテキストＥＴを補正する際、自動的にマークされなかったテキストの他の部分を手動でマークする機会をもつ。
【００４３】
テキストの一部のこの手動マーキングは、すでに自動的にマークされたテキストの部分と同じ特性をもつ認識されたテキストＥＴの部分を手動でマークするために使用されることができ、これによりパラメータ情報ＰＩ又はコマンドテーブルＢＴに記憶された情報が、適応化段１１の助けにより適応化されることを可能にする。この適応化により、第１のマーキング段１２は、手動でマークされたテキストの部分を次回は自動的にマークすることができるようになる。加えて、音声認識装置２の認識率が、それぞれの適応化ごとに改善される。その結果、トランスクリプション装置は、それぞれの更なる使用により、補正者が果たさなければならない作業をますます低減することができるという利点が得られる。
【００４４】
テキストの一部のこの手動のマーキングは、テキストの一部を削除されるものとしてマークするために使用されることもできる。このようなテキストの一部は、作成者に伝えられる認識されたテキストには現れないが、それにもかかわらず全面的に削除されるわけではない。テキストの一部を削除されるものとしてマークすることは、テキストのこのような部分が必要に応じて後になって認識されたテキストに再び含められることができるとともに、検査者がテキストのこれらの部分が削除されることが正しかったかどうかチェックすることができるという利点をもつ。しかしながら、認識されたテキストＥＴのどの部分も実際には削除されていないので、話されたテキストＧＴと認識されたテキストＥＴとの間のリンク情報ＬＩによって提供される関係はまったく損なわれないままであることは特に有利である。それゆえ、同期再生モードが起動されるとき、削除されるものとしてマークされた話されたテキストＧＴの部分が音響的に再生されている間に、テキストの削除される部分に代わって置き換えテキストが光学的にマークされることができる。これについては以下に詳しく記述される。
【００４５】
こうして同じ特性を持つテキストの部分の手動マーキングによりテキストの一部の自動マーキングを補足することは、編集された認識されたテキストＥＴが特に効率的なやり方で更に編集されることができるという他の利点をもつ。こうして、例えば、認識されたテキストのうち日付としてマークされたすべての部分のフォーマッティングは特に効率的に一様に修正されることができる。これについては、以下に詳しく記述される。
【００４６】
マーキング手段の第２のマーキング段１７は更に、メモリ手段８に再生マーキング情報ＷＭＩを記憶するように構成される。この再生マーキング情報ＷＭＩは、起動された同期再生モード中に再生手段１３によって少なくとも一度再生された認識されたテキストＥＴ及び／又は話されたテキストＧＴの部分にフラグを立てる。
【００４７】
この結果、マーキングテーブルＭＴに含まれる再生マーキング情報ＷＭＩを評価することによって、再生手段１３は、認識されたテキストＥＴのうち同期再生モードの助けにより一度すでに補正された部分を視覚的にマークし、又は話されたテキストＧＴの関連する部分を音響的にマークすることができるという利点が得られる。その結果、本発明による補正装置のユーザは、認識されたテキストをより一層効率的に補正することができる。これについては適用例を参照して以下に詳しく記述される。
【００４８】
再生手段１３は更に、同期再生モードが起動されるとき、話されたテキストＧＴの所望されない部分の音響再生を抑制するように構成される。このような所望されない部分は、メモリ手段８に記憶された抑制情報によってフラグを立てられる。この場合、補正者は、キーボード１５を使用して、マーキングテーブルＭＴに含まれるマーキング情報ＭＩのどのアイテムが抑制情報として使用されるべきかを設定することができる。ユーザは、例えばポーズマーキング情報ＰＭＩ及び言いよどみサウンドマーキング情報ＨＭＩを抑制情報として選択することができ、そのようにマークされたテキストの部分は、話されたテキストＧＴが初めて再生されるときに抑制される。これについては適用例を参照して詳しく記述される。
【００４９】
以下、トランスクリプション装置１の利点について図３乃至図９に示される適用例を参照して詳しく説明される。図５は、作成者によってマイクロフォン５に向かって話されたテキストＧＴの５つの部分を示している。図６は、話されたテキストＧＴの５つの部分について音声認識手段７によって認識されたテキストＥＴを示しており、ここで、認識されたテキストＥＴの一部はすでに第１のマーキング段１２によって自動的にマークされている。更に図６には、第２のマーキング段１７の助けにより補正者によって手動でマークされたテキストの部分が示されている。図７は、テキストの自動的に及び手動でマークされた部分が置き換えテキストと置き換えられて示されている形式で、認識されたテキストＥＴを示している。図８は、テキストのすべてのマークされた部分が抑制された形式で、認識されたテキストＥＴを示しており、認識されたテキストＥＴはこの形式で作成者に伝えられる。
【００５０】
第１の例において、作成者は、マイクロフォンに向かってテキスト「...company PHILIPS....」と言い、同時に、ワード「PHILIPS」をボールド体としてマークすること望んだ。しかしながら、ワード「company」ののち、作成者は、ボールドフォーマッティング用のコマンドのための言い方は正確にはどんなであるかを少しの間思案し、多くの作成者と同じように、思案するときに言いよどみサウンド「aah」を発する。作成者はそれから「bold next」と言うが、そのように言うとき、このコマンドのための正しいワードシーケンスが「next word bold」であることに気づき、このため「no」と言う。作成者はそれから正しいコマンド「next word bold」と言い、ワード「PHILIPS」とテキストを続ける。
【００５１】
図６から分かるように、音声認識手段７は、オーディオセグメントＡＳ３についてテキストセグメントＴＳ３＝「aah」を認識し、マーキングテーブルＭＴの第４行において、第１のマーキング段１２は、この言いよどみサウンドを言いよどみサウンドマーキング情報ＨＭＩにより自動的にマークする。言いよどみサウンドの代わりに、図６には置き換えテキスト「<hes>」が示されており、これにより、補正者は、言いよどみサウンドがこの点でマークされていることを見ることができる。補正者が、認識されたテキストＥＴを編集する際にこの置き換えテキスト上に再生手段１３のテキストカーソルを位置付ける場合、音声認識手段７によって認識された言いよどみサウンドが表示される。この結果、補正者は、補正する際に認識されたテキストＥＴの重要な部分に集中することができるが、補正者は、言いよどみサウンドに隣接するワードを補正することができるようにするため作成者がここでどんな言いよどみサウンドを発したかを知りたいと思う場合、補正者は、この言いよどみサウンドをいかなるときにも見ることができるという利点が得られる。
【００５２】
更に、音声認識手段７は、オーディオセグメントＡＳ７−ＡＳ９について、テキストセグメントＴＳ７−ＴＳ９によって形成されるワードシーケンス「next word bold」を認識し、これらのテキストセグメントＴＳ７−ＴＳ９に対して、コマンドテーブルＢＴにおいてコマンド番号ＢＩ１２をもつコマンドが割り当てられる。有利には、第１のマーキング段１２は、これらのテキストセグメント及びこのコマンド番号を、マーキングテーブルＭＴの第４行にコマンドマーキング情報ＣＭＩとして自動的に入力する。図６にはこれらのテキストセグメントの代わりに置き換えテキスト「<com>」が図示されており、この結果として前述の利点が得られる。更に、コマンドＢＩ１２が実行され、オーディオセグメントＡＳ１０について認識されたテキストセグメントＴＳ１０を形成するワード「PHILIPS」がボールド体で表示される。
【００５３】
補正者は、キーボード１５及び第２のマーキング段１７を使用して、テキストセグメントＴＳ４及びＴＳ５をコマンド番号ＢＩ１２をもつコマンドとしてマークし、これによって、ワードシーケンス「bold next」は、次回、第１のマーキング段１２によってコマンドとして自動的に認識される。図７において、テキストのこの部分は、コマンドに関する置き換えテキスト「<com>」によって同様に表わされている。
【００５４】
第２のマーキング段１７は、コマンド番号ＢＩ１２を使用して、このワードシーケンスＴＳ４＋ＴＳ５をコマンドマーキング情報ＣＭＩとしてマーキングテーブルＭＴの第５行に入力する。適応化モードが音声認識装置２において起動されると、適応化段１１は、メモリ手段８から新しいコマンドマーキング情報ＣＭＩを読み取り、コマンド番号ＢＩ１２をもつコマンドについてコマンドテーブルＢＴに更なるエントリを設ける。
【００５５】
これは、補正者が特に容易に且つ効率的に他のワードシーケンスをコマンドとして規定することができ、このようなワードシーケンスが適応化モードにおいて音声認識装置２によって引き継がれるという利点を与える。こうして、音声認識プロセスが次に実施されるとき、ワードシーケンス「bold next」はコマンドとして自動的に認識される。
【００５６】
補正者は、キーボード１５及び第２のマーキング段１７によって、テキストセグメントＴＳ６「no」を削除されるテキストとしてマークすることを続ける。補正者は、作成者がこのワードを意図せずに言い、これが作成者に伝えられる最終のテキストに含められるべきではないことが分かっているからである。この削除されるテキストに関する置き換えテキスト「<skip>」が図７に示されている。
【００５７】
コマンド番号ＢＩ１２をもつコマンドは二度生じるべきでないので、補正者は更に、テキストセグメントＴＳ４−ＴＳ６を削除されるテキストとしてマークすることができることを述べることができる。
【００５８】
削除されるテキストとしてテキストセグメントＴＳ６を手動でマークすることは、リンク情報ＬＩによって与えられる相関関係が例えば第２の補正装置４により実施される後続の同期再生モード中にも完全に保存され、それゆえ同期再生がいかなるエラーもなく行われるという利点を与える。
【００５９】
図８は、第１の例において作成者に最終的に伝えられる認識されたテキスト「....company PHILIPS....」を示しており、このテキストは、言いよどみサウンド、意図せずに話された１つのワード及び間違ったコマンドにもかかわらず作成者が本当に意味したものである。
【００６０】
第２の例において、作成者がマイクロフォン５に向かって話したいと思うテキストは「....I fixed the left leg....」であるが、このケースでは、作成者は、オーディオセグメントＡＳ２０ののち思案し、３秒間黙っている。これは、第１のマーキング段１２によってポーズとして自動的に認識され、ポーズマーキング情報ＰＭＩとしてマーキングテーブルＭＴに入力される。図６には、思案のためのこのポーズに関する置き換えテキスト「<sil>」が示されている。
【００６１】
ポーズに続いて、作成者はワード「I」を反復し、これは、第１のマーキング段１２によって反復されたワードとして自動的に認識され、反復マーキング情報ＲＭＩとしてマーキングテーブルＭＴに入力される。図６には、テキストセグメントＴＳ２２に関する置き換えテキスト「<rep>」が示されている。
【００６２】
反復されたワードに続いて、作成者は、「fixed the left」と言い、思案のために別のポーズをおき、最後に「the left leg」と言う。思案のためのポーズは、第１のマーキング段１２によって再び自動的にマークされるが、ワード「the left」の反復は、自動的に認識されることができず、マークされることができない。ここで補正者は、テキストセグメントＴＳ２６−ＴＳ２８を反復されたワードとして手動でマークし、こうして対応する反復マーキング情報ＲＭＩがマーキングテーブルＭＴに入力されるようにする。
【００６３】
図８は、第２の例において作成者に最終的に伝えられる認識されたテキスト「...the left leg...」を示しており、これは、反復されたワード及び思案のためのポーズにもかかわらず作成者が本当に意味したものである。自動マーキングに加えて実施された手動マーキングの結果として、すべての反復されたワードは、認識されたテキストにおいてマークされ、更なる処理では、それらは例えばすべてディスプレイ上で抑制され又は適応化モードのために使用されることができる。
【００６４】
第３の例において、作成者がマイクロフォン５に向かって言いたいテキストは、「...and company PHILIPS will...」であるが、作成者は、ワード「and」ののち、くしゃみをする必要がある。従って、オーディオセグメントＡＳ５１は、作成者がくしゃみをするときに発するノイズを含む。音声認識手段７は、このオーディオセグメントＡＳ５１についてワードを認識することができず、この理由で、第１のマーキング段１２は、自動的に、このオーディオセグメントＡＳ５１をノイズマーキング情報ＧＭＩによりノイズとしてマークし、マーキングテーブルＭＴにそのように入力する。図６には、置き換えテキスト「<non sp>」が示されている。
【００６５】
くしゃみに続いて、作成者は、ハンカチを見つけるのに５秒かかり、それから鼻をかむ。オーディオセグメントＡＳ５２は、ポーズとして自動的にマークされ、マーキングテーブルＭＴにそのように入力される。作成者が鼻をかむときに発するノイズは、ノイズ「tata」に似ており、この理由で、音声認識手段７は、テキストセグメントＴＳ５３としてワード「that」を間違って認識する。
【００６６】
有利には、補正者は、同期再生モードが起動されるとこのエラーを直ちに認識し、テキストセグメントＴＳ５３をノイズマーキング情報ＧＭＩによりノイズとして手動でマークすることができる。これによって、第３の例において、認識されたテキストＥＴにおけるすべてのノイズは実際にそのようにマークされ、これらはすべて、他の処理段階中に同じように処理されることが可能であるという利点が得られる。第１のマーキング段１２のノイズ検出器は、例えば、テキストのこれらマークされた部分により適応化されることができ、それによってこのようなそのノイズは将来は自動的に認識されることができる。
【００６７】
第４の例において、作成者は、実際にディクテートしている間に、コマンドメモリ段１０に名前「モジュールｌ」の下でテキストモジュールとして記憶されている標準テキストを、認識されたテキストＥＴに挿入することを望む。この目的のため、作成者は、「...is the best. Insert text module one. All...」とディクテートする。認識されるテキストセグメントＴＳ７３−ＴＳ７６は、コマンド番号ＢＩ１３をもつコマンドとして認識され、図６には置き換えテキスト「<module 1>」が示されている。
【００６８】
これは、テキストモジュールが特に簡単なやり方で認識されたテキストＥＴに自動的に挿入されたという利点を与える。有利には、補正者又は検査者は、このケースでは３種類の表示の中から選択することができる。補正者又は検査者は、実際に認識されたテキストであるテキストセグメントＴＳ７３−ＴＳ７６、置き換えテキスト、又は図８に見られるコマンドメモリ段１０から加えられる標準テキストを見ることができる。
【００６９】
第５の例において、作成者がマイクロフォン５に向かって話すテキストは、「...tenth of October two thousand and one...」である。第１のマーキング段１２が自動的に認識し、日付としてマークしたワードシーケンスは、「October tenth two thousand and one」であった。しかしながら、話されたワードシーケンスは日付として認識されず、この理由のため、補正者は、テキストセグメントＴＳ８０−ＴＳ８６を日付マーキング情報ＤＭＩにより日付としてマークする。
【００７０】
これは、認識されたテキストにおいて日付として自動的に又は手動でマークされたテキストのすべての部分のフォーマットが後続の処理動作において特に容易に且つ統一されたやり方で変更されることができるという利点を与える。このために、補正者は、例えば日付マーキング情報ＤＭＩによりマークされたすべての日付がフォーマット「MM.DD.YYYY」で示されることを選択することができる。
【００７１】
第１の補正装置３の適用例は図９を参照して説明される。この例において、補正者が同期再生モードを起動させ、そのとき、話されたテキストＧＴ及び認識されたテキストＥＴが同時に、オーディオセグメントＡＳ１及びテキストセグメントＴＳ１からそれぞれ始まって初めて再生されるものとする。これは、矢印Ｐ１によって記号的に表されている。補正者は、一度目の再生中、ポーズマーキング情報ＰＭＩ、言いよどみサウンドマーキング情報ＨＭＩ及びノイズマーキング情報ＧＭＩによりマークされるテキストの部分に対するオーディオセグメントが音響的に再生されないように再生手段１３を構成した。これは、補正者が、話されたテキストＧＴを特に速く再生し、同じ時間により多くの認識されたテキストＥＴを補正することを可能にする。
【００７２】
再生中、マーキングテーブルＭＴにおける再生マーキング情報ＷＭＩは連続的に更新される。オーディオセグメントＡＳ５３（作成者が鼻をかむ）がちょうど音響的に再生されており、テキストセグメントＴＳ５３が視覚的にマークされているとき、補正者は、ワード「that」が正しく認識されなかったことを知る。図９には、このときのテキストカーソルの位置がＰ２によって記号的に示されている。しかしながら、補正者は、何が本当に認識されるべきであったかを確信していないので、オーディオセグメントＡＳ５０から始まる同期再生モードを再び起動させる。これは、図９において矢印Ｐ３によって記号的に示されている。
【００７３】
再生手段１３は、マーキングテーブルＭＴの第４行に入力された再生マーキング情報ＷＭＩから、オーディオセグメントＡＳ１乃至ＡＳ５３がすでに同期再生モードにおいて一度再生されたことを認識し、それゆえオーディオセグメントＡＳ５０乃至ＡＳ５３のすべてを音響的に再生する。これは、図９において矢印Ｐ４によって記号的に示されている。マークされたテキスト（ＰＭＩ、ＧＭＩ、ＨＭＩ）が音響再生中に再び抑制されるのは、オーディオセグメントＳ５４の再生から始まるときだけである（矢印Ｐ５参照）。
【００７４】
これにより、補正者が、認識されたテキストＥＴを正しく補正することを可能にするために利用できるすべてのマーキング情報を必要とするディクテーション中の節において、ディクテーションのすべてのオーディオセグメントＡＳが再生されるという利点が与えられる。補正者が一度だけ聞くことによって補正することができる他の節においては、不必要なオーディオセグメントＡＳが抑制される。
【００７５】
同様に、テキストのマークされた部分に関する置き換えテキストは、認識されたテキストＥＴが初めて再生されるときに有利に表示されることができ、再生が繰り返されるときだけ、実際に認識されたテキストＥＴへの切り替えが自動的に行われうる。
【００７６】
同期再生モードにおいてすでに一度再生されたテキストの部分の自動マーキングは更なる優れた利点をもつ。補正者が認識されたテキストＥＴをどれくらいよく補正したかをランダムサンプリングによって決定するのは検査者の仕事である。再生マーキング情報ＷＭＩはこの点で検査者にとって非常に有用である。これは、補正者が同期再生モードの助けによりテキストのどの部分をチェックし、テキストのどの部分をスキップし、それゆえ全くチェックしなかったかを検査者が直ちに確認することができるからである。こうして検査者は、認識されたテキストＥＴにエラーがあるかどうかを見るために、再生マーキング情報ＷＭＩによりマークされないテキストの部分を特別に調べることができる。
【００７７】
再生マーキング情報ＷＭＩは、補正者が自身の作業を中断され、あとからそれを続けたいと思う場合にも有利である。再生マーキング情報ＷＭＩによってフラグを立てられるテキストの音響的マーキング（例えば話されたテキストのバックグラウンドとしての連続トーン）又は視覚的マーキング（例えば反転文字で示される認識されたテキスト）の結果として、補正者は、直ちに自身の仕事を続けることができる。
【００７８】
第１の補正装置３は更に、同期再生モードが間違って認識されたワードを補正するために中断される場合、テキスト入力位置をマークするテキストカーソルが位置付けられることを可能にするために設けられる位置付け手段１８を有する。位置付け手段１８は、前記同期再生モードが中断されるとき認識されたテキストＥＴにおいてマークされるワードのＮワード手前にテキストカーソルを位置付ける。これは、認識されたテキストＥＴの当該部分が、再生マーキング情報ＷＭＩによりすでにマークされている場合である。位置付け手段１８はまた、同期再生モードが中断されるとき認識されたテキストＥＴにおいてマークされるワードのＭワード手前にテキストカーソルを位置付ける。これは、認識されたテキストＥＴの当該部分が、再生マーキング情報ＷＭＩによりマークされていない場合である。
【００７９】
例えば、規定される数字は、Ｍ＝３及びＮ＝１でありえる。この結果として、間違って認識されたワードが認識されたテキストＥＴにおいて初めて見つけられるとき、補正者のより長い応答時間が許される。これらの規定は、同期再生モードが一旦中断されると、テキストカーソルが通常、間違って認識されたワード上にすでに位置付けられており、テキストカーソルを手動で位置付けるために要する時間が節約されうるので、特に有利である。これは、当業者には明らかなＭ及びＮの有利な値の多くの他の組み合わせを与える。
【００８０】
位置付け手段１８が自己学習するように構成される場合は特に有利である。このケースでは、位置付け手段１８は、同期再生モードが中断されたあと補正者によって為される位置付けエントリからＮ及びＭに関する最適値を決定し（例えばテキストカーソルを２ワード先に又は５ワード後ろに置く）、それらの値を絶えずユーザの応答時間に適応化させる。
【００８１】
適応化段１１は更に、パラメータメモリ手段９に記憶されたパラメータ情報ＰＩを適応化させるために使用されることができる。これは、音声認識手段７の認識率が着実に改善され、認識されたテキストＥＴに含まれるエラーはより少なくなるという利点を与える。
【００８２】
上述の適用例から分かるように、個々のオーディオセグメント又はテキストセグメントは、マーキング情報ＭＩの１つ又は複数のアイテムによってマークされることができる。これは、認識されたテキストがいわゆるレベルにおいて有利な態様で処理されることを可能にする。この場合、コマンドに含まれる言いよどみサウンドは、例えば言いよどみサウンドとしてマークされる認識されたテキストＥＴの他のすべての部分と同様に編集されることができる（例えば抑制され、削除され、置き換えテキストが表示され、認識されたテキストが表示される）。これは、言いよどみサウンドを含むコマンドの編集を妨げることもない。テキストの一部がマーキング情報ＭＩの複数のアイテムによりマークされる場合、これらのレベルが光学的に表示されることも可能になる。
【００８３】
本発明によるテキストの自動及び手動マーキングは、マーキング情報ＭＩの複数の異なるアイテムにより実行されることができることを述べることができる。この種のマーキング情報ＭＩのアイテムは、例えば自動句読点（AutoPunctuation）、無音（Silence）、非音声（NonSpeech）、ノイズ、音楽、スペリング（Spelling）、言いよどみ（Hesitation）、挿入（Insertion）、数字形式（NumberFormatting）、日付形式（DateFormatting）、ヘッダ形式（HeaderFormatting）、列挙形式（EnumerationFormatting）、数量形式（QuantityFormatting）、自己補正（SelfCorrection）、フレーズ反復（PhraseRepetition）、どもり（Stutter）、散漫さ（Discursiveness）、スペリングシーケンス（SpellingSequence）、冗長フレーズ（RedundantPhrase）、不理解（NotUnderstood）、注釈（Remark）、削除、コマンドである。
【００８４】
テキストの一部のマーキングは、上述で説明されたようにテーブルによって実施されなくてもよく、代わりに木構造の形で行われてもよい。この場合、他のマークされたテキストセグメントを含むマークされたテキストセグメントは、木に似た形で枝の上に示される。
【００８５】
自動マーキングが、あとからではなく音声認識プロセスが実施されている間に行われることができることを述べることができる。
【００８６】
音声認識手段７によって困難を伴ってすなわちおそらく認識の多くのエラーを伴ってのみ認識されるテキストのすべての部分は、第１のマーキング段１２によって自動的にマークされることができ、同期再生モードにおいて補正者によって困難なものとして認識されるテキストのすべての部分は手動でマークされることができ、それによって話されたテキストの検査者又は作成者にチェックの目的でテキストのこれらのマークされた部分に対する注意を喚起する。これは、認識されたテキストに関する情報を渡す特に有利なやり方である。
【図面の簡単な説明】
【００８７】
【図１】話されたテキストを認識されたテキストに転写するためのトランスクリプション装置を示し、認識されたテキストを補正するための補正装置が設けられることを示す図。
【図２】話されたテキストと、トランスクリプション装置によって認識された対応するテキストと、話されたテキストのそれぞれのオーディオセグメントに対する認識されたテキストの関連するセグメントにフラグを立てるリンク情報とを記号的な形式で示す図。
【図３】トランスクリプション装置のコマンドメモリ段に記憶されるコマンドテーブルを示す図。
【図４】トランスクリプション装置のメモリ手段に記憶されるマーキングテーブルを示す図。
【図５】トランスクリプション装置のユーザによって話されたテキストの５つの例を記号的な形式で示す図。
【図６】話されたテキストの５つの例についてトランスクリプション装置の音声認識手段によって認識されるテキストを記号的な形式で示し、認識されたテキストの一部が音声認識手段の第１のマーキング段によって自動的にマークされており、ユーザが第２のマーキング段により手動でテキストの他の部分をマークしていることを示す図。
【図７】５つの例についてトランスクリプション装置の補正装置によって表示されるテキストを記号的な形式で示し、認識されたテキストのうち自動的にマークされたテキスト及び手動でマークされたテキストの双方が置き換えテキストとして表示されることを示す図。
【図８】テキストのマークされた部分に関するすべての置き換えテキストが抑制されるとき、補正装置によって表示されるテキストを記号的な形式で示す図。
【図９】話されたテキスト及び認識されたテキストの一度目及び後続の二度目の同期再生中にテキストのどの部分が再生されるかを記号的な形式で示す図。

Claims

話されたテキストを認識されたテキストに転写し、前記認識されたテキストの間違って認識された部分を編集するためのトランスクリプション装置であって、前記話されたテキストのそれぞれの部分に関するリンク情報が、関連する前記認識されたテキストにフラグを立てるトランスクリプション装置であって、
受け取られた前記話されたテキストを前記認識されたテキストに転写し、前記リンク情報を生成するための音声認識手段と、
前記話されたテキスト、前記認識されたテキスト及び前記リンク情報を記憶するためのメモリ手段と、
前記認識されたテキスト及び／又は前記話されたテキストのうち該テキストのすべてのマークされた部分に共通する特定の特性をもつ部分にフラグを立てるマーキング情報を自動的に決定し、決定された該マーキング情報を前記メモリ手段に記憶するためのマーキング手段であって、前記共通の特性をもつ前記認識された又は前記話されたテキストの他の部分が前記マーキング情報によりマークされることを可能にするために、前記マーキング情報を手動で入力するための入力手段を有する、マーキング手段と、
前記テキストのマークされた部分を統一的に処理するための処理手段と、
を有するトランスクリプション装置。
前記音声認識手段のパラメータが適応化されることを可能にするために、前記テキストのうち共通の特性をもつ自動的に及び手動でマークされた部分を評価するように構成される適応化段が設けられる、請求項１に記載のトランスクリプション装置。
前記トランスクリプション装置において同期再生モードが起動されるとき、前記話されたテキストを音響的に再生し、同時に、前記リンク情報によってフラグを立てられ光学的に再生される前記関連する認識されたテキストを視覚的にマークするための再生手段が設けられ、前記テキストの自動的に又は手動でマークされた部分の音響的又は光学的な再生は抑制されることが可能である、請求項１に記載のトランスクリプション装置。
前記マーキング手段は、前記認識されたテキスト及び／又は前記話されたテキストのうち前記同期再生モードが起動されたとき前記再生手段によって少なくとも一度再生された部分にフラグを立てる再生マーキング情報を自動的に決定し、前記メモリ手段に記憶するように構成される、請求項３に記載のトランスクリプション装置。
前記再生手段は、前記認識されたテキストの抑制される前記マークされた部分について、置き換えテキストを光学的に再生するように構成される、請求項３に記載のトランスクリプション装置。
前記再生手段は、前記置き換えテキストの光学的な表示と、前記テキストの前記マークされた部分の光学的な表示との間の切り替えを行うことができる、請求項５に記載のトランスクリプション装置。
テキストモジュールを形成する前記テキストの前記マークされた部分について、前記テキストモジュールに関して規定されるテキストの光学的な表示への他の切り替えが行われることができる、請求項６に記載のトランスクリプション装置。
前記マーキング手段は、前記話された又は前記認識されたテキストの一部が前記マーキング情報の少なくとも２つの異なるアイテムによってフラグを立てられる少なくとも２つの共通する特性をもつとき、前記話された又は前記認識されたテキストの前記一部を前記マーキング情報の前記少なくとも２つの異なるアイテムによりマークするように構成される、請求項１に記載のトランスクリプション装置。
話されたテキストを認識されたテキストに転写し、前記認識されたテキストの間違って認識された部分を編集するトランスクリプション方法であって、前記話されたテキストのそれぞれの部分に関するリンク情報が、関連する前記認識されたテキストにフラグを立てるトランスクリプション方法であって、
受け取られた前記話されたテキストを前記認識されたテキストに転写し、前記リンク情報を生成するステップと、
前記話されたテキスト、前記認識されたテキスト及び前記リンク情報を記憶するステップと、
前記認識されたテキスト及び／又は前記話されたテキストのうち該テキストのすべてのマークされた部分に共通する特定の特性をもつ部分にフラグを立てるマーキング情報を自動的に決定し、決定された該マーキング情報を記憶するステップと、
前記認識された又は前記話されたテキストの前記共通の特性をもつ他の部分が前記マーキング情報によりマークされることを可能にするため、前記マーキング情報を手動で入力するステップと、
前記テキストのマークされた部分を統一的に処理するステップと、
を含むトランスクリプション方法。
同期再生モードが起動されるとき、前記話されたテキストを音響的に再生し、同時に、前記リンク情報によってフラグを立てられ光学的に再生される前記関連する認識されたテキストを視覚的にマークするステップを含み、前記テキストの自動的に又は手動でマークされた部分の音響的及び光学的な再生は抑制されることが可能である、請求項９に記載のトランスクリプション方法。
前記認識されたテキスト及び／又は前記話されたテキストのうち起動された前記期再生モードにおいて以前に少なくとも一度再生された部分にフラグを立てる再生マーキング情報を自動的に決定し、記憶するステップを含む、請求項９に記載のトランスクリプション方法。
前記話された又は前記認識されたテキストの一部が前記マーキング情報の少なくとも２つの異なるアイテムによってフラグを立てられる少なくとも２つの共通の特性をもつとき、前記話された又は前記認識されたテキストの前記一部を前記マーキング情報の前記少なくとも２つの異なるアイテムによりマークするステップを含む、請求項９に記載のトランスクリプション方法。