JP2010510556A

JP2010510556A - 編集可能なオーディオストリームにおける音声の認識

Info

Publication number: JP2010510556A
Application number: JP2009538525A
Authority: JP
Inventors: カラックス，エリック; コール，デトレフ
Original assignee: マルチモダルテクノロジーズ，インク．
Priority date: 2006-11-22
Filing date: 2007-11-23
Publication date: 2010-04-02
Anticipated expiration: 2027-11-23
Also published as: CA2662564A1; EP2095363A2; US7869996B2; WO2008064358A3; EP2095363A4; WO2008064358A2; US20080221881A1; JP4875752B2; CA2662564C

Abstract

【課題】
コンシューマは、オーディオストリームが、以前に送信された部分的なオーディオストリームを無効にする編集操作を含むとしても、オーディオストリームを、それが生成され送信される間に、処理することが可能であり、それにより、完全なオーディオストリームのディクテーションとコンサンプションとの間のターンアラウンドタイムをより短くすることを可能にする。
【解決手段】
音声処理システムは、話されたオーディオストリームを部分的なオーディオストリーム（「スニペット」）に分ける。該システムは、話者が、一時停止し、次に録音を再開する。コンシューマは、スニペットが受信される際、スニペットを処理する（例えば、認識するまたは再生する）ことが可能である。コンシューマは、スニペットに反映された編集操作に反応して出力を修正することが可能である。
【選択図】図１

Description

本発明は、編集可能なオーディオストリームにおける音声の認識に関するものである。

様々な自動音声認識機器が、音声を転写するために存在する。かかるシステムは、一般的に、「逐語的なトランスクリプト」モードで操作することが可能であり、すべての話された言葉は、それらが話された順番で転写される。しかしながら、話者が、以前にディクテ−ト(ｄｉｃｔａｔｅ)された音声を無効にする編集操作を実行する際に、逐語的なトランスクリプトを作ることは、望ましくない。

例えば、携帯デジタルレコーダーにディクテ−トする話者を考察する。話者は、いくつかの文を話し、次に間違えて話したことに気づく。話者は、その以前の１０秒間の音声を再録音（置き換え）することを望み、彼は、１０秒間の録音を巻き戻し（恐らく、録音機器の巻き戻しボタンを押すことによって）、次に再び話し始め、前回の１０秒間の音声を訂正する。

かかる音声の逐語的なトランスクリプトは、それゆえ、話者が、最終的なトランスクリプトの一部となるように意図する音声だけではなく、他の音声（例えば、再ディクテ−トされた１０秒間の音声）によって置き換えられ、その結果、最終的なトランスクリプトの一部となるべきではない音声もさらに含むこととなるであろう。いくつかの既存の音声認識機器は、全体のオーディオストリームがディクテ−トされる前に、話されるオーディオストリームになされたかかる変更を反映するトランスクリプトを作ることが可能であるが、かかるシステムは、オーディオストリームの各部分がその部分が話された後のある一定の時間の遅延を認識することを要求することによってそのようにし、結果として生じるオーディオストリームのその部分のトランスクリプトは、その後に続く音声によって無効化されないことを確実にする（またはその可能性を少なくとも増加させる）。

音声処理システムは、話されたオーディオストリームを、「スニペット」と称される部分的なオーディオストリームに分ける。システムは、オーディオストリームの一部分を、話者が一時停止し、次に録音を開始する、または巻き戻し、次に録音を開始する等、編集操作を実行した場所で、２つのスニペットに分けることが可能である。スニペットは、スニペットが生成されると、自動音声認識機器または再生機器等のコンシューマに連続的に送信されてもよい。コンシューマは、スニペットが受信されると、それらを処理（例えば、認識または再生する）することが可能である。コンシューマは、スニペットに反映される編集操作に応答してその出力を修正することが可能である。コンシューマは、オーディオストリームが、以前に送信された部分的なオーディオストリームを無効にする編集操作を含むとしても、オーディオストリームを、それが生成され送信される間に、処理することが可能であり、それにより、完全なオーディオストリームのディクテーションとコンサンプションとの間のターンアラウンドタイムをより短くすることを可能にする。

（関連出願の相互参照）
本出願は、２００６年１１月２２日に申請された、「ＲｅｃｏｇｎｉｔｉｏｎｏｆＳｐｅｅｃｈｉｎＥｄｉｔａｂｌｅＡｕｄｉｏＳｔｒｅａｍｓ」という名称の、米国仮特許出願第６０／８６７，１０５号の利益を主張する。

本出願は、２００４年８月１０日に申請された、「ＡｕｔｏｍａｔｅｄＥｘｔｒａｃｔｉｏｎｏｆＳｅｍａｎｔｉｃｃｏｎｔｅｎｔａｎｄＧｅｎｅｒａｔｉｏｎｏｆａＳｔｒｕｃｔｕｒｅｄＤｏｃｕｍｅｎｔｆｒｏｍＳｐｅｅｃｈ」という名称の米国特許出願第１０／９２３，５１７号に関連し、その内容は参照により本明細書に組み込まれる。

本発明の一実施形態による、音声を処理（例えば、転写または再生）するためのシステムのデータフロー図である。本発明の一実施形態による、音声の部分的なオーディオストリーム（「スニペット」）を格納するためのデータ構造の図である。本発明の一実施形態による、音声を処理するために、図１のシステムによって実行される方法のフローチャートを示す図である。本発明の一実施形態による、音声を処理するために、図１のシステムによって実行される方法のフローチャートを示す図である。本発明の一実施形態による、編集操作によって以前に処理された音声の無効化に反応する、音声のコンシューマによって使用される方法のフローチャートを示す図である。本発明の一実施形態による、音声のトランスクリプトの生成を完了し、ユーザがそのトランスクリプトを編集することを可能にするための方法のフローチャートを示す図である。本発明の一実施形態による、図１のシステムを初期化するための方法のフローチャートを示す図である。本発明の一実施形態による、トランスクリプトを表示し編集するためのシステムのデータフローを示す図である。スニペットがディクテーションストリームに書き込まれ、それによりスニペットが言葉の一時停止の間に開始する場所を調節するための方法のフローチャートを示す図である。図１のディクテーションストリームに文脈情報を格納するためのシステムのデータフローを示す図である。

本発明の実施形態は、音声が、自動的および実時間（すなわち、話者が話しており音声が完了する前）で転写されることを可能にする。かかる転写は、話者が自然に話し、巻き戻しまたは転送によって話す間に録音の場所を変える等の編集操作を実行する場合でも、実行することが可能である。巻き戻し、次にディクテーションを開始することは、本明細書で使用される用語「編集操作」の一例である。「編集操作」の別の例は、録音を一時停止し、次に録音を開始して、その後に続けてディクテーションを続けることである。

音声の一部分（本明細書で「スニペット」と称する）は、遅延なく転写されることが可能である。言い換えれば、第１のスニペットは、後続のスニペットが第１のスニペットを修正または削除する場合でも、話されている間に、または遅延の時間が終了することを待つことなく、転写することが可能である。

さらに、話者は、話している間に、話者にドラフトトランスクリプトを示すシステムなしで、ディクテートすることが可能である。むしろ、ドラフト文書は、ディクテーションが完了した後のみ、話者へ表示することが可能である。このことは、例えば、レポートをディクテートする放射線医が、ディクテートする間に、テキストを編集することよりもむしろ、放射線の画像の概説および説明に集中することを可能にする。話者は、ディクテーションが完了した時にのみ、ドラフトトランスクリプトを編集する機会を提供することが可能である。これは、一般的に、ユーザが話している間に、ドラフト文書をユーザに表示し、スクリーン上のテキストを変更することによりユーザがディクテーションを変更することを要求する、従来の音声認識システムと異なる。

本発明の実施形態は、ここでさらに詳細に記載される。図１を参照すると、データフロー図は、本発明の一実施形態に従う、音声を処理（例えば、転写または再生）するためのシステム１００を示す。図３Ａ〜３Ｂを参照すると、フローチャートは、本発明の一実施形態に従う、音声を転写するために、図１のシステム１００によって実行することが可能である方法３００を示す。

一般的に、医者等の話者１０２は、デジタル録音機器、マイクを接続されたパソコン、個人用デジタル補助機器、または電話器等の等の機器１０６に話し始める（ステップ３０２）。話者の音声は、「ディクテーション」１０４として図１に示され、それは、図３Ａ〜３Ｂに示される方法３００が完了するときまでに転写されることが望まれる全体の話されるオーディオストリームを示す。

以下にさらに詳細に記載されるように、録音機器１０６は、ディクテーション１０４を、本明細書で「スニペット」と称される、複数の部分的なオーディオストリームに分けることが可能である。録音機器１０６が各スニペットを録音する間、録音機器は、ディクテーション１０４の開始（またはディクテーション１０４内の任意の他の参照点へ）相対する、スニペットの開始時間１３０、およびスニペット２０２の実（絶対）開始時間１３２（スニペットが、ＧＵＩでのボタンのクリック等の、他の形態のユーザの入力に対応することを維持するため）の記録を付けることが可能である。話者１０２が話し始めると、録音機器１０６は、相対的開始時間１３０および絶対的開始時間１３２を初期化することができる（図４の方法４００、ステップ４０２および４０４でそれぞれ示される。）。

録音機器１０６は、初期化し、新規スニペットを作り出し（ステップ３０４）、ディクテーション１０４の現在話されている部分をスニペットへ録音し始める（ステップ３０６）ことが可能である。そのようなスニペットを格納するための例示的データ構造２００は、図２に示される。スニペット２００は、例えば、（１）スニペット２００に関連するディクテーション１０４の一部分を表す時間連続オーディオストリーム２０２と、（２）ディクテーション１０４の開始に相対するオーディオストリーム２０２の開始時間２０４と、（３）部分的なオーディオストリーム２０２の実（絶対）開始時間２０６と、（４）（もしあれば）スニペット２００に関連する編集操作２０８と、を含むか、またはそれらに関連することが可能である。録音機器１０６は、スニペット２００が初期化される際に、相対的開始時間１３０および絶対的開始時間１３２の値を、相対的開始時間２０４および絶対的開始時間２０６へ、それぞれ複写することが可能である。

録音機器１０６は、例えば、話者１０２が、録音機器１０６を使用し、録音中に、録音を一時停止し、巻き戻しをし、または転送をする等の編集操作を実行する（ステップ３０８）場合、現在のスニペット２００を終了することが可能である。スニペット２００を終了するためには、録音機器１０６は、追加の音声をスニペット２００のオーディオストリーム２０２へ録音することを中断し、話者１０２によって実行される編集操作についての情報をスニペット２００のフィールド２０８に録音することが可能である（ステップ３１０）。録音機器１０６は、次に、ネットワーク１１２上の現在のスニペット２００を、ヒューマントランスクリプショニスト、自動音声認識機器、またはオーディオ再生機器等の、コンシューマ１１４へ送信することが可能である（ステップ３１２）。コンシューマ１１４が、スニペットをコンシュームすることが可能である方法の例は、以下に説明される。

図３Ａに示される例において、現在のスニペット２００は、スニペット２００の終了後にコンシューマ１１４に送信されるということに留意すべきである。しかしながら、これは単に例に過ぎず、本発明を限定するものではない。例えば、録音機器１０６は、現在のスニペット２００を、スニペット２００が終了する前にコンシューマ１１４にストリームすることが可能である。例えば、録音機器１０６は、録音機器１０６がスニペット２００でのオーディオストリーム２０２の格納を開始したらすぐに、現在のスニペット２００をストリームし始め、より多くのオーディオストリーム２０２がスニペット２００に格納される際に、スニペット２００をストリームし続けることが可能である。結果として、コンシューマ１１４は、話者１０２が話し、録音機器１０６がスニペット２００のより遅い部分を録音および送信する際でも、スニペット２００のより早い部分を、処理（例えば、認識または再生）し始めることが可能である。

話者１０２が、現在のスニペットの終了後にディクテ−トを続ける際（ステップ３０２）、録音機器１０６は、新規スニペットを、それぞれフィールド２０４および２０６に格納された相対的開始時間１３０および絶対的開始時間１３２の現在値、ならびに空のオーディオストリーム２０２を伴い初期化することができる（ステップ３０４）。言い換えれば、録音機器１０６は、ディクテーション１０４を連続するスニペット１０２ａ−ｎに分割し、録音機器１０６は、スニペット１０２ａ−ｎが作り出されると、コンシューマ１１４へ連続的に送信するので、話者１０２は自然にディクテ−トを続けることが可能である。スニペット１０２ａ−ｎは、それにより、録音機器１０６がコンシューマ１１４へ送信するディクテーションストリーム１０８を形成する。ディクテーションストリーム１０８は、例えば、ソケット、ＨＴＴＰ接続、またはＡＰＩによるストリーミングオブジェクトでのバイトの単一の順次ストリームとしてフォーマットすることが可能である。

かかる継続的な、話者１０２によるディクテーションおよび録音機器１０６によるディクテーション１０４の録音と並行で、コンシューマ１１４は、各スニペットを受信することが可能である（ステップ３１４）。例えば、仮に、話者１０２が、クライアント側音声録音機器１０６を使用してディクテーション１０４を作る場合、コンシューマ１１４は、サーバー側自動音声認識機器になることが可能である。

コンシューマ１１４は、スニペット１１０ａ−ｎのそれぞれを、それらが受信される際に、処理することが可能であり、言い換えれば、かかる処理を開始する前の遅延を発生させない。さらに、コンシューマ１１４は、録音機器１０６が、ディクテーションストリーム１０８における後続スニペットを録音し転送し続ける間、１つのスニペットを処理することが可能である。例えば、コンシューマ１１４が自動音声認識機器である場合、自動音声認識機器は、スニペット１１０ａ−ｎのそれぞれを、それらが受信される際に、転写することが可能であり、それにより、ディクテーション１０４を構成するスニペット１１０ａ−ｎがコンシューマ１１４に受信される際、ディクテーション１０４の稼働トランスクリプト１１６を作る。

コンシューマ１１４は、コンシューマ（例えば、サーバー）側で、本明細書で「有効ディクテーション」１２０と称される単一の組み合わされたオーディオストリームへ受信されたスニペット１１０ａ−ｎを組み合せることが可能である。一般的には、有効ディクテーション１２０に対する目的は、転写される音声に対する話者の意図を表すことである。例えば、元のディクテーション１０４は１０秒間の音声を含み、話者１０２がこれらの１０秒間の音声に対して巻き戻しをし、それらの上にディクテートをした場合、それらは連続的に無効化され、その音声が元のディクテーション１０４およびコンシューマ１１４に送信されたスニペット１１０ａ−ｎのストリームに現れたとしても、その削除された（無効化された）１０秒間の音声は、有効ディクテーション１２０に現れるべきではない。コンシューマ１１４は、スニペット１１０ａ−ｎを受信する際、有効ディクテーション１２０を繰り返し更新する。

さらに具体的には、コンシューマ１１４は、「読み取り機」コンポーネント１２２および「プロセッサ」コンポーネント１２４を含むことが可能である。第１のスニペットを受信する前のある地点で、読み取り機１２２は、有効ディクテーション１２０を空のオーディオストリームに対し初期化し（図４、ステップ４０６）、書き込み時間１３４を、有効ディクテーション１２０の開始を指し示すように初期化する（ステップ４０８）。書き込み時間１３４は、読み取り機１２２が次のスニペットを書き込む有効ディクテーション１２０内の時間を表示する。

次に、読み取り機１２２がスニペット１１０ａ−ｎを受信する際（ステップ３１４）、読み取り機１２２は、スニペット１１０ａ−ｎの内容に基づいて有効ディクテーション１２０を更新する。読み取り機１２２は、スニペット１１０ａ−ｎを受信し始めたらすぐに、有効ディクテーション１２０の更新を始めることが可能であり、それゆえ、すべてのスニペット１１０ａ−ｎが受信される。結果として、読み取り機１２２は、読み取り機１２２が後続スニペットを受信すると同時に、前半のスニペットの受信に基づいて、有効ディクテーション１２０を更新することが可能である。

読み取り機１２２がスニペットを受信する時、読み取り機は、スニペットのフィールド２０４からスニペットの相対的開始時間を識別することが可能である（ステップ３２０）。読み取り機１２２は、次に、スニペットを使用し、識別された開始時間で、スニペットのオーディオストリーム２０２の内容を有効ディクテーション１２０に書き込むことにより、有効ディクテーション１２０を更新することが可能である（ステップ３２２）。

読み取り機１２２は、様々な方法で、オーディオストリーム２０２を有効ディクテーション１２０に「書き込む」ことが可能である。例えば、読み取り機１２２は、オーディオストリーム２０２を有効ディクテーション１２０に「上書き」モードで書き込むことが可能であり、そのモードでは、読み取り機１２２は、識別された開始時間で格納された（ステップ３２０）現在のデータを、有効ディクテーション１２０に、新規スニペットからのデータで、上書きする。別の例として、読み取り機１２２は、オーディオストリーム２０２を有効ディクテーション１２０に、「挿入」モードで書き込むことが可能であり、そのモードでは、読み取り機１２２は、（１）現在のスニペットを有効ディクテーション１２０に挿入し、ステップ３２０で識別された開始時間で始まり、（２）新規に挿入されたスニペットの時間に等しい量で、有効ディクテーション１２０にすでに格納されている後続スニペットの相対的開始時間を増加させる。さら別の例として、読み取り機１２２は、オーディオストリーム２０２を有効ディクテーション１２０に、「切り捨て」モードで書き込むことが可能であり、そのモードでは、読み取り機１２２は、（１）識別された開始時間で格納された（ステップ３２０）現在のデータを、有効ディクテーション１２０に、スニペットからのデータで上書きし、（２）新規に書かれたスニペットの後に、有効ディクテーション１２０中の任意のデータを消去する。

読み取り機１２２は、任意の様々な方法で上書きモード、挿入モード、または切り捨てモードを使用して、現在のスニペットを有効ディクテーション１２０に書き込むかどうかを決定することが可能である。例えば、読み取り機１２２は、同様のモード（例えば、上書きまたは挿入）を使用して、すべてのスニペット１１０ａ−ｎを特定のディクテーションストリーム１０８に書き込むように構成することが可能である。別の例としては、各スニペットの編集操作フィールド２０８は、そのスニペットの書き込みに使用するためにどのモードを使用するべきかを特定することが可能である。

現在のスニペットの相対的開始時間２０４が有効ディクテーション１２０の終了を指し示すかまたはそれを超える場合、次に読み取り機１２２は、読み取り機１２２が上書きモードまたは挿入モードで動作しているかどうかにかかわらず、現在のスニペットのオーディオストリーム２０２を有効ディクテーション１２０に加えることが可能である。

上述した読み取り機１２２の操作が、２つの特定の種類の編集操作、「録音の一時停止」および「一時停止および巻き戻し」の場合に、どのように有効ディクテーション１２０に影響するかを考察する。録音の一時停止の場合、話者１０２は、録音機器１０６での録音を一時停止し、次にその後の「実」（絶対的）時間で録音を再開始する。これに応答して録音機器１０６は、図３Ａに関して上述されたように、話者１０２が録音を再開すると、現在のスニペットを終了し、新規スニペットを作り出す。結果として生じる２つのスニペットは、一時停止の前および後にそれぞれの音声を表すオーディオストリームを含む。この場合、録音機器１０６は、２つのスニペットの第２番目の相対的開始時間が、第１のスニペットの相対的終了時間と等しくなるように設定することが可能である。

読み取り機１２２が第１および第２のスニペットを受信する場合、第１のスニペットの相対的終了時間は、第２のスニペットの相対的開始時間に対応するため、読み取り機１２２は、ステップ３２０〜３２２を実行し、両方のスニペットを単一の長いオーディオストリームへ効果的に組み合せることが可能である。これは、２つのスニペットから単一の連続オーディオストリームを作り出すことである、話者１０２の起こり得る意図を反映する。

「一時停止および巻き戻し」の場合、話者１０２は、録音機器１０６で録音を一時停止し、巻き戻し、話を再開する。この場合、録音機器１０６は、ディクテーションストリーム１０８内に２つのスニペットを作り出すことが可能であり、１つは、一時停止／巻き戻しが実行される前に話された音声のためのものであり、もう１つは、一時停止／巻き戻しが実行された後に話された音声のためのものである。第２の録音されたスニペットの相対的開始時間は、巻き戻しの時間に対応する量によって、第１の録音されたスニペットの相対的終了時間よりも早くなるように設定することが可能であり、それによって、巻き戻しの影響を反映させる。結果として、第１および第２の録音されたスニペットは、ディクテーション１０４の開始時間（またはディクテーション１０４の中の参照点）に対して時間が非連続であることが可能である。

読み取り機１２２がこれらの２つのスニペットのうち第１番目を受信する際、読み取り機は、ステップ３２０〜３２２を実行することにより、最初に、第１のスニペットを有効ディクテーションに書き込むであろう。次に、読み取り機１２２は、これらの２つのスニペットのうち第２番目を受信し、読み取り機１２２は、第２のスニペットのより早い相対的開始時間に対応する有効ディクテーションのより早い位置でそのスニペットを挿入し、それにより、巻き戻し操作の影響を反映させる。

上述した技術は、部分的なオーディオストリームが作り出されるとすぐに、単一の組み合わせオーディオストリームに組み合される、既存の転写システムによって採用される技術とは異なる。言い換えれば、既存のシステムでは、部分的なオーディオストリームは保持されず（それらは、本明細書に記載のディクテーションストリーム１０８内にあるので）、単一のオーディオストリームは、処理（例えば、転写または再生）のためにコンシューマに転送される。巻き戻しを可能にするために、組み合わせオーディオストリームは、典型的には、十分な遅延の後にコンシューマへ転送され、すでにコンシューマに転送されている部分的なオーディオストリームが、後続の編集操作によって修正されないことを確実にするか、または少なくともその可能性を減少させる。

かかるシステムの１つの不利点は、長い遅延が経過した後であっても、後続の編集操作が以前の音声を修正しないという絶対的な保証はないということである。例えば、５分間の遅延を伴うシステムであっても、話者は、スクラッチから、ディクテーションを再開することを決定する前に１０分間話す可能性がある。かかるシステムの別の不利点は、それらが発生させる遅延がトランスクリプトの生成を遅延させるということである。

本発明の実施形態では、対照的に、編集操作の適用を反映するオーディオストリームは、コンシューマ１１４（例えば、音声認識機器）に転送されない。その代わりに、後続のオーディオストリームによって修正または削除されるオーディオストリームをさらに含む一連の部分的なオーディオストリーム（スニペット１１０ａ−ｎ）は転送される。

プロセッサ１２４が、有効ディクテーション１２０を処理することが可能である方法の例は、（ステップ３２４）ここで記載される。一般的に、プロセッサ１２４は、録音機器１０６および読み取り機１２２等の、システム１００の他の要素と平行して操作することが可能である。システムを初期化すると（図４）、プロセッサ１２４は、読み取り時間１３８をゼロへ初期化することが可能である（ステップ４１０）。読み取り時間１３８は、プロセッサ１２４が次を読み込む有効ディクテーション内の位置を指し示す。プロセッサ１２４は、転写場所１４０をゼロに初期化することがさらに可能である（ステップ４１２）。転写の場所は、プロセッサが次にテキストを書き込むトランスクリプト１１６内の位置を指し示す。

一度、読み取り機１２２がオーディオデータを有効ディクテーション１２０に格納し始めると、プロセッサ１２４は、読み込み時間１３８によって特定される有効ディクテーション１２０内の位置で始まるデータを読み始めることが可能である（ステップ３２６）。言い換えれば、プロセッサ１２４は、有効ディクテーション１２０からのデータを読み込み処理することを開始する前に、全く時間を待つ必要はない。プロセッサ１２４は、プロセッサ１２４が有効ディクテーションからのオーディオデータを読み込む際、読み込み時間１３８を更新する（増加させる）（ステップ３２８）。

プロセッサ１２４は、ステップ３２６で読み込まれた有効ディクテーション１２０の一部分を転写し、転写されたテキストを作り、現在の転写場所１４０でトランスクリプト１１６へ、かかるテキストを書き込む（ステップ３３０）。プロセッサ１２４は、現在の転写場所１４０を更新し、ステップ３３０で転写されたテキストの最後を指し示す（ステップ３３２）。プロセッサ１２４は、ステップ３２６に戻り、有効ディクテーション１２０からのオーディオの読み込み処理を続ける。

プロセッサ１２４は、転写以外のおよび／またはそれに加えての機能を実行することが可能であるということが留意されるべきである。例えば、プロセッサ１２４は、有効ディクテーションを転写する代わりに、またはそれに加えて、有効ディクテーション１２０におけるオーディオの再生を実行することが可能である。

上述された理由のため、任意の、プロセッサ１２４が有効ディクテーション１２０から読み込むデータ、およびプロセスが最終的な録音の一部分となる保証はない。例えば、プロセッサ１２４が、有効ディクテーション１２０おけるオーディオの一部分を転写した後、そのオーディオの一部分は、連続的に受信されるスニペットによって、有効ディクテーション１２０内で、削除されるかまたは上書きされる可能性がある。

図３Ｃを参照して、コンシューマ１１４を使用して以前に処理されたオーディオのそのような無効化に応答することが可能である方法３５０を示す、フローチャートが、ここで記載される。読み取り機１２２は、プロセッサ１２４の現在の読み込み時間１３８にアクセスすることが可能である。読み取り機１２２は、プロセッサ読み込み時間１３８を読み込むことが可能であり（ステップ３５２）（図３Ｂのステップ３２０におけるスニペットの相対的開始時間を識別した後等）、それにより、読み取り機１２２は、読み取り機１２２によって現在処理されているスニペットが、プロセッサ１２４がすでに処理をした有効ディクテーション１２０の一部分を無効化するかどうかを検出することを可能にする。さらに具体的には、読み取り機１２２は、読み取り機１２２によって現在処理されているスニペットの相対的開始時間２０４とプロセッサ１２４の読み込み時間１３８を比較することが可能である。その相対的開始時間２０４が読み込み時間１２８よりも早い場合（ステップ３５４）、次に読み取り機１２２は、更新イベント１３６をプロセッサ１２４に提供することが可能であり（ステップ３５６）、すでに処理されたデータはもう有効ではないことを示す。

更新イベント１３６は、読み取り機１２２によって処理されているスニペットの相対的開始時間等の情報を含むことが可能である。更新イベント１３６の受信に応答して、プロセッサ１２４は、その読み込み時間１３８を更新イベント１３６によって示される相対的開始時間に変え（ステップ３５８）、次に新規読み込み時間１３８で始まる、有効ディクテーション１２０の処理を再開することが可能である（ステップ３６２）。

図３Ｃに示される方法３５０は、以前に処理されたスニペットを無効化するスニペットの受信に、どのようにコンシューマ１１４が応答することが可能であるかを示す単なる例である。更新イベント１３６への適切な応答は、コンシューマ１１４により異なる。例えば、コンシューマ１１４がオーディオプレーヤーである場合、オーディオプレーヤーは、オーディオを「非再生」することが不可能であるために、イベント１３６を無視する可能性がある。しかしながら、コンシューマ１１４が自動音声認識機器である場合は、音声認識機器は、有効ディクテーション１２０の現在無効な部分に対応する部分的な認識結果（テキストおよび／または部分的な仮説等）を破棄し（ステップ３６０）、有効ディクテーション１２０内の新規読み込み時間１３８で処理（認識）を再開始することが可能である（ステップ３６２）。ステップ３６０における部分的な認識結果を破棄するステップは、もはや有効ディクテーション１２０の一部分ではない音声に対応するトランスクリプト１１６の現在のバージョンからテキストを削除するステップと、新規読み込み時間１３８に対応するトランスクリプト１１６内の場所に対応するように転写場所１４０を更新するステップと、を含むことが可能である。

図３Ｄを参照すると、フローチャートは、システム１００がディクテーション１０４の完了時に実行する方法３７０を示す。録音機器１０６は、話者１０２がディクテーション１０４をディクテートし終えたことを検出する（ステップ３７２）場合、録音機器１０６は、ディクテーションの完了の表示１４２をコンシューマ１１４へ送信することが可能であり（ステップ３７４）、それに応答して、コンシューマ１１４は、ディクテーションストリーム１０８の処理を終了させてトランスクリプト１１６の最終的なバージョンを作ることが可能であり、それは、話者１０２によって実行される任意の編集操作を反映する（ステップ３７６および３７８）。

一度最終的なトランスクリプト１１６が完了すると、テキストエディタ５０２（図５）または他のコンポーネントは、トランスクリプト１１６のレンダリング５０４を話者１０２へ、再考のために表示することが可能である（ステップ３８０）。話者１０２は、編集命令５０６をテキストエディタ５０２に発し、トランスクリプト１１６のエラーを訂正し、またはトランスクリプト１１６のフォーマットを変えるように、トランスクリプト１１６を編集することが可能である（ステップ３８２）。話者１０２以外の人物が、かかる再考および編集を実行することが可能である。さらに、１人以上の人物が、かかる再考および編集を実行することが可能である。例えば、医学記録転写士は、言語の正確性のためにトランスクリプト１１６を再考および編集することが可能であり、その一方で、医師は、事実の正確性のためにトランスクリプト１１６を再考および編集することが可能である。

話者１０２は、一般的に、話者がディクテ−トを望む瞬間まで精密に巻き戻すことは困難であるとし、また、１０万分の１秒の差異でさえも音声認識機器の出力に影響する可能性があるため、巻き戻しイベントは、一般的に、非常に不確かであるとうことに留意すべきである。結果として、話者１０２が巻き戻しをし、再ディクテートをする場合、話者１０２は、やや長めに巻き戻す可能性があり、または十分な長さに巻き戻さない可能性があり、ユーザが意図しない場合に、少ない量の言葉が上書きされるに至るか、またはユーザの意図がそれらを再ディクテートすることである場合、少ない量の言葉が残ったままとなる。

本問題に取り組みうる一方法は、図６の方法６００によって示され、その中で、読み取り機１２２は、話者１０２が巻き戻しをする際、書き込み時間１３４を自動的に調節し、それにより新規スニペットは、沈黙の間、有効ディクテーション１２０に書き込まれる（言葉の一時停止）。方法６００は、例えば、図３Ｂのステップ３２０の後およびステップ３２２の前で実行されることが可能である。

例えば、話者１０２が特定の新規相対的開始時間へ巻き戻す際、読み取り機１２２は、その新規開始時間の近くの有効ディクテーション１２０内で言葉の一時停止の間を探索することが可能である（ステップ６０２）。そのような言葉の一時停止が、典型的な言葉よりも短い時間枠内（例えば、数十万分の１秒）またはいくつかの他の既定の閾値の時間内で見つかる場合（ステップ６０４）、重複がエラーであるということを推測することが可能である。そのような場合、読み取り機１２２は、新規書き込み時間１３４が言葉の一時停止の位置に等しくなるように調節することが可能である（ステップ６０６）。知能的自動再配置は、話者１０２による不正確な巻き戻しの配置によって引き起こされた認識のエラーを排除することによって、認識結果を改良することが可能である。

本発明の実施形態の利点は、以下の１つ以上である。本発明の実施形態は、実時間で、すなわち、音声１０４は話されているまたは再生されている際、編集操作を含む、オーディオストリームを転写している場合でも、転写を実行することが可能である。部分的なオーディオストリームが話された後または再生された後とそれが転写あるいは処理される前には遅延が導入される必要はない。結果として、音声１０４の転写は、より迅速に作り出されることが可能である。

トランスクリプトをより迅速に使用することを可能にする利益に加えて、増加された転写速度は、第３者によってよりもむしろ、話者１０２自身によってトランスクリプト１１６を編集することを容易にし、それにより転写費用を減少させることが可能である。さらに、増加された転写速度は、話者１０２が、エラーが話者の記憶に新しい時に、エラーを訂正することを可能にすることによって、転写の質を増加させる。

本明細書に開示される技術は、ディクテーションの間に実行された任意の編集操作を最終的なトランスクリプト１１６に組み込むことが可能である。結果として、実時間処理により得られる増加された速度は、転写質においていかなる犠牲も必要としない。

さらに、本明細書に開示される技術は、自然に話すことによって作り出されるオーディオストリームに適用することが可能である。例えば、話者１０２は、ディクテートする間に録音を巻き戻し、転送し、または一時停止することが可能であり、かかる編集操作は、最終的なトランスクリプト１１６に反映することが可能である。結果として、本明細書に開示される技術の利益は、話者がそのディクテーション行動を変えることを必要とせずに得ることが可能である。

さらに、本発明に開示される技術は、話者１０２が、システムによって作り出されたドラフトトランスクリプトのテキストを編集することによって、編集を行うことを必要とする様々な従来のシステムと違って、音声認識結果を話者１０２に表示する必要なく実行することが可能である。かかるテキスト編集の必要性を回避することのできる能力は、携帯の録音／送信機器（携帯ボイスレコーダーおよび携帯電話等）での使用、および、話者１０２がディスプレイを伴うコンピュータにアクセスできない状況での使用のために、本明細書に開示される技術を特に適応させる。ディスプレイが利用可能である場合でも、テキスト表示の必要性を排除することは、話者１０２が自由に、テキストの編集以外の、ディクテートおよび視覚的タスク（放射線画像を読む等）に集中することが可能にする。

本発明は、特定の実施形態に関して上述されてきたが、先述の実施形態は例示として提供され、本発明の範囲を限定または定義しないということが理解されるべきである。様々な他の実施形態は、以下を含み、それらに限定されず、さらに、本特許請求の範囲内である。例えば、本明細書に記載される要素およびコンポーネントは、さらなるコンポーネントに分けられ、または一緒に接続し、同様の機能を実行するための、より少ないコンポーネントを形成することが可能である。

録音機器１０６は任意の種類の装置であることが可能である。録音機器１０６は、コンピュータ上で実行するソフトウェアであってもよく、またはそれを含んでもよい。送信されたディクテーションストリーム１０８のみが図１に示されるが、録音機器１０６は、録音機器内または別の格納手段に、ディクテーションストリーム１０８またはその同等物をさらに格納することが可能である。いくつか、またはすべてのディクテーション１０８は、コンシューマ１１４に転送された後、いつでも録音機器１０６から削除することが可能である。

さらに、録音機器１０６およびコンシューマ１１４がネットワーク１１２上で通信する異なる機器として図１に示されるが、これは単に例に過ぎず、本発明の限定を成すものではない。録音機器１０６およびコンシューマ１１４は、例えば、単一の機器内に実装されることが可能である。例えば、録音機器１０６およびコンシューマ１１４は、両方とも、同様のコンピュータ上で実行されるソフトウェアに実装されることが可能である。

ネットワーク１１２は、ディクテーションストリーム１０８を送信するための任意の機構であることが可能である。例えば、ネットワーク１１２は、公共のインターネットまたはＬＡＮであることが可能である。

編集操作の実行は、ディクテーション１０４をスニペット１１０ａ−ｎに分けるためのトリガーとして本明細書に記載されるが、ディクテーション１０４は、他の方法でスニペット１１０ａ−ｎに分けることが可能である。例えば、録音機器１０６は、話者１０２が編集操作を実行しない場合でも、現在のスニペットを終了し、定期的に、例えば、５秒毎で新規スニペットを作り出すことが可能である。別の例として、録音機器１０６は、現在のスニペットを終了し、ディクテーション１０４におけるそれぞれの長い一時停止の後、またはある既定の数のより短い一時停止の後、新規スニペットを作り出すことが可能である。

録音機器１０６は、図１のシステム１００への修正７００を例証する、図７に示されるように、オーディオデータに加えてデータを録音することが可能である。図１の特定の要素は、単に例証を容易にする目的で、図７から省略される。

話者１０２が、放射線ソフトウェアによって表示されるような放射線画像をモニターで見ながら、これらの放射線画像についてディクテ−トする医師である例を考察する。医師が、特定のそのような画像についてコメントをディクテートする際、録音機器１０６は、画像についてのＰＡＣＳ（画像保管通信システム）情報を録音し、その情報（画像自体を含む）をディクテーションストリーム１０８内で送信することが可能である。

かかる画像情報は、ディクテーションストリーム１０８自体の中で、またはそれに関連して送信されるディクテーションストリーム音声の文脈についての情報７０２ａ−ｍの一例に過ぎない。結果として、ディクテーションストリーム１０８は、単にオーディオストリームであるだけではなく、話者１０２によって提供されるマルチモーダル入力（例えば、音声およびキーボード入力）から生じるより全般的なマルチメディアストリームであることが可能である。

結果として、ディクテーションストリーム１０８におけるオーディオ（スニペット１１０ａ−ｎ）は、オーディオ１１０ａ−ｎに関連する任意の追加の文脈情報７０２ａ−ｍと相関することが可能である。かかる相関関係は、任意の様々な方法で実行することが可能である。例えば、画像は、その画像にスニペットの絶対的開始時間を印付けることによって、１つ以上のスニペット１１０ａ−ｎに相関することが可能である。結果として、コンシューマ１１４は、それが受信する画像または他の文脈情報７０２ａ−ｍをそれらが対応するスニペットに一致させることが可能である。

コンシューマ１１４は、結果として、単なる音声認識機器、オーディオ再生機器、または他の音声プロセッサではなく、むしろより全般的な、マルチメディアプロセッサであることが可能である。例えば、プロセッサ１２４がディクテーションストリーム１０８を再生する場合、プロセッサ１２４が、スニペットに関連する画像または文脈情報７０２ａ−ｍをさらに表示すると同時に、プロセッサ１２４がそのスニペットを再生することが可能であり、それにより概説者／編集者が、適切な時間で、ディクテーションストリーム１０８に関連する文脈情報を理解するかまたは概説することを可能にする。

録音機器１０６は、任意の様々な方法で、文脈情報７０２ａ−ｍをディクテーションストリーム１０８に加えるかどうかを決定することが可能である。例えば、話者１０２が上述のような画像を見ている場合、録音機器１０６は、その画像が見られる間に、ディクテートされているディクテーションストリーム１０８の一部分に関連する各画像についての情報を自動的に加えることが可能である。別の例として、録音機器１０６は、デフォルト設定により、ディクテーションストリーム１０８の画像情報を送信せず、むしろ話者１０２によって特定された画像についての情報のみを送信することが可能である。例えば、話者１０２が、特定の画像が重要であると考える場合、話者１０２は、既定のホットキーを打つかまたは他の入力７０４を提供することが可能であり、録音機器１０６がその特定の画像についての情報をディクテーションストリーム１０８に加えるように、どの録音機器１０６がそのようにするかに応答して、指示する。

その代わり、例えば、仮にコンシューマ１１４が自動音声認識機器であり、コンシューマがディクテーションストリーム１０８を受信する際、プロセッサ１２４は、トランスクリプト１１６内で録音された画像または他の文脈情報７０８を格納することが可能である。トランスクリプト１１６は、例えば、上述の「ＡｕｔｏｍａｔｅｄＥｘｔｒａｃｔｉｏｎｏｆＳｅｍａｎｔｉｃｃｏｎｔｅｎｔａｎｄＧｅｎｅｒａｔｉｏｎｏｆａＳｔｒｕｃｔｕｒｅｄＤｏｃｕｍｅｎｔｆｒｏｍＳｐｅｅｃｈ」という名称の、参照特許出願に記載される構造化文書の種類であることが可能である。トランスクリプト１１６内の文脈情報７０８は、文脈情報が作り出された時に話者１０２によってディクテ−トされた音声に対応するテキストに結び付くことが可能である。結果として、話者１０２によって見られる画像は、画像を表すテキストの次に、そのテキストがテキストエディタ５０２によって表示される際、表示することが可能である。

本明細書に記載の特定の例では、音声認識はサーバーで作動する自動音声認識機器によって実行されるが、これは単に例に過ぎず、本発明の限定を成すものではない。むしろ、音声認識および他の処理は、任意の位置で実行することが可能であり、クライアント−サーバー環境内で生じる必要はない。

上術の技術は、例えば、ハードウェア、ソフトウェア、ファームウェア、またはあらゆるこれらの組み合せにおいて実行することが可能である。上述の技術は、プロセッサ、プロセッサにより可読な記憶媒体（例えば、揮発性メモリ、および非揮発性メモリおよび／または記憶要素を含む）、少なくとも１つの入力機器、および少なくとも１つの出力機器を含む、プログラム可能なコンピュータで実行する、１つ以上のコンピュータプログラムにおいて実行することが可能である。プログラムコードは、記載した機能を実行するためおよび出力を生成すために、入力機器を使用して入力された入力に適用することが可能である。出力は、１つ以上の出力機器へ提供することが可能である。

以下の請求項の範囲内のそれぞれのコンピュータプログラムは、アセンブリ言語、マシン言語、高水準手続きプログラム言語、またはオブジェクト指向プログラム言語等の、あらゆるプログラム言語において実行することが可能である。プログラム言語は、例えば、コンパイルされた、または解釈されたプログラム言語であってもよい。

それぞれのそのようなコンピュータプログラムは、コンピュータプロセッサによる実行のための機械可読記憶機器において明白に具象化される、コンピュータプログラム製品において実行することが可能である。本発明の方法のステップは、入力で操作し出力を生成することにより、本発明の機能を実行するためのコンピュータ可読媒体で明白に具現化されるコンピュータプロセッサにて実行することが可能である。適したプロセッサには、例として、汎用および特殊用途のマイクロプロセッサの両方が挙げられる。概して、プロセッサは、読み取り専用メモリおよび／またはランダムアクセスメモリからの命令およびデータを受信する。コンピュータプログラム命令を明白に具象化するための適した記憶機器は、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭおよびフラッシュメモリ機器等を含む、半導体メモリ機器等の、すべての形式の非揮発性メモリ、内部ハードディスクおよびリムーバブルディスク等の磁気ディスク、光磁気ディスク、ならびにＣＤ−ＲＯＭを含む。前述のあらゆるものは、特別に設計されたＡＳＩＣ（指定用途向け集積回路）またはＦＰＧＡ（フィールド・プログラマブル・ゲート・アレイ）によって補完され、またはそれに組み込まれてもよい。また、コンピュータは、概して内部ディスク（図示せず）またはリムーバブルディスク等の記憶媒体からプログラムおよびデータを受信することができる。また、これらの要素は、あらゆる印刷エンジンまたはマーキングエンジン、ディスプレイ画面、または、紙面、フィルム、ディスプレイ画面、または他のアウトプット媒体にカラー、またはグレースケールを作る能力のある他のブラウン管式機器と併せて使用されてもよい、本明細書に記載の方法を実行するコンピュータプログラムを実行するために適した他のコンピュータのみならず、従来のデスクトップまたはワークステーションコンピュータに見られるであろう。

Claims

コンピュータで実現される方法であって、
（Ａ）話者の第１の音声を表す第１の部分的なオーディオストリームを生成するステップと、
（Ｂ）前記第１の部分的なオーディオストリームを、前記第１の部分的なオーディオストリームが一部分であるディクテーションストリームの参照点に相対する第１の時間と関連付けるステップと、
（Ｃ）前記話者の第２の音声を表す第２の部分的なオーディオストリームを生成するステップと、
（Ｄ）前記第２の部分的なオーディオストリームを、前記第２の部分的なオーディオストリームが一部分である前記ディクテーションストリームの参照点に相対する第２の時間と関連付けるステップであって、前記第１および第２の部分的なオーディオストリームは、前記参照点に対して時間が連続的ではない、ステップと、
（Ｅ）コンシューマで、
（１）前記第１の部分的なオーディオストリームを受信するステップと、
（２）前記第１の時間に基づいた場所で、前記第１の部分的なオーディオストリームを有（３）効ディクテーションストリームに書き込むステップと、
（４）前記第２の部分的なオーディオストリームを受信するステップと、
（５）前記第２の時間に基づいた場所で、前記第２の部分的なオーディオストリームを前記有効ディクテーションストリームに書き込むステップと、
（Ｅ）（４）を完了する前に出力を作るために、前記有効ディクテーションの少なくとも一部分をコンシュームするステップと、を含むことを特徴とする方法。
（Ｅ）（５）は、（Ｅ）（３）の完了の前に出力を作るために、前記有効ディクテーションの少なくとも一部分をコンシュームするステップを含むことを特徴とする請求項１に記載の方法。
（Ｅ）（２）は、（Ｃ）が完了する前に完了することを特徴とする請求項１に記載の方法。
（Ｅ）（１）は、（Ａ）が完了する前に、開始されることを特徴とする請求項１に記載の方法。
（Ｂ）は、前記第１の部分的なオーディオストリームを、前記ディクテーションストリームの開始時間に相対する第１の開始時間と関連付けるステップを含み、（Ｄ）は、前記第２の部分的なオーディオストリームを、前記ディクテーションストリームの前記開始時間に相対する第２の開始時間と関連付けるステップを含むことを特徴とする請求項１に記載の方法。
（Ｅ）（１）は、ネットワーク上の前記第１の部分的なオーディオストリームを受信するステップを含むことを特徴とする請求項１に記載の方法。
（Ｆ）（Ｃ）の前に、前記ディクテーションストリーム上で編集操作を指定する前記話者からの入力を受信するステップと、
（Ｇ）前記編集操作入力に応答して前記第１の部分的なオーディオストリームを終了し、前記第２の部分的なオーディオストリームを開始するステップと、をさらに含むことを特徴とする請求項１に記載の方法。
（Ｆ）は、前記ディクテーションストリームの相対的開始時間は、新規相対的開始時間に変更されるということを指定する前記話者からの第１の入力を受信するステップと、前記ディクテーションストリームが前記新規相対的開始時間で再開されるということを指定する前記話者からの第２の入力を受信するステップと、を含み、
前記第２の部分的なオーディオストリームの前記第２の時間は、前記第１の部分的なオーディオストリームの前記第１の時間よりも、前記ディクテーションストリームにおける参照点に相対して早いことを特徴とする請求項７に記載の方法。
（Ｅ）（５）は、前記有効ディクテーションの少なくとも一部分を再生するステップを含むことを特徴とする請求項１に記載の方法。
（Ｅ）（５）は、前記有効ディクテーションのトランスクリプトを生成するために、自動音声認識を前記有効ディクテーションに適用するステップを含むことを特徴とする請求項１に記載の方法。
（Ｅ）（５）は、（Ｅ）（４）が完了した後にのみ、前記トランスクリプトをユーザへ表示するステップをさらに含むことを特徴とする請求項１０に記載の方法。
（Ｅ）（４）は、
（Ｅ）（４）（ａ）前記第２の部分的なオーディオストリームの前記第２の時間の既定の閾値内である時間で、前記有効ディクテーション内の言葉の一時停止を識別するステップと、
（Ｅ）（４）（ｂ）（Ｅ）（４）（ａ）で識別された時間で、前記第２の部分的なオーディオストリームを前記有効ディクテーションに書き込むステップと、を含むことを特徴とする請求項１１に記載の方法。
（Ｆ）前記第１の部分的なオーディオストリームと関連付けられる文脈情報を識別するステップと、
（Ｇ）前記第１の部分的なオーディオストリームの前記第１の時間を前記文脈情報と関連付けるステップと、
（Ｈ）前記コンシューマで、前記第１の部分的なオーディオストリームの前記第１の時間と関連する前記文脈情報を受信するステップと、をさらに含むことを特徴とする請求項１に記載の方法。
（Ｅ）（５）は、前記第１の部分的なオーディオストリームおよび前記文脈情報を反映する出力を作るために、前記第１の部分的なオーディオストリームおよび前記文脈情報をコンシュームするステップを含むことを特徴とする請求項１３に記載の方法。
（Ｆ）は、前記文脈情報を識別する前記話者からの入力を受信するステップを含むことを特徴とする請求項１３に記載の方法。
前記文脈情報は、画像を含むことを特徴とする請求項１３に記載の方法。
装置であって、
話者の第１の音声を表す第１の部分的なオーディオストリームを生成するための第１の部分的なオーディオストリーム生成手段と、
前記第１の部分的なオーディオストリームを、前記第１の部分的なオーディオストリームが一部分であるディクテーションストリームにおける参照点に相対する第１の時間と関連付けるための、第１の相対的時間手段と、
前記話者の第２の音声を表す第２の部分的なオーディオストリームを生成するための第２の部分的なオーディオストリーム生成手段と、
前記第２の部分的なオーディオストリームを、前記第２の部分的なオーディオストリームが一部分である前記ディクテーションストリームにおける参照点に相対する第２の時間と関連付け、前記第１および第２の部分的なオーディオストリームは前記参照点に対して時間が連続しない、第２の相対的時間手段と、
コンシューマであって、
前記第１の部分的なオーディオストリームを受信するための第１の受信手段と、
前記第１の時間に基づいた場所で、前記第１の部分的なオーディオストリームを有効ディクテーションストリームに書き込むための第１の書き込み手段と、
前記第２の部分的なオーディオストリームを受信するための第２の受信手段と、
前記第２の時間に基づいた場所で、前記第２の部分的なオーディオストリームを前記有効ディクテーションストリームに書き込むための第２の書き込み手段と、
前記第２の部分的なオーディオストリームの書き込みが完了する前に、出力を作るために、前記有効ディクテーションの少なくとも一部分をコンシュームするためのコンサンプション手段と、を含むコンシューマと、を含むことを特徴とする装置。
前記コンサンプション手段は、前記第２の部分的なオーディオストリームの受信が完了する前に、出力を作るために、前記有効ディクテーションの少なくとも一部分をコンシュームするための手段を含むことを特徴とする請求項１７に記載の装置。
前記第１の書き込み手段は、前記第２の部分的なオーディオストリームの生成が完了する前に、前記第１の部分的なオーディオストリームを書き込むための手段を含むことを特徴とする請求項１７に記載の装置。
前記第１の受信手段は、前記第１の部分的なオーディオストリームの生成が完了する前に、前記第１の部分的なオーディオストリームの受信を開始するための手段を含むことを特徴とする請求項１７に記載の装置。
コンピュータで実行される方法であって、
（Ａ）話者の第１の音声を表す第１の部分的なオーディオストリームを生成するステップと、
（Ｂ）前記第１の部分的なオーディオストリームを、前記第１の部分的なオーディオストリームが一部分であるディクテーションストリームにおける参照点に相対する第１の時間と関連付けるステップと、
（Ｃ）前記話者の第２の音声を表す第２の部分的なオーディオストリームを生成するステップと、
（Ｄ）前記第２の部分的なオーディオストリームを、前記第２の部分的なオーディオストリームが一部分である前記ディクテーションストリームにおける参照点に相対する第２の時間と関連付けるステップと、
（Ｅ）コンシューマで、
ネットワーク上の前記第１の部分的なオーディオストリームを受信するステップと、
前記第１の時間に基づいた場所で、前記第１の部分的なオーディオストリームを有効ディクテーションストリームに書き込むステップと、
前記ネットワーク上で前記第２の部分的なオーディオストリームを受信するステップと、
前記第２の時間に基づいた場所で、前記第２の部分的なオーディオストリームを前記有効ディクテーションストリームに書き込むステップと、
（Ｅ）（４）の完了の前に出力を作るために、前記有効ディクテーションの少なくとも一部分をコンシュームするステップと、を含むことを特徴とする方法。
（Ｃ）の前に、前記ディクテーションストリームの一時停止を指定する前記話者からの第１の入力を受信するステップと、前記ディクテーションストリームの再開を指定する前記話者からの第２の入力を受信するステップと、をさらに含むことを特徴とする請求項２１に記載の方法。
装置であって、
話者の第１の音声を表す第１の部分的なオーディオストリームを生成するための第１の生成手段と、
前記第１の部分的なオーディオストリームを、前記第１の部分的なオーディオストリームが一部分であるディクテーションストリームにおける参照点に相対する第１の時間と関連付けるための、第１の関連付け手段と、
前記話者の第２の音声を表す第２の部分的なオーディオストリームを生成するための第２の生成手段と、
前記第２の部分的なオーディオストリームを、前記第２の部分的なオーディオストリームが一部分であるディクテーションストリームにおける参照点に相対する第２の時間と関連付けるための、第２の関連付け手段と、
コンシューマであって、
ネットワーク上の前記第１の部分的なオーディオストリームを受信するための第１の受信手段と、
前記第１の時間に基づいた場所で、前記第１の部分的なオーディオストリームを有効ディクテーションストリームに書き込むための第１の書き込み手段と、
前記ネットワーク上の前記第２の部分的なオーディオストリームを受信するための第２の受信手段と、
前記第２の時間に基づいた場所で、前記第２の部分的なオーディオストリームを前記有効ディクテーションストリームに書き込むための第２の書き込み手段と、
前記第２の部分的なオーディオストリームの書き込みの完了の前に、出力を作るために、前記有効ディクテーションの少なくとも一部分をコンシュームするためのコンサンプション手段と、を含むコンシューマと、を含むことを特徴とする装置。
前記第２の部分的なオーディオストリームの生成の前に、前記ディクテーションストリームの一時停止を指定する、前記話者からの第１の入力を受信するための第３の受信手段と、
前記ディクテーションストリームの再開を指定する前記話者からの第２の入力を受信するための第４の受信手段と、をさらに含むことを特徴とする請求項２３に記載の装置。