JP4875752B2 - 編集可能なオーディオストリームにおける音声の認識 - Google Patents

編集可能なオーディオストリームにおける音声の認識 Download PDF

Info

Publication number
JP4875752B2
JP4875752B2 JP2009538525A JP2009538525A JP4875752B2 JP 4875752 B2 JP4875752 B2 JP 4875752B2 JP 2009538525 A JP2009538525 A JP 2009538525A JP 2009538525 A JP2009538525 A JP 2009538525A JP 4875752 B2 JP4875752 B2 JP 4875752B2
Authority
JP
Japan
Prior art keywords
audio stream
partial audio
dictation
stream
start time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009538525A
Other languages
English (en)
Other versions
JP2010510556A (ja
Inventor
カラックス,エリック
コール,デトレフ
Original Assignee
マルチモーダル・テクノロジーズ・インク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マルチモーダル・テクノロジーズ・インク filed Critical マルチモーダル・テクノロジーズ・インク
Publication of JP2010510556A publication Critical patent/JP2010510556A/ja
Application granted granted Critical
Publication of JP4875752B2 publication Critical patent/JP4875752B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/036Insert-editing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Description

本発明は、編集可能なオーディオストリームにおける音声の認識に関するものである。
様々な自動音声認識機器が、音声を転写するために存在する。かかるシステムは、一般的に、「逐語的なトランスクリプト」モードで操作することが可能であり、すべての話された言葉は、それらが話された順番で転写される。しかしながら、話者が、以前にディクテ−ト(dictate)された音声を無効にする編集操作を実行する際に、逐語的なトランスクリプトを作ることは、望ましくない。
例えば、携帯デジタルレコーダーにディクテ−トする話者を考察する。話者は、いくつかの文を話し、次に間違えて話したことに気づく。話者は、その以前の10秒間の音声を再録音(置き換え)することを望み、彼は、10秒間の録音を巻き戻し(恐らく、録音機器の巻き戻しボタンを押すことによって)、次に再び話し始め、前回の10秒間の音声を訂正する。
かかる音声の逐語的なトランスクリプトは、それゆえ、話者が、最終的なトランスクリプトの一部となるように意図する音声だけではなく、他の音声(例えば、再ディクテ−トされた10秒間の音声)によって置き換えられ、その結果、最終的なトランスクリプトの一部となるべきではない音声もさらに含むこととなるであろう。いくつかの既存の音声認識機器は、全体のオーディオストリームがディクテ−トされる前に、話されるオーディオストリームになされたかかる変更を反映するトランスクリプトを作ることが可能であるが、かかるシステムは、オーディオストリームの各部分がその部分が話された後のある一定の時間の遅延を認識することを要求することによってそのようにし、結果として生じるオーディオストリームのその部分のトランスクリプトは、その後に続く音声によって無効化されないことを確実にする(またはその可能性を少なくとも増加させる)。
音声処理システムは、話されたオーディオストリームを、「スニペット」と称される部分的なオーディオストリームに分ける。システムは、オーディオストリームの一部分を、話者が一時停止し、次に録音を開始する、または巻き戻し、次に録音を開始する等、編集操作を実行した場所で、2つのスニペットに分けることが可能である。スニペットは、スニペットが生成されると、自動音声認識機器または再生機器等のコンシューマに連続的に送信されてもよい。コンシューマは、スニペットが受信されると、それらを処理(例えば、認識または再生する)することが可能である。コンシューマは、スニペットに反映される編集操作に応答してその出力を修正することが可能である。コンシューマは、オーディオストリームが、以前に送信された部分的なオーディオストリームを無効にする編集操作を含むとしても、オーディオストリームを、それが生成され送信される間に、処理することが可能であり、それにより、完全なオーディオストリームのディクテーションとコンサンプションとの間のターンアラウンドタイムをより短くすることを可能にする。
(関連出願の相互参照)
本出願は、2006年11月22日に申請された、「Recognition of Speech in Editable Audio Streams」という名称の、米国仮特許出願第60/867,105号の利益を主張する。
本出願は、2004年8月10日に申請された、「Automated Extraction of Semantic content and Generation of a Structured Document from Speech」という名称の米国特許出願第10/923,517号に関連し、その内容は参照により本明細書に組み込まれる。
本発明の一実施形態による、音声を処理(例えば、転写または再生)するためのシステムのデータフロー図である。 本発明の一実施形態による、音声の部分的なオーディオストリーム(「スニペット」)を格納するためのデータ構造の図である。 本発明の一実施形態による、音声を処理するために、図1のシステムによって実行される方法のフローチャートを示す図である。 本発明の一実施形態による、音声を処理するために、図1のシステムによって実行される方法のフローチャートを示す図である。 本発明の一実施形態による、編集操作によって以前に処理された音声の無効化に反応する、音声のコンシューマによって使用される方法のフローチャートを示す図である。 本発明の一実施形態による、音声のトランスクリプトの生成を完了し、ユーザがそのトランスクリプトを編集することを可能にするための方法のフローチャートを示す図である。 本発明の一実施形態による、図1のシステムを初期化するための方法のフローチャートを示す図である。 本発明の一実施形態による、トランスクリプトを表示し編集するためのシステムのデータフローを示す図である。 スニペットがディクテーションストリームに書き込まれ、それによりスニペットが言葉の一時停止の間に開始する場所を調節するための方法のフローチャートを示す図である。 図1のディクテーションストリームに文脈情報を格納するためのシステムのデータフローを示す図である。
本発明の実施形態は、音声が、自動的および実時間(すなわち、話者が話しており音声が完了する前)で転写されることを可能にする。かかる転写は、話者が自然に話し、巻き戻しまたは転送によって話す間に録音の場所を変える等の編集操作を実行する場合でも、実行することが可能である。巻き戻し、次にディクテーションを開始することは、本明細書で使用される用語「編集操作」の一例である。「編集操作」の別の例は、録音を一時停止し、次に録音を開始して、その後に続けてディクテーションを続けることである。
音声の一部分(本明細書で「スニペット」と称する)は、遅延なく転写されることが可能である。言い換えれば、第1のスニペットは、後続のスニペットが第1のスニペットを修正または削除する場合でも、話されている間に、または遅延の時間が終了することを待つことなく、転写することが可能である。
さらに、話者は、話している間に、話者にドラフトトランスクリプトを示すシステムなしで、ディクテートすることが可能である。むしろ、ドラフト文書は、ディクテーションが完了した後のみ、話者へ表示することが可能である。このことは、例えば、レポートをディクテートする放射線医が、ディクテートする間に、テキストを編集することよりもむしろ、放射線の画像の概説および説明に集中することを可能にする。話者は、ディクテーションが完了した時にのみ、ドラフトトランスクリプトを編集する機会を提供することが可能である。これは、一般的に、ユーザが話している間に、ドラフト文書をユーザに表示し、スクリーン上のテキストを変更することによりユーザがディクテーションを変更することを要求する、従来の音声認識システムと異なる。
本発明の実施形態は、ここでさらに詳細に記載される。図1を参照すると、データフロー図は、本発明の一実施形態に従う、音声を処理(例えば、転写または再生)するためのシステム100を示す。図3A〜3Bを参照すると、フローチャートは、本発明の一実施形態に従う、音声を転写するために、図1のシステム100によって実行することが可能である方法300を示す。
一般的に、医者等の話者102は、デジタル録音機器、マイクを接続されたパソコン、個人用デジタル補助機器、または電話器等の等の機器106に話し始める(ステップ302)。話者の音声は、「ディクテーション」104として図1に示され、それは、図3A〜3Bに示される方法300が完了するときまでに転写されることが望まれる全体の話されるオーディオストリームを示す。
以下にさらに詳細に記載されるように、録音機器106は、ディクテーション104を、本明細書で「スニペット」と称される、複数の部分的なオーディオストリームに分けることが可能である。録音機器106が各スニペットを録音する間、録音機器は、ディクテーション104の開始(またはディクテーション104内の任意の他の参照点へ)相対する、スニペットの開始時間130、およびスニペット202の実(絶対)開始時間132(スニペットが、GUIでのボタンのクリック等の、他の形態のユーザの入力に対応することを維持するため)の記録を付けることが可能である。話者102が話し始めると、録音機器106は、相対的開始時間130および絶対的開始時間132を初期化することができる(図4の方法400、ステップ402および404でそれぞれ示される。)。
録音機器106は、初期化し、新規スニペットを作り出し(ステップ304)、ディクテーション104の現在話されている部分をスニペットへ録音し始める(ステップ306)ことが可能である。そのようなスニペットを格納するための例示的データ構造200は、図2に示される。スニペット200は、例えば、(1)スニペット200に関連するディクテーション104の一部分を表す時間連続オーディオストリーム202と、(2)ディクテーション104の開始に相対するオーディオストリーム202の開始時間204と、(3)部分的なオーディオストリーム202の実(絶対)開始時間206と、(4)(もしあれば)スニペット200に関連する編集操作208と、を含むか、またはそれらに関連することが可能である。録音機器106は、スニペット200が初期化される際に、相対的開始時間130および絶対的開始時間132の値を、相対的開始時間204および絶対的開始時間206へ、それぞれ複写することが可能である。
録音機器106は、例えば、話者102が、録音機器106を使用し、録音中に、録音を一時停止し、巻き戻しをし、または転送をする等の編集操作を実行する(ステップ308)場合、現在のスニペット200を終了することが可能である。スニペット200を終了するためには、録音機器106は、追加の音声をスニペット200のオーディオストリーム202へ録音することを中断し、話者102によって実行される編集操作についての情報をスニペット200のフィールド208に録音することが可能である(ステップ310)。録音機器106は、次に、ネットワーク112上の現在のスニペット200を、ヒューマントランスクリプショニスト、自動音声認識機器、またはオーディオ再生機器等の、コンシューマ114へ送信することが可能である(ステップ312)。コンシューマ114が、スニペットをコンシュームすることが可能である方法の例は、以下に説明される。
図3Aに示される例において、現在のスニペット200は、スニペット200の終了後にコンシューマ114に送信されるということに留意すべきである。しかしながら、これは単に例に過ぎず、本発明を限定するものではない。例えば、録音機器106は、現在のスニペット200を、スニペット200が終了する前にコンシューマ114にストリームすることが可能である。例えば、録音機器106は、録音機器106がスニペット200でのオーディオストリーム202の格納を開始したらすぐに、現在のスニペット200をストリームし始め、より多くのオーディオストリーム202がスニペット200に格納される際に、スニペット200をストリームし続けることが可能である。結果として、コンシューマ114は、話者102が話し、録音機器106がスニペット200のより遅い部分を録音および送信する際でも、スニペット200のより早い部分を、処理(例えば、認識または再生)し始めることが可能である。
話者102が、現在のスニペットの終了後にディクテ−トを続ける際(ステップ302)、録音機器106は、新規スニペットを、それぞれフィールド204および206に格納された相対的開始時間130および絶対的開始時間132の現在値、ならびに空のオーディオストリーム202を伴い初期化することができる(ステップ304)。言い換えれば、録音機器106は、ディクテーション104を連続するスニペット102a−nに分割し、録音機器106は、スニペット102a−nが作り出されると、コンシューマ114へ連続的に送信するので、話者102は自然にディクテ−トを続けることが可能である。スニペット102a−nは、それにより、録音機器106がコンシューマ114へ送信するディクテーションストリーム108を形成する。ディクテーションストリーム108は、例えば、ソケット、HTTP接続、またはAPIによるストリーミングオブジェクトでのバイトの単一の順次ストリームとしてフォーマットすることが可能である。
かかる継続的な、話者102によるディクテーションおよび録音機器106によるディクテーション104の録音と並行で、コンシューマ114は、各スニペットを受信することが可能である(ステップ314)。例えば、仮に、話者102が、クライアント側音声録音機器106を使用してディクテーション104を作る場合、コンシューマ114は、サーバー側自動音声認識機器になることが可能である。
コンシューマ114は、スニペット110a−nのそれぞれを、それらが受信される際に、処理することが可能であり、言い換えれば、かかる処理を開始する前の遅延を発生させない。さらに、コンシューマ114は、録音機器106が、ディクテーションストリーム108における後続スニペットを録音し転送し続ける間、1つのスニペットを処理することが可能である。例えば、コンシューマ114が自動音声認識機器である場合、自動音声認識機器は、スニペット110a−nのそれぞれを、それらが受信される際に、転写することが可能であり、それにより、ディクテーション104を構成するスニペット110a−nがコンシューマ114に受信される際、ディクテーション104の稼働トランスクリプト116を作る。
コンシューマ114は、コンシューマ(例えば、サーバー)側で、本明細書で「有効ディクテーション」120と称される単一の組み合わされたオーディオストリームへ受信されたスニペット110a−nを組み合せることが可能である。一般的には、有効ディクテーション120に対する目的は、転写される音声に対する話者の意図を表すことである。例えば、元のディクテーション104は10秒間の音声を含み、話者102がこれらの10秒間の音声に対して巻き戻しをし、それらの上にディクテートをした場合、それらは連続的に無効化され、その音声が元のディクテーション104およびコンシューマ114に送信されたスニペット110a−nのストリームに現れたとしても、その削除された(無効化された)10秒間の音声は、有効ディクテーション120に現れるべきではない。コンシューマ114は、スニペット110a−nを受信する際、有効ディクテーション120を繰り返し更新する。
さらに具体的には、コンシューマ114は、「読み取り機」コンポーネント122および「プロセッサ」コンポーネント124を含むことが可能である。第1のスニペットを受信する前のある地点で、読み取り機122は、有効ディクテーション120を空のオーディオストリームに対し初期化し(図4、ステップ406)、書き込み時間134を、有効ディクテーション120の開始を指し示すように初期化する(ステップ408)。書き込み時間134は、読み取り機122が次のスニペットを書き込む有効ディクテーション120内の時間を表示する。
次に、読み取り機122がスニペット110a−nを受信する際(ステップ314)、読み取り機122は、スニペット110a−nの内容に基づいて有効ディクテーション120を更新する。読み取り機122は、スニペット110a−nを受信し始めたらすぐに、有効ディクテーション120の更新を始めることが可能であり、それゆえ、すべてのスニペット110a−nが受信される。結果として、読み取り機122は、読み取り機122が後続スニペットを受信すると同時に、前半のスニペットの受信に基づいて、有効ディクテーション120を更新することが可能である。
読み取り機122がスニペットを受信する時、読み取り機は、スニペットのフィールド204からスニペットの相対的開始時間を識別することが可能である(ステップ320)。読み取り機122は、次に、スニペットを使用し、識別された開始時間で、スニペットのオーディオストリーム202の内容を有効ディクテーション120に書き込むことにより、有効ディクテーション120を更新することが可能である(ステップ322)。
読み取り機122は、様々な方法で、オーディオストリーム202を有効ディクテーション120に「書き込む」ことが可能である。例えば、読み取り機122は、オーディオストリーム202を有効ディクテーション120に「上書き」モードで書き込むことが可能であり、そのモードでは、読み取り機122は、識別された開始時間で格納された(ステップ320)現在のデータを、有効ディクテーション120に、新規スニペットからのデータで、上書きする。別の例として、読み取り機122は、オーディオストリーム202を有効ディクテーション120に、「挿入」モードで書き込むことが可能であり、そのモードでは、読み取り機122は、(1)現在のスニペットを有効ディクテーション120に挿入し、ステップ320で識別された開始時間で始まり、(2)新規に挿入されたスニペットの時間に等しい量で、有効ディクテーション120にすでに格納されている後続スニペットの相対的開始時間を増加させる。さら別の例として、読み取り機122は、オーディオストリーム202を有効ディクテーション120に、「切り捨て」モードで書き込むことが可能であり、そのモードでは、読み取り機122は、(1)識別された開始時間で格納された(ステップ320)現在のデータを、有効ディクテーション120に、スニペットからのデータで上書きし、(2)新規に書かれたスニペットの後に、有効ディクテーション120中の任意のデータを消去する。
読み取り機122は、任意の様々な方法で上書きモード、挿入モード、または切り捨てモードを使用して、現在のスニペットを有効ディクテーション120に書き込むかどうかを決定することが可能である。例えば、読み取り機122は、同様のモード(例えば、上書きまたは挿入)を使用して、すべてのスニペット110a−nを特定のディクテーションストリーム108に書き込むように構成することが可能である。別の例としては、各スニペットの編集操作フィールド208は、そのスニペットの書き込みに使用するためにどのモードを使用するべきかを特定することが可能である。
現在のスニペットの相対的開始時間204が有効ディクテーション120の終了を指し示すかまたはそれを超える場合、次に読み取り機122は、読み取り機122が上書きモードまたは挿入モードで動作しているかどうかにかかわらず、現在のスニペットのオーディオストリーム202を有効ディクテーション120に加えることが可能である。
上述した読み取り機122の操作が、2つの特定の種類の編集操作、「録音の一時停止」および「一時停止および巻き戻し」の場合に、どのように有効ディクテーション120に影響するかを考察する。録音の一時停止の場合、話者102は、録音機器106での録音を一時停止し、次にその後の「実」(絶対的)時間で録音を再開始する。これに応答して録音機器106は、図3Aに関して上述されたように、話者102が録音を再開すると、現在のスニペットを終了し、新規スニペットを作り出す。結果として生じる2つのスニペットは、一時停止の前および後にそれぞれの音声を表すオーディオストリームを含む。この場合、録音機器106は、2つのスニペットの第2番目の相対的開始時間が、第1のスニペットの相対的終了時間と等しくなるように設定することが可能である。
読み取り機122が第1および第2のスニペットを受信する場合、第1のスニペットの相対的終了時間は、第2のスニペットの相対的開始時間に対応するため、読み取り機122は、ステップ320〜322を実行し、両方のスニペットを単一の長いオーディオストリームへ効果的に組み合せることが可能である。これは、2つのスニペットから単一の連続オーディオストリームを作り出すことである、話者102の起こり得る意図を反映する。
「一時停止および巻き戻し」の場合、話者102は、録音機器106で録音を一時停止し、巻き戻し、話を再開する。この場合、録音機器106は、ディクテーションストリーム108内に2つのスニペットを作り出すことが可能であり、1つは、一時停止/巻き戻しが実行される前に話された音声のためのものであり、もう1つは、一時停止/巻き戻しが実行された後に話された音声のためのものである。第2の録音されたスニペットの相対的開始時間は、巻き戻しの時間に対応する量によって、第1の録音されたスニペットの相対的終了時間よりも早くなるように設定することが可能であり、それによって、巻き戻しの影響を反映させる。結果として、第1および第2の録音されたスニペットは、ディクテーション104の開始時間(またはディクテーション104の中の参照点)に対して時間が非連続であることが可能である。
読み取り機122がこれらの2つのスニペットのうち第1番目を受信する際、読み取り機は、ステップ320〜322を実行することにより、最初に、第1のスニペットを有効ディクテーションに書き込むであろう。次に、読み取り機122は、これらの2つのスニペットのうち第2番目を受信し、読み取り機122は、第2のスニペットのより早い相対的開始時間に対応する有効ディクテーションのより早い位置でそのスニペットを挿入し、それにより、巻き戻し操作の影響を反映させる。
上述した技術は、部分的なオーディオストリームが作り出されるとすぐに、単一の組み合わせオーディオストリームに組み合される、既存の転写システムによって採用される技術とは異なる。言い換えれば、既存のシステムでは、部分的なオーディオストリームは保持されず(それらは、本明細書に記載のディクテーションストリーム108内にあるので)、単一のオーディオストリームは、処理(例えば、転写または再生)のためにコンシューマに転送される。巻き戻しを可能にするために、組み合わせオーディオストリームは、典型的には、十分な遅延の後にコンシューマへ転送され、すでにコンシューマに転送されている部分的なオーディオストリームが、後続の編集操作によって修正されないことを確実にするか、または少なくともその可能性を減少させる。
かかるシステムの1つの不利点は、長い遅延が経過した後であっても、後続の編集操作が以前の音声を修正しないという絶対的な保証はないということである。例えば、5分間の遅延を伴うシステムであっても、話者は、スクラッチから、ディクテーションを再開することを決定する前に10分間話す可能性がある。かかるシステムの別の不利点は、それらが発生させる遅延がトランスクリプトの生成を遅延させるということである。
本発明の実施形態では、対照的に、編集操作の適用を反映するオーディオストリームは、コンシューマ114(例えば、音声認識機器)に転送されない。その代わりに、後続のオーディオストリームによって修正または削除されるオーディオストリームをさらに含む一連の部分的なオーディオストリーム(スニペット110a−n)は転送される。
プロセッサ124が、有効ディクテーション120を処理することが可能である方法の例は、(ステップ324)ここで記載される。一般的に、プロセッサ124は、録音機器106および読み取り機122等の、システム100の他の要素と平行して操作することが可能である。システムを初期化すると(図4)、プロセッサ124は、読み取り時間138をゼロへ初期化することが可能である(ステップ410)。読み取り時間138は、プロセッサ124が次を読み込む有効ディクテーション内の位置を指し示す。プロセッサ124は、転写場所140をゼロに初期化することがさらに可能である(ステップ412)。転写の場所は、プロセッサが次にテキストを書き込むトランスクリプト116内の位置を指し示す。
一度、読み取り機122がオーディオデータを有効ディクテーション120に格納し始めると、プロセッサ124は、読み込み時間138によって特定される有効ディクテーション120内の位置で始まるデータを読み始めることが可能である(ステップ326)。言い換えれば、プロセッサ124は、有効ディクテーション120からのデータを読み込み処理することを開始する前に、全く時間を待つ必要はない。プロセッサ124は、プロセッサ124が有効ディクテーションからのオーディオデータを読み込む際、読み込み時間138を更新する(増加させる)(ステップ328)。
プロセッサ124は、ステップ326で読み込まれた有効ディクテーション120の一部分を転写し、転写されたテキストを作り、現在の転写場所140でトランスクリプト116へ、かかるテキストを書き込む(ステップ330)。プロセッサ124は、現在の転写場所140を更新し、ステップ330で転写されたテキストの最後を指し示す(ステップ332)。プロセッサ124は、ステップ326に戻り、有効ディクテーション120からのオーディオの読み込み処理を続ける。
プロセッサ124は、転写以外のおよび/またはそれに加えての機能を実行することが可能であるということが留意されるべきである。例えば、プロセッサ124は、有効ディクテーションを転写する代わりに、またはそれに加えて、有効ディクテーション120におけるオーディオの再生を実行することが可能である。
上述された理由のため、任意の、プロセッサ124が有効ディクテーション120から読み込むデータ、およびプロセスが最終的な録音の一部分となる保証はない。例えば、プロセッサ124が、有効ディクテーション120おけるオーディオの一部分を転写した後、そのオーディオの一部分は、連続的に受信されるスニペットによって、有効ディクテーション120内で、削除されるかまたは上書きされる可能性がある。
図3Cを参照して、コンシューマ114を使用して以前に処理されたオーディオのそのような無効化に応答することが可能である方法350を示す、フローチャートが、ここで記載される。読み取り機122は、プロセッサ124の現在の読み込み時間138にアクセスすることが可能である。読み取り機122は、プロセッサ読み込み時間138を読み込むことが可能であり(ステップ352)(図3Bのステップ320におけるスニペットの相対的開始時間を識別した後等)、それにより、読み取り機122は、読み取り機122によって現在処理されているスニペットが、プロセッサ124がすでに処理をした有効ディクテーション120の一部分を無効化するかどうかを検出することを可能にする。さらに具体的には、読み取り機122は、読み取り機122によって現在処理されているスニペットの相対的開始時間204とプロセッサ124の読み込み時間138を比較することが可能である。その相対的開始時間204が読み込み時間128よりも早い場合(ステップ354)、次に読み取り機122は、更新イベント136をプロセッサ124に提供することが可能であり(ステップ356)、すでに処理されたデータはもう有効ではないことを示す。
更新イベント136は、読み取り機122によって処理されているスニペットの相対的開始時間等の情報を含むことが可能である。更新イベント136の受信に応答して、プロセッサ124は、その読み込み時間138を更新イベント136によって示される相対的開始時間に変え(ステップ358)、次に新規読み込み時間138で始まる、有効ディクテーション120の処理を再開することが可能である(ステップ362)。
図3Cに示される方法350は、以前に処理されたスニペットを無効化するスニペットの受信に、どのようにコンシューマ114が応答することが可能であるかを示す単なる例である。更新イベント136への適切な応答は、コンシューマ114により異なる。例えば、コンシューマ114がオーディオプレーヤーである場合、オーディオプレーヤーは、オーディオを「非再生」することが不可能であるために、イベント136を無視する可能性がある。しかしながら、コンシューマ114が自動音声認識機器である場合は、音声認識機器は、有効ディクテーション120の現在無効な部分に対応する部分的な認識結果(テキストおよび/または部分的な仮説等)を破棄し(ステップ360)、有効ディクテーション120内の新規読み込み時間138で処理(認識)を再開始することが可能である(ステップ362)。ステップ360における部分的な認識結果を破棄するステップは、もはや有効ディクテーション120の一部分ではない音声に対応するトランスクリプト116の現在のバージョンからテキストを削除するステップと、新規読み込み時間138に対応するトランスクリプト116内の場所に対応するように転写場所140を更新するステップと、を含むことが可能である。
図3Dを参照すると、フローチャートは、システム100がディクテーション104の完了時に実行する方法370を示す。録音機器106は、話者102がディクテーション104をディクテートし終えたことを検出する(ステップ372)場合、録音機器106は、ディクテーションの完了の表示142をコンシューマ114へ送信することが可能であり(ステップ374)、それに応答して、コンシューマ114は、ディクテーションストリーム108の処理を終了させてトランスクリプト116の最終的なバージョンを作ることが可能であり、それは、話者102によって実行される任意の編集操作を反映する(ステップ376および378)。
一度最終的なトランスクリプト116が完了すると、テキストエディタ502(図5)または他のコンポーネントは、トランスクリプト116のレンダリング504を話者102へ、再考のために表示することが可能である(ステップ380)。話者102は、編集命令506をテキストエディタ502に発し、トランスクリプト116のエラーを訂正し、またはトランスクリプト116のフォーマットを変えるように、トランスクリプト116を編集することが可能である(ステップ382)。話者102以外の人物が、かかる再考および編集を実行することが可能である。さらに、1人以上の人物が、かかる再考および編集を実行することが可能である。例えば、医学記録転写士は、言語の正確性のためにトランスクリプト116を再考および編集することが可能であり、その一方で、医師は、事実の正確性のためにトランスクリプト116を再考および編集することが可能である。
話者102は、一般的に、話者がディクテ−トを望む瞬間まで精密に巻き戻すことは困難であるとし、また、10万分の1秒の差異でさえも音声認識機器の出力に影響する可能性があるため、巻き戻しイベントは、一般的に、非常に不確かであるとうことに留意すべきである。結果として、話者102が巻き戻しをし、再ディクテートをする場合、話者102は、やや長めに巻き戻す可能性があり、または十分な長さに巻き戻さない可能性があり、ユーザが意図しない場合に、少ない量の言葉が上書きされるに至るか、またはユーザの意図がそれらを再ディクテートすることである場合、少ない量の言葉が残ったままとなる。
本問題に取り組みうる一方法は、図6の方法600によって示され、その中で、読み取り機122は、話者102が巻き戻しをする際、書き込み時間134を自動的に調節し、それにより新規スニペットは、沈黙の間、有効ディクテーション120に書き込まれる(言葉の一時停止)。方法600は、例えば、図3Bのステップ320の後およびステップ322の前で実行されることが可能である。
例えば、話者102が特定の新規相対的開始時間へ巻き戻す際、読み取り機122は、その新規開始時間の近くの有効ディクテーション120内で言葉の一時停止の間を探索することが可能である(ステップ602)。そのような言葉の一時停止が、典型的な言葉よりも短い時間枠内(例えば、数十万分の1秒)またはいくつかの他の既定の閾値の時間内で見つかる場合(ステップ604)、重複がエラーであるということを推測することが可能である。そのような場合、読み取り機122は、新規書き込み時間134が言葉の一時停止の位置に等しくなるように調節することが可能である(ステップ606)。知能的自動再配置は、話者102による不正確な巻き戻しの配置によって引き起こされた認識のエラーを排除することによって、認識結果を改良することが可能である。
本発明の実施形態の利点は、以下の1つ以上である。本発明の実施形態は、実時間で、すなわち、音声104は話されているまたは再生されている際、編集操作を含む、オーディオストリームを転写している場合でも、転写を実行することが可能である。部分的なオーディオストリームが話された後または再生された後とそれが転写あるいは処理される前には遅延が導入される必要はない。結果として、音声104の転写は、より迅速に作り出されることが可能である。
トランスクリプトをより迅速に使用することを可能にする利益に加えて、増加された転写速度は、第3者によってよりもむしろ、話者102自身によってトランスクリプト116を編集することを容易にし、それにより転写費用を減少させることが可能である。さらに、増加された転写速度は、話者102が、エラーが話者の記憶に新しい時に、エラーを訂正することを可能にすることによって、転写の質を増加させる。
本明細書に開示される技術は、ディクテーションの間に実行された任意の編集操作を最終的なトランスクリプト116に組み込むことが可能である。結果として、実時間処理により得られる増加された速度は、転写質においていかなる犠牲も必要としない。
さらに、本明細書に開示される技術は、自然に話すことによって作り出されるオーディオストリームに適用することが可能である。例えば、話者102は、ディクテートする間に録音を巻き戻し、転送し、または一時停止することが可能であり、かかる編集操作は、最終的なトランスクリプト116に反映することが可能である。結果として、本明細書に開示される技術の利益は、話者がそのディクテーション行動を変えることを必要とせずに得ることが可能である。
さらに、本発明に開示される技術は、話者102が、システムによって作り出されたドラフトトランスクリプトのテキストを編集することによって、編集を行うことを必要とする様々な従来のシステムと違って、音声認識結果を話者102に表示する必要なく実行することが可能である。かかるテキスト編集の必要性を回避することのできる能力は、携帯の録音/送信機器(携帯ボイスレコーダーおよび携帯電話等)での使用、および、話者102がディスプレイを伴うコンピュータにアクセスできない状況での使用のために、本明細書に開示される技術を特に適応させる。ディスプレイが利用可能である場合でも、テキスト表示の必要性を排除することは、話者102が自由に、テキストの編集以外の、ディクテートおよび視覚的タスク(放射線画像を読む等)に集中することが可能にする。
本発明は、特定の実施形態に関して上述されてきたが、先述の実施形態は例示として提供され、本発明の範囲を限定または定義しないということが理解されるべきである。様々な他の実施形態は、以下を含み、それらに限定されず、さらに、本特許請求の範囲内である。例えば、本明細書に記載される要素およびコンポーネントは、さらなるコンポーネントに分けられ、または一緒に接続し、同様の機能を実行するための、より少ないコンポーネントを形成することが可能である。
録音機器106は任意の種類の装置であることが可能である。録音機器106は、コンピュータ上で実行するソフトウェアであってもよく、またはそれを含んでもよい。送信されたディクテーションストリーム108のみが図1に示されるが、録音機器106は、録音機器内または別の格納手段に、ディクテーションストリーム108またはその同等物をさらに格納することが可能である。いくつか、またはすべてのディクテーション108は、コンシューマ114に転送された後、いつでも録音機器106から削除することが可能である。
さらに、録音機器106およびコンシューマ114がネットワーク112上で通信する異なる機器として図1に示されるが、これは単に例に過ぎず、本発明の限定を成すものではない。録音機器106およびコンシューマ114は、例えば、単一の機器内に実装されることが可能である。例えば、録音機器106およびコンシューマ114は、両方とも、同様のコンピュータ上で実行されるソフトウェアに実装されることが可能である。
ネットワーク112は、ディクテーションストリーム108を送信するための任意の機構であることが可能である。例えば、ネットワーク112は、公共のインターネットまたはLANであることが可能である。
編集操作の実行は、ディクテーション104をスニペット110a−nに分けるためのトリガーとして本明細書に記載されるが、ディクテーション104は、他の方法でスニペット110a−nに分けることが可能である。例えば、録音機器106は、話者102が編集操作を実行しない場合でも、現在のスニペットを終了し、定期的に、例えば、5秒毎で新規スニペットを作り出すことが可能である。別の例として、録音機器106は、現在のスニペットを終了し、ディクテーション104におけるそれぞれの長い一時停止の後、またはある既定の数のより短い一時停止の後、新規スニペットを作り出すことが可能である。
録音機器106は、図1のシステム100への修正700を例証する、図7に示されるように、オーディオデータに加えてデータを録音することが可能である。図1の特定の要素は、単に例証を容易にする目的で、図7から省略される。
話者102が、放射線ソフトウェアによって表示されるような放射線画像をモニターで見ながら、これらの放射線画像についてディクテ−トする医師である例を考察する。医師が、特定のそのような画像についてコメントをディクテートする際、録音機器106は、画像についてのPACS(画像保管通信システム)情報を録音し、その情報(画像自体を含む)をディクテーションストリーム108内で送信することが可能である。
かかる画像情報は、ディクテーションストリーム108自体の中で、またはそれに関連して送信されるディクテーションストリーム音声の文脈についての情報702a−mの一例に過ぎない。結果として、ディクテーションストリーム108は、単にオーディオストリームであるだけではなく、話者102によって提供されるマルチモーダル入力(例えば、音声およびキーボード入力)から生じるより全般的なマルチメディアストリームであることが可能である。
結果として、ディクテーションストリーム108におけるオーディオ(スニペット110a−n)は、オーディオ110a−nに関連する任意の追加の文脈情報702a−mと相関することが可能である。かかる相関関係は、任意の様々な方法で実行することが可能である。例えば、画像は、その画像にスニペットの絶対的開始時間を印付けることによって、1つ以上のスニペット110a−nに相関することが可能である。結果として、コンシューマ114は、それが受信する画像または他の文脈情報702a−mをそれらが対応するスニペットに一致させることが可能である。
コンシューマ114は、結果として、単なる音声認識機器、オーディオ再生機器、または他の音声プロセッサではなく、むしろより全般的な、マルチメディアプロセッサであることが可能である。例えば、プロセッサ124がディクテーションストリーム108を再生する場合、プロセッサ124が、スニペットに関連する画像または文脈情報702a−mをさらに表示すると同時に、プロセッサ124がそのスニペットを再生することが可能であり、それにより概説者/編集者が、適切な時間で、ディクテーションストリーム108に関連する文脈情報を理解するかまたは概説することを可能にする。
録音機器106は、任意の様々な方法で、文脈情報702a−mをディクテーションストリーム108に加えるかどうかを決定することが可能である。例えば、話者102が上述のような画像を見ている場合、録音機器106は、その画像が見られる間に、ディクテートされているディクテーションストリーム108の一部分に関連する各画像についての情報を自動的に加えることが可能である。別の例として、録音機器106は、デフォルト設定により、ディクテーションストリーム108の画像情報を送信せず、むしろ話者102によって特定された画像についての情報のみを送信することが可能である。例えば、話者102が、特定の画像が重要であると考える場合、話者102は、既定のホットキーを打つかまたは他の入力704を提供することが可能であり、録音機器106がその特定の画像についての情報をディクテーションストリーム108に加えるように、どの録音機器106がそのようにするかに応答して、指示する。
その代わり、例えば、仮にコンシューマ114が自動音声認識機器であり、コンシューマがディクテーションストリーム108を受信する際、プロセッサ124は、トランスクリプト116内で録音された画像または他の文脈情報708を格納することが可能である。トランスクリプト116は、例えば、上述の「Automated Extraction of Semantic content and Generation of a Structured Document from Speech」という名称の、参照特許出願に記載される構造化文書の種類であることが可能である。トランスクリプト116内の文脈情報708は、文脈情報が作り出された時に話者102によってディクテ−トされた音声に対応するテキストに結び付くことが可能である。結果として、話者102によって見られる画像は、画像を表すテキストの次に、そのテキストがテキストエディタ502によって表示される際、表示することが可能である。
本明細書に記載の特定の例では、音声認識はサーバーで作動する自動音声認識機器によって実行されるが、これは単に例に過ぎず、本発明の限定を成すものではない。むしろ、音声認識および他の処理は、任意の位置で実行することが可能であり、クライアント−サーバー環境内で生じる必要はない。
上術の技術は、例えば、ハードウェア、ソフトウェア、ファームウェア、またはあらゆるこれらの組み合せにおいて実行することが可能である。上述の技術は、プロセッサ、プロセッサにより可読な記憶媒体(例えば、揮発性メモリ、および非揮発性メモリおよび/または記憶要素を含む)、少なくとも1つの入力機器、および少なくとも1つの出力機器を含む、プログラム可能なコンピュータで実行する、1つ以上のコンピュータプログラムにおいて実行することが可能である。プログラムコードは、記載した機能を実行するためおよび出力を生成すために、入力機器を使用して入力された入力に適用することが可能である。出力は、1つ以上の出力機器へ提供することが可能である。
以下の請求項の範囲内のそれぞれのコンピュータプログラムは、アセンブリ言語、マシン言語、高水準手続きプログラム言語、またはオブジェクト指向プログラム言語等の、あらゆるプログラム言語において実行することが可能である。プログラム言語は、例えば、コンパイルされた、または解釈されたプログラム言語であってもよい。
それぞれのそのようなコンピュータプログラムは、コンピュータプロセッサによる実行のための機械可読記憶機器において明白に具象化される、コンピュータプログラム製品において実行することが可能である。本発明の方法のステップは、入力で操作し出力を生成することにより、本発明の機能を実行するためのコンピュータ可読媒体で明白に具現化されるコンピュータプロセッサにて実行することが可能である。適したプロセッサには、例として、汎用および特殊用途のマイクロプロセッサの両方が挙げられる。概して、プロセッサは、読み取り専用メモリおよび/またはランダムアクセスメモリからの命令およびデータを受信する。コンピュータプログラム命令を明白に具象化するための適した記憶機器は、例えば、EPROM、EEPROMおよびフラッシュメモリ機器等を含む、半導体メモリ機器等の、すべての形式の非揮発性メモリ、内部ハードディスクおよびリムーバブルディスク等の磁気ディスク、光磁気ディスク、ならびにCD−ROMを含む。前述のあらゆるものは、特別に設計されたASIC(指定用途向け集積回路)またはFPGA(フィールド・プログラマブル・ゲート・アレイ)によって補完され、またはそれに組み込まれてもよい。また、コンピュータは、概して内部ディスク(図示せず)またはリムーバブルディスク等の記憶媒体からプログラムおよびデータを受信することができる。また、これらの要素は、あらゆる印刷エンジンまたはマーキングエンジン、ディスプレイ画面、または、紙面、フィルム、ディスプレイ画面、または他のアウトプット媒体にカラー、またはグレースケールを作る能力のある他のブラウン管式機器と併せて使用されてもよい、本明細書に記載の方法を実行するコンピュータプログラムを実行するために適した他のコンピュータのみならず、従来のデスクトップまたはワークステーションコンピュータに見られるであろう。

Claims (23)

  1. コンピュータで実現される方法であって、
    (A)話者の第1の音声を表す第1の部分的なオーディオストリームを生成するステップと、
    (B)前記第1の部分的なオーディオストリームを、前記第1の部分的なオーディオストリームが一部分であるディクテーションストリームの開始時間に相対する第1の開始時間と関連付けるステップと、
    (C)前記第1の部分的なオーディオストリームの終了後に続く前記話者の第2の音声を表す第2の部分的なオーディオストリームを生成するステップと、
    (D)前記第2の部分的なオーディオストリームを、前記第2の部分的なオーディオストリームが一部分である前記ディクテーションストリームの開始時間に相対する第2の開始時間と関連付けるステップであって、巻き戻しの時間に対応する量によって、前記ディクテーションストリームの開始時間に相対する、前記第1の部分的なオーディオストリームの第1の終了時間よりも早くなるように前記第2の開始時間を設定することが可能である、ステップと、
    (E)自動音声認識機器で、
    (1)前記第1の部分的なオーディオストリームを受信するステップと、
    (2)前記第1の開始時間に基づいた場所で、前記第1の部分的なオーディオストリームを有効ディクテーションストリームに書き込むステップと、
    (3)前記第2の部分的なオーディオストリームを受信するステップと、
    (4)前記第2の開始時間に基づいた場所で、前記第2の部分的なオーディオストリームを前記有効ディクテーションストリームに書き込むステップと、
    (5)前記(E)(4)のステップを完了する前に前記有効ディクテーションのトランスクリプトを生成するために、前記有効ディクテーションの少なくとも一部分に自動音声認識処理を適用するステップと、を含むことを特徴とする方法。
  2. 前記(E)(5)のステップは、前記(E)(3)のステップの完了の前に出力を作るために、前記有効ディクテーションの少なくとも一部分に自動音声認識処理を適用するステップを含むことを特徴とする請求項1に記載の方法。
  3. 前記(E)(2)のステップは、前記(C)のステップが完了する前に完了することを特徴とする請求項1に記載の方法。
  4. 前記(E)(1)のステップは、前記(A)のステップが完了する前に、開始されることを特徴とする請求項1に記載の方法。
  5. 前記(D)のステップは、挿入される他の部分的なオーディオストリームの時間に対応する量によって、前記第1の終了時間から前記第2の開始時間を増加させるように設定することがさらに可能であることを特徴とする請求項1に記載の方法。
  6. 前記(E)(1)のステップは、ネットワーク上の前記第1の部分的なオーディオストリームを受信するステップを含むことを特徴とする請求項1に記載の方法。
  7. (F)前記(C)のステップの前に、前記ディクテーションストリーム上で編集操作を指定する前記話者からの入力を受信するステップと、
    (G)前記編集操作入力に応答して前記第1の部分的なオーディオストリームを終了し、前記第2の部分的なオーディオストリームを開始するステップと、をさらに含むことを特徴とする請求項1に記載の方法。
  8. 前記(F)のステップは、前記ディクテーションストリームの相対的開始時間は、新規相対的開始時間に変更されるということを指定する前記話者からの第1の入力を受信するステップと、前記ディクテーションストリームが前記新規相対的開始時間で再開されるということを指定する前記話者からの第2の入力を受信するステップと、を含み、
    前記第2の部分的なオーディオストリームの前記第2の開始時間は、前記第1の部分的なオーディオストリームの前記第1の開始時間よりも、前記ディクテーションストリームにおける開始時間に相対して早いことを特徴とする請求項7に記載の方法。
  9. 前記(E)(5)のステップは、前記有効ディクテーションの少なくとも一部分を再生するステップを含むことを特徴とする請求項1に記載の方法。
  10. 前記(E)(5)のステップは、前記(E)(4)のステップが完了した後にのみ、前記トランスクリプトをユーザへ表示するステップをさらに含むことを特徴とする請求項1に記載の方法。
  11. 前記(E)(4)のステップは、
    (E)(4)(a)前記第2の部分的なオーディオストリームの前記第2の開始時間の既定の閾値内である時間で、前記有効ディクテーション内の沈黙の間としての言葉の一時停止を識別するステップと、
    (E)(4)(b)前記(E)(4)(a)のステップで識別された時間で、前記第2の部分的なオーディオストリームを前記有効ディクテーションに書き込むステップと、を含むことを特徴とする請求項10に記載の方法。
  12. (F)前記第1の部分的なオーディオストリームと関連付けられる文脈情報を識別するステップと、
    (G)前記第1の部分的なオーディオストリームの前記第1の開始時間を前記文脈情報と関連付けるステップと、
    (H)前記自動音声認識機器で、前記第1の部分的なオーディオストリームの前記第1の開始時間と関連する前記文脈情報を受信するステップと、をさらに含むことを特徴とする請求項1に記載の方法。
  13. 前記(E)(5)のステップは、前記第1の部分的なオーディオストリームおよび前記文脈情報を反映する出力を作るために、前記第1の部分的なオーディオストリームおよび前記文脈情報に自動音声認識処理を適用するステップを含むことを特徴とする請求項12に記載の方法。
  14. 前記(F)のステップは、前記文脈情報を識別する前記話者からの入力を受信するステップを含むことを特徴とする請求項12に記載の方法。
  15. 前記文脈情報は、画像を含むことを特徴とする請求項12に記載の方法。
  16. 装置であって、
    話者の第1の音声を表す第1の部分的なオーディオストリームを生成するための第1の部分的なオーディオストリーム生成手段と、
    前記第1の部分的なオーディオストリームを、前記第1の部分的なオーディオストリームが一部分であるディクテーションストリームにおける開始時間に相対する第1の開始時間と関連付けるための、第1の相対的時間手段と、
    前記第1の部分的なオーディオストリームの終了後に続く前記話者の第2の音声を表す第2の部分的なオーディオストリームを生成するための第2の部分的なオーディオストリーム生成手段と、
    前記第2の部分的なオーディオストリームを、前記第2の部分的なオーディオストリームが一部分である前記ディクテーションストリームにおける開始時間に相対する第2の開始時間と関連付け、巻き戻しの時間に対応する量によって、前記ディクテーションストリームの開始時間に相対する、前記第1の部分的なオーディオストリームの終了時間よりも早くなるように前記第2の開始時間を設定することが可能である、第2の相対的時間手段と、
    自動音声認識機器であって、
    前記第1の部分的なオーディオストリームを受信するための第1の受信手段と、
    前記第1の開始時間に基づいた場所で、前記第1の部分的なオーディオストリームを有効ディクテーションストリームに書き込むための第1の書き込み手段と、
    前記第2の部分的なオーディオストリームを受信するための第2の受信手段と、
    前記第2の開始時間に基づいた場所で、前記第2の部分的なオーディオストリームを前記有効ディクテーションストリームに書き込むための第2の書き込み手段と、
    前記第2の部分的なオーディオストリームの書き込みが完了する前に、前記有効ディクテーションのトランスクリプトを生成するために、前記有効ディクテーションの少なくとも一部分に自動音声認識処理を適用するための自動音声認識処理手段と、を含む自動音声認識機器と、を含むことを特徴とする装置。
  17. 前記音声認識手段は、前記第2の部分的なオーディオストリームの受信が完了する前に、前記有効ディクテーションのトランスクリプトを生成するために、前記有効ディクテーションの少なくとも一部分に自動音声認識処理を適用するための手段を含むことを特徴とする請求項16に記載の装置。
  18. 前記第1の書き込み手段は、前記第2の部分的なオーディオストリームの生成が完了する前に、前記第1の部分的なオーディオストリームを書き込むための手段を含むことを特徴とする請求項16に記載の装置。
  19. 前記第1の受信手段は、前記第1の部分的なオーディオストリームの生成が完了する前に、前記第1の部分的なオーディオストリームの受信を開始するための手段を含むことを特徴とする請求項16に記載の装置。
  20. コンピュータで実行される方法であって、
    (A)話者の第1の音声を表す第1の部分的なオーディオストリームを生成するステップと、
    (B)前記第1の部分的なオーディオストリームを、前記第1の部分的なオーディオストリームが一部分であるディクテーションストリームにおける開始時間に相対する第1の開始時間と関連付けるステップと、
    (C)前記第1の部分的なオーディオストリームの終了後に続く前記話者の第2の音声を表す第2の部分的なオーディオストリームを生成するステップと、
    (D)前記第2の部分的なオーディオストリームを、前記第2の部分的なオーディオストリームが一部分である前記ディクテーションストリームにおける開始時間に相対する第2の開始時間と関連付けるステップであって、巻き戻しの時間に対応する量によって、前記ディクテーションストリームの開始時間に相対する、前記第1の部分的なオーディオストリームの第1の終了時間よりも早くなるように前記第2の開始時間を設定することが可能である、ステップと、
    (E)自動音声認識機器で、
    (1)ネットワーク上の前記第1の部分的なオーディオストリームを受信するステップと、
    (2)前記第1の開始時間に基づいた場所で、前記第1の部分的なオーディオストリームを有効ディクテーションストリームに書き込むステップと、
    (3)前記ネットワーク上で前記第2の部分的なオーディオストリームを受信するステップと、
    (4)前記第2の開始時間に基づいた場所で、前記第2の部分的なオーディオストリームを前記有効ディクテーションストリームに書き込むステップと、
    (5)前記(E)(4)のステップの完了の前に前記有効ディクテーションのトランスクリプトを生成するために、前記有効ディクテーションの少なくとも一部分に自動音声認識処理を適用するステップと、を含むことを特徴とする方法。
  21. (F)前記(C)のステップの前に、前記ディクテーションストリームの一時停止を指定する前記話者からの第1の入力を受信するステップと、前記ディクテーションストリームの再開を指定する前記話者からの第2の入力を受信するステップと、をさらに含むことを特徴とする請求項20に記載の方法。
  22. 装置であって、
    話者の第1の音声を表す第1の部分的なオーディオストリームを生成するための第1の生成手段と、
    前記第1の部分的なオーディオストリームを、前記第1の部分的なオーディオストリームが一部分であるディクテーションストリームにおける開始時間に相対する第1の開始時間と関連付けるための、第1の関連付け手段と、
    前記第1の部分的なオーディオストリームの終了後に続く前記話者の第2の音声を表す第2の部分的なオーディオストリームを生成するための第2の生成手段と、
    前記第2の部分的なオーディオストリームを、前記第2の部分的なオーディオストリームが一部分であるディクテーションストリームにおける開始時間に相対する第2の開始時間と関連付け、巻き戻しの時間に対応する量によって、前記ディクテーションストリームの開始時間に相対する、前記第1の部分的なオーディオストリームの終了時間よりも早くなるように前記第2の開始時間を設定することが可能である、第2の関連付け手段と、
    自動音声認識機器であって、
    ネットワーク上の前記第1の部分的なオーディオストリームを受信するための第1の受信手段と、
    前記第1の開始時間に基づいた場所で、前記第1の部分的なオーディオストリームを有効ディクテーションストリームに書き込むための第1の書き込み手段と、
    前記ネットワーク上の前記第2の部分的なオーディオストリームを受信するための第2の受信手段と、
    前記第2の開始時間に基づいた場所で、前記第2の部分的なオーディオストリームを前記有効ディクテーションストリームに書き込むための第2の書き込み手段と、
    前記第2の部分的なオーディオストリームの書き込みの完了の前に、前記有効ディクテーションのトランスクリプトを生成するために、前記有効ディクテーションの少なくとも一部分に自動音声認識処理を適用するための自動音声認識処理手段と、を含む自動音声認識機器と、を含むことを特徴とする装置。
  23. 前記第2の部分的なオーディオストリームの生成の前に、前記ディクテーションストリームの一時停止を指定する、前記話者からの第1の入力を受信するための第3の受信手段と、
    前記ディクテーションストリームの再開を指定する前記話者からの第2の入力を受信するための第4の受信手段と、をさらに含むことを特徴とする請求項22に記載の装置。
JP2009538525A 2006-11-22 2007-11-23 編集可能なオーディオストリームにおける音声の認識 Expired - Fee Related JP4875752B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US86710506P 2006-11-22 2006-11-22
US60/867,105 2006-11-22
PCT/US2007/085472 WO2008064358A2 (en) 2006-11-22 2007-11-23 Recognition of speech in editable audio streams

Publications (2)

Publication Number Publication Date
JP2010510556A JP2010510556A (ja) 2010-04-02
JP4875752B2 true JP4875752B2 (ja) 2012-02-15

Family

ID=39430616

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009538525A Expired - Fee Related JP4875752B2 (ja) 2006-11-22 2007-11-23 編集可能なオーディオストリームにおける音声の認識

Country Status (5)

Country Link
US (1) US7869996B2 (ja)
EP (1) EP2095363A4 (ja)
JP (1) JP4875752B2 (ja)
CA (1) CA2662564C (ja)
WO (1) WO2008064358A2 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
US8335688B2 (en) * 2004-08-20 2012-12-18 Multimodal Technologies, Llc Document transcription system training
US7502741B2 (en) * 2005-02-23 2009-03-10 Multimodal Technologies, Inc. Audio signal de-identification
US7640158B2 (en) 2005-11-08 2009-12-29 Multimodal Technologies, Inc. Automatic detection and application of editing patterns in draft documents
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
CA2652444C (en) * 2006-06-22 2020-04-28 Multimodal Technologies, Inc. Automatic decision support
US20080177623A1 (en) * 2007-01-24 2008-07-24 Juergen Fritsch Monitoring User Interactions With A Document Editing System
US8019608B2 (en) 2008-08-29 2011-09-13 Multimodal Technologies, Inc. Distributed speech recognition using one way communication
US8572488B2 (en) * 2010-03-29 2013-10-29 Avid Technology, Inc. Spot dialog editor
US8805683B1 (en) 2012-02-24 2014-08-12 Google Inc. Real-time audio recognition protocol
US8158870B2 (en) * 2010-06-29 2012-04-17 Google Inc. Intervalgram representation of audio for melody recognition
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US9384734B1 (en) 2012-02-24 2016-07-05 Google Inc. Real-time audio recognition using multiple recognizers
US9208225B1 (en) 2012-02-24 2015-12-08 Google Inc. Incentive-based check-in
US9280599B1 (en) 2012-02-24 2016-03-08 Google Inc. Interface for real-time audio recognition
US9412372B2 (en) * 2012-05-08 2016-08-09 SpeakWrite, LLC Method and system for audio-video integration
US9812130B1 (en) * 2014-03-11 2017-11-07 Nvoq Incorporated Apparatus and methods for dynamically changing a language model based on recognized text
US10643616B1 (en) * 2014-03-11 2020-05-05 Nvoq Incorporated Apparatus and methods for dynamically changing a speech resource based on recognized text
CN104038827B (zh) * 2014-06-06 2018-02-02 小米科技有限责任公司 多媒体播放方法及装置
US9886423B2 (en) * 2015-06-19 2018-02-06 International Business Machines Corporation Reconciliation of transcripts
US10607611B1 (en) 2019-09-06 2020-03-31 Verbit Software Ltd. Machine learning-based prediction of transcriber performance on a segment of audio

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001228897A (ja) * 2000-02-18 2001-08-24 Canon Inc 音声入力装置及びその制御方法並びにプログラムコードを格納した記憶媒体
JP2005079821A (ja) * 2003-08-29 2005-03-24 Nec Corp 留守録欠落防止方式及びその方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5179627A (en) * 1987-02-10 1993-01-12 Dictaphone Corporation Digital dictation system
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
US5008871A (en) * 1988-12-22 1991-04-16 Howells Joseph A Dictate/transcribe control for digital dictation system
JPH09298944A (ja) 1996-05-14 1997-11-25 Tsutsunaka Plast Ind Co Ltd 植物栽培方法および植物栽培用シート
US5899976A (en) * 1996-10-31 1999-05-04 Microsoft Corporation Method and system for buffering recognized words during speech recognition
US5970460A (en) * 1997-12-05 1999-10-19 Lernout & Hauspie Speech Products N.V. Speech recognition and editing system
US6298326B1 (en) * 1999-05-13 2001-10-02 Alan Feller Off-site data entry system
JP2001082024A (ja) 1999-09-17 2001-03-27 Toyota Auto Body Co Ltd 引戸装置
US6581033B1 (en) 1999-10-19 2003-06-17 Microsoft Corporation System and method for correction of speech recognition mode errors
US6975990B2 (en) * 2001-01-03 2005-12-13 Mudakara Global Solutions Sequential-data synchronization at real-time on an analog and a digital medium
JP4687936B2 (ja) * 2001-03-22 2011-05-25 ソニー株式会社 音声出力装置および音声出力方法、並びにプログラムおよび記録媒体
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US20040243415A1 (en) 2003-06-02 2004-12-02 International Business Machines Corporation Architecture for a speech input method editor for handheld portable devices

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001228897A (ja) * 2000-02-18 2001-08-24 Canon Inc 音声入力装置及びその制御方法並びにプログラムコードを格納した記憶媒体
JP2005079821A (ja) * 2003-08-29 2005-03-24 Nec Corp 留守録欠落防止方式及びその方法

Also Published As

Publication number Publication date
US20080221881A1 (en) 2008-09-11
WO2008064358A3 (en) 2008-07-10
EP2095363A2 (en) 2009-09-02
EP2095363A4 (en) 2011-07-20
WO2008064358A2 (en) 2008-05-29
CA2662564A1 (en) 2008-05-29
US7869996B2 (en) 2011-01-11
JP2010510556A (ja) 2010-04-02
CA2662564C (en) 2011-06-28

Similar Documents

Publication Publication Date Title
JP4875752B2 (ja) 編集可能なオーディオストリームにおける音声の認識
CN110858408B (zh) 动画制作系统
US20190196666A1 (en) Systems and Methods Document Narration
US8966360B2 (en) Transcript editor
US8548618B1 (en) Systems and methods for creating narration audio
US8498866B2 (en) Systems and methods for multiple language document narration
US8392186B2 (en) Audio synchronization for document narration with user-selected playback
JP2018077870A (ja) 音声認識方法
US20130144625A1 (en) Systems and methods document narration
KR101492816B1 (ko) 애니메이션 립싱크 자동화 장치 및 방법
US8972269B2 (en) Methods and systems for interfaces allowing limited edits to transcripts
JP2009503560A (ja) コンテンツベースの音声再生強調
US20220115019A1 (en) Method and system for conversation transcription with metadata
WO2020013891A1 (en) Techniques for providing audio and video effects
US20110113357A1 (en) Manipulating results of a media archive search
WO2022166801A1 (zh) 数据处理方法、装置、设备以及介质
JP7236570B1 (ja) システム、通信端末、及び方法
CN115209214B (zh) 从视频中识别并移除受限信息
US12020708B2 (en) Method and system for conversation transcription with metadata
US20230064035A1 (en) Text-Based Video Re-take System and Methods
JP2005341138A (ja) 映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101122

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20101122

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20101208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110425

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110506

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110628

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111031

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111125

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141202

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4875752

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141202

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141202

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141202

Year of fee payment: 3

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141202

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees