JP2009518729A - 発話に基づく文書履歴追跡のための方法およびシステム - Google Patents

発話に基づく文書履歴追跡のための方法およびシステム Download PDF

Info

Publication number
JP2009518729A
JP2009518729A JP2008543945A JP2008543945A JP2009518729A JP 2009518729 A JP2009518729 A JP 2009518729A JP 2008543945 A JP2008543945 A JP 2008543945A JP 2008543945 A JP2008543945 A JP 2008543945A JP 2009518729 A JP2009518729 A JP 2009518729A
Authority
JP
Japan
Prior art keywords
utterance
document
text
sections
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008543945A
Other languages
English (en)
Inventor
グロバオアー,ゲルハルト
パパイ,ミクロス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2009518729A publication Critical patent/JP2009518729A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

発話に基づく文書における訂正を履歴追跡する方法およびシステムが開示される。発話に基づく文書は、発話の諸セクションから認識または転記されたテキストの一つまたは複数のセクションを含む。発話のセクションはユーザーによって口述され、発話認識システム中の発話認識器によって処理されて、発話に基づく文書のテキストの対応するセクションにされる。本方法は、発話に基づく文書におけるテキストの各セクションに、少なくとも一つの発話属性(14)を関連付け、ここで、前記発話属性(14)は、テキストの前記セクションに関係する情報をそれぞれ含む、ステップと;呈示ユニット(8)上に前記発話に基づく文書を呈示するステップと;テキストの前記諸セクションのいずれかの中で実行される作用を検出するステップと;前記発話に基づく文書を更新するために、テキストの前記諸セクションのうちの一つにおいて検出された作用の種類に関係する前記発話属性(14)の情報を更新するステップとを有し、それにより、前記発話属性(14)の前記の更新された情報が前記発話に基づく文書の訂正を履歴追跡するために使われる。

Description

本発明は概括的には発話認識の分野に関する。より詳細には、本発明は文書のテキスト部分における変更の履歴追跡のための方法およびシステムに、より詳細には文書作成作業フローにおける曖昧さを解決するための追跡インフラストラクチャーを提供することに関する。
本発明はさらに、前記方法をコンピュータによって実行するためのコンピュータ・プログラムが具現されているコンピュータ可読媒体に関する。
発話認識システムはますます効果的になってきており、今日、複数の産業においてよく使われている。発話認識は、マイクロホンによって受領された音響信号がコンピュータによって単語の集合を含む文書に変換されるプロセスである。これらの認識された単語は、種々の目的のために多様な応用において使用されうる。発話をテキストに変換する自動発話認識システムは、コスト効率のよい文書作成および高い転記生産性につながる。
文書がのちに、作者、転記者、品質保証(QA: Quality assurance)人員などがその文書を手または口述によって改訂することによって、訂正または校閲される必要があるという事実が、こうした発話認識システムの複雑さを増す。
発話認識の精度を改善するいくつかのアイデアがここ数年、提案されてきた。一例、米国特許出願第2002/0156816号は、ユーザーの自己訂正、改訂および修正から学習するための方法および装置を開示している。現行テキストになされた変更は、変換されたテキストを生じ、該変更に基づいて、将来の使用のために保存される規則が考案される。
発話認識システムによって作成された文書を編集する訂正者が、文書の一部は発話認識器によって適正に認識されなかったかもしれない、および/または作者によって訂正されたかもしれないという事実に取り組む必要があることは知られている。いずれの場合にも、書かれているテキストは作者が口述したことに一致しない。すなわち、発話認識器が口述された発話を誤って解釈して認識されたテキストに欠陥があるか、あるいは作者が転記もしくは認識されたテキストを見直して、作者がテキスト内容に関して訂正もしくは心変わりをしたため、変更をしたのである。普通の発話認識製品では、このジレンマは全く解決されないか、あるいは文書の一部ではないメタ情報を介して、たとえば「作者によって訂正済み」もしくは「要訂正」のような文書属性によって追跡される。いずれにせよ、これは満足いくものではなく、これまで知られている発話認識製品は、ぎこちないか、あるいは信頼性を欠く。
よって、発話に基づく文書になされた変更を追跡する改善されたシステムが有益であろう。
そこで、発話に基づく文書になされた変更を追跡する改善されたシステムを提供することが本発明の一つの目的である。
この目的を達成するため、付属の特許請求項に基づく、発話に基づく文書の履歴変更を追跡する方法およびシステムが提供される。
より特定的には、本発明は、テキストのセクション、たとえば単語、句に対し、文書の全セクションに発話属性を自動的に適用することによって、追跡をサポートする発話有効化フレームワークに関する。これはテキストまたは音の各セクションの変更履歴のすべてを追跡する新しい方法であり、文書作業フローの各段階において、どのステップが発話に基づく文書の現行のテキストまたは音につながったかを見出すことを許容する。訂正者の疑問「作者は本当は何を意味していたのだろうか、テキストに何が書かれているのだろうか、あるいは何が聞かれることができるだろうか」および品質保証人員の疑問「誰が特定の誤りをこの文書に導入したか」に、最終的に答えることができる。つまり、本発明は、信頼できる発話に基づく文書を常に有効化する発話認識システムを提供する。そのような発話に基づく文書は、たとえば、発話に基づく文書の現行の真正テキストを簡単に提供しうる、あるいは発話に基づく文書中に誤りが見出されるときに簡単に訂正されうる。
本発明のある側面によれば、電子文書中の訂正を履歴追跡する方法が提供される。ここで、電子文書は、発話のセクションから認識または転記されたテキストの一つまたは複数のセクションを含む発話に基づく文書である。発話のセクションはユーザーによって口述され、発話認識システム中の発話認識器によって処理されて、発話に基づく文書のテキストの対応するセクションにされる。本方法は、発話に基づく文書におけるテキストの各セクションに、少なくとも一つの発話属性を関連付けるステップを有する。該少なくとも一つの発話属性は、テキストの前記セクションに関係する情報をそれぞれ含む。本方法はまた、呈示ユニット上に前記発話に基づく文書を呈示し、テキストのセクションのいずれかの中で実行される作用を検出し、発話に基づく文書を更新するために、テキストの前記セクションのうちの一つにおいて検出された作用の種類に関係する前記少なくとも一つの発話属性の情報を更新するステップを有し、それにより、前記少なくとも一つの発話属性の更新された情報が発話に基づく文書の訂正を履歴追跡するために使われる。
本発明のもう一つの側面によれば、電子文書中の訂正を履歴追跡するシステムが提供される。ここで、前記電子文書は、発話のセクションから認識または転記されたテキストの一つまたは複数のセクションを含む発話に基づく文書である。発話のセクションはユーザーによって口述され、発話認識システム中の発話認識器によって処理されて、発話に基づく文書のテキストの対応するセクションにされる。本システムは、発話に基づく文書におけるテキストの各セクションに、少なくとも一つの発話属性を関連付ける手段を有する。該少なくとも一つの発話属性は、テキストの前記セクションに関係する情報をそれぞれ含む。本システムはまた、前記発話に基づく文書を呈示するための少なくとも一つの呈示ユニットと、テキストのセクションのいずれかの中で実行される作用を検出する手段と、発話に基づく文書を更新するために、テキストの前記セクションのうちの一つにおいて検出された作用に関係する前記発話属性の情報を更新する手段とを有し、それにより、前記発話属性の前記更新された情報が、本システムの使用において、発話に基づく文書の訂正を履歴追跡するために使われる。
本発明のさらなる側面によれば、コンピュータによる処理のためのコンピュータ・プログラムが具現されたコンピュータ可読媒体が提供される。該コンピュータ・プログラムは、電子文書中の訂正を履歴追跡するよう構成されている。ここで、電子文書は、発話のセクションから認識または転記されたテキストの一つまたは複数のセクションを含む発話に基づく文書である。本コンピュータ・プログラムは、発話に基づく文書におけるテキストの各セクションに、少なくとも一つの発話属性を関連付けるコード・セグメントを有する。該発話属性は、テキストの前記セクションに関係する情報をそれぞれ含む。本コンピュータ・プログラムはまた、呈示ユニット上に前記発話に基づく文書を呈示するためのコード・セグメントと、テキストのセクションのいずれかの中で実行される作用を検出するためのコード・セグメントと、発話に基づく文書を更新するために、テキストの前記セクションのうちの一つにおいて検出された作用の種類に関係する発話属性の情報を更新するためのコード・セグメントとを有し、それにより、前記発話属性の前記更新された情報が前記発話に基づく文書の訂正を履歴追跡するために使われる。
発話に基づく文書に対して、たとえば発話に基づく文書中の口述されたテキストまたは発話のセクションにおいてなされた変更の履歴追跡の恩恵は、なかんづく、よりシャープな訂正情報を自動的に提供する簡単さである。
本発明が有するこれらおよびその他の側面、特徴および利点は、付属の図面を参照しての本発明の実施形態の以下の記述から明白となり、明快にされるであろう。
以下の記述は、発話認識システムに適用可能な本発明の例に、特に発話に基づく文書の中のテキストまたはオーディオにおいてなされた訂正および修正を履歴追跡する方法に焦点を当てる。しかしながら、本発明がこの適用に限定されず、他の多くの口述または声によって管理されるシステムに適用されうることは理解されるであろう。
発話に基づく文書の種類はプレーンテキストからフォームおよびテンプレートまでさまざまである。発話に基づく文書は、いかなるテキストもなしに開始されてもよいし、あるいはわずかに変更されることになるテキスト要素を含んでいる文書が用意されてもよい。発話に基づく文書は、高度に構造を有していても、無構造でもよい。構造は静的に定義されていてもよいし、文書構築要素、いわゆる文書プリミティブ(DP: document primitive)の集合から動的に生成されてもよい。
簡単のため、「発話に基づく文書(speech based document)」は本明細書の残りの部分では「文書」と称される。ここで、該文書は、少なくとも部分的に発話から導出された情報の再生成のために構想されている。
図1では、機能しうる既知の文書作成プロセスが呈示されている。ユーザーは、特定の発話認識の知識なしに、自分の文書プリミティブ(DP)1を定義する。DPは、口述の間参照レイアウト文書として使われる文書中に含まれる諸領域の型を定義する。
文書プリミティブは:
・プレーンテキスト;
・オート・テキスト(Auto text)(たとえばテキスト・ブロック);
・スマート・フィールド(たとえば、動的な要素、たとえばデータベースからの人口統計を含むテキスト・ブロック);
・名前を付けられたフィールド(たとえば、識別可能なプレースホルダー);
・その他
といった任意のものでよい。
発話有効化フレームワーク(speech enabling framework)3はテキスト文書を、構造および内容情報(たとえば見出し、タグなど)を抽出することによって発話有効化文書(speech enabled document)4に自動的に変換する。発話有効化文書は、たとえば、その中への口述、その中での発話ナビゲーションおよびその訂正/修正をサポートする。図1に示されるように、文書4には発話属性5が文書全体について含まれる。これについてはのちにより詳細に説明する。
図2には、本発明のある実施形態が示されている。システム6はユーザー入力ユニット7、呈示ユニット8および発話認識フレームワーク9を含む。ユーザー入力ユニットは、マイクロホンまたはレコーダーのような音入力ユニット11であっても、あるいはキーボードまたはマウスのようなテキスト入力ユニット10であってもよい。呈示ユニット8は、テキストまたは音の結果が呈示されるコンピュータ画面16またはレコーダーおよびプレーヤー17などであってもよい。発話認識フレームワーク9は共通のフレームワークであり、構造化された文書を扱い、動的な文書変更に対応する。本発明の実施形態において使用される特徴の一つは、発話認識器12である。本発明の発話認識フレームワーク9は発話認識器12である。本実施形態の発話認識フレームワーク9は、コンピュータ中の一つまたは複数のデータ・プロセッサおよび/またはデジタル信号プロセッサの上で走るコンピュータ・ソフトウェアとして実装されるが、発話認識(SR: speech recognition)フレームワーク9は、他の実施形態では、他の手段によって、たとえばコーディングされたハードウェアで実装されてもよい。システム6中の実施形態のSRフレームワーク9は、文書のすべての部分に発話属性を自動的に適用することによって、テキストのセクションに対する追跡もサポートする。こうして、文書作業フローの各段階においてなされたすべての変更を追跡し、どの履歴ステップが発話文書13の現行のテキストおよび音につながったかを見出す。
発話属性14の組が、品質保証目的のために利用可能である。文書の発話属性という用語は、文書中または文書のある領域中のテキストのすべてのセクションのすべての発話関係の属性を指すために使われる。
発話属性は次のものでありうる。
・口述エリア(DA: dictation area)、すなわち元のプレーンテキスト。
・DA内部での認識信頼度:認識信頼度は、発話認識器によって少なくとも一つのまたは一群の認識された単語に関連付けられ、認識がうまく機能していた確率を示す。たとえば、この信頼度が低い場合、訂正が必要とされるある程度の確率は、認識信頼度レベルが高い場合に比べて高くなる。
・範囲に対する検出されたトピック:発話認識のある特別な機能は、トピック(たとえば、一般的な論評、患者固有情報、診断情報またはあるコンテキストの任意の個別的な下位コンテキスト)を単語の群または範囲に関連付けることである。関連付けられたトピック情報は、たとえば検証目的のために、追加的情報として使用されうる。
・DA内でどの部分が修正されたか:どの部分が作者によって修正されたかが修正者に可視であれば、その音または修正されたテキストが有効でありそうかどうかの指標となる。作者または品質保証人員が訂正されたテキストをチェックする場合、修正情報は、DA内に位置付けられた修正部分を指示するので、彼らにとっても有効な指標でありうる。
・発話のどの領域が完全に置き換えられているか:元になっている音ではなく、訂正されたテキストが有意であるという良好な指標。現行のテキストはすでにチェックされ、以前に訂正されたからである。
・文書の聞こえた部分および聞こえなかった部分はどれか:これは、転記者にとって、たとえばオーディオ・データのセクションとして利用可能であるがまだ文書のテキスト・セクションに転記されていない、文書中の欠けているテキスト・パッセージを位置特定するために、助けとなりうる。
・訂正者によってタッチされなかった/聞かれなかった部分はどれか:この情報は、口述されたテキスト・パッセージのうち逃したものを指示するために使われうる。
・どの部分が深刻な口述または訂正問題を含む候補となるか。これはたとえば、信頼度の値、いくつかの修正を含む、作者および訂正者によって何度か訂正されている、といったことに基づく。
・どれが訂正された確かな部分か。
・ある部分が訂正されたのはいつか。
・ある部分を訂正したのは誰か。
・作者によって訂正された部分はどれか。
テキストまたは音は、文書のための一次情報源である。オーディオ・フィルタが、上記の認識および訂正の属性に基づいて、たとえば、まだ訂正者によって聞かれていない部分を再生する。
発話文書を生成するためのある例示的なプロセスは次のとおりである:ユーザーがユーザー入力ユニットを使ってテキストを口述する(11)。口述は、普通の一般的なテキスト口述、制限されたトピックの短いテキストの口述、選択されたキーワード識別子、ナビゲーション・コマンド、選択コマンドおよび/または短いキー(オート・テキスト)アクティブ化コマンドの口述でありうる。口述テキスト/ファイルは、システム6の発話可能化フレームワーク9にはいり、ここで発話認識器12が発話素材を処理し、第一の発話認識結果18を生成する。発話認識結果18は第一の発話文書13を含み、第一の発話文書13は該第一の発話文書のテキストの各セクションに関係する発話属性14をもつ。結果は、データベースのような樹状結果表現19に挿入される。前記発話文書はまた、テキスト文書16に変換され、それがコンピュータ画面、プレーヤーなどのような呈示ユニット8上に呈示される。テキスト文書16はのちに、一または複数のユーザーによって、直接テキスト入力15aによって、あるいは新しい相補的オーディオ口述15bによって変更されうる。各変更は、新しい発話文書および関係する新しい発話属性を含む新しい発話認識結を生じる。新しい結果は、前記樹状結果表現に挿入され、以前の結果にリンクされる。テキスト文書16は、変更が実施されるにつれて継続的に更新される。所望の文書が最終化されるまで、追加的な修正ができる。最終的な文書は、転記されたテキストと、当該文書に実行されたあらゆるテキスト/オーディオ入力の完全な履歴を示す関係する発話属性とを有する。変更プロセスがどのように実行されうるかの一例が表1に呈示されている。
Figure 2009518729
表1に呈示される例では、一般的な口述プロセスにおいて起こりうるいくつかの作用が、例としてのテキストのセクションおよびいくつかの発話属性とともに呈示されている。発話属性「who」は、誰がその変更をするかを表し、「when」はその変更が実行された日時を表し、「what」は詳しくはどんな変更か、たとえば「whats」を「what's」にするなど、を表す。
プロセスは、たとえば医師(ユーザー1)によって口述が実行されることをもって始まる。発話認識エンジンは、口述を発話認識結果(SR結果)に変換する。この結果は、発話文書1に関係する三つの発話属性を有し、これらが樹状結果表現(tree result representation)(TR表現)に挿入される。発話属性who1は「ユーザー1」であり、when1は「050822」であり、what1は「context1」である。転記者(ユーザー2)はそのテキスト文書を読み、タイプによって欠陥を訂正し、新しいSR結果が生成される。その結果は、発話文書2および関係する発話属性を含む。who2は「ユーザー2」であり、when2は「050901」であり、what2は「context2」である。この新しいSR結果はTR表現中に挿入され、先の結果にリンクされる。医師は訂正されたテキストを読み、さらなる欠陥を発話(口述)によって訂正する。発話認識エンジンは、その口述を変換し、新しいSR結果を生じる。その結果は、新しい発話属性に関係した発話文書3を含む。who3は「ユーザー1」で、when3は「050902」であり、what3は「context3」である。再び転記者(ユーザー2)はそのテキスト文書を読み、関係するテキスト文書中に直接タイプすることによって当該テキストをさらに訂正する。新しいSR結果が生成される。その結果は、新しい発話属性に関係した発話文書4を含む。who4は「ユーザー2」となり、when4は「050910」となり、what4は「context4」となる。
文書の諸部分の発話属性は、種々の仕方で可視化されうる。エンド・ユーザーに追跡履歴を呈示する一つの方法は、たとえば、ユーザー1によって口述されたテキストは赤、ユーザー1によってタイプされたテキストは緑などとする、テキストの色付けである。追加的な情報はツール・チップを介して呈示されうる。すなわち、何らかのテキストを選択して、右マウス・ボタン・クリックすると、コンテキスト・メニューが出てきて、選択されたテキストの変更履歴を表示する。
本発明は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの任意の組み合わせを含む任意の好適な形で実装されうる。しかしながら、好ましくは本発明は、一つまたは複数のデータ・プロセッサおよび/またはデジタル信号プロセッサ上で走るコンピュータ・ソフトウェアとして実装される。本発明の実施形態の要素およびコンポーネントは、物理的、機能的および論理的にいかなる好適な仕方で実装されてもよい。実際、機能性は、単一のユニットで実装されても、複数のユニットで実装されても、他の機能ユニットの一部として実装されてもよい。よって、本発明は、単一のユニットで実装されてもよいし、あるいは物理的および機能的に種々のユニットおよびプロセッサの間に分散されてもよい。
上記では本発明は個別的な実施形態を参照して記載されてきたが、ここに述べられている個別的な形に限定されることは意図されていない。むしろ、本発明は、付属の請求項によってのみ限定されるのであって、上記の個別的実施形態以外の他の実施形態も、付属の請求項の範囲内で等しく可能である。たとえば、上記とは異なる発話属性でもよい。
請求項において、「有する」の語は他の要素またはステップの存在を排除しない。さらに、個々に挙げられてはいるが、複数の手段、要素または方法ステップが、たとえば単一のユニットまたはプロセッサによって実装されてもよい。さらに、個々の特徴が異なる請求項に含まれることがあるが、これらの特徴は有利に組み合わされる可能性があるかもしれない。異なる請求項に含まれていることは、特徴の組み合わせが実現可能および/または有利でないことを含意しない。「ある」「第一の」「第二の」などの用語は複数を排除しない。請求項に参照符号があったとしても、明確にする例として与えられているのみであって、いかなる仕方であれ特許請求の範囲を限定するものと解釈してはならない。
従来技術に基づく発話有効化された文書を作成するプロセスを示す図である。 本発明のある実施形態に基づくシステムにおける文書作業フローを示す図である。

Claims (16)

  1. 電子文書中の訂正を履歴追跡する方法が提供であって、ここで、前記電子文書は、発話の諸セクションから認識または転記されたテキストの一つまたは複数のセクションを含む発話に基づく文書であり、前記発話の諸セクションはユーザーによって口述され、発話認識システム中の発話認識器によって処理されて、前記発話に基づく文書のテキストの対応するセクションにされており、当該方法は:
    前記発話に基づく文書におけるテキストの各セクションに、少なくとも一つの発話属性を関連付け、ここで、前記発話属性は、テキストの前記セクションに関係する情報をそれぞれ含む、ステップと;
    呈示ユニット上に前記発話に基づく文書を呈示するステップと;
    テキストの前記諸セクションのいずれかの中で実行される作用を検出するステップと;
    前記発話に基づく文書を更新するために、テキストの前記諸セクションのうちの一つにおいて検出された作用の種類に関係する前記発話属性の情報を更新するステップとを有し、それにより、前記発話属性の前記の更新された情報が前記発話に基づく文書の訂正を履歴追跡するために使われる、
    方法。
  2. 前記発話に基づく文書におけるテキストの各セクションに少なくとも一つの発話属性を関連付けるステップが自動的に実行される、請求項1記載の方法。
  3. テキストの前記諸セクションのいずれかの中で実行される作用を検出するステップが、前記テキスト・セクション内の、またはこのテキスト・セクションの少なくとも一部に対応する発話のセクション内の変更を検出することを含む、請求項1記載の方法。
  4. 前記発話属性の情報を更新するステップが:
    テキストの前記諸セクションのうちの一つで検出された作用の種類に関係した第二の発話属性を、樹状結果表現内に追加することを含む、
    請求項1記載の方法。
  5. 前記作用がテキストの前記諸セクションのうちの少なくとも一つを口述によって変更することであり、前記発話属性の前記更新に先立って:
    前記発話認識器によって前記口述された訂正を処理し;
    前記発話文書中で前記作用が実行されたのと実質的に同じ位置に前記訂正を含めることを含む、
    請求項1記載の方法。
  6. 前記作用が、テキストの前記諸セクションのうちの少なくとも一つの、入力ユニットを使って前記呈示ユニット上に呈示された前記発話文書に対応するテキスト文書中にタイピングすることによる訂正である、請求項1記載の方法。
  7. 前記作用が前記ユーザーとは異なるユーザーによって実行される、請求項1記載の方法。
  8. 当該方法が二度以上実行され、当該方法がさらに、前記発話に基づく文書を更新するために、テキストの前記諸セクションのうちの一つにおいて検出された作用に関係する前記発話属性の情報を、前記発話に基づく文書中に保存されている以前のそのような情報に追加することを含む、請求項1記載の方法。
  9. 電子文書中の訂正を履歴追跡するシステムであって、前記電子文書は、発話の諸セクションから認識または転記されたテキストの一つまたは複数のセクションを含む発話に基づく文書であり、前記発話の諸セクションはユーザーによって口述され、発話認識システム中の発話認識器によって処理されて、前記発話に基づく文書のテキストの対応するセクションにされており、当該システムは:
    前記発話に基づく文書におけるテキストの各セクションに、少なくとも一つの発話属性を関連付ける手段であって、前記発話属性は、テキストの前記セクションに関係する情報をそれぞれ含む手段と;
    前記発話に基づく文書を呈示するための少なくとも一つの呈示ユニットと;
    テキストの前記諸セクションのいずれかの中で実行される作用を検出する手段と;
    前記発話に基づく文書を更新するために、テキストの前記諸セクションのうちの一つにおいて検出された作用の種類に関係する前記発話属性の情報を更新する手段とを有し;それにより、前記発話属性の前記更新された情報が、当該システムの使用において、前記発話に基づく文書の訂正を履歴追跡するために使われる、
    システム。
  10. 前記発話に基づく文書の構造が、文書構築要素のセットから静的に定義される、請求項9記載のシステム。
  11. 前記発話に基づく文書の構造が、文書構築要素のセットから動的に定義される、請求項9記載のシステム。
  12. 前記文書構築要素がプレーンテキスト、テキスト・ブロックまたはスマート・フィールドもしくは名前を付けられたフィールドのようなテンプレートである、請求項10または11に記載のシステム。
  13. 前記発話属性が、前記発話に基づく文書のどの部分が変更されたか、誰が該部分を変更したか、どんな手段で該部分が変更されたか、および/または、いつ該部分が変更されたかに関係する、請求項9記載のシステム。
  14. 前記発話属性が口述エリア、認識信頼度、範囲に対する検出されたトピック、前記口述エリアのどの部分が変更されたか、前記発話文書のどの領域が置き換えられたか、前記発話文書のどの部分が聞かれるかタッチされるかしたか、である、請求項9記載のシステム。
  15. 当該システムが、認識および訂正属性に基づくオーディオ・フィルタを含む、請求項9記載のシステム。
  16. コンピュータによる処理のためのコンピュータ・プログラムが具現されたコンピュータ可読媒体であって、該コンピュータ・プログラムは、電子文書中の訂正を履歴追跡するよう構成されており、ここで、前記電子文書は、発話の諸セクションから認識または転記されたテキストの一つまたは複数のセクションを含む発話に基づく文書であり、発話の前記諸セクションは第一のユーザーによって口述され、発話認識システム中の発話認識器によって処理されて、前記発話に基づく文書のテキストの対応するセクションにされており、当該コンピュータ・プログラムは:
    前記発話に基づく文書におけるテキストの各セクションに、少なくとも一つの発話属性を関連付けるコード・セグメントであって、該発話属性は、テキストの前記セクションに関係する情報をそれぞれ含む、コード・セグメントと;
    呈示ユニット上に前記発話に基づく文書を呈示するためのコード・セグメントと;
    テキストの前記諸セクションのいずれかの中で実行される作用を検出するためのコード・セグメントと;
    前記発話に基づく文書を更新するために、テキストの前記諸セクションのうちの一つにおいて検出された作用の種類に関係する前記発話属性の情報を更新するためのコード・セグメントとを有し、それにより、前記発話属性の前記更新された情報が前記発話に基づく文書の訂正を履歴追跡するために使われる、
    媒体。
JP2008543945A 2005-12-08 2006-11-10 発話に基づく文書履歴追跡のための方法およびシステム Pending JP2009518729A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP05111830 2005-12-08
PCT/IB2006/054191 WO2007066246A2 (en) 2005-12-08 2006-11-10 Method and system for speech based document history tracking

Publications (1)

Publication Number Publication Date
JP2009518729A true JP2009518729A (ja) 2009-05-07

Family

ID=38115867

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008543945A Pending JP2009518729A (ja) 2005-12-08 2006-11-10 発話に基づく文書履歴追跡のための方法およびシステム

Country Status (5)

Country Link
US (3) US8140338B2 (ja)
EP (1) EP1960943A2 (ja)
JP (1) JP2009518729A (ja)
CN (1) CN101326533B (ja)
WO (1) WO2007066246A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11354920B2 (en) 2019-10-12 2022-06-07 International Business Machines Corporation Updating and implementing a document from an audio proceeding

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8589349B2 (en) 2010-06-30 2013-11-19 International Business Machines Corporation Tracking and viewing revision history on a section-by-section basis
US8832541B2 (en) * 2011-01-20 2014-09-09 Vastec, Inc. Method and system to convert visually orientated objects to embedded text
US8954329B2 (en) * 2011-05-23 2015-02-10 Nuance Communications, Inc. Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information
GB2502944A (en) * 2012-03-30 2013-12-18 Jpal Ltd Segmentation and transcription of speech
CN103714048B (zh) * 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和系统
KR102319530B1 (ko) 2014-08-18 2021-10-29 삼성전자주식회사 사용자 입력 처리 방법 및 장치
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
CN108647190B (zh) * 2018-04-25 2022-04-29 北京华夏电通科技股份有限公司 一种语音识别文本插入笔录文档的方法、装置及系统
CN108733649B (zh) * 2018-04-25 2022-05-06 北京华夏电通科技股份有限公司 一种语音识别文本插入笔录文档的方法、装置及系统
CN111179939B (zh) * 2020-04-13 2020-07-28 北京海天瑞声科技股份有限公司 语音转写方法、语音转写装置及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08166946A (ja) * 1994-12-13 1996-06-25 Canon Inc 文書処理方法及びその装置
JP2001042996A (ja) * 1999-07-28 2001-02-16 Toshiba Corp 文書作成装置、文書作成方法
US6374214B1 (en) * 1999-06-24 2002-04-16 International Business Machines Corp. Method and apparatus for excluding text phrases during re-dictation in a speech recognition system

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0229232A2 (en) 1985-12-31 1987-07-22 Tektronix, Inc. File management system
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
US6961700B2 (en) * 1996-09-24 2005-11-01 Allvoice Computing Plc Method and apparatus for processing the output of a speech recognition engine
US5966512A (en) * 1997-06-05 1999-10-12 International Business Machines Corporation Groupware save operation
US6457031B1 (en) * 1998-09-02 2002-09-24 International Business Machines Corp. Method of marking previously dictated text for deferred correction in a speech recognition proofreader
US7058888B1 (en) * 2000-04-25 2006-06-06 Microsoft Corporation Multi-modal text editing correction
US6963840B2 (en) * 2001-01-12 2005-11-08 International Business Machines Corporation Method for incorporating multiple cursors in a speech recognition system
US20020156816A1 (en) * 2001-02-13 2002-10-24 Mark Kantrowitz Method and apparatus for learning from user self-corrections, revisions and modifications
US6996528B2 (en) * 2001-08-03 2006-02-07 Matsushita Electric Industrial Co., Ltd. Method for efficient, safe and reliable data entry by voice under adverse conditions
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US7444285B2 (en) * 2002-12-06 2008-10-28 3M Innovative Properties Company Method and system for sequential insertion of speech recognition results to facilitate deferred transcription services
ATE341381T1 (de) * 2002-12-24 2006-10-15 Koninkl Philips Electronics Nv Verfahren und system zur markierung eines tonsignals mit metadaten
US8074184B2 (en) * 2003-11-07 2011-12-06 Mocrosoft Corporation Modifying electronic documents with recognized content or other associated data
US7788237B2 (en) * 2004-12-17 2010-08-31 Microsoft Corporation Method and system for tracking changes in a document

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08166946A (ja) * 1994-12-13 1996-06-25 Canon Inc 文書処理方法及びその装置
US6374214B1 (en) * 1999-06-24 2002-04-16 International Business Machines Corp. Method and apparatus for excluding text phrases during re-dictation in a speech recognition system
JP2001042996A (ja) * 1999-07-28 2001-02-16 Toshiba Corp 文書作成装置、文書作成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNB200500418001; ルービン チャールス: Microsoft Office Word 2003 オフィシャルマニュアル 第1版, 20040712, pp.799-812, 日経BPソフトプレス *
JPN6011066232; ルービン チャールス: Microsoft Office Word 2003 オフィシャルマニュアル 第1版, 20040712, pp.799-812, 日経BPソフトプレス *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11354920B2 (en) 2019-10-12 2022-06-07 International Business Machines Corporation Updating and implementing a document from an audio proceeding

Also Published As

Publication number Publication date
CN101326533A (zh) 2008-12-17
US20130103401A1 (en) 2013-04-25
US8364489B2 (en) 2013-01-29
WO2007066246A2 (en) 2007-06-14
US20080312919A1 (en) 2008-12-18
US8140338B2 (en) 2012-03-20
CN101326533B (zh) 2013-05-08
US8612231B2 (en) 2013-12-17
WO2007066246A3 (en) 2008-01-03
EP1960943A2 (en) 2008-08-27
US20120185249A1 (en) 2012-07-19

Similar Documents

Publication Publication Date Title
JP2009518729A (ja) 発話に基づく文書履歴追跡のための方法およびシステム
US9412370B2 (en) Method and system for dynamic creation of contexts
US8515755B2 (en) Replacing text representing a concept with an alternate written form of the concept
EP1430474B1 (en) Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word
US7949536B2 (en) Intelligent speech recognition of incomplete phrases
US8356243B2 (en) System and method for structuring speech recognized text into a pre-selected document format
JP5255769B2 (ja) テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
US7693717B2 (en) Session file modification with annotation using speech recognition or text to speech
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US6577999B1 (en) Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary
JP2003162524A (ja) 言語処理装置
WO2022196087A1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
Weingartová et al. Beey: More Than a Speech-to-Text Editor.

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090715

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20091208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121120

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20121120

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121225