JP2011204249A - トピック特異的言語モデルおよびトピック特異的ラベル統計によるユーザー対話を用いたテキストセグメント分割およびラベル付与 - Google Patents
トピック特異的言語モデルおよびトピック特異的ラベル統計によるユーザー対話を用いたテキストセグメント分割およびラベル付与 Download PDFInfo
- Publication number
- JP2011204249A JP2011204249A JP2011103843A JP2011103843A JP2011204249A JP 2011204249 A JP2011204249 A JP 2011204249A JP 2011103843 A JP2011103843 A JP 2011103843A JP 2011103843 A JP2011103843 A JP 2011103843A JP 2011204249 A JP2011204249 A JP 2011204249A
- Authority
- JP
- Japan
- Prior art keywords
- text
- section
- user
- heading
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 73
- 230000003993 interaction Effects 0.000 title 1
- 238000000034 method Methods 0.000 claims abstract description 92
- 238000012986 modification Methods 0.000 claims abstract description 91
- 230000004048 modification Effects 0.000 claims abstract description 91
- 238000013179 statistical model Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000006978 adaptation Effects 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 13
- 230000014509 gene expression Effects 0.000 claims description 9
- 238000002372 labelling Methods 0.000 abstract description 24
- 230000004044 response Effects 0.000 abstract description 21
- 238000012552 review Methods 0.000 abstract description 20
- 238000004590 computer program Methods 0.000 abstract description 5
- 238000012937 correction Methods 0.000 description 12
- 238000013518 transcription Methods 0.000 description 11
- 230000035897 transcription Effects 0.000 description 11
- 239000003814 drug Substances 0.000 description 7
- 229940079593 drug Drugs 0.000 description 5
- 238000003780 insertion Methods 0.000 description 5
- 230000037431 insertion Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000009434 installation Methods 0.000 description 4
- 230000008929 regeneration Effects 0.000 description 4
- 238000011069 regeneration method Methods 0.000 description 4
- 230000001915 proofreading effect Effects 0.000 description 2
- 206010038583 Repetitive speech Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007373 indentation Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000002483 medication Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】非構造化テキストのセグメント分割およびラベル付けを実行するための方法、プログラム、システム、ユーザーインターフェースを提供する。
【解決手段】実行されるセグメント分割および付与は全体的な校閲のためにユーザーに提示される。追加的に、代替的なセグメント分割およびラベル付与がユーザーに提示される。ユーザーは代替セグメント分割および代替ラベルを選択することも、ユーザー定義のセグメント分割およびユーザー定義のラベルを入力することもできる。ユーザーによって導入された修正に反応して、複数の異なる動作が開始されるが、それには当該文書の後続部分または当該文書全体の再セグメント分割および再ラベル付けが含まれる。さらに当該方法は、当該方法をユーザーの嗜好に適応させるため、および統計モデルをさらにトレーニングするため、ユーザーが導入した修正の学習機能、ログ記録、解析を有する。
【選択図】図2
【解決手段】実行されるセグメント分割および付与は全体的な校閲のためにユーザーに提示される。追加的に、代替的なセグメント分割およびラベル付与がユーザーに提示される。ユーザーは代替セグメント分割および代替ラベルを選択することも、ユーザー定義のセグメント分割およびユーザー定義のラベルを入力することもできる。ユーザーによって導入された修正に反応して、複数の異なる動作が開始されるが、それには当該文書の後続部分または当該文書全体の再セグメント分割および再ラベル付けが含まれる。さらに当該方法は、当該方法をユーザーの嗜好に適応させるため、および統計モデルをさらにトレーニングするため、ユーザーが導入した修正の学習機能、ログ記録、解析を有する。
【選択図】図2
Description
本発明は、非構造化テキストをテキストセクションにセグメント分割して各セクションにセクション見出しとしてラベルを付与することによって、非構造化テキストから構造化文書を生成する分野に関する。テキストのセグメント分割およびテキストセクションへのラベル付与(ラベル付けとも記される)が提供されるユーザーは、セグメント分割およびラベル付け手続きの制御を有する。
音声テキスト化転記プロセスによって生成されたテキスト文書は通例、いかなる構造も与えてくれない。従来式の音声テキスト化転記システムや音声認識システムは録音された発話を対応するテキストに文字として転記するのみだからである。テキストの整形、テキストのハイライト、句読点付けまたはテキスト見出しの明示的に口述されたコマンドが、音声認識システムによって、あるいは音声認識プロセスによって生成されたテキストにその後適用されるテキスト整形手続きによって適正に認識されて処理されなければならない。
自動音声認識も、典型的にはトレーニング・データおよび/または手作業で設計されたテキスト整形規則に基づく自動テキスト整形システムもいずれも、複雑な整形コマンド、セクション境界、そしてたとえばセクション見出しを表す特定のテキスト部分を適正に識別するのに必要とされる人間の専門知識を欠いているため、必然的に誤りを生じる。したがって、通常の音声テキスト化転記プロセスまたはテキスト整形プロセスの結果は人間の校正者を通す必要がある。校正者は、文書全体を通して見ることでその文書の内容についての情報を集め、音声テキスト化転記プロセスの出力が理にかなった結果であるかどうか、テキスト整形が文書内容に関して正しく実行されたかどうかを判断しなければならない。
文書の構造が明示的に口述されていないとき、すなわち多くの見出しやセクション境界が発話による口述で明示的にエンコードされていないときには校正者の仕事はさらにひどくなる。さらに、文構造すなわち句読点記号さえもがほとんど口述されないときには、そうした句読点記号は校正者が手動で挿入してやる必要がある。
特にテキストのセクションへの分割は校正者にとっては負担の大きい仕事である。これは、あるセクション種別の変化を検出するのは校正者が新しいセクションのより長い部分を読んでからでないと判断できないからである。ここで、校正者は、セクション境界および適切な見出しを挿入するためにすでに吟味したテキスト内の何らかの位置にジャンプして戻らなければならない。特に、文書内のさまざまな位置の間で絶えずジャンプすることは、人間の校正者にとって、非常に時間がかかり、骨の折れることである。
本発明は、ユーザーの判断に反応して非構造化テキストのセグメント分割およびラベル付けを実行するための、方法、コンピュータプログラムプロダクト、テキストセグメント分割システムおよびテキストセグメント分割システムのためのユーザーインターフェースを提供することをねらいとしている。
本発明は、テキストをテキストセクションにセグメント分割し、各セクションにトピックを付与し、各テキストセクションにセクション見出しの形でラベルを付与する方法を用いるテキスト処理システムのための効率的なユーザーインターフェースを提供する。これらのタスクは注釈付けされたトレーニング・データに基づいてトレーニングされた統計モデルを使って実行される。まず、当該方法はトレーニング・データから抽出された統計モデルを使うことによってテキストのテキストセクションへのセグメント分割を実行する。テキストがテキストセクションにセグメント分割されたのち、各テキストセクションはテキストセクションの内容を示すトピックを付与される。テキストセクションへのトピックの付与にあたってもトレーニング・データから抽出された統計モデルが使用される。テキストセグメント分割およびトピック付与が実行されたのち、当該テキストにラベルをセクション見出しとして挿入することによって構造化されたテキストが生成される。ラベルは当該テキスト中で、そのラベルのすぐあとにそのラベルが言及しているセクションが続くよう、セクション境界に対応する位置に挿入される。この挿入されたラベルは、続くテキストセクションに先立つ見出しとして理解されるべきである。
上記の方法で構造化テキストが生成されたら、該構造化テキストは、セグメント分割、トピック付与およびテキストの一般的な構造化の制御を有するユーザーに提供される。当該方法は最後に、ユーザーの校閲に反応してその構造化テキストの修正を実行する。
本発明のある好ましい実施形態によれば、セクション見出しとしてのラベルの挿入には、句読点付け、ハイライト、インデントおよび書体の修正といった整形ステップを組み込んでいるテキスト整形手続きが含まれる。
本発明のあるさらなる好ましい実施形態によれば、テキストセクションへのトピック付与は、当該テキストセクションへの複数のラベルの集合の付与をも含む。付与されたラベルの集合のうちの一つのラベルが最終的にセクション見出しとしてそのテキストに挿入される。ここではトピック(topic)は、セクションの明確に区別される(distinct)類(class)または種別(type)のやや抽象的な宣言を表している。そのような宣言は、典型的なまたは所定の構造に従ういわゆる組織化文書に特に適用可能である。たとえば、医療報告書は人口学的ヘッダ、患者の病歴、健康診断および使用薬のようなトピックの系列を特徴とする。
そのような構造化文書の各セクションは抽象的なトピックによって識別できる。抽象的なトピックとは対照的に、ラベルはそのようなセクションの具体的な見出しを示す。たとえば、患者の検査に言及するセクションは「健康診断」「診断」「検査」「外科的検査」といった複数のさまざまな方法でラベル付けできる。テキストのあるセクションにラベル付けする方法がどうであれ、セクションの内容、すなわち今の場合だと検査は、付与されたトピックによって同定される。
テキストのテキストセクションへのセグメント分割は、たとえば米国特許第6,052,657号で開示されている方法によって実行できる。これは言語モデルならびにテキストのあるブロックと言語モデルとの間の相関を示すための言語モデルスコアを利用している。テキストのセグメント分割およびトピック付与のためのより精密で信頼できる手続きは、本出願と並行して出願された特許出願“text segmentation and topic annotation for document structuring”において開示されている。この文書は、テキストセグメント分割およびトピック注釈付けのための、トピックシーケンス確率、トピック位置確率、セクション長確率およびテキスト放出(emission)確率を明示的に利用することによる統計モデルを記載している。これらの確率は、根底にある注釈付けされたトレーニング・データが組織化文書であるときには特に助けになる。
本発明のあるさらなる好ましい実施形態によれば、テキストセクションへのラベルの集合のうちの一つのラベルの付与および付与されたその一つのラベルを前記テキストセクションのセクション見出しとして当該テキストに挿入することは、トレーニング・データに基づく計数統計および/またはセクション冒頭において見出される明示的なもしくは部分的な言語表現を考慮する。計数統計は何らかのトピックに対応付けられたセクションの前にある特定のラベルがくる観察された頻度を反映するものである。この方法により、最も好適なラベルまたは見出しについてのほかの手がかりが全くテキスト中に見出されない場合に、トピックごとに最も頻繁に付与されるラベルがデフォルト見出しとして選択されうる。換言すれば、計数統計量によってデフォルトラベルがテキストセクションに付与されるのである。
あるいはまた、前記計数統計に基づくラベル付与は、あるセクションの冒頭に、当該セクションに付与されているラベルの集合のうちの一つに厳密に一致する明示的な言語表現が見出された場合には無効にされる(overruled)。さらに、セクションの冒頭で明示的な言語表現に厳密に一致するラベルがない場合、当該セクションの冒頭に見出された何らかの言語表現に部分的にのみ一致するラベルがデフォルトラベルの代わりに挿入されてもよい。一つのラベルのテキストセクションへの付与、すなわち当該テキストセクションに付与されているラベルの集合のうちの一つのラベルの選択は、トレーニング・データに基づく計数統計とセクション冒頭に見出された完全な明示的なまたは部分的な言語表現とを組み合わせたものに関連して実行できる。
本発明のあるさらなる好ましい実施形態によれば、セクション冒頭で何らかの完全または部分的な言語表現が見出された場合、この言語表現が当該セクションから除去されてもよい。これは、その言語表現が、挿入されるラベルによって置き換えられる明示的に口述された見出しを表している場合に有用である。例を挙げると、「薬患者が使用するのは…」で始まるセクションは「薬」というラベルに対応付けできる。このラベルはそのあとに続くセクションのための見出しの役割をするので、「薬」という用語そのものはセクションのテキストからは除去して、「患者が使用するのは…」で始まる適切なセクション内容が残るようにするべきである。この方針の修正としては、口述された見出しの一部または何らかのセクションの冒頭句でありうる何らかの所定のつなぎ語(filler)を、たとえそのつなぎ語がラベルの一部でなくても除去することが考えられる。たとえば、あるセクションが「薬はX、Y、Z…」で始まっている場合に、これを「薬」という見出しとそれに続く薬の列挙「X、Y、Z…」に変換し、つなぎ語「は」をスキップする。
本発明のあるさらなる好ましい実施形態によれば、たとえば明示的な言語表現とラベルとの間の厳密な一致などによる当該テキストへのセクション見出しの挿入は、ユーザーによって無効にされることができる。この場合、当該方法によって挿入が取り消され、もとのテキスト部分が復元される。より具体的には、何らかのセクション冒頭語が付与されたラベルとの一致したために除去された場合、ユーザーがこれらの除去された語に一致しない別のラベルを使うことに決めたときにはこれらの語が再挿入される必要がある。
本発明のあるさらなる好ましい実施形態によれば、構造化テキストのユーザーへの提供はさらに、各テキストセクションに付与されているラベルの完全な集合を提示することを含む。ラベルの集合の各ラベルはセクション見出しのための代替を表しているので、ユーザーは自動的に挿入されたセクション見出しを代替の見出しと簡単に比較することができる。
本発明のあるさらなる好ましい実施形態によれば、構造化テキストのユーザーへの提供はさらに、代替的なセクション境界の指標を提示することを含む。この方法では、本方法によってテキスト中に自動挿入されたセクション境界がユーザーに見えるばかりでなく、より簡単かつ簡便な校正のために、代替のセクション境界がユーザーに提示される。この方法では、当該文書の正しいセクション境界を見出すという校正者の仕事は、自動挿入されたセクション境界および代替的なセクション境界の取得に還元される。
本発明のあるさらなる好ましい実施形態によれば、ユーザーの校閲に反応しての構造化テキストの修正は、当該テキストのテキストセクションへのセグメント分割および/またはラベルとテキストセクションとの間の対応付けの修正に関わる。さらに、句読点付け、ハイライトなどといった実行された整形の修正も考えられる。
本発明のあるさらなる好ましい実施形態によれば、ユーザーの校閲に反応して実行されるテキストセグメント分割の修正およびテキストセクションへのラベルの付与の修正は、ユーザーが、提示されたラベルの一つまたは代替的セクション境界の一つを選択することによって開始される。するとユーザーによって選択されたその修正が本方法によって実行され、セクション見出しを選択されたセクション見出しで置き換えたり、セクション境界の位置を変えたりする。
ある第一のテキスト修正を達成することは、第二のテキスト修正を実行しなければならないことを意味することがある。たとえば、セクション見出しに番号が付いている場合、あるテキストセクションを除去すれば、後続のテキストセクションまたはセクションラベルの再番号付けが必要になる。したがって、本発明はさらに、ユーザーの校閲に反応して実行される先の修正に起因する修正を動的に実行するよう適応される。
本発明のあるさらなる好ましい実施形態によれば、テキストセクションへのセクション見出しとしてのラベルの付与の修正は、ユーザーが、テキストセクションに付与されているラベルの与えられた集合のうちの一つのラベルを選択することに反応して、あるいはユーザー定義のラベルを入力してこのユーザー定義ラベルをセクション見出しとして当該テキストセクションに付与することによって実行される。このようにして、ユーザーは迅速かつ効率的に与えられているラベルの集合のうちの一つのラベルを正しいセクション見出しとして同定したり、あるいはまた当該テキストセクションに対してそれまで知られていなかった見出しを定義したりすることができる。
ラベルの集合のうちの一つのラベルの選択も、ラベルの入力も、当該テキスト中でセクション境界として識別された位置に限定されるものではない。それに加えて、ユーザー要求に基づき、当該テキスト中の任意の位置に適切なラベルの集合を与えることができる。このようにしてユーザーはやはり文書の構造化およびラベル付けの完全な制御を有する。
本発明のあるさらなる好ましい実施形態によれば、ユーザーの校閲に反応しての修正の処理があると、テキストのテキストセクションへの再セグメント分割およびテキストセクションを指すセクション見出しとしてラベルを挿入することによる構造化テキストの再生成がその後引き起こされる。再セグメント分割も構造化テキストの再生成も、トレーニング・データから抽出された統計モデルを利用し、ユーザーの校閲に反応して処理されたすでに実行済みの修正を参照する。たとえばユーザーがセクション境界の再定義の形で、あるいはセクション見出しの再ラベル付けの形でテキスト中に修正を導入した場合、本発明の方法は、最初に実行されたユーザーの修正は変えずに残して当該構造化テキストのその後の再セグメント化および再生成を実行する。このように、ユーザーによって導入された修正が本発明の方法によって無効にされたり再修正されたりすることは決してない。
本発明のあるさらなる好ましい実施形態によれば、テキストのセクションへの再セグメント分割も、セクション見出しとしてラベルを挿入することによる構造化テキストの再生成も、校正者またはユーザーによって実行される校閲プロセスの間、動的に実行される。テキストの再セグメント分割も構造化テキストの再生成も、全テキストセクションに適用することもできるし、現在のセクションおよび後続の全セクションに適用することもできるし、ユーザーによって指定されれば単一のセクションに適用されることもできる。たとえば、新しいセクション境界が導入されたとき、あるいはユーザーによって見出しが除去されたときには、さらなる再構造化や見出し更新は現在のセクションのみに限定されることが理にかなっている。このようにして、本方法は、テキストに導入される必要のある小規模な、よって局所的な変更に対してより速く反応できる。
本発明のあるさらなる好ましい実施形態によれば、テキストセグメント化の粒度を、粒度パラメータというものをカスタマイズすることによってユーザーが制御できる。このようにして、ユーザーは、テキストの構造化が細かめか粗めかを決定できる。カスタマイズ可能な粒度パラメータを変更すれば、その結果としてテキストセクションの除去または挿入が生じる。
本発明のあるさらなる好ましい実施形態によれば、ユーザーの校閲に反応して実行される修正は、統計モデルをさらにトレーニングするために本方法によってログに記録され、解析される。このようにして、本方法全体をユーザーの嗜好に効率的に適応させることができる。たとえば、ユーザーがテキストからある特定のラベルを繰り返し除去している場合、本テキストセグメント分割方法は、将来の適用においては、この特定のセクション見出しを挿入することを控える。ユーザーによる修正が本方法の適応に影響する度合い――つまり適応の感度――もユーザーが制御できる。これはたとえば、あるラベルの挿入または除去が所定回数生起してはじめて本方法がこの特定のユーザー導入修正に適応するということを意味する。導入された変更に本方法が適応するまでに手動による変更が何度加えられる必要があるかは、ユーザーが与えてもよい。
さらに、ユーザー導入修正への本方法の適応は、現在の文書における後続セクションをもすでに指定していることができる。本方法は、ある文書の始まりの部分でユーザーによって導入された修正に適応し、後続のテキストセクション内では対応する修正を自動的に実行する。したがって、この適応は現在の文書ならびに本発明の方法が適用される将来の文書にも適用される。
以下で、本発明の好ましい実施形態について図面を参照しつつより詳細に説明する。
以下で、本発明の好ましい実施形態について図面を参照しつつより詳細に説明する。
図1は、テキストセグメント分割およびトピック付与方法のフローチャートを示している。第一のステップ100では、音声テキスト化転記システムなどによって生成された非構造化テキストが入力される。入力されたテキストに基づき、ステップ102では本方法は当該テキストをテキストセクションにセグメント分割して各テキストセクションにトピックを付与することによって、構造化およびトピック付与を実行する。ステップ102におけるテキストセグメント分割およびトピック付与を実行するためには、トレーニング・データから抽出される言語モデルまたは統計モデルがステップ104によってステップ102に提供される。ステップ105は、あるラベルがあるトピックに付与される確率を示すラベル計数統計を提供する。ラベル計数統計は、トレーニング・データに基づいてあるラベルがあるトピックに付与される頻度を反映するものである。
ステップ106では、ステップ105で提供された計数統計およびステップ102で提供されたセグメント分割テキストを参照することによって、各テキストセクションにラベルがセクション見出しとして付与され、当該テキスト中の適切な位置に挿入される。ステップ106によってラベル付与が実行されたのち、セグメント分割されたテキストおよび挿入されたラベルならびに代替的なラベルがステップ108でユーザーに提示される。さらに、ステップ108では代替的なセクション境界がユーザーに提示される。後続ステップ110において、ユーザーはステップ108の提供されたセグメント分割およびラベル付与が許容できるかどうかを決定する。あるいはまた、ユーザーは、ステップ108によって提示された代替見出しまたは代替セクション境界によって提示された代替セグメント分割を選択することもできる。
提示された代替のいずれもユーザーの嗜好を満たさない場合、ユーザーはセクション境界やセクション見出しを入力することもできる。ステップ110のユーザーの決定に反応して、ステップ112でユーザーの決定が本方法によって処理される。ユーザーの決定の処理は、挿入されたセクション見出しの置き換え、後続セクション見出しの再ラベル付け、当該文書の後続部分の再構造化または当該文書全体の再構造化および再ラベル付けを含む。さらに、ユーザーが導入した修正の動的処理も考えられる。動的処理とは、ユーザーが修正を導入すると、後続テキストセクションに関係したさらなる修正または当該構造化方法の以後の適用の際に実行されるべき修正を自動的に引き起こすということを意味する。
ステップ112でユーザー決定が処理されたのち、次のステップ114で結果としての修正が実行される。
図2は、ユーザーの導入した修正の分析を組み込んだテキストセグメント分割およびテキスト付与方法のフローチャートを示している。第一のステップ200では、音声テキスト化転記プロセスなどの結果として得られる非構造化テキストがステップ202に提供される。ステップ202では、テキストセクションへのテキストセグメント分割が、ステップ204によって提供される言語モデルまたは統計モデルを使用することによって実行される。さらに、ステップ202では、ステップ204によって提供される言語モデルに保存されている統計情報を使用することによって各テキストセクションにトピックが付与される。
ステップ202で当該テキストがテキストセクションにセグメント分割されたのち、そして各テキストセクションがあるトピックに対応付けられたのち、後続ステップ206で、各テキストセクションにセクション見出しとしてラベルが付与され、テキスト中の適切な位置に挿入される。ステップ206で実行されたラベル付与は、ステップ205によってステップ206に提供されるラベル計数統計を明示的に使用する。ラベル計数統計は、トレーニング・データに基づいて、あるラベルがあるトピックに付与される頻度を反映するものである。
当該テキストをテキストセクションにセグメント分割し、各テキストセクションにトピックを付与し、さらに各テキストセクションにラベルを付与することによってテキストが構造化されたのち、付与された見出しが代替候補とともにステップ208でユーザーに提示される。ユーザーに提示される代替候補とは、代替的なテキストセグメント分割ならびに代替的なセクションラベルのことである。次のステップ210では、ユーザーは実行されたテキストセグメント分割および実行されたセクションラベル付与を受け入れるかどうか、あるいは提示された代替候補の一つを選択するかどうかを決定する。さらに、ユーザーは任意のセグメント分割ならびに任意のセクション見出しを自分の嗜好に従って入力することもできる。ステップ210のユーザー決定ののち、次のステップ214で本方法はユーザーによって何らかの修正が導入されたかどうかを調べる。ステップ214でユーザー導入修正が検出されなければ、本方法はステップ218で終了し、ステップ206で実行されたような構造化およびラベル付けされたテキストを結果として与える。これに対し、ステップ214でユーザー導入修正が検出された場合、本方法はステップ212に進む。ここではユーザー導入修正が処理され、実行される。ユーザーの決定の処理および実行は異なるテキストセグメント分割、テキストラベル付けおよびテキスト整形手続きの複数を組み込む。
ステップ212でユーザー決定が処理され、実行されたのち、本方法はステップ216に進む。ステップ216では、ユーザー導入修正が、本構造化および付与手続きの次の適用のための永続条件として保存される。ステップ216後、前記ユーザー修正の種類がテキスト構造化に関わるかテキストセクションへのラベル付与に関わるに応じて、本方法はステップ202またはステップ206に戻り、新しい構造化または新しいラベル付与が実行される。
同様にして、ステップ202およびステップ206によって実行される当該テキストの新しい再構造化および新しい再付与は、ステップ216によって提供されるすでに実行された修正を明示的に考慮する。このようにして、ユーザーが実行した修正がテキスト構造化ステップ202およびラベル付与ステップ206によって決して無効にされないことが保証される。
図3は、テキストセグメント分割およびトピック付与方法の音声認識システムへの実装を示している。ステップ300で音声がシステムに入力される。次のステップ302では、音声の第一の部分p=1が選択される。ステップ302によって選択された音声の第一の部分はステップ304に提供され、該ステップ304は言語モデルmを使用することによって音声テキスト化転記を実行する。言語モデルmはステップ306によってステップ304に提供される。ステップ304によって音声部分pがテキスト部分tに転記されたのち、ステップ308では結果として得られる、音声部分pに対応するテキスト部分tが保存される。次のステップ310では、音声部分の添え字pが最後の音声部分を示すpmaxと比較される。pがpmaxより小さければ、pは1インクリメントされ、本方法はステップ304に戻る。ステップ304、308、310は音声部分の添え字pが最後の音声部分pmaxに等しくなるまで繰り返し適用される。音声部分の添え字pが最後の音声部分pmaxに等しい場合には、音声信号全体がテキストに転記されたことになる。そのとき、結果として得られるテキストは、複数の音声部分pに対応する複数のテキスト部分tからなる。
転記されたテキストに基づいて、ステップ312において、当該テキストのテキストセクションへのセグメント分割が実行され、各テキストセクションは各セクションの内容に特異的なトピックに対応付けられる。ステップ312のこのセグメント分割手続きは、ステップ314によってステップ312に提供される、テキストセグメント分割のために設計された統計モデルを使用する。ステップ312で当該テキストがセグメント分割されトピックに対応付けられたら、次のステップ316では、各テキストセクションに付与されたトピックが該テキストセクションの対応する音声部分p′と並んで決定される。この決定に基づいて、次のステップ318ではある特定のセクションを指している音声部分p′の第二の音声認識が実行されうる。ステップ306によって、あるテキストセクションに付与されているトピックに応じて、第二の音声認識のためのトピック特異的な言語モデルが提供される。ステップ300から310によって記述された手続きにおいて音声はすでにステップごとに転記されているので、繰り返しの音声認識は、音声部分p′に対応する特定のテキスト部分について選択的に実行できる。
前記繰り返しの音声認識ステップが当該テキストの各セクションについて実行されたら、ステップ320においてユーザーは当該テキストのセグメント分割に関するさらなる修正を導入することができる。ステップ320のユーザー導入修正により、本方法はテキストセグメント分割ステップ312に戻る。ここで、ユーザーのフィードバックに応じて新しいセグメント分割が生起してもよいし、ならびに/またはセクションをトピックおよびラベルに再対応付けしてもよい。
ステップ312の実行されたテキストセグメント分割およびステップ318の繰り返しの音声認識ステップがいずれもユーザーによって了承されたら、本方法はステップ322で終了する。
ステップ316において実行されるトピックとセクションとの間の対応付けは、ステップ304によって実行される音声転記とともにやはり、前記特許出願“Text segmentation and topic annotation for document structuring”において、および本出願人によって本願と並行して出願された特許出願“Text specific models for text formatting and speech recognition”によって記載されているようなテキストセグメント分割およびトピック注釈付けの方法を明示的に利用する。
このようにして、人間の校正者の専門知識を、普遍的かつ効率的にテキストセグメント分割およびテキストラベル付けに、ならびに対応する音声認識手続きに結び付けることができる。
図4は、本発明のユーザーインターフェースのブロック図を示している。ユーザーインターフェース400は好ましくはグラフィカルユーザーインターフェースとして適応される。ユーザーインターフェース400はテキストウィンドウ402および提案ウィンドウ404を有する。テキストセグメント分割およびラベル付与にかけられたテキストはテキストウィンドウ402内に提示される。テキスト内にセクション見出しとして挿入されたラベル406は、テキストウィンドウ402内で提示されるテキストの中でみつけやすいようハイライトされる。ユーザーがたとえばポインタ408を使うとき、そのユーザーはラベル406を選択でき、ラベル406の選択に反応してラベルリスト410がユーザーインターフェース内で提示される。ラベルリスト410は、ラベル406の代わりにテキスト中に挿入されうる代替的なラベルとなることのできるラベル412、414、416の集合全体を提示する。
追加的または代替的に、ラベルリスト410は提案ウィンドウ404内でも提示されることができる。ポインタ408によって、ユーザーはラベルリスト410によって提示されるラベル412、414、416のうちの一つを選択して所与のテキスト中のラベル406を置き換えることができる。ラベル406、412、414、416のいずれもユーザーの嗜好に合わないときには、ユーザーはユーザー入力欄418を使ってラベルを入力できる。ひとたび代替ラベルがユーザーによって選択または入力されたら、ラベル406は代替ラベルによって置き換えられる。同じようにして、代替的なテキストセグメント分割を用いたテキストのセグメント分割が代替的なセクション境界の形でユーザーに提示され、ユーザーの選択に基づいて実行されうる。
ユーザーは、当該テキスト中の第一の位置で付与されたラベル(406)を選択し、その付与されたラベルを当該テキスト中の第二の位置に移動することによってセクション境界を再定義してもよい。前記第二の位置がセクション境界を定義し、前記選択されたラベルが前記セクション見出しを定義する。
ユーザーは、当該テキスト中の第一の位置で付与されたラベル(406)を選択し、その付与されたラベルを当該テキスト中の第二の位置に移動することによってセクション境界を再定義してもよい。前記第二の位置がセクション境界を定義し、前記選択されたラベルが前記セクション見出しを定義する。
図5は、本発明のセグメント分割システムのブロック図を示している。セグメント分割システム500はグラフィカルユーザーインターフェース520、構造化テキストを保存するための構造化テキストモジュール518、処理ユニット516、統計モデルを保存する統計モデルモジュール514、非構造化テキストを保存する非構造化テキストモジュール512および音声テキスト化転記を実行する音声認識モジュール510を有している。セグメント分割システム500は外部記憶装置508および入力装置504に接続されている。ユーザー506は、セグメント分割システム500の入力装置504およびグラフィカルユーザーインターフェース520を通じてセグメント分割システムと対話できる。
セグメント分割システムに入力された音声502は音声認識モジュール510によって処理される。音声認識モジュール510は非構造化テキストモジュール512に接続されており、そこに音声テキスト化転記プロセスの結果として得られる非構造化テキストが保存される。該非構造化テキストモジュール512は処理ユニット516に接続されており、非構造化テキストを該処理ユニット516に与えるようになっている。処理ユニット516は統計モデルモジュール514に双方向的に接続されている。統計モデルモジュール514に保存されている統計モデルによって与えられる統計情報を使うことによって、処理ユニット516は、前記非構造化テキストモジュール512によって与えられた非構造化テキストに基づいて、テキストセグメント分割および当該テキストのセクションへのラベル付与を実行する。音声認識モジュールはさらに、前記統計モデルモジュールによって保存され、提供される言語モデルを使用する。このようにして、統計モデルモジュールはテキストセグメント分割のための言語モデルとともに音声認識のための言語モデルをも提供する。テキストセグメント分割が通例一字連接を使うのに対して音声認識は通例三字連接を使うので、後者は典型的には、テキストセグメント分割のための言語モデルと比べて異なる種類である。
処理ユニット516がテキストセグメント分割およびテキストセクションへのセクション見出しとしてのラベルの付与を実行したら、そのようにして生成された構造化テキストは構造化テキストモジュール518に保存される。構造化テキストモジュールはグラフィカルユーザーインターフェース520に接続されており、構造化テキストモジュール518に保存されている構造化テキストをユーザー506にグラフィカルユーザーインターフェース520によって提示するようになっている。ユーザー506は入力装置504を通じてセグメント分割システムと対話できる。したがって、入力装置504はグラフィカルユーザーインターフェース520と処理ユニット516とに接続されている。ユーザー506がテキスト構造化またはラベル付与のどちらかの修正を導入すると、処理ユニット516は構造化テキストモジュール518に保存されている構造化テキストの再構造化および再対応付けを実行する。再構造化および再対応付けされた構造化テキストは、実行された修正がユーザーの嗜好に一致するまで繰り返しユーザーに提示される。それ以上の変更がユーザーによって導入されなくなったら、構造化テキストモジュール518に保存されている構造化テキストは外部記憶装置508に伝送される。
さらに、構造化テキストモジュール518に保存されている構造化テキストは、音声認識モジュール510によって実行される改良された音声認識のために活用されることもできる。したがって、構造化テキストモジュール518は音声認識モジュール510に直接接続される。このコンテキスト特異的なフィードバックの利用により、より精確で特定的な音声認識手続きが音声認識モジュール510によって実行できるようになる。
このように、本発明は、文書を構造化し、テキストセクションにセクション見出しのはたらきをするラベルを付与する方法を提供する。特に、自動音声認識および自動音声転記の分野において、人間の校正者によって実行されるべき校正の仕事がきわめて容易化される。提案されるテキストのセグメント分割については、校正者にとって、何らかの見出しに続くテキストが本当に対応する種別のセクションを表しているかどうかを確認することは、テキストの一部分を吟味し、セクションを判別し、セクションの始まりに戻ってテキストに見出しを挿入しなければならない従来式の校正手続きに対比してずっと簡単である。
さらに、本方法は、校正者によって簡単に選択できる代替的なセクション境界および代替的なセクションラベルを供給する。さらに、校正プロセスの間、システムは校正者によって導入された最も頻繁な訂正を学習し、この情報を将来の適用のために利用する。
いくつかの態様を記載しておく。
〔態様1〕
テキストをテキストセクションにセグメント分割し、注釈付けされたトレーニング・データに基づいて各テキストセクションにトピックを付与する方法であって、
・トレーニング・データから抽出された統計モデルを使うことによって当該テキストをテキストセクションにセグメント分割し、
・前記トレーニング・データから抽出された統計モデルを使うことによって各テキストセクションに該テキストセクションの内容を示すトピックを付与し、
・前記ラベルを前記テキストセクションに付与するために当該テキストにラベルをセクション見出しとして挿入することによって、構造化されたテキストを生成し、
・前記構造化されたテキストをユーザーに提示し、
・ユーザーの校閲に反応して前記構造化されたテキストの修正を処理する、
ステップを有することを特徴とする方法。
〔態様2〕
テキストセクションに付与された前記トピックがさらにラベルの集合に付与されており、該ラベルの一つが前記テキストセクションに付与されて当該テキストにセクション見出しとして挿入されることを特徴とする、態様1記載の方法。
〔態様3〕
前記構造化されたテキストをユーザーに提示することがさらに、各テキストセクションについて、該テキストセクションに付与された前記トピックに付与された前記ラベルの集合を提示することを含むことを特徴とする、態様1または2記載の方法。
〔態様4〕
前記テキスト修正が、当該テキストのセクションへのセグメント分割の修正ならびに/またはラベルとテキストセクションとの間の対応付けの修正を含むことを特徴とする、態様1ないし3のうちいずれか一項記載の方法。
〔態様5〕
態様3または4記載の方法であって、前記構造化されたテキストの修正が:
・あるテキストセクションにラベルを、該テキストセクションに付与されている前記トピックに付与された前記ラベルの集合のうちの一つのラベルを選択することによって付与し、
・当該テキスト中の第一の位置で付与されたラベルを選択し、その付与されたラベルを当該テキスト中の第二の位置に移動することによってセクション境界を再定義し、前記第二の位置がセクション境界を定義し、前記選択されたラベルが前記セクション見出しを定義し、
・ラベルを入力し、該入力されたラベルを前記テキストセクションに付与する、
ことを含むことを特徴とする方法。
〔態様6〕
態様1ないし5のうちいずれか一項記載の方法であって、前記構造化されたテキストの修正の前記処理が、ユーザーの校閲に反応して当該テキスト中の修正を実行し、その後:
・前記トレーニング・データから抽出された統計モデルを使い、かつ前記実行された修正を参照することによって、当該テキストをテキストセクションに再セグメント分割し、
・前記実行された修正を参照することによって当該テキストにラベルをセクション見出しとして挿入することによって構造化されたテキストを再生成し、前記ラベルを前記テキストセクションに付与し、前記構造化されたテキストを校閲のためにユーザーに提示する、
ステップを引き起こすことを含むことを特徴とする方法。
〔態様7〕
態様1ないし6のうちいずれか一項記載の方法であって、前記構造化されたテキストの修正の前記処理が、当該テキスト内であるテキスト部分がセクション見出しを記述する定型として識別されたときに、該テキスト部分をラベルによって置き換えることを含むことを特徴とする方法。
〔態様8〕
態様1ないし7のうちいずれか一項記載の方法であって、前記テキストセグメント分割の粒度が、カスタマイズ可能な粒度パラメータによってユーザーにより制御されることを特徴とする方法。
〔態様9〕
態様1ないし8のうちいずれか一項記載の方法であって、前記統計モデルを適応させるために、前記構造化されたテキストの修正がログに記録され、解析されることを特徴とする方法。
〔態様10〕
テキストをテキストセクションにセグメント分割し、注釈付けされたトレーニング・データに基づいて各テキストセクションにトピックを付与するテキストセグメント分割システムであって、
・トレーニング・データから抽出された統計モデルを使うことによって当該テキストをテキストセクションにセグメント分割する手段と、
・前記トレーニング・データから抽出された統計モデルを使うことによって各テキストセクションに該テキストセクションの内容を示すトピックを付与する手段であって該トピックがさらにラベルの集合に付与されている手段と、
・前記ラベルを前記テキストセクションに付与するために当該テキストに前記ラベルの集合のうちの一つのラベルをセクション見出しとして挿入することによって、構造化されたテキストを生成する手段と、
・前記構造化されたテキストをユーザーに提示する手段と、
・ユーザーの校閲に反応して前記構造化されたテキストの修正を処理する手段、
とを有することを特徴とするシステム。
〔態様11〕
態様10記載のテキストセグメント分割システムであって、前記構造化されたテキストの修正を処理する手段が、当該テキストのセクションへのセグメント分割の修正ならびに/またはラベルとテキストセクションとの間の対応付けの修正を実行するよう適応されていることを特徴とするシステム。
〔態様12〕
態様10または11記載のテキストセグメント分割システムであって、前記構造化されたテキストの修正を処理する手段がさらに:
・あるテキストセクションにラベルを、該テキストセクションに付与されている前記トピックに付与された前記ラベルの集合のうちの一つのラベルを選択することによって付与し、
・当該テキスト中の第一の位置で付与されたラベルを選択し、その付与されたラベルを当該テキスト中の第二の位置に移動することによってセクション境界を再定義し、前記第二の位置がセクション境界を定義し、前記選択されたラベルが前記セクション見出しを定義し、
・ラベルを入力し、該入力されたラベルを前記テキストセクションに付与する、
ことを実行するよう適応されていることを特徴とするシステム。
〔態様13〕
態様10ないし12のうちいずれか一項記載のシステムであって、前記構造化されたテキストの修正を処理する前記手段が、ユーザーの校閲に反応して当該テキスト中の修正を実行するよう適応されており、さらに:
・前記トレーニング・データから抽出された統計モデルを使い、かつ前記実行された修正を参照することによって、当該テキストをテキストセクションに再セグメント分割し、
・前記実行された修正を参照することによって当該テキストにラベルをセクション見出しとして挿入することによって構造化されたテキストを再生成し、前記ラベルを前記テキストセクションに付与し、前記構造化されたテキストを校閲のためにユーザーに提示する、
ステップをその後引き起こす手段を有することを特徴とするシステム。
〔態様14〕
態様10ないし13のうちいずれか一項記載のシステムであって、前記構造化されたテキストの実行された修正をログに記録して解析する手段をさらに有しており、該ログに記録して解析する手段が前記統計モデルを適応させるよう適応されていることを特徴とするシステム。
〔態様15〕
テキストをテキストセクションにセグメント分割し、注釈付けされたトレーニング・データに基づいて各テキストセクションにトピックを付与するためのコンピュータプログラムであって、
・トレーニング・データから抽出された統計モデルを使うことによって当該テキストをテキストセクションにセグメント分割し、
・前記トレーニング・データから抽出された統計モデルを使うことによって各テキストセクションに該テキストセクションの内容を示すトピックを付与し、該トピックはさらにラベルの集合に付与されており、
・前記ラベルを前記テキストセクションに付与するために当該テキストに前記ラベルの集合のうちの一つのラベルをセクション見出しとして挿入することによって、構造化されたテキストを生成し、
・前記構造化されたテキストをユーザーに提示し、
・ユーザーの校閲に反応して前記構造化されたテキストの修正を処理する、
プログラム手段を有することを特徴とするプログラム。
〔態様16〕
態様15記載のコンピュータプログラムであって、前記構造化されたテキストの修正を処理するプログラム手段が、当該テキストのセクションへのセグメント分割の修正ならびに/またはラベルとテキストセクションとの間の対応付けの修正を実行するよう適応されており、該ラベルとテキストセクションとの間の対応付けの修正のために前記プログラム手段がさらに:
・あるテキストセクションにラベルを、該テキストセクションに付与されている前記トピックに付与された前記ラベルの集合のうちの一つのラベルを選択することによって付与し、
・当該テキスト中の第一の位置で付与されたラベルを選択し、その付与されたラベルを当該テキスト中の第二の位置に移動することによってセクション境界を再定義し、前記第二の位置がセクション境界を定義し、前記選択されたラベルが前記セクション見出しを定義し、
・ラベルを入力し、該入力されたラベルを前記テキストセクションに付与する、
ステップを実行するよう適応されていることを特徴とするプログラム。
〔態様17〕
態様15または16記載のコンピュータプログラムであって、前記構造化されたテキストの修正を処理する前記プログラム手段が、ユーザーの校閲に反応して当該テキスト中の修正を実行するよう適応されており、さらに:
・前記トレーニング・データから抽出された統計モデルを使い、かつ前記実行された修正を参照することによって、当該テキストをテキストセクションに再セグメント分割し、
・前記実行された修正を参照することによって当該テキストにラベルをセクション見出しとして挿入することで構造化されたテキストを再生成し、前記ラベルを前記テキストセクションに付与し、前記構造化されたテキストを校閲のためにユーザーに提示する、
ステップをその後引き起こすためのプログラム手段を有することを特徴とするプログラム。
〔態様18〕
テキストをテキストセクションにセグメント分割し、注釈付けされたトレーニング・データに基づいて各テキストセクションにトピックを付与するためのユーザーインターフェースであって、
・トレーニング・データから抽出された統計モデルを使うことにより構造化されたテキストをユーザーに提示する手段と、
・各テキストセクションに付与された各トピックに付与されているラベルの集合をユーザーに提示する手段と、
・ユーザーの校閲に反応して前記構造化されたテキストの修正を処理する入力手段と、
・統計モデルをトレーニングするために前記構造化されたテキストの処理された修正をログに記録して解析する手段、
とを有することを特徴とするユーザーインターフェース。
〔態様19〕
態様18記載のユーザーインターフェースであって、前記構造化されたテキストがグラフィカルユーザーインターフェースによってユーザーに提示され、前記入力手段が、ユーザーが前記提示されたラベルの集合のうちの一つのラベルを選択してその選択されたラベルがテキストセクションに付与されるという形で、前記構造化されたテキストの修正を処理するよう適応されていることを特徴とするユーザーインターフェース。
〔態様20〕
態様18または19記載のユーザーインターフェースであって、統計モデルを使い、かつ前記処理された修正を参照することによって、ユーザーの校閲に反応して再セグメント分割され、再ラベル付けされたテキストを提供する手段をさらに有することを特徴とするユーザーインターフェース。
〔態様1〕
テキストをテキストセクションにセグメント分割し、注釈付けされたトレーニング・データに基づいて各テキストセクションにトピックを付与する方法であって、
・トレーニング・データから抽出された統計モデルを使うことによって当該テキストをテキストセクションにセグメント分割し、
・前記トレーニング・データから抽出された統計モデルを使うことによって各テキストセクションに該テキストセクションの内容を示すトピックを付与し、
・前記ラベルを前記テキストセクションに付与するために当該テキストにラベルをセクション見出しとして挿入することによって、構造化されたテキストを生成し、
・前記構造化されたテキストをユーザーに提示し、
・ユーザーの校閲に反応して前記構造化されたテキストの修正を処理する、
ステップを有することを特徴とする方法。
〔態様2〕
テキストセクションに付与された前記トピックがさらにラベルの集合に付与されており、該ラベルの一つが前記テキストセクションに付与されて当該テキストにセクション見出しとして挿入されることを特徴とする、態様1記載の方法。
〔態様3〕
前記構造化されたテキストをユーザーに提示することがさらに、各テキストセクションについて、該テキストセクションに付与された前記トピックに付与された前記ラベルの集合を提示することを含むことを特徴とする、態様1または2記載の方法。
〔態様4〕
前記テキスト修正が、当該テキストのセクションへのセグメント分割の修正ならびに/またはラベルとテキストセクションとの間の対応付けの修正を含むことを特徴とする、態様1ないし3のうちいずれか一項記載の方法。
〔態様5〕
態様3または4記載の方法であって、前記構造化されたテキストの修正が:
・あるテキストセクションにラベルを、該テキストセクションに付与されている前記トピックに付与された前記ラベルの集合のうちの一つのラベルを選択することによって付与し、
・当該テキスト中の第一の位置で付与されたラベルを選択し、その付与されたラベルを当該テキスト中の第二の位置に移動することによってセクション境界を再定義し、前記第二の位置がセクション境界を定義し、前記選択されたラベルが前記セクション見出しを定義し、
・ラベルを入力し、該入力されたラベルを前記テキストセクションに付与する、
ことを含むことを特徴とする方法。
〔態様6〕
態様1ないし5のうちいずれか一項記載の方法であって、前記構造化されたテキストの修正の前記処理が、ユーザーの校閲に反応して当該テキスト中の修正を実行し、その後:
・前記トレーニング・データから抽出された統計モデルを使い、かつ前記実行された修正を参照することによって、当該テキストをテキストセクションに再セグメント分割し、
・前記実行された修正を参照することによって当該テキストにラベルをセクション見出しとして挿入することによって構造化されたテキストを再生成し、前記ラベルを前記テキストセクションに付与し、前記構造化されたテキストを校閲のためにユーザーに提示する、
ステップを引き起こすことを含むことを特徴とする方法。
〔態様7〕
態様1ないし6のうちいずれか一項記載の方法であって、前記構造化されたテキストの修正の前記処理が、当該テキスト内であるテキスト部分がセクション見出しを記述する定型として識別されたときに、該テキスト部分をラベルによって置き換えることを含むことを特徴とする方法。
〔態様8〕
態様1ないし7のうちいずれか一項記載の方法であって、前記テキストセグメント分割の粒度が、カスタマイズ可能な粒度パラメータによってユーザーにより制御されることを特徴とする方法。
〔態様9〕
態様1ないし8のうちいずれか一項記載の方法であって、前記統計モデルを適応させるために、前記構造化されたテキストの修正がログに記録され、解析されることを特徴とする方法。
〔態様10〕
テキストをテキストセクションにセグメント分割し、注釈付けされたトレーニング・データに基づいて各テキストセクションにトピックを付与するテキストセグメント分割システムであって、
・トレーニング・データから抽出された統計モデルを使うことによって当該テキストをテキストセクションにセグメント分割する手段と、
・前記トレーニング・データから抽出された統計モデルを使うことによって各テキストセクションに該テキストセクションの内容を示すトピックを付与する手段であって該トピックがさらにラベルの集合に付与されている手段と、
・前記ラベルを前記テキストセクションに付与するために当該テキストに前記ラベルの集合のうちの一つのラベルをセクション見出しとして挿入することによって、構造化されたテキストを生成する手段と、
・前記構造化されたテキストをユーザーに提示する手段と、
・ユーザーの校閲に反応して前記構造化されたテキストの修正を処理する手段、
とを有することを特徴とするシステム。
〔態様11〕
態様10記載のテキストセグメント分割システムであって、前記構造化されたテキストの修正を処理する手段が、当該テキストのセクションへのセグメント分割の修正ならびに/またはラベルとテキストセクションとの間の対応付けの修正を実行するよう適応されていることを特徴とするシステム。
〔態様12〕
態様10または11記載のテキストセグメント分割システムであって、前記構造化されたテキストの修正を処理する手段がさらに:
・あるテキストセクションにラベルを、該テキストセクションに付与されている前記トピックに付与された前記ラベルの集合のうちの一つのラベルを選択することによって付与し、
・当該テキスト中の第一の位置で付与されたラベルを選択し、その付与されたラベルを当該テキスト中の第二の位置に移動することによってセクション境界を再定義し、前記第二の位置がセクション境界を定義し、前記選択されたラベルが前記セクション見出しを定義し、
・ラベルを入力し、該入力されたラベルを前記テキストセクションに付与する、
ことを実行するよう適応されていることを特徴とするシステム。
〔態様13〕
態様10ないし12のうちいずれか一項記載のシステムであって、前記構造化されたテキストの修正を処理する前記手段が、ユーザーの校閲に反応して当該テキスト中の修正を実行するよう適応されており、さらに:
・前記トレーニング・データから抽出された統計モデルを使い、かつ前記実行された修正を参照することによって、当該テキストをテキストセクションに再セグメント分割し、
・前記実行された修正を参照することによって当該テキストにラベルをセクション見出しとして挿入することによって構造化されたテキストを再生成し、前記ラベルを前記テキストセクションに付与し、前記構造化されたテキストを校閲のためにユーザーに提示する、
ステップをその後引き起こす手段を有することを特徴とするシステム。
〔態様14〕
態様10ないし13のうちいずれか一項記載のシステムであって、前記構造化されたテキストの実行された修正をログに記録して解析する手段をさらに有しており、該ログに記録して解析する手段が前記統計モデルを適応させるよう適応されていることを特徴とするシステム。
〔態様15〕
テキストをテキストセクションにセグメント分割し、注釈付けされたトレーニング・データに基づいて各テキストセクションにトピックを付与するためのコンピュータプログラムであって、
・トレーニング・データから抽出された統計モデルを使うことによって当該テキストをテキストセクションにセグメント分割し、
・前記トレーニング・データから抽出された統計モデルを使うことによって各テキストセクションに該テキストセクションの内容を示すトピックを付与し、該トピックはさらにラベルの集合に付与されており、
・前記ラベルを前記テキストセクションに付与するために当該テキストに前記ラベルの集合のうちの一つのラベルをセクション見出しとして挿入することによって、構造化されたテキストを生成し、
・前記構造化されたテキストをユーザーに提示し、
・ユーザーの校閲に反応して前記構造化されたテキストの修正を処理する、
プログラム手段を有することを特徴とするプログラム。
〔態様16〕
態様15記載のコンピュータプログラムであって、前記構造化されたテキストの修正を処理するプログラム手段が、当該テキストのセクションへのセグメント分割の修正ならびに/またはラベルとテキストセクションとの間の対応付けの修正を実行するよう適応されており、該ラベルとテキストセクションとの間の対応付けの修正のために前記プログラム手段がさらに:
・あるテキストセクションにラベルを、該テキストセクションに付与されている前記トピックに付与された前記ラベルの集合のうちの一つのラベルを選択することによって付与し、
・当該テキスト中の第一の位置で付与されたラベルを選択し、その付与されたラベルを当該テキスト中の第二の位置に移動することによってセクション境界を再定義し、前記第二の位置がセクション境界を定義し、前記選択されたラベルが前記セクション見出しを定義し、
・ラベルを入力し、該入力されたラベルを前記テキストセクションに付与する、
ステップを実行するよう適応されていることを特徴とするプログラム。
〔態様17〕
態様15または16記載のコンピュータプログラムであって、前記構造化されたテキストの修正を処理する前記プログラム手段が、ユーザーの校閲に反応して当該テキスト中の修正を実行するよう適応されており、さらに:
・前記トレーニング・データから抽出された統計モデルを使い、かつ前記実行された修正を参照することによって、当該テキストをテキストセクションに再セグメント分割し、
・前記実行された修正を参照することによって当該テキストにラベルをセクション見出しとして挿入することで構造化されたテキストを再生成し、前記ラベルを前記テキストセクションに付与し、前記構造化されたテキストを校閲のためにユーザーに提示する、
ステップをその後引き起こすためのプログラム手段を有することを特徴とするプログラム。
〔態様18〕
テキストをテキストセクションにセグメント分割し、注釈付けされたトレーニング・データに基づいて各テキストセクションにトピックを付与するためのユーザーインターフェースであって、
・トレーニング・データから抽出された統計モデルを使うことにより構造化されたテキストをユーザーに提示する手段と、
・各テキストセクションに付与された各トピックに付与されているラベルの集合をユーザーに提示する手段と、
・ユーザーの校閲に反応して前記構造化されたテキストの修正を処理する入力手段と、
・統計モデルをトレーニングするために前記構造化されたテキストの処理された修正をログに記録して解析する手段、
とを有することを特徴とするユーザーインターフェース。
〔態様19〕
態様18記載のユーザーインターフェースであって、前記構造化されたテキストがグラフィカルユーザーインターフェースによってユーザーに提示され、前記入力手段が、ユーザーが前記提示されたラベルの集合のうちの一つのラベルを選択してその選択されたラベルがテキストセクションに付与されるという形で、前記構造化されたテキストの修正を処理するよう適応されていることを特徴とするユーザーインターフェース。
〔態様20〕
態様18または19記載のユーザーインターフェースであって、統計モデルを使い、かつ前記処理された修正を参照することによって、ユーザーの校閲に反応して再セグメント分割され、再ラベル付けされたテキストを提供する手段をさらに有することを特徴とするユーザーインターフェース。
400 ユーザーインターフェース
402 テキストウィンドウ
404 提案ウィンドウ
406 ラベル
408 ポインタ
410 ラベルリスト
412 ラベル
414 ラベル
416 ラベル
418 ユーザー入力欄
500 セグメント分割システム
502 音声
504 入力装置
506 ユーザー
508 外部記憶装置
510 音声認識モジュール
512 非構造化テキストモジュール
514 統計モデルモジュール
516 処理ユニット
518 構造化テキストモジュール
520 グラフィカルユーザーインターフェース
402 テキストウィンドウ
404 提案ウィンドウ
406 ラベル
408 ポインタ
410 ラベルリスト
412 ラベル
414 ラベル
416 ラベル
418 ユーザー入力欄
500 セグメント分割システム
502 音声
504 入力装置
506 ユーザー
508 外部記憶装置
510 音声認識モジュール
512 非構造化テキストモジュール
514 統計モデルモジュール
516 処理ユニット
518 構造化テキストモジュール
520 グラフィカルユーザーインターフェース
Claims (26)
- 構造化されていないテキストから構造化されたテキストを生成する方法であって:
前記構造化されていないテキストをテキストセクションにセグメント分割した結果をセグメント分割およびトピック付与手段から受け取る段階であって、前記結果は少なくとも一つのテキストセクションについて該少なくとも一つのテキストセクションの内容を示すトピックを含む、段階と;
前記少なくとも一つのテキストセクションおよび該少なくとも一つのテキストセクションについてのセクション見出しを含む第一の構造化されたテキストをユーザーに提供する段階であって、前記セクション見出しは前記少なくとも一つのテキストセクションに付与されたトピックに対応する、段階と;
前記第一の構造化されたテキストに対する少なくとも一つの修正を指示するユーザー入力を受け取る段階と;
コンピュータ・システムを使って、前記ユーザーから受け取られた前記少なくとも一つの修正を処理して第二の構造化されたテキストを生成する段階とを含む、
方法。 - 前記少なくとも一つのテキストセクションに付与されたトピックは複数のセクション見出しに関連付けられており、前記少なくとも一つのテキストセクションについての前記セクション見出しは、前記複数のセクション見出しから選択され、
前記セクション見出しの選択は、トピックに付与されるテキストセクションの前に特定のセクション見出しがくる頻度を反映するトレーニング・データに基づく計数統計を使うことによって、および/またはテキストセクションの先頭に見出される明示的な言語表現を使うことによって行われる、
請求項1記載の方法。 - 前記少なくとも一つのテキストセクションについての前記セクション見出しは、前記複数のセクション見出しのうちで、前記少なくとも一つのテキストセクションに割り当てられたトピックについて最も頻繁に選択されるセクション見出しである、請求項2記載の方法。
- 前記少なくとも一つのテキストセクションに付与されたトピックに関連付けられた前記複数のセクション見出しをユーザーに提供する段階をさらに含み、前記少なくとも一つの修正は、前記複数のセクション見出しのうちからの、前記少なくとも一つのテキストセクションについての代替的なセクション見出しのユーザーによる選択を含む、請求項2記載の方法。
- 前記少なくとも一つの修正は、前記少なくとも一つのテキストセクションについて挿入されたセクション見出しを置換するためにユーザーによって入力される新しいセクション見出しを含み、前記新しいセクション見出しは、前記少なくとも一つのテキストセクションに付与されたトピックに関連付けられた前記複数のセクション見出しのうちのどのセクション見出しとも異なっている、請求項2記載の方法。
- 前記セクション見出しは前記第一の構造化されたテキスト中に、ある第一の位置において挿入され、前記少なくとも一つの修正は、前記セクション見出しを前記第一の位置とは異なる第二の位置に移動させて、前記少なくとも一つのテキストセクションの境界を再定義することを含む、請求項1記載の方法。
- 前記複数のテキストセクションが第一の複数のテキストセクションであり、当該方法がさらに:
ユーザーから受け取られた前記少なくとも一つの修正を無効にすることなく、前記第二の構造化されたテキストの少なくとも一部を第二の複数のテキストセクションに再セグメント化する段階と;
前記第二の複数のテキストセクションおよび該第二の複数のテキストセクションのそれぞれについての対応するセクション見出しを含む第三の構造化されたテキストを生成する段階とを含む、
請求項1記載の方法。 - あるテキスト部分を、前記少なくとも一つのテキストセクションについての前記テキスト見出しの完全なまたは部分的な言語表現として識別する段階と;
ユーザーに提供される前記第一の構造化されたテキストから前記テキスト部分を除去する段階とをさらに含む、
請求項1記載の方法。 - セグメント分割の粒度がカスタマイズ可能な粒度パラメータを使ってユーザーによって制御される、請求項1記載の方法。
- 前記セグメント分割およびトピック付与手段が、構造化されていないテキストをセグメント分割するおよび/または少なくとも一つのテキストセクションにトピックを付与することにおいて、注釈付けされたトレーニング・データから構築される少なくとも一つの統計モデルを使い、ユーザーから受け取られる前記少なくとも一つの修正が前記少なくとも一つの統計モデルを適応させるためにログに記録され、解析され、
前記少なくとも一つの統計モデルはトピックシーケンス確率、トピック位置確率、セクション長確率および/またはテキスト放出確率を含む、
請求項1記載の方法。 - 構造化されていないテキストから構造化されたテキストを生成する、コンピュータ・システムを有する装置であって、前記コンピュータ・システムは:
前記構造化されていないテキストをテキストセクションにセグメント分割した結果をセグメント分割およびトピック付与手段から受け取る段階であって、前記結果は少なくとも一つのテキストセクションについて該少なくとも一つのテキストセクションの内容を示すトピックを含み、前記トピックは複数のセクション見出しに関連付けられている、段階と;
前記少なくとも一つのテキストセクションおよび該少なくとも一つのテキストセクションについてのセクション見出しを含む第一の構造化されたテキストをユーザーに提供する段階であって、前記セクション見出しは前記少なくとも一つのテキストセクションに付与されたトピックに関連付けられた前記複数のセクション見出しから選択される、段階と;
前記第一の構造化されたテキストに対する少なくとも一つの修正を指示するユーザー入力を受け取る段階と;
前記ユーザーから受け取られた前記少なくとも一つの修正を処理して第二の構造化されたテキストを生成する段階とを実行するよう構成されている、
装置。 - 前記少なくとも一つのテキストセクションに付与されたトピックに関連付けられた前記複数のセクション見出しが、前記第一の構造化テキストとともにユーザーに提供され、前記少なくとも一つの修正は、前記複数のセクション見出しのうちからの、前記少なくとも一つのテキストセクションについての代替的なセクション見出しのユーザーによる選択を含む、請求項11記載の装置。
- 前記少なくとも一つの修正は、前記少なくとも一つのテキストセクションについて挿入されたセクション見出しを置換するためにユーザーによって入力される新しいセクション見出しを含み、前記新しいセクション見出しは、前記少なくとも一つのテキストセクションに付与されたトピックに関連付けられた前記複数のセクション見出しのうちのどのセクション見出しとも異なっている、請求項11記載の装置。
- 前記セクション見出しは前記第一の構造化されたテキスト中に、ある第一の位置において挿入され、前記少なくとも一つの修正は、前記セクション見出しを前記第一の位置とは異なる第二の位置に移動させて、前記少なくとも一つのテキストセクションの境界を再定義することを含む、請求項11記載の装置。
- 前記複数のテキストセクションが第一の複数のテキストセクションであり、前記コンピュータ・システムがさらに:
ユーザーから受け取られた前記少なくとも一つの修正を無効にすることなく、前記第二の構造化されたテキストの少なくとも一部を第二の複数のテキストセクションに再セグメント化する段階と;
前記第二の複数のテキストセクションおよび該第二の複数のテキストセクションのそれぞれについての対応するセクション見出しを含む第三の構造化されたテキストを生成する段階とを実行するよう構成されている、
請求項11記載の装置。 - 前記コンピュータ・システムが前記セグメント分割およびトピック付与手段を有し、前記セグメント分割およびトピック付与手段が、構造化されていないテキストをセグメント分割するおよび/または少なくとも一つのテキストセクションにトピックを付与することにおいて、注釈付けされたトレーニング・データから構築される少なくとも一つの統計モデルを使うよう構成されており、前記コンピュータ・システムがさらに、ユーザーから受け取られる前記少なくとも一つの修正を、前記少なくとも一つの統計モデルを適応させるためにログに記録し、解析するよう構成されており、
前記少なくとも一つの統計モデルはトピックシーケンス確率、トピック位置確率、セクション長確率および/またはテキスト放出確率を含む、
請求項11記載の装置。 - 実行可能な命令がエンコードされている少なくとも一つのコンピュータ可読記憶デバイスであって、前記命令は、コンピュータ・システムによって実行されたときに、構造化されていないテキストから構造化されたテキストを生成する方法であって:
前記構造化されていないテキストをテキストセクションにセグメント分割した結果をセグメント分割およびトピック付与手段から受け取る段階であって、前記結果は少なくとも一つのテキストセクションについて該少なくとも一つのテキストセクションの内容を示すトピックを含み、前記トピックは複数のセクション見出しに関連付けられている、段階と;
前記少なくとも一つのテキストセクションおよび該少なくとも一つのテキストセクションについてのセクション見出しを含む第一の構造化されたテキストをユーザーに提供する段階であって、前記セクション見出しは前記少なくとも一つのテキストセクションに付与されたトピックに関連付けられた複数のセクション見出しから選択される、段階と;
前記第一の構造化されたテキストに対する少なくとも一つの修正を指示するユーザー入力を受け取る段階と;
前記ユーザーから受け取られた前記少なくとも一つの修正を処理して第二の構造化されたテキストを生成する段階とを含む、
方法を実行する、
コンピュータ可読記憶デバイス。 - 前記少なくとも一つのテキストセクションについての前記セクション見出しは、前記複数のセクション見出しのうちで、前記少なくとも一つのテキストセクションに割り当てられたトピックについて最も頻繁に選択されるセクション見出しである、請求項17記載のコンピュータ可読記憶デバイス。
- 前記方法がさらに、前記少なくとも一つのテキストセクションに付与されたトピックに関連付けられた前記複数のセクション見出しをユーザーに提供する段階を含み、前記少なくとも一つの修正は、前記複数のセクション見出しのうちからの、前記少なくとも一つのテキストセクションについての代替的なセクション見出しのユーザーによる選択を含む、請求項17記載のコンピュータ可読記憶デバイス。
- 前記少なくとも一つの修正は、前記少なくとも一つのテキストセクションについて挿入されたセクション見出しを置換するためにユーザーによって入力される新しいセクション見出しを含み、前記新しいセクション見出しは、前記少なくとも一つのテキストセクションに付与されたトピックに関連付けられた前記複数のセクション見出しのうちのどのセクション見出しとも異なっている、請求項17記載のコンピュータ可読記憶デバイス。
- 前記セクション見出しは前記第一の構造化されたテキスト中に、ある第一の位置において挿入され、前記少なくとも一つの修正は、前記セクション見出しを前記第一の位置とは異なる第二の位置に移動させて、前記少なくとも一つのテキストセクションの境界を再定義することを含む、請求項17記載のコンピュータ可読記憶デバイス。
- 前記複数のテキストセクションが第一の複数のテキストセクションであり、前記方法がさらに:
ユーザーから受け取られた前記少なくとも一つの修正を無効にすることなく、前記第二の構造化されたテキストの少なくとも一部を第二の複数のテキストセクションに再セグメント化する段階と;
前記第二の複数のテキストセクションおよび該第二の複数のテキストセクションのそれぞれについての対応するセクション見出しを含む第三の構造化されたテキストを生成する段階とを含む、
請求項17記載のコンピュータ可読記憶デバイス。 - 少なくとも一つのテキストセクションおよび該少なくとも一つのテキストセクションについてのセクション見出しを含む第一の構造化されたテキストをユーザーに提供する手段であって、前記少なくとも一つのテキストセクションは構造化されていないテキストのセグメント分割から得られた複数のテキストセクションの一つであり、前記セクション見出しは前記少なくとも一つのテキストセクションに付与されたトピックに関連付けられた複数のセクション見出しから選択されるものであり、前記トピックは前記少なくとも一つのテキストセクションの内容を示す、手段と;
前記第一の構造化されたテキストに対する少なくとも一つの修正を指示するユーザー入力を受け取る手段と;
前記ユーザーから受け取られた前記少なくとも一つの修正を処理して第二の構造化されたテキストを生成する手段とを有する、
システム。 - 前記第一の構造化されたテキストを提供する前記手段がさらに、グラフィカル・ユーザー・インターフェースを介してユーザーに、前記少なくとも一つのテキストセクションに付与されたトピックに関連付けられた前記複数のセクション見出しを提供するよう構成されており、前記少なくとも一つの修正が、前記複数のセクション見出しのうちからの、前記少なくとも一つのテキストセクションについての代替的なセクション見出しのユーザーによる選択を含む、請求項23記載のシステム。
- 前記少なくとも一つの修正は、前記少なくとも一つのテキストセクションについて挿入されたセクション見出しを置換するためにユーザーによって入力される新しいセクション見出しを含み、前記新しいセクション見出しは、前記少なくとも一つのテキストセクションに付与されたトピックに関連付けられた前記複数のセクション見出しのうちのどのセクション見出しとも異なっている、請求項23記載のシステム。
- 前記セクション見出しは前記第一の構造化されたテキスト中に、ある第一の位置において挿入され、前記少なくとも一つの修正は、前記セクション見出しを前記第一の位置とは異なる第二の位置に移動させて、前記少なくとも一つのテキストセクションの境界を再定義することを含む、請求項23記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03104316 | 2003-11-21 | ||
EP03104316.9 | 2003-11-21 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006540706A Division JP4808160B2 (ja) | 2003-11-21 | 2004-11-12 | トピック特異的言語モデルおよびトピック特異的ラベル統計によるユーザー対話を用いたテキストセグメント分割およびラベル付与 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011170125A Division JP5450524B2 (ja) | 2003-11-21 | 2011-08-03 | トピック特異的言語モデルおよびトピック特異的ラベル統計によるユーザー対話を用いたテキストセグメント分割およびラベル付与 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011204249A true JP2011204249A (ja) | 2011-10-13 |
Family
ID=34610120
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006540706A Expired - Fee Related JP4808160B2 (ja) | 2003-11-21 | 2004-11-12 | トピック特異的言語モデルおよびトピック特異的ラベル統計によるユーザー対話を用いたテキストセグメント分割およびラベル付与 |
JP2011103843A Pending JP2011204249A (ja) | 2003-11-21 | 2011-05-06 | トピック特異的言語モデルおよびトピック特異的ラベル統計によるユーザー対話を用いたテキストセグメント分割およびラベル付与 |
JP2011170125A Expired - Fee Related JP5450524B2 (ja) | 2003-11-21 | 2011-08-03 | トピック特異的言語モデルおよびトピック特異的ラベル統計によるユーザー対話を用いたテキストセグメント分割およびラベル付与 |
JP2013231893A Expired - Fee Related JP5747066B2 (ja) | 2003-11-21 | 2013-11-08 | トピック特異的言語モデルおよびトピック特異的ラベル統計によるユーザー対話を用いたテキストセグメント分割およびラベル付与 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006540706A Expired - Fee Related JP4808160B2 (ja) | 2003-11-21 | 2004-11-12 | トピック特異的言語モデルおよびトピック特異的ラベル統計によるユーザー対話を用いたテキストセグメント分割およびラベル付与 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011170125A Expired - Fee Related JP5450524B2 (ja) | 2003-11-21 | 2011-08-03 | トピック特異的言語モデルおよびトピック特異的ラベル統計によるユーザー対話を用いたテキストセグメント分割およびラベル付与 |
JP2013231893A Expired - Fee Related JP5747066B2 (ja) | 2003-11-21 | 2013-11-08 | トピック特異的言語モデルおよびトピック特異的ラベル統計によるユーザー対話を用いたテキストセグメント分割およびラベル付与 |
Country Status (4)
Country | Link |
---|---|
US (4) | US8200487B2 (ja) |
EP (1) | EP1687739A2 (ja) |
JP (4) | JP4808160B2 (ja) |
WO (1) | WO2005050474A2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020528590A (ja) * | 2017-10-20 | 2020-09-24 | グーグル エルエルシー | 臨床ドキュメンテーションで使用される患者−医師間会話からの詳細構造の取込み |
Families Citing this family (90)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7958443B2 (en) | 2003-02-28 | 2011-06-07 | Dictaphone Corporation | System and method for structuring speech recognized text into a pre-selected document format |
US20040243545A1 (en) * | 2003-05-29 | 2004-12-02 | Dictaphone Corporation | Systems and methods utilizing natural language medical records |
US8200487B2 (en) | 2003-11-21 | 2012-06-12 | Nuance Communications Austria Gmbh | Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics |
US7844464B2 (en) * | 2005-07-22 | 2010-11-30 | Multimodal Technologies, Inc. | Content-based audio playback emphasis |
US7680648B2 (en) * | 2004-09-30 | 2010-03-16 | Google Inc. | Methods and systems for improving text segmentation |
CA2614653A1 (en) * | 2005-07-15 | 2007-01-25 | Think Software Pty Ltd | Method and apparatus for providing structured data for free text messages |
US8036889B2 (en) * | 2006-02-27 | 2011-10-11 | Nuance Communications, Inc. | Systems and methods for filtering dictated and non-dictated sections of documents |
US8301448B2 (en) | 2006-03-29 | 2012-10-30 | Nuance Communications, Inc. | System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy |
US8996587B2 (en) * | 2007-02-15 | 2015-03-31 | International Business Machines Corporation | Method and apparatus for automatically structuring free form hetergeneous data |
JP5256654B2 (ja) * | 2007-06-29 | 2013-08-07 | 富士通株式会社 | 文章分割プログラム、文章分割装置および文章分割方法 |
US8073682B2 (en) * | 2007-10-12 | 2011-12-06 | Palo Alto Research Center Incorporated | System and method for prospecting digital information |
US8671104B2 (en) | 2007-10-12 | 2014-03-11 | Palo Alto Research Center Incorporated | System and method for providing orientation into digital information |
US8165985B2 (en) * | 2007-10-12 | 2012-04-24 | Palo Alto Research Center Incorporated | System and method for performing discovery of digital information in a subject area |
US8209616B2 (en) * | 2008-08-28 | 2012-06-26 | Palo Alto Research Center Incorporated | System and method for interfacing a web browser widget with social indexing |
US20100057577A1 (en) * | 2008-08-28 | 2010-03-04 | Palo Alto Research Center Incorporated | System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing |
US8010545B2 (en) * | 2008-08-28 | 2011-08-30 | Palo Alto Research Center Incorporated | System and method for providing a topic-directed search |
US20100057536A1 (en) * | 2008-08-28 | 2010-03-04 | Palo Alto Research Center Incorporated | System And Method For Providing Community-Based Advertising Term Disambiguation |
US8549016B2 (en) * | 2008-11-14 | 2013-10-01 | Palo Alto Research Center Incorporated | System and method for providing robust topic identification in social indexes |
US8239397B2 (en) * | 2009-01-27 | 2012-08-07 | Palo Alto Research Center Incorporated | System and method for managing user attention by detecting hot and cold topics in social indexes |
US8452781B2 (en) * | 2009-01-27 | 2013-05-28 | Palo Alto Research Center Incorporated | System and method for using banded topic relevance and time for article prioritization |
US8356044B2 (en) * | 2009-01-27 | 2013-01-15 | Palo Alto Research Center Incorporated | System and method for providing default hierarchical training for social indexing |
US9424246B2 (en) | 2009-03-30 | 2016-08-23 | Touchtype Ltd. | System and method for inputting text into electronic devices |
GB201016385D0 (en) | 2010-09-29 | 2010-11-10 | Touchtype Ltd | System and method for inputting text into electronic devices |
US10191654B2 (en) | 2009-03-30 | 2019-01-29 | Touchtype Limited | System and method for inputting text into electronic devices |
GB0905457D0 (en) | 2009-03-30 | 2009-05-13 | Touchtype Ltd | System and method for inputting text into electronic devices |
GB0917753D0 (en) | 2009-10-09 | 2009-11-25 | Touchtype Ltd | System and method for inputting text into electronic devices |
US9189472B2 (en) | 2009-03-30 | 2015-11-17 | Touchtype Limited | System and method for inputting text into small screen devices |
GB201003628D0 (en) | 2010-03-04 | 2010-04-21 | Touchtype Ltd | System and method for inputting text into electronic devices |
US9031944B2 (en) | 2010-04-30 | 2015-05-12 | Palo Alto Research Center Incorporated | System and method for providing multi-core and multi-level topical organization in social indexes |
US8554542B2 (en) * | 2010-05-05 | 2013-10-08 | Xerox Corporation | Textual entailment method for linking text of an abstract to text in the main body of a document |
GB201200643D0 (en) | 2012-01-16 | 2012-02-29 | Touchtype Ltd | System and method for inputting text |
WO2012047955A1 (en) * | 2010-10-05 | 2012-04-12 | Infraware, Inc. | Language dictation recognition systems and methods for using the same |
JP5392228B2 (ja) * | 2010-10-14 | 2014-01-22 | 株式会社Jvcケンウッド | 番組検索装置および番組検索方法 |
JP5392227B2 (ja) * | 2010-10-14 | 2014-01-22 | 株式会社Jvcケンウッド | フィルタリング装置およびフィルタリング方法 |
US9223769B2 (en) | 2011-09-21 | 2015-12-29 | Roman Tsibulevskiy | Data processing systems, devices, and methods for content analysis |
WO2014018039A1 (en) * | 2012-07-26 | 2014-01-30 | Nuance Communications, Inc. | Text formatter with intuitive customization |
US11468243B2 (en) * | 2012-09-24 | 2022-10-11 | Amazon Technologies, Inc. | Identity-based display of text |
US9141407B2 (en) * | 2012-11-14 | 2015-09-22 | Honeywell International Inc. | System and approach for defining labels for enumeration values of parameters in a wall module |
WO2014132402A1 (ja) * | 2013-02-28 | 2014-09-04 | 株式会社東芝 | データ処理装置および物語モデル構築方法 |
US9575958B1 (en) * | 2013-05-02 | 2017-02-21 | Athena Ann Smyros | Differentiation testing |
US9390079B1 (en) * | 2013-05-10 | 2016-07-12 | D.R. Systems, Inc. | Voice commands for report editing |
US11183300B2 (en) * | 2013-06-05 | 2021-11-23 | Nuance Communications, Inc. | Methods and apparatus for providing guidance to medical professionals |
US9058374B2 (en) | 2013-09-26 | 2015-06-16 | International Business Machines Corporation | Concept driven automatic section identification |
WO2015166508A1 (en) * | 2014-04-30 | 2015-11-05 | Hewlett-Packard Development Company, L.P. | Correlation based instruments discovery |
EP3146448A4 (en) * | 2014-05-22 | 2017-12-13 | The Bank Of New York Mellon | Liquidity forecasting and management system and method |
US11488040B2 (en) | 2014-05-22 | 2022-11-01 | The Bank Of New York Mellon | System and methods for prediction communication performance in networked systems |
WO2015183127A1 (ru) * | 2014-05-30 | 2015-12-03 | Общество С Ограниченной Ответственностью "Петер-Сервис Рнд" | Способ сегментирования данных |
US9761222B1 (en) * | 2014-06-11 | 2017-09-12 | Albert Scarasso | Intelligent conversational messaging |
US10380225B1 (en) | 2014-07-15 | 2019-08-13 | Google Llc | Systems and methods for layout transformation of document content |
JP2016071406A (ja) * | 2014-09-26 | 2016-05-09 | 大日本印刷株式会社 | ラベル付与装置、ラベル付与方法、及びプログラム |
US10223442B2 (en) | 2015-04-09 | 2019-03-05 | Qualtrics, Llc | Prioritizing survey text responses |
US10339160B2 (en) | 2015-10-29 | 2019-07-02 | Qualtrics, Llc | Organizing survey text responses |
US9880863B2 (en) | 2015-11-13 | 2018-01-30 | The Boeing Company | Methods and systems for increasing processor speed by creating rule engine rules from unstructured text |
US9519871B1 (en) * | 2015-12-21 | 2016-12-13 | International Business Machines Corporation | Contextual text adaptation |
GB201610984D0 (en) | 2016-06-23 | 2016-08-10 | Microsoft Technology Licensing Llc | Suppression of input images |
US10600097B2 (en) | 2016-06-30 | 2020-03-24 | Qualtrics, Llc | Distributing action items and action item reminders |
US11645317B2 (en) | 2016-07-26 | 2023-05-09 | Qualtrics, Llc | Recommending topic clusters for unstructured text documents |
US10650621B1 (en) | 2016-09-13 | 2020-05-12 | Iocurrents, Inc. | Interfacing with a vehicular controller area network |
US10169325B2 (en) * | 2017-02-09 | 2019-01-01 | International Business Machines Corporation | Segmenting and interpreting a document, and relocating document fragments to corresponding sections |
US10176889B2 (en) * | 2017-02-09 | 2019-01-08 | International Business Machines Corporation | Segmenting and interpreting a document, and relocating document fragments to corresponding sections |
JP6930179B2 (ja) * | 2017-03-30 | 2021-09-01 | 富士通株式会社 | 学習装置、学習方法及び学習プログラム |
RU2643467C1 (ru) | 2017-05-30 | 2018-02-01 | Общество с ограниченной ответственностью "Аби Девелопмент" | Сопоставление разметки для похожих документов |
US10997223B1 (en) * | 2017-06-28 | 2021-05-04 | Amazon Technologies, Inc. | Subject-specific data set for named entity resolution |
US20190006027A1 (en) * | 2017-06-30 | 2019-01-03 | Accenture Global Solutions Limited | Automatic identification and extraction of medical conditions and evidences from electronic health records |
US10489502B2 (en) * | 2017-06-30 | 2019-11-26 | Accenture Global Solutions Limited | Document processing |
CN107704495B (zh) * | 2017-08-25 | 2018-08-10 | 平安科技(深圳)有限公司 | 主题分类器的训练方法、装置及计算机可读存储介质 |
RU2666277C1 (ru) * | 2017-09-06 | 2018-09-06 | Общество с ограниченной ответственностью "Аби Продакшн" | Сегментация текста |
US10699065B2 (en) | 2017-11-06 | 2020-06-30 | Microsoft Technology Licensing, Llc | Electronic document content classification and document type determination |
US11568231B2 (en) * | 2017-12-08 | 2023-01-31 | Raytheon Bbn Technologies Corp. | Waypoint detection for a contact center analysis system |
US11023551B2 (en) * | 2018-02-23 | 2021-06-01 | Accenture Global Solutions Limited | Document processing based on proxy logs |
US11314807B2 (en) | 2018-05-18 | 2022-04-26 | Xcential Corporation | Methods and systems for comparison of structured documents |
US10936628B2 (en) | 2018-05-30 | 2021-03-02 | International Business Machines Corporation | Automatic processing of ambiguously labeled data |
US10783314B2 (en) * | 2018-06-29 | 2020-09-22 | Adobe Inc. | Emphasizing key points in a speech file and structuring an associated transcription |
US10963510B2 (en) | 2018-08-09 | 2021-03-30 | Bank Of America Corporation | Dynamic natural language processing tagging |
US10769205B2 (en) | 2018-08-09 | 2020-09-08 | Bank Of America Corporation | Resource management using natural language processing tags |
US10642890B2 (en) | 2018-08-09 | 2020-05-05 | Bank Of America Corporation | Dynamic memory allocation using natural language processing tags |
US10915778B2 (en) | 2018-08-27 | 2021-02-09 | Samsung Electronics Co., Ltd. | User interface framework for multi-selection and operation of non-consecutive segmented information |
CN109192212B (zh) * | 2018-11-13 | 2019-12-10 | 苏州思必驰信息科技有限公司 | 语音控制方法及装置 |
US20200311412A1 (en) * | 2019-03-29 | 2020-10-01 | Konica Minolta Laboratory U.S.A., Inc. | Inferring titles and sections in documents |
US11853701B2 (en) * | 2019-06-23 | 2023-12-26 | LitLingo Technologies, Inc. | Method for recommending and implementing communication optimizations |
US11308944B2 (en) | 2020-03-12 | 2022-04-19 | International Business Machines Corporation | Intent boundary segmentation for multi-intent utterances |
LU101705B1 (en) | 2020-03-26 | 2021-09-27 | Microsoft Technology Licensing Llc | Document control item |
WO2021207422A1 (en) | 2020-04-07 | 2021-10-14 | Cascade Reading, Inc. | Generating cascaded text formatting for electronic documents and displays |
CN111785272B (zh) * | 2020-06-16 | 2021-06-11 | 杭州云嘉云计算有限公司 | 一种在线标注方法及系统 |
CN111858938B (zh) * | 2020-07-23 | 2024-05-24 | 鼎富智能科技有限公司 | 一种裁判文书标签的提取方法及装置 |
CN112417083B (zh) * | 2020-11-12 | 2022-05-17 | 福建亿榕信息技术有限公司 | 一种构建部署文本实体关系提取模型的方法和存储设备 |
US20230409808A1 (en) * | 2020-11-25 | 2023-12-21 | Nec Corporation | Information processing device, information processing method and recording medium |
CN113722425B (zh) * | 2021-07-23 | 2024-08-27 | 阿里巴巴达摩院(杭州)科技有限公司 | 数据处理方法、计算机设备及计算机可读存储介质 |
JP7532322B2 (ja) * | 2021-09-01 | 2024-08-13 | 株式会社東芝 | コミュニケーションデータログ処理装置、方法及びプログラム |
US11809477B1 (en) * | 2022-11-28 | 2023-11-07 | Intuit Inc. | Topic focused related entity extraction |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0683807A (ja) * | 1992-08-31 | 1994-03-25 | Toshiba Corp | 文書作成装置 |
US6052657A (en) * | 1997-09-09 | 2000-04-18 | Dragon Systems, Inc. | Text segmentation and identification of topic using language models |
JP2000200273A (ja) * | 1998-11-04 | 2000-07-18 | Atr Interpreting Telecommunications Res Lab | 発話意図認識装置 |
Family Cites Families (106)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4477698A (en) | 1982-09-07 | 1984-10-16 | Melita Electronics Labs, Inc. | Apparatus for detecting pick-up at a remote telephone set |
US4965763A (en) | 1987-03-03 | 1990-10-23 | International Business Machines Corporation | Computer method for automatic extraction of commonly specified information from business correspondence |
JPH0683807B2 (ja) | 1988-03-04 | 1994-10-26 | ナショナル住宅産業株式会社 | 板状ワークの塗装乾燥装置 |
US5253164A (en) | 1988-09-30 | 1993-10-12 | Hpr, Inc. | System and method for detecting fraudulent medical claims via examination of service codes |
US5111398A (en) * | 1988-11-21 | 1992-05-05 | Xerox Corporation | Processing natural language text using autonomous punctuational structure |
US5327341A (en) | 1991-10-28 | 1994-07-05 | Whalen Edward J | Computerized file maintenance system for managing medical records including narrative reports |
US5325293A (en) | 1992-02-18 | 1994-06-28 | Dorne Howard L | System and method for correlating medical procedures and medical billing codes |
JPH05307556A (ja) | 1992-04-30 | 1993-11-19 | Olympus Optical Co Ltd | 統合データベースを用いた情報処理装置 |
JPH08506911A (ja) | 1992-11-23 | 1996-07-23 | パラゴン、コンセプツ、インコーポレーテッド | ファイル・アクセスを行うためにユーザーがカテゴリを選択するコンピュータ・ファイリング・システム |
US5392209A (en) | 1992-12-18 | 1995-02-21 | Abbott Laboratories | Method and apparatus for providing a data interface between a plurality of test information sources and a database |
WO1995000914A1 (en) | 1993-06-28 | 1995-01-05 | Scott & White Memorial Hospital And Scott, Sherwood And Brindley Foundation | Electronic medical record using text database |
US5623681A (en) * | 1993-11-19 | 1997-04-22 | Waverley Holdings, Inc. | Method and apparatus for synchronizing, displaying and manipulating text and image documents |
US5623679A (en) * | 1993-11-19 | 1997-04-22 | Waverley Holdings, Inc. | System and method for creating and manipulating notes each containing multiple sub-notes, and linking the sub-notes to portions of data objects |
GB2285895A (en) | 1994-01-19 | 1995-07-26 | Ibm | Audio conferencing system which generates a set of minutes |
NZ248751A (en) | 1994-03-23 | 1997-11-24 | Ryan John Kevin | Text analysis and coding |
AU2463895A (en) | 1994-05-02 | 1995-11-29 | Catalina Information Resources, Inc. | Method and apparatus for real-time tracking of retail sales of selected products |
US5799268A (en) | 1994-09-28 | 1998-08-25 | Apple Computer, Inc. | Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like |
JP3666907B2 (ja) | 1994-10-20 | 2005-06-29 | 富士通株式会社 | データベース用ファイル格納管理システム |
US5734883A (en) | 1995-04-27 | 1998-03-31 | Michael Umen & Co., Inc. | Drug document production system |
US5689585A (en) | 1995-04-28 | 1997-11-18 | Xerox Corporation | Method for aligning a text image to a transcription of the image |
US5883986A (en) | 1995-06-02 | 1999-03-16 | Xerox Corporation | Method and system for automatic transcription correction |
US5664109A (en) | 1995-06-07 | 1997-09-02 | E-Systems, Inc. | Method for extracting pre-defined data items from medical service records generated by health care providers |
US6006221A (en) | 1995-08-16 | 1999-12-21 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
US5675788A (en) | 1995-09-15 | 1997-10-07 | Infonautics Corp. | Method and apparatus for generating a composite document on a selected topic from a plurality of information sources |
US6192112B1 (en) | 1995-12-29 | 2001-02-20 | Seymour A. Rapaport | Medical information system including a medical information server having an interactive voice-response interface |
US5754840A (en) | 1996-01-23 | 1998-05-19 | Smartpatents, Inc. | System, method, and computer program product for developing and maintaining documents which includes analyzing a patent application with regards to the specification and claims |
US6684188B1 (en) | 1996-02-02 | 2004-01-27 | Geoffrey C Mitchell | Method for production of medical records and other technical documents |
US5970463A (en) | 1996-05-01 | 1999-10-19 | Practice Patterns Science, Inc. | Medical claims integration and data analysis system |
US6052693A (en) | 1996-07-02 | 2000-04-18 | Harlequin Group Plc | System for assembling large databases through information extracted from text sources |
US6279017B1 (en) * | 1996-08-07 | 2001-08-21 | Randall C. Walker | Method and apparatus for displaying text based upon attributes found within the text |
US5924074A (en) | 1996-09-27 | 1999-07-13 | Azron Incorporated | Electronic medical records system |
US6055494A (en) | 1996-10-28 | 2000-04-25 | The Trustees Of Columbia University In The City Of New York | System and method for medical language extraction and encoding |
US6182029B1 (en) | 1996-10-28 | 2001-01-30 | The Trustees Of Columbia University In The City Of New York | System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters |
JP2001508883A (ja) | 1996-12-20 | 2001-07-03 | ファイナンシャル サーヴィシーズ テクノロジー コンソーティアム | 電子文書を処理する方法およびシステム |
US5924068A (en) | 1997-02-04 | 1999-07-13 | Matsushita Electric Industrial Co. Ltd. | Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion |
US6108629A (en) | 1997-04-25 | 2000-08-22 | At&T Corp. | Method and apparatus for voice interaction over a network using an information flow controller |
US5875429A (en) | 1997-05-20 | 1999-02-23 | Applied Voice Recognition, Inc. | Method and apparatus for editing documents through voice recognition |
US5974412A (en) | 1997-09-24 | 1999-10-26 | Sapient Health Network | Intelligent query system for automatically indexing information in a database and automatically categorizing users |
WO1999017223A1 (en) | 1997-09-30 | 1999-04-08 | Ihc Health Services, Inc. | Aprobabilistic system for natural language processing |
DE19809563A1 (de) | 1998-03-05 | 1999-09-09 | Siemens Ag | Medizinischer Arbeitsplatz |
US6199079B1 (en) | 1998-03-09 | 2001-03-06 | Junglee Corporation | Method and system for automatically filling forms in an integrated network based transaction environment |
US6088437A (en) | 1998-04-23 | 2000-07-11 | Touch Tone Technologies Inc. | Call processing system, method and computer program product |
US6915254B1 (en) | 1998-07-30 | 2005-07-05 | A-Life Medical, Inc. | Automatically assigning medical codes using natural language processing |
US6553385B2 (en) | 1998-09-01 | 2003-04-22 | International Business Machines Corporation | Architecture of a framework for information extraction from natural language documents |
US6438533B1 (en) | 1998-10-30 | 2002-08-20 | College Of American Pathologists | System for retrieval of information from data structure of medical records |
US6360215B1 (en) | 1998-11-03 | 2002-03-19 | Inktomi Corporation | Method and apparatus for retrieving documents based on information other than document content |
US6910179B1 (en) | 1998-11-10 | 2005-06-21 | Clarita Corporation | Method and apparatus for automatic form filling |
US6499041B1 (en) | 1998-12-29 | 2002-12-24 | International Business Machines Corporation | Methods, systems and computer program products for copying between templates having associated field designations |
JP2000235574A (ja) * | 1999-02-16 | 2000-08-29 | Ricoh Co Ltd | 文書処理装置 |
US6611802B2 (en) | 1999-06-11 | 2003-08-26 | International Business Machines Corporation | Method and system for proofreading and correcting dictated text |
US20020007285A1 (en) | 1999-06-18 | 2002-01-17 | Rappaport Alain T. | Method, apparatus and system for providing targeted information in relation to laboratory and other medical services |
US6865258B1 (en) | 1999-08-13 | 2005-03-08 | Intervoice Limited Partnership | Method and system for enhanced transcription |
US7278094B1 (en) | 2000-05-03 | 2007-10-02 | R. R. Donnelley & Sons Co. | Variable text processing for an electronic press |
US6434547B1 (en) | 1999-10-28 | 2002-08-13 | Qenm.Com | Data capture and verification system |
US6789060B1 (en) | 1999-11-01 | 2004-09-07 | Gene J. Wolfe | Network based speech transcription that maintains dynamic templates |
US6529902B1 (en) * | 1999-11-08 | 2003-03-04 | International Business Machines Corporation | Method and system for off-line detection of textual topical changes and topic identification via likelihood based methods for improved language modeling |
US7124144B2 (en) | 2000-03-02 | 2006-10-17 | Actuate Corporation | Method and apparatus for storing semi-structured data in a structured manner |
GB2362238A (en) | 2000-05-12 | 2001-11-14 | Applied Psychology Res Ltd | Automatic text classification |
US20020095313A1 (en) | 2000-09-28 | 2002-07-18 | Haq Mohamed M. | Computer system for assisting a physician |
US20020099717A1 (en) | 2001-01-24 | 2002-07-25 | Gordon Bennett | Method for report generation in an on-line transcription system |
US20020103826A1 (en) | 2001-01-29 | 2002-08-01 | Banta Corporation | System and method for creating documents populated with variable data |
US7373600B2 (en) | 2001-03-27 | 2008-05-13 | Koninklijke Philips Electronics N.V. | DICOM to XML generator |
US20020143818A1 (en) | 2001-03-30 | 2002-10-03 | Roberts Elizabeth A. | System for generating a structured document |
US6947936B1 (en) | 2001-04-30 | 2005-09-20 | Hewlett-Packard Development Company, L.P. | Method for a topic hierarchy classification system |
US6920448B2 (en) | 2001-05-09 | 2005-07-19 | Agilent Technologies, Inc. | Domain specific knowledge-based metasearch system and methods of using |
US20020188452A1 (en) | 2001-06-11 | 2002-12-12 | Howes Simon L. | Automatic normal report system |
US20030208382A1 (en) | 2001-07-05 | 2003-11-06 | Westfall Mark D | Electronic medical record system and method |
US20030018668A1 (en) * | 2001-07-20 | 2003-01-23 | International Business Machines Corporation | Enhanced transcoding of structured documents through use of annotation techniques |
US6928425B2 (en) | 2001-08-13 | 2005-08-09 | Xerox Corporation | System for propagating enrichment between documents |
US7031979B2 (en) | 2001-08-31 | 2006-04-18 | Hewlett-Packard Development Company, L.P. | Report generation system and method |
EP1500009A4 (en) | 2001-10-23 | 2006-02-15 | Electronic Data Syst Corp | SYSTEM AND METHOD FOR MANAGING CONTRACTS THROUGH THE USE OF TEXT MINING |
US20040189713A1 (en) * | 2001-10-31 | 2004-09-30 | Metacyber.Net | Computer-based user interface for a memory-resident rapid comprehension document for original source information |
JP2003196296A (ja) * | 2001-12-25 | 2003-07-11 | Celestar Lexico-Sciences Inc | 文献知識管理装置、文献知識管理方法、プログラム、および、記録媒体 |
US20030154080A1 (en) | 2002-02-14 | 2003-08-14 | Godsey Sandra L. | Method and apparatus for modification of audio input to a data processing system |
US7171615B2 (en) | 2002-03-26 | 2007-01-30 | Aatrix Software, Inc. | Method and apparatus for creating and filing forms |
US7054859B2 (en) | 2002-06-13 | 2006-05-30 | Hewlett-Packard Development Company, L.P. | Apparatus and method for responding to search requests for stored documents |
US6892198B2 (en) | 2002-06-14 | 2005-05-10 | Entopia, Inc. | System and method for personalized information retrieval based on user expertise |
US20040139400A1 (en) | 2002-10-23 | 2004-07-15 | Allam Scott Gerald | Method and apparatus for displaying and viewing information |
US7039625B2 (en) | 2002-11-22 | 2006-05-02 | International Business Machines Corporation | International information search and delivery system providing search results personalized to a particular natural language |
US7444285B2 (en) | 2002-12-06 | 2008-10-28 | 3M Innovative Properties Company | Method and system for sequential insertion of speech recognition results to facilitate deferred transcription services |
US7233938B2 (en) | 2002-12-27 | 2007-06-19 | Dictaphone Corporation | Systems and methods for coding information |
US7426496B2 (en) | 2004-03-03 | 2008-09-16 | Microsoft Corporation | Assisted form filling |
US7958443B2 (en) | 2003-02-28 | 2011-06-07 | Dictaphone Corporation | System and method for structuring speech recognized text into a pre-selected document format |
US20040186746A1 (en) | 2003-03-21 | 2004-09-23 | Angst Wendy P. | System, apparatus and method for storage and transportation of personal health records |
US20040243545A1 (en) | 2003-05-29 | 2004-12-02 | Dictaphone Corporation | Systems and methods utilizing natural language medical records |
US20040243552A1 (en) | 2003-05-30 | 2004-12-02 | Dictaphone Corporation | Method, system, and apparatus for viewing data |
US8095544B2 (en) | 2003-05-30 | 2012-01-10 | Dictaphone Corporation | Method, system, and apparatus for validation |
US8290958B2 (en) | 2003-05-30 | 2012-10-16 | Dictaphone Corporation | Method, system, and apparatus for data reuse |
US20040255239A1 (en) | 2003-06-13 | 2004-12-16 | Ankur Bhatt | Generating electronic reports of data displayed in a computer user interface list view |
US7814093B2 (en) | 2003-07-25 | 2010-10-12 | Microsoft Corporation | Method and system for building a report for execution against a data store |
US7860717B2 (en) | 2003-09-25 | 2010-12-28 | Dictaphone Corporation | System and method for customizing speech recognition input and output |
US20050120300A1 (en) | 2003-09-25 | 2005-06-02 | Dictaphone Corporation | Method, system, and apparatus for assembly, transport and display of clinical data |
US7542909B2 (en) | 2003-09-30 | 2009-06-02 | Dictaphone Corporation | Method, system, and apparatus for repairing audio recordings |
US8024176B2 (en) | 2003-09-30 | 2011-09-20 | Dictaphone Corporation | System, method and apparatus for prediction using minimal affix patterns |
US7774196B2 (en) | 2003-10-01 | 2010-08-10 | Dictaphone Corporation | System and method for modifying a language model and post-processor information |
US20050144184A1 (en) | 2003-10-01 | 2005-06-30 | Dictaphone Corporation | System and method for document section segmentation |
US7996223B2 (en) | 2003-10-01 | 2011-08-09 | Dictaphone Corporation | System and method for post processing speech recognition output |
US8200487B2 (en) | 2003-11-21 | 2012-06-12 | Nuance Communications Austria Gmbh | Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics |
US7315811B2 (en) | 2003-12-31 | 2008-01-01 | Dictaphone Corporation | System and method for accented modification of a language model |
US7430711B2 (en) | 2004-02-17 | 2008-09-30 | Microsoft Corporation | Systems and methods for editing XML documents |
US7822598B2 (en) | 2004-02-27 | 2010-10-26 | Dictaphone Corporation | System and method for normalization of a string of words |
US7783474B2 (en) | 2004-02-27 | 2010-08-24 | Nuance Communications, Inc. | System and method for generating a phrase pronunciation |
US7379946B2 (en) | 2004-03-31 | 2008-05-27 | Dictaphone Corporation | Categorization of information using natural language processing and predefined templates |
US8504369B1 (en) | 2004-06-02 | 2013-08-06 | Nuance Communications, Inc. | Multi-cursor transcription editing |
US7617450B2 (en) | 2004-09-30 | 2009-11-10 | Microsoft Corporation | Method, system, and computer-readable medium for creating, inserting, and reusing document parts in an electronic document |
CA2614233A1 (en) | 2005-07-05 | 2007-01-11 | Dictaphone Corporation | System and method for auto-reuse of document text |
-
2004
- 2004-11-12 US US10/595,831 patent/US8200487B2/en not_active Expired - Fee Related
- 2004-11-12 WO PCT/IB2004/052405 patent/WO2005050474A2/en active Application Filing
- 2004-11-12 EP EP04799135A patent/EP1687739A2/en not_active Withdrawn
- 2004-11-12 JP JP2006540706A patent/JP4808160B2/ja not_active Expired - Fee Related
-
2011
- 2011-05-06 JP JP2011103843A patent/JP2011204249A/ja active Pending
- 2011-08-03 JP JP2011170125A patent/JP5450524B2/ja not_active Expired - Fee Related
- 2011-08-15 US US13/210,214 patent/US8332221B2/en active Active
-
2012
- 2012-09-14 US US13/619,972 patent/US8688448B2/en active Active
-
2013
- 2013-11-08 JP JP2013231893A patent/JP5747066B2/ja not_active Expired - Fee Related
-
2014
- 2014-02-19 US US14/184,440 patent/US9128906B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0683807A (ja) * | 1992-08-31 | 1994-03-25 | Toshiba Corp | 文書作成装置 |
US6052657A (en) * | 1997-09-09 | 2000-04-18 | Dragon Systems, Inc. | Text segmentation and identification of topic using language models |
JP2000200273A (ja) * | 1998-11-04 | 2000-07-18 | Atr Interpreting Telecommunications Res Lab | 発話意図認識装置 |
Non-Patent Citations (6)
Title |
---|
CSNB200400103001; マクラフリン ブレット: '目次 2.1 基礎の基礎' Java&XML 第2版 初版 第1版 ISBN: 4-87311-082-3, 20020525, xv,p.10, 株式会社オライリー・ジャパン * |
CSND200301177009; 八木 玲子: 'パッケージ・ソフトの生きる道' 日経バイト 第238号 第238号, 20030222, p.84-p.85, 日経BP社 * |
CSND200400455002; 八木 玲子: '見えてきた次のMS Office XML使った新たな情報共有が目玉' 日経バイト 第240号 第240号, 20030422, p.14-p.15, 日経BP社 * |
JPN6012062251; 八木 玲子: '見えてきた次のMS Office XML使った新たな情報共有が目玉' 日経バイト 第240号 第240号, 20030422, p.14-p.15, 日経BP社 * |
JPN6012062252; 八木 玲子: 'パッケージ・ソフトの生きる道' 日経バイト 第238号 第238号, 20030222, p.84-p.85, 日経BP社 * |
JPN6013033303; マクラフリン ブレット: '目次 2.1 基礎の基礎' Java&XML 第2版 初版 第1版 ISBN: 4-87311-082-3, 20020525, xv,p.10, 株式会社オライリー・ジャパン * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020528590A (ja) * | 2017-10-20 | 2020-09-24 | グーグル エルエルシー | 臨床ドキュメンテーションで使用される患者−医師間会話からの詳細構造の取込み |
JP7174717B2 (ja) | 2017-10-20 | 2022-11-17 | グーグル エルエルシー | 臨床ドキュメンテーションで使用される患者-医師間会話からの詳細構造の取込み |
US11521722B2 (en) | 2017-10-20 | 2022-12-06 | Google Llc | Capturing detailed structure from patient-doctor conversations for use in clinical documentation |
Also Published As
Publication number | Publication date |
---|---|
US20140236580A1 (en) | 2014-08-21 |
EP1687739A2 (en) | 2006-08-09 |
WO2005050474A2 (en) | 2005-06-02 |
US8688448B2 (en) | 2014-04-01 |
US20080201130A1 (en) | 2008-08-21 |
JP2007514998A (ja) | 2007-06-07 |
US9128906B2 (en) | 2015-09-08 |
US8332221B2 (en) | 2012-12-11 |
JP2014059896A (ja) | 2014-04-03 |
WO2005050474A3 (en) | 2006-07-13 |
US8200487B2 (en) | 2012-06-12 |
JP5747066B2 (ja) | 2015-07-08 |
US20120095751A1 (en) | 2012-04-19 |
JP5450524B2 (ja) | 2014-03-26 |
US20130066625A1 (en) | 2013-03-14 |
JP2012009046A (ja) | 2012-01-12 |
JP4808160B2 (ja) | 2011-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5747066B2 (ja) | トピック特異的言語モデルおよびトピック特異的ラベル統計によるユーザー対話を用いたテキストセグメント分割およびラベル付与 | |
US8041566B2 (en) | Topic specific models for text formatting and speech recognition | |
US8666742B2 (en) | Automatic detection and application of editing patterns in draft documents | |
US8959433B2 (en) | Document editing using anchors | |
US8447602B2 (en) | System for speech recognition and correction, correction device and method for creating a lexicon of alternatives | |
EP1787288B1 (en) | Automated extraction of semantic content and generation of a structured document from speech | |
US20100299135A1 (en) | Automated Extraction of Semantic Content and Generation of a Structured Document from Speech | |
JPH03224055A (ja) | 同時通訳向き音声認識システムおよびその音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121204 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130227 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130709 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20131008 |