JP2005531068A

JP2005531068A - 自動論文注釈付記システムおよびその方法

Info

Publication number: JP2005531068A
Application number: JP2004516193A
Authority: JP
Inventors: バーステイン、ジル; マーク、ダニエル
Original assignee: エデュケーショナルテスティングサービス
Priority date: 2002-06-24
Filing date: 2003-06-23
Publication date: 2005-10-13
Anticipated expiration: 2023-06-23
Also published as: JP4334474B2; US7127208B2; MXPA05000237A; KR100931515B1; US20100285434A1; KR20050035523A; GB0500438D0; CA2491238C; US8626054B2; US7796937B2; AU2003278846A1; EP1535261A4; CA2491238A1; US20030138758A1; WO2004001700A1; EP1535261A1; US20070077542A1

Abstract

【課題】
【解決手段】自動的に論文に注釈を付ける自動談話解析アプリケーション（ａｕｔｏｍａｔｉｃｄｉｓｃｏｕｒｓｅａｎａｌｙｓｉｓａｐｐｌｉｃａｔｉｏｎ、略称ＡＤＡＡ）（１８０）が使用される。前記ＡＤＡＡ（１８０）はユーザインターフェース（３００）を含み、このユーザインターフェースが論文を受信し、前記論文を特徴抽出プログラム（３０２）へ転送し、談話解析モデル化プログラム（３１８）から注釈付き論文を受信する。前記特徴抽出プログラム（３０２）は、位置特定プログラム（３０４）と、字句的項目特定プログラム（３０６）と、句読点特定プログラム（３１４）と、修辞的関係特定プログラム（３１６）とを含む。

Description

本出願は、２００２年１月２３日出願済み特許出願番号第１０／０５２，３８０号の一部継続出願であり、この参照により本明細書に組み込まれる。

文章能力を開発するには、実用的な作文経験を積むのが効果的な方法であると一般に考えれらている。これに関して作文法の教示に関する文献には、文章作成における題材の概念、構成、および見直しが、文章作成の練習を通じて改善されることを示唆している。さらに、評価およびフィードバック、具体的には学生が作成した論文の強い部分および弱い部分の指摘を行うことで、学生の文章能力、具体的には文章編成に関する能力の改善を促進できるものである。

伝統的な作文法の授業では、学生に「見直しチェックリスト」が提示される。この見直しチェックリストはプロセス（すなわち見直し工程）の促進を意図したものであり、学生が各自の文章を批判的に見直して改善が必要な部分を特定するように求めている。典型的には、このチェックリストは学生に提示される質問のリストである。これらの質問は、学生が各自の文章をじっくり検討するのを助けるよう意図されている。例えば、このチェックリストには次のような質問が含まれる。ａ）主題文の趣旨は明確か？ｂ）主題文は論文問題に直接応答しているか？ｃ）論文の要点は明確に述べられているか？ｄ）結論は主題文と関連しているか？これらの質問がこういった一般的な言葉で表現されている場合には、ほとんど役に立たない可能性がある。

代わりに、学生の論文内の「談話要素」が特定され、その学生に提示されれば有益であろう。談話要素の具体例としては、表題、背景、主題文、要点、支持文、結論などがある。特定された談話要素が学生に提示されると、学生は例えば結論が概念的に主題文に即しているかを決定するのがさらに容易になり得る。ただし、教師が各学生の論文に注釈を付け（論文の談話要素を特定し、それに印を付けるなど）、具体的な欠点または欠如について指摘するだけの十分な時間を持てない場合がある。さらに、すべての教師に同一レベルの注釈付記能力があるとは限らないため、一部の学生が不十分または不適切な注釈を受け取ることもあり得る。従って、概念を体系化する文章能力の改善を望む者にとっては、自動化した談話解析の利用は価値あるものである。

実施形態によれば、本発明は自動的に論文に注釈を付記する方法に関するものである。この方法では、論文の文が特定され、その文に関連付けられた特徴が決定される。また、前記特徴をモデルにマッピングすることにより、その文が談話要素である確率が決定される。前記モデルは、少なくとも１つの注釈付き論文に基づいて機械学習アプリケーションにより生成済みである。さらに前記論文には、前記確率に基づいて注釈が付記される。

簡潔化および例示的目的のため、本発明の原理は、主にその実施形態を参照することにより説明する。以下の説明では、本発明が完全に理解されるよう具体的な詳細事項を多数記載する。ただし当然のことながら、当業者であれば、本発明がこれら具体的な詳細事項に限定されることなく実施可能であることは理解されるであろう。その他の場合、本発明の要点を不必要に不明確にしないためにも周知の方法および構造について詳しく説明しない。

図１は、本発明の実施形態を実装できるコンピュータネットワーク１００のブロック図である。図１に示したように、このコンピュータネットワーク１００は、例えば、サーバ１１０と、ワークステーション１２０および１３０と、スキャナー１４０と、プリンタ１５０と、データベース１６０と、ネットワーク１７０とを含む。前記コンピュータネットワーク１７０は、他の装置と通信するため前記コンピュータネットワーク１００の各装置に通信路を提供するように構成されている。また、前記コンピュータネットワーク１７０は、インターネット、公衆交換電話網、ローカルエリアネットワーク、プライベート広域ネットワーク、ワイヤレスネットワークなどであってよい。

本発明の種々の実施形態では、前記サーバ１１０で、および／または前記ワークステーション１２０と１３０のいずれか、または双方で、自動談話解析アプリケーション（ａｕｔｏｍａｔｅｄｄｉｓｃｏｕｒｓｅａｎａｌｙｓｉｓａｐｐｌｉｃａｔｉｏｎ、略称ＡＤＡＡ）１８０を実行できる。例えば、本発明の１実施形態では、前記サーバ１１０は、前記ＡＤＡＡ１８０を実行し、前記ワークステーション１２０および／または１３０へディスプレイ用出力を提供し、前記ワークステーション１２０および／または１３０から入力を受信するように構成されている。他の種々の実施形態では、前記ワークステーション１２０および１３０のいずれかまたは双方は、個々にまたは協動して前記ＡＤＡＡ１８０を実行するように構成できる。

前記スキャナー１４０は、テキストの内容をスキャンし、その内容をコンピュータ可読フォーマットに出力するように構成できる。また、前記プリンタ１５０は、紙などの印刷媒体に前記内容を出力するように構成できる。さらに、少なくとも１つの論文、テキストの内容、注釈付き論文などに関連付けられたデータを、前記データベース１６０に格納できる。また、このデータベース１６０は、上記で格納されたデータの一部または全部を受信および／または転送するように構成できる。さらに、別の実施形態では、前記コンピュータネットワーク１００の一部または全部を単一装置内に包含することもできる。

図１はコンピュータネットワークを示したものだが、当然のことながら本発明はコンピュータネットワーク内の作用に限定されるものではなく、むしろいかなる適切な電子装置でも実施可能である。このため、図１に示したコンピュータネットワークは例示的なものであって、いかなる意味においても本発明を限定することを意図したものではない。

図２は、本発明の実施形態を実装できるコンピュータシステム２００のブロック図である。図２に示したように、前記コンピュータシステム２００は、プロセッサ２０２と、メインメモリ２０４と、二次メモリ２０６と、マウス２０８と、キーボード２１０と、ディスプレイアダプタ２１２と、ディスプレイ２１４と、ネットワークアダプタ２１６と、バス２１８とを含む。前記バス２１８は、他の装置と通信するために前記コンピュータシステム２００の各要素に通信路を提供するように構成されている。

前記プロセッサ２０２は、前記ＡＤＡＡ１８０のソフトウェア実施形態を実行するように構成されている。この場合、コンピュータで実行可能な前記ＡＤＡＡ１８０用のコードのコピーを前記メインメモリ２０４にロードし、前記二次メモリ２０６から前記プロセッサ２０２により実行できる。コンピュータで実行可能なコードとは別に、前記メインメモリ２０４および／または前記二次メモリは、論文、テキストの内容、注釈付き論文、データのテーブルなどを含むデータを格納できる。

作動時は、前記ＡＤＡＡ１８０の実施形態用の前記コンピュータで実行可能なコードに基づいて前記プロセッサ２０２は表示データを生成できる。この表示データは前記ディスプレイアダプタ２１２により受信され、前記ディスプレイ２１４を制御するように構成された表示コマンドへ変換される。さらに、周知の方法で、前記マウス２０８およびキーボード２１０は、ユーザによる前記コンピュータシステム２００とのインターフェイスとして利用可能である。

前記ネットワークアダプタ２１６は、前記ネットワーク１７０と前記コンピュータシステム２００間に双方向通信を提供するように構成されている。この場合、前記ＡＤＡＡ１８０および／またはこのＡＤＡＡ１８０に関連付けられたデータは、前記コンピュータネットワーク１００に格納され、前記コンピュータシステム２００からアクセスできるようになる。

図３は、前記ＡＤＡＡ１８０の実施形態のアーキテクチャのブロック図である。図３に示すように、このＡＤＡＡ１８０は、論文を受け取るようにおよび／または注釈付き論文をユーザへ出力するように構成されたユーザインターフェース３００を含む。例えば、このユーザインターフェース３００は、前記キーボード２１０から入力された論文を受け取り、前記ディスプレイ２１４に注釈付き論文を表示することができる。前記ユーザインターフェース３００はさらに、特徴抽出プログラム３０２に前記論文を転送し、談話解析モデル化プログラム３１８から前記注釈付き論文を受信するように構成されている。

前記特徴抽出プログラム３０２は、位置特定プログラム３０４と、字句的項目特定プログラム３０６と、句読点特定プログラム３１４と、修辞的関係特定プログラム３１６とを含んでおり、これらはそれぞれ相互通信するように構成されている。用語「特徴」は、特定された文に関連付けられた属性、特徴、および／または特質として定義できる。より具体的には、特徴に前記特定された文内の字句的特徴（単語や句など）および／または句読点を含めてよい。この場合、前記位置特定プログラム３０４は、前記論文内の文および段落を特定し、特定された各文用の文エントリを含む「フラット」ファイルを生成するように構成されている。特定された各文については絶対位置および相対位置を決定して、これらを前記フラットファイル内の対応する文エントリ（エントリ）に格納することができる。また、このエントリには種々の特徴を含めることができ、これらの特徴はデフォルトで偽を意味する「Ｆ」に設定できる。この場合、各エントリには、例えばコンマで区切った文字列として特徴を含めてよい。以下、本明細書で詳述するように、特定の特徴が特定されるに伴い、これらのデフォルト設定は真を意味する「Ｔ」に修正される。１８個の特定された文と、３個の特定された段落と、約４０個の字句的特徴を含んだ論文用フラットファイルの例を以下の表１に示す。

表１に示すように、このフラットファイル例は、特定された各文に１８個のエントリを含む。各エントリは、テキストセグメント（文や句など）が特定されたことを示す第１の特徴である用語「ＴＥＸＴ」で始まる。続く４個の特徴は位置的特徴である。これらの位置的特徴は、左から右に向かってそれぞれ文位置、文総数（相対文位置の決定に使用される）、段落位置、および段落総数（相対段落位置の決定に使用される）である。６番目の特徴は、文がその論文内で第１の文であるか、本文であるか、最終文であるかを示すために使われる。残りの特徴は、所定の字句的特徴および／または句読点特徴の存在（Ｔ）または不在（Ｆ）を示すために使われる。表１のフラットファイル例では、約４６個の特徴が特定されている。ただし、実際には、妥当な任意数の特徴が特定可能である。例えば、本発明の異なる別の実施形態では、特定された各文につき約１００個の特徴が特定された。

前記位置特定プログラム３０４はさらに、論文内および／または段落内で特定される各文の相対位置を決定するように構成されている。前記相対位置が決定されると、その値は前記フラットファイルの適切なエントリに格納される。例えば、表１に説明した１８文の論文に対する前記フラットファイルでは、特定された文の総数が決定され、その値が各エントリ内に格納される。また、段落の総数と、それに付随した段落番号とを各エントリ内に格納できる。前記位置特定プログラム３０４はさらに、前記フラットファイルを前記字句的項目特定プログラム３０６に転送するように構成されている。

この字句的項目特定プログラム３０６は、字句的特徴を特定し、前記フラットファイルを適宜修正するように構成されている。基本的に、この字句的項目特定プログラムは、事前定義された字句的特徴が存在するかどうか特定された各文を構文解析し、存在した場合は前記フラットファイルの対応するエントリを修正するように構成されている。これらの字句的特徴は、談話要素および／または修辞的構造との関連性から「キュー（手がかり）」（例えば、インジケータやガイド）と言い換えることもできる。一般に、キューには単語、用語、句、統語構造などを含めてよい。図３に示したように、前記字句的項目特定プログラム３０６は、カテゴリー固有キュー特定プログラム３０８と、一般語彙特定プログラム３１０と、キー用語特定プログラム３１２とを含む。

カテゴリー固有キュー特定プログラム３０８は、典型的に特定の談話要素に関連付けられたキューを特定するように構成されている。これにより、キューは特定の文が特定の談話要素であることを示すために使える。例えば、句「ｉｎｃｏｎｃｌｕｓｉｏｎ（最後に）」は典型的に結論文に関連付けられる。他の例には、一般に主題文と関連付けられる「ｏｐｉｎｉｏｎ（意見）」や「ｆｅｅｌ（感じる）」などの単語がある。

本発明の１実施形態では、前記カテゴリー固有キュー特定プログラム３０８は、論文の各文にわたり構文解析を行って所定のキューを複数検索する場合もある。このカテゴリー固有キュー特定プログラム３０８はさらに、キューが特定されると、それに応答して前記フラットファイルの適切なエントリを修正するように構成されている。さらに、このカテゴリー固有特定プログラム３０８は、前記フラットファイルを前記一般語彙特定プログラム３１０に転送するように構成されている。

この一般語彙特定プログラム３１０は、談話構造に関連付けられている可能性のある特徴を特定するように構成されている。談話構造は、思考または陳述などの基本談話単位を説明する際に使われる用語である。一般に、談話構造には単語、用語、または統語構造を含めてよい。より具体的には、談話構造は典型的に文または句から成る。

前記一般語彙特定プログラム３１０により特定される特徴は、特定の談話マーカー単語および談話マーカー用語に関連付けられるようあらかじめ決められている。例えば、単語「ａｇｒｅｅ（同意する）」および「ｄｉｓａｇｒｅｅ（同意しない）」は、議論の特定に関連付けることができる。異なる別の例では、「ｔｈｉｓ（この）」や「ｔｈｅｓｅ（これらの）」などの単語は、議論中のトピックに変化がないことを示している。前記一般語彙特定プログラム３１０はさらに、所定の特徴が特定されると、それに応答して前記フラットファイル内の適切なエントリを修正するように構成されている。さらに、この一般語彙特定プログラム３１０は、前記フラットファイルを前記キー用語特定プログラム３１２に転送するように構成されている。

このキー用語特定プログラム３１２は、種々の談話関係に関連付けられた所定のキューを探して各文を構文解析するように構成されている。例えば、単語「ｆｉｒｓｔ（第１）」、「ｓｅｃｏｎｄ（第２）」、「ｔｈｉｒｄ（第３）」、および「ｆｉｎａｌｌｙ（最後に）」は、並列の談話関係に関連付けることができる。別の例では、「ｈｏｗｅｖｅｒ（しかし）」、「ａｌｔｅｒｎａｔｉｖｅｌｙ（あるいは）」などの単語を、対照談話関係に関連付けることができる。前記キー用語特定プログラム３１２はさらに、所定の特徴が特定されると、それに応答して前記フラットファイル内の適切なエントリを修正するように構成されている。さらに、このキー用語特定プログラム３１２は、前記フラットファイルを前記句読点特定プログラム３１４に転送するように構成されている。

この句読点特定プログラム３１４は、特定の談話要素に関連付けられるようにあらかじめ決められた句読点を特定するように構成されている。例えば、文末の感嘆符は、その文が主題文または結論文である確率が比較的低く、その文が支持文である確率が比較的高いことを示すものである。また、前記句読点特定プログラム３１４はさらに、所定の句読点が特定されると、それに応答して前記フラットファイル内の適切なエントリを修正するように構成されている。さらに、この句読点特定プログラム３１２は、前記フラットファイルを前記修辞的関係特定プログラム３１６に転送するように構成されている。

この修辞的関係特定プログラム３１６は、前記フラットファイルを受信し、前記論文および／または前記フラットファイルに基づいて修辞的構造ツリー（ＲＳＴ）（図５を参照）を生成するように構成されている。修辞的関係は、２つ以上の修辞的構造がつながっているか（例えば、関係するか）を説明する際に使われる用語である。この場合、テキストセグメント（句、文など）は、論文中の他のテキストセグメントと修辞的関係を有することができる。一般例では、陳述文は別の陳述文と対象をなす場合、段落は文を詳述する場合などがある。より具体的な例では、単語「ｂｕｔ（しかし）」で始まるテキストセグメントは、直前のテキストセグメントと対照をなすと言うことができる。修辞的関係のトピックに関するより詳細な説明は、米国特許第６，３６６，７５９Ｂ１号で見ることができ、この参照によりその全体が組み込まれるものである。前記修辞的関係特定プログラム３１６により特定された修辞的特徴は、前記フラットファイルに格納できる（例えば、前記フラットファイルの対応するエントリの修正に使用される）。この修辞的関係特定プログラム３１６はさらに、前記フラットファイルを前記談話解析モデル化プログラム３１８に転送するように構成されている。

この談話解析モデル化プログラム３１８は、前記フラットファイルを前記特徴抽出プログラム３０２から受信し、以前の訓練に基づいて前記フラットファイルからパターンを抽出するように構成されている（図７を参照）。この以前の訓練では、モデル３２０が生成されている（図６を参照）。一般に、このモデル３２０は専門家および／または訓練を受けた審査員が注釈を付記した論文に基づいて生成された、少なくとも１つのデシジョンツリー（決定樹）を含む。前記フラットファイルの各エントリに関連付けられた特徴の有無に基づいて前記デシジョンツリーをナビゲートすることにより、特定された各文と談話要素との相関確率が決定される。これにより、各文に対し前記モデル３２０が活用されて、前記文が談話分類カテゴリーに帰属する尤度（ゆうど）が決定される。当業者は、この工程を「マッピング」と呼ぶ。例えば、前記フラットファイルが前記モデル３２０に「マッピング」（オーバーレイ、比較など）されると、特定された各文が主題文である確率が決定される。これらの確率は比較され、比較的確率の高い文が主題文に決定される。さらに、この方法により前記談話解析モデル化プログラム３１８は前記モデル３２０を活用し、特定の談話要素の１つとして（あるいは、そうでないとして）特定された各文に割り当て（分類など）を行う。

別の実施形態では、前記談話解析モデル化プログラム３１８は、採決アルゴリズムを利用して談話要素カテゴリーに文を分類するように構成されている。図３には示していないが、一般に、前記採決アルゴリズムは、複数の実質的に独立した談話解析システムからの判定を利用できる（談話モデル、モデルなど）(図６を参照)。例えば、前記モデル３２０には、位置的データに基づいて生成されたモデルと、字句的特徴に基づいて生成されたモデルと、句読点に基づいて生成されたモデルと、を含めることができる。このように、前記フラットファイルを複数の確率を生成する複数のモデルの各々にマッピングできる。これらの確率を使うと、モデル間の合致レベルに基づいて各文を分類できる。

前記談話解析モデル化プログラム３１８はさらに、決定された前記確率に基づいて論文に注釈を付けるよう構成されている。次に、この注釈付き論文は、前記談話解析モデル化プログラム３１８により前記ユーザインターフェース３００へ転送される。

図１を参照すると、別の実施形態では、前記ＡＤＡＡ１８０を、前記データベース１６０などのデータベースと相互通信するように構成することができる。この場合、前記ＡＤＡＡ１８０は、自立的に実行する、および／または解析用に前記データベース１６０からデータを選択する能力をユーザに提供するように構成される。

図４は、本発明の実施形態の前記ＡＤＡＡ１８０用の方法４００のフローチャートである。従って、この方法４００は、コンピュータシステム（前記コンピュータシステム２００など）、および／またはコンピュータネットワーク（前記コンピュータネットワーク１００など）で実施可能である。この方法４００は、論文が受信されるとそれに応答して始動する。

工程４０２では、前記位置特定プログラム３０４により論文の文が特定できる。さらに、特定された各文用の文エントリを含むフラットファイルが、前記位置特定プログラム３０４により生成可能である。各文エントリには、コンマで区切った文字列として特徴を含めることができる。位置的特徴には数値を割り当てることができ、前記字句的特徴はデフォルトで偽を意味する「Ｆ」に設定できる。以下、本明細書で詳述するように、特定の字句的特徴が特定されるに伴い、これらのデフォルト設定は真を意味する「Ｔ」に修正される。

工程４０４〜４０８では、前記字句的項目特定プログラム３０６により、字句的特徴が特定され、前記フラットファイル内の特定された文に対応するエントリが適宜修正される。

工程４０４では、前記カテゴリー固有キュー特定プログラム３０８により、特定の談話要素に典型的に関連付けられたキューが特定される。また、キューが特定された文に対応する前記フラットファイル内のエントリが修正される。例えば、２番目に特定された文が、事前定義された検索用語「ｏｐｉｎｉｏｎ（意見）」を含むと決定された場合は、この用語「ｏｐｉｎｉｏｎ（意見）」に対応する字句的特徴が第２のエントリで「Ｆ」から「Ｔ」に修正される。

工程４０６では、前記一般語彙特定プログラム３１０により、談話構造に関連付けられた特徴が特定される。また、特徴が特定された文に対応する前記フラットファイル内のエントリが修正できる。例えば、３番目に特定された文が、事前定義された検索用語「ｔｈｏｓｅ（それらの）」を含むと決定された場合は、この用語「ｔｈｏｓｅ（それらの）」に対応する字句的特徴が第３のエントリで「Ｆ」から「Ｔ」に修正される。

工程４０８では、前記キー用語特定プログラム３１２により、種々の談話関係に関連付けられた所定のキューが特定される。また、キューが特定された文に対応する前記フラットファイル内のエントリが修正できる。例えば、４番目に特定された文が、事前定義された検索用語「ｎｅｖｅｒｔｈｅｌｅｓｓ」を含むと決定された場合は、この用語「ｎｅｖｅｒｔｈｅｌｅｓｓ」に対応する字句的特徴が第４のエントリで「Ｆ」から「Ｔ」に修正される。

工程４１０では、前記句読点特定プログラム３１４により、所定の句読点が特定される。また、句読点が特定された文に対応する前記フラットファイル内のエントリが修正できる。例えば、５番目に特定された文が、事前定義された句読点「？」を含むと決定された場合は、この句読点「？」に対応する特徴が第５のエントリで「Ｆ」から「Ｔ」に修正される。

工程４１２では、前記フラットファイルに基づいて前記修辞的関係特定プログラム３１６によりＲＳＴが生成される。また、前記ＲＳＴに基づいて修辞的特徴が特定され、前記修辞的関係特定プログラム３１６により、前記フラットファイル内の特定された文に対応するエントリが適宜修正される。

工程４１４では、前記フラットファイルが前記モデル３２０にマッピングされる。一般には、特定された各文が特定の談話要素である尤度が決定される。これらの確率は比較され、特定の談話要素である確率が比較的高い文が、その特定の談話要素であると決定される。さらに、前記談話解析モデル化プログラム３１８により同様な方法で、特定された複数の文について可能性の高い談話要素カテゴリーが決定される。

また、本発明の別の実施形態では、採決アルゴリズムを利用して、前記談話解析モデル化プログラム３１８により、談話要素カテゴリーに文を分類できる。この場合、複数の実質的に独立した談話解析システムからの判定は、それぞれ重み付けを行い（比較するなど）、特定された各文に対する談話要素カテゴリーの確率が決定される。

工程４１６では、上記で決定された確率に基づいて前記談話解析モデル化プログラム３１８により論文に注釈を付記することができる。次に、この注釈付き論文は、前記談話解析モデル化プログラム３１８により前記ユーザインターフェース３００へ転送される。

工程４１８では、前記ユーザインターフェース３００により、前記ディスプレイ２１４を介して、注釈を付記された論文がユーザに表示される。工程４１８の後、前記方法４００は終了するか、またはそれ以上のユーザコマンドおよび／または論文が受信されるまでアイドル状態になる。

図５は、本発明の実施形態の修辞的構造ツリー（ｒｈｅｔｏｒｉｃａｌｓｔｒｕｃｔｕｒｅｔｒｅｅ、略称ＲＳＴ）５００を示す図である。図５に示したように、前記ＲＳＴ５００は、談話構造５０２〜５１４および修辞的関係５１６〜５２６を含む。前記ＲＳＴ５００では、談話構造５０２〜５１４はそれぞれ異なる別の談話構造５０２〜５１４間に修辞的関係５１６〜５２６を有するものと特定される。例えば、前記談話構造５０６は、前記談話構造５０８と前記修辞的関係５２２とを有する。説明した例では、前記修辞的関係５１８は「結合」関係である。これは、前記談話構造５０８を前記談話構造５０６に「結合」するため使われている接続詞「ａｎｄ（そして）」に基づいて決定できる。修辞的関係の他の例には、詳述、背景、対照、原因、対句、解釈などがある。

また、前記修辞的関係５１６〜５２６は、それぞれに関連付けられたノード５２８〜５３８（接続など）を含む。各ノード５２８〜５３８は、「ステータス」（主要素または従属要素）により特徴付けられる。主要素および従属要素の区別は、一般に主要素は従属要素より重要な内容に使われるという経験的所見により行われる。さらに、修辞的関係の主要素は、典型的に従属要素とは独立に理解可能であるが、その逆は成り立たない。さらに、これらの談話構造および修辞的関係は特徴として利用できるため、前記フラットファイルに格納できる。

上記に含まれる例では、ＤａｎｉｅｌＭａｒｃｕ博士のキュー−句ベースの談話構文解析（図示せず）（"Ｔｈｅｔｈｅｏｒｙａｎｄｐｒａｃｔｉｃｅｏｆｄｉｓｃｏｕｒｓｅｐａｒｓｉｎｇａｎｄｓｕｍｍａｒｉｚａｔｉｏｎ" ＴｈｅＭＩＴｐｒｅｓｓ、２０００、（この参照によりその全体が本明細書に組み込まれる））を利用した論文に基づいて前記ＲＳＴ５００が自動的に生成された。ただし、前記キュー−句ベースの談話構文解析は、異なる論文に対して異なるＲＳＴを生成する。このため、上記のＲＳＴ５００は例示目的のみで提供している。従って、本発明は前記キュー−句ベースの談話構文解析または前記ＲＳＴ５００だけに限定されず、本発明の種々の実施形態は、文を特定および分類するいかなる妥当な方法を本発明の範囲内に含む。

以下の図６では、訓練用データを利用して、前記モデル３２０などの談話解析モデルを構築している。本発明の１実施形態では、この訓練用データに論文などを含めることができる。この場合、前記訓練用データは、本明細書で説明する論文データに類似したものでよい。

図６は、談話解析モデル構築プログラム（「モデル構築プログラム」）６００の実施形態のアーキテクチャのブロック図である。図１および図２には示していないが、前記モデル構築プログラム６００は、コンピュータシステム（前記コンピュータシステム２００など）、および／またはコンピュータネットワーク（前記コンピュータネットワーク１００など）で実施可能である。図６に示したように、前記モデル構築プログラム６００は、ユーザインターフェース６０２と、特徴抽出プログラム６０４と、機械学習ツール６１８とを含む。

前記ユーザインターフェース６０２は、訓練用データおよび／または前記訓練用データの注釈を受け取るように構成されている。この注釈には、前記訓練用データの談話要素を特定するマーク（インジケータなど）が含まれる。この注釈にはさらに、「無関係」や「理解不能」など他の種々の談話カテゴリーを特定するマークが含まれる。「無関係」は、有意味な方法で寄与しないテキストセグメントの特定に使用できる。「理解不能」は、前記注釈付記プログラムにより理解されないテキストセグメントの特定に使用できる（誤った構文、誤った単語の使用など）。注釈は種々の方法で生成可能だが、本発明の１実施形態では、前記ユーザインターフェース６０２が、訓練を受けた審査員による訓練用データの手動注釈付記を受け取るように構成されている（図８を参照）。前記訓練用データには論文などを含めることができる。また、前記ユーザインターフェース６０２は、前記訓練用データおよび／または前記手動注釈を前記特徴抽出プログラム６０４に転送し、前記機械学習ツール６１８から前記モデル３２０を受信するように構成されている。

前記モデル構築プログラム６００の前記特徴抽出プログラム６０４は、上述で説明した前記特徴抽出プログラム３０２に類似しているため、以下では前記特徴抽出プログラム６０４を完全に理解するために合理的に必要な特徴のみ説明する。前記特徴抽出プログラム６０４と前記特徴抽出プログラム３０２との相違点の１つは、前記特徴抽出プログラム６０４が前記手動注釈に関連付けられたデータを受信、処理、および／または転送するように構成されていることである。この点で、特徴抽出と、フラットファイル生成と、ＲＳＴの生成との後、前記特徴抽出プログラム６０４が、前記手動注釈および／または前記フラットファイルに関連付けられたデータを前記機械学習ツール６１８に転送するように構成されている。

前記機械学習ツール６１８は、前記手動注釈データおよび／または前記フラットファイルを前記特徴抽出プログラム６０４から受信し、このデータに基づいて前記モデル３２０を生成するように構成されている。一般に、この機械学習ツール６１８は、各注釈に関連付けられたパターンを決定するように構成されている。例えば、結論文が位置的データと強く相関するだろう（例えば、結論文は典型的に論文の末尾かその付近に位置する）。本発明の１実施形態では、（データマイニングツールなどの）機械学習ツール、Ｃ５．０（登録商標）（オーストラリア所在のＲｕｌｅｑｕｅｓｔＲｅｓｅａｒｃｈＰｔｙ，Ｌｔｄ．より入手可能）が、前記モデル３２０の生成に利用される。ただし、本発明の他の実施形態では、前記モデル３２０の生成に他の種々の機械学習ツールを利用することもできるため、前記他の種々の機械学習ツールも本発明の範囲に含まれる。これにより、本発明の別の実施形態では、複数のモデルを生成し、前記モデル３２０に組み込むことが可能である。例えば、位置的データに基づいたモデル、字句的特徴に基づいたモデル、重要な特徴に基づいたモデル、および句読点に基づいた異なる別のモデルが生成される。これらの実質的に独立したモデルは、前記モデル３２０に組み込むことができる。この方法では、採決アルゴリズムで、各モデルから分類された文を受信し、分類された各文から合致部分を決定することができる。前記機械学習ツール６１８はさらに、前記分類された文に関連付けられたデータを前記ユーザインターフェース６０２に転送するように構成されている。

別の実施形態では、前記モデル構築プログラム６００を、前記データベース１６０などのデータベースと相互通信するように構成することができる。この場合、前記モデル構築プログラム６００は、自立的に実行する、および／または談話解析モデル構築用に前記データベース１６０からデータを選択する能力をユーザに提供するように構成できる。

図７は、本発明の実施形態の前記モデル３２０を構築する方法７００のフローチャートである。図１および図２には示していないが、前記方法７００は、コンピュータシステム（前記コンピュータシステム２００など）、および／またはコンピュータネットワーク（前記コンピュータネットワーク１００など）で実施可能である。図７に示したように、この方法７００は、少なくとも１つの注釈付き論文が受信されるとそれに応答して始動する（注釈付き訓練用データなど）。この注釈付き論文は、種々の方法で生成可能であるため（図８を参照）、注釈付き論文を生成するいかなる妥当な方法も本発明の範囲に含まれる。本発明の１実施形態では、前記注釈付き論文は、１若しくはそれ以上のトピックを論じる複数の論文の形態であってもよい。複数の論文には訓練を受けた審査員による注釈が付記された（図８を参照）。一般に、注釈は談話関連の特徴を特定するために利用できる（談話要素キューなど）。

工程７０２では、前記少なくとも１つの前記注釈付き論文を受信すると、それに応答して談話関連の特徴が前記特徴抽出プログラム６０４により抽出される。例えば工程４０２〜４１２に類似した方法で、文が特定され、前記少なくとも１つの論文用にフラットファイルが生成され、特徴および句読点が特定されて、適切な修正が前記フラットファイルに施される。

工程７０４では、前記少なくとも１つの前記注釈付き論文および／または前記フラットファイルを受信すると、それに応答してこの情報の一部または全部について、前記機械学習ツール６１８によりパターンの有無が調べられる。また、これらのパターンは前記モデル３２０の構築に利用される。

工程７０６では、前記モデル３２０が評価される。例えば、このモデル３２０は前記方法３００に類似した方法で論文への注釈付記に利用できる。論文は専門家および／または審査員により注釈付記が可能で（図８を参照）、注釈間の比較も行える。前記注釈が所定範囲内で合致した場合、前記モデル３２０は評価に合格して前記ＡＤＡＡ１８０に転送される。前記注釈が所定範囲内で合致しなかった場合、前記モデル３２０は評価に失敗し、方法７００は工程７０２に戻る。

図８は、本発明の実施形態の注釈付き論文を生成する方法８００のフローチャートである。図８に示したように、この方法８００は、専門家および審査員が少なくとも１つの論文を前記データベース１６０から受信すると、それに応答して始動する。前記専門家は、談話解析技術において平均を超える技能を有することが一般に認められている１人若しくはそれ以上である。前記審査員は、一般に談話解析技術において少なくとも通常技能を有している１人若しくはそれ以上である。

工程８０２では、前記審査員は前記専門家から訓練を受ける。例えば、前記審査員は、前記専門家が１若しくはそれ以上の論文に注釈を付記するのを観察する。前記審査員および前記専門家は、特定の注釈付記に関してその方法や理由などを検討する。また、論文は前記データベース１６０からの受信が示されるのであれば、いかなる妥当な方法で受信してもよい。

工程８０４では、前記審査員が、工程８０２で受けた訓練に基づいてデータに注釈を付記する。例えば、前記審査員は、１若しくはそれ以上の論文で主題文および結論を特定し、それらにマークする（注釈を付けるなど）。これらの注釈は、前記データベース１６０に格納される。

工程８０６では、前記審査員の能力が許容範囲であるかが決定される。例えば、第１の審査員により注釈が付記された論文は、前記専門家および／または第２の審査員が注釈を付記した同一データの論文と比較することができる。注釈付き論文間の合致レベルは、κ（カッパ）統計量、適合率、再現率、およびＦ値のうち１若しくはそれ以上の値を計算することにより決定される。ここでκ統計量とは、偶然の確率を排除した統計的な合致確率を決定するもので、一般に知られた式で表される。適合率とは、第１の審査員および第２の審査員の合致数を第１の審査員が付記した注釈の数で割った、合致確率の指標である。再現率とは、第１の審査員および第２の審査員の合致数を第２の審査員が付記した注釈の数で割った、合致確率の指標である。Ｆ値は、２×適合率×再現率を適合率＋再現率で割ったものに等しい。

前記審査員の能力が許容範囲外と決定された場合、その審査員は工程８０２でさらに訓練を受ける。前記審査員の能力が許容範囲内と決定された場合、その審査員は工程８０８で注釈付き論文を生成できる。

工程８０８では、注釈付き論文が前記審査員により生成される。例えば、この審査員は前記データベース１６０から論文を受け取り、その論文に注釈を付けることができる。これらの注釈付き論文は、前記ＡＤＡＡ１８０に転送され、そして／または前記データベース１６０に格納される。

また、本発明の１実施形態では、前記専門家が１若しくはそれ以上の審査員を訓練することが実用的な場合がある。例えば、比較的多数の論文に注釈を付記することになっており、これを比較的少数の専門家で行うとひどく重荷になるであろう場合は、複数の審査員を訓練するのが有利である。本発明の別の実施形態では、前記専門家が審査員の資格で振る舞う、あるいはその逆がより実用である。例えば、論文が比較的少数で前記専門家がこれらの論文に急いで注釈を付記できる場合、または、ほとんど、またはまったく訓練を必要としない複数の比較的熟練した審査員が見つかった場合が上記に相当する。従って、本明細書では審査員および専門家について説明しているが、両者のいずれか一方を採用することも本発明の範囲に含まれるため、工程８０２〜８０６は任意工程である。

さらに、図８には示していないが、前記注釈付き論文は種々の方法で生成可能であるため、注釈付き論文を生成するいかなる妥当な方法も本発明の範囲に含まれる。本発明の１実施形態では、前記注釈付き論文は、１若しくはそれ以上のトピックを論じる複数の論文の形態であってもよい。前記複数の論文には訓練を受けた審査員により注釈が付記された。一般に、注釈は談話関連の特徴を特定するために利用される（談話要素キューなど）。

前記ＡＤＡＡ１８０と、前記モデル構築プログラム６００と、前記方法４００、７００、および８００とは、アクティブと非アクティブの両方の、種々の形態で存在する。例えば、これらはソースコード、オブジェクトコード、実行コード、または他の形式のプログラム命令からなるソフトウェアプログラムとして存在する。上記のいずれも、記憶装置とそれに使われる圧縮形態の信号または非圧縮形態の信号とを含む、コンピュータで読み込み可能な媒体上で具体化する。コンピュータで読み込み可能な記憶装置の例には、従来のコンピュータシステムのＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（読み出し専用メモリ）、ＥＰＲＯＭ（消去可能プログラム可能ＲＯＭ）、ＥＥＰＲＯＭ（電気的消去可能プログラム可能ＲＯＭ）、フラッシュメモリ、磁気ディスク、光ディスク、磁気テープ、光テープなどがある。コンピュータで読み込み可能な信号の例は、搬送波での変調の有無にかかわらず信号であって、コンピュータプログラムをホストまたは実行するコンピュータシステムが前記信号にアクセスするように構成できる信号であり、インターネット経由または他のネットワーク経由でダウンロードされる信号が含まれる。上述の具体例は、ＣＤ−ＲＯＭまたはインターネットダウンロードでの前記プログラムの配信を含む。ある意味では、インターネット自体は、抽象的実体でありコンピュータで読み込み可能な媒体である。同じことが一般にコンピュータネットワークにも言える。

また前記方法４００、７００、および８００のユーザの一部または全部はソフトウェアプログラムとして存在してもよい。例えば、本明細書で言及する前記専門家、前記審査員、および前記ユーザの一部または全部は、論文を生成し、論文に注釈を付記し、および／または審査員に注釈付記に関する教示を行うよう構成されたソフトウェアエージェントであってもよい。この場合、前記ソフトウェアエージェントはアクティブおよび非アクティブの種々な形態で存在する。

本明細書で本発明の実施形態を一部の変形形態とともに説明および例示した。本明細書で使用した用語、説明、および図は、限定を意図したものではなく、例示的な目的のみで記載している。当業者であれば、以下の請求項（およびそれと等価なもの）により定義されるよう意図された本発明の要旨の範囲内で多数の変形形態が可能であり、前記請求項（およびそれと等価なもの）において、全ての項は、特に断りがない限り、最も広義に且つ妥当に解釈されるように意図されていることが理解されるであろう。

本発明の実施形態は添付の図面により例示的に示され、これに限定れされるものではない。尚、異なる図面中で使われる同様な参照番号は、同様な要素を表す。
図１は、本発明の実施形態を実装できるコンピュータネットワークのブロック図である。図２は、本発明の実施形態を実装できるコンピュータシステムのブロック図である。図３は、自動談話解析アプリケーションの実施形態用アーキテクチャのブロック図である。図４は、本発明の実施形態の談話解析の方法のフローチャートである。図５は、本発明の実施形態の修辞的構造ツリーを示す図である。図６は、自動談話解析モデル構築プログラムアプリケーションの実施形態用アーキテクチャのブロック図である。図７は、本発明の実施形態の談話解析モデルを構築する方法のフローチャートである。図８は、本発明の実施形態の注釈付きデータを生成する方法のフローチャートである。

Claims

論文中の文を特定する工程と、
前記文に関連付けられた特徴を決定する工程と、
前記特徴をモデルにマッピングすることにより、前記文が談話要素である確率を決定する工程であって、前記モデルは少なくとも１つの注釈付き論文に基づいて機械学習アプリケーションにより生成済みである、前記文が談話要素である確率を決定する工程と、
前記確率に基づいて前記論文に注釈を付記する工程と
を有する方法。
請求項１の方法において、前記談話要素は、表題、背景、主題文、要点、支持文、および結論のうち少なくとも１つである。
請求項１の方法であって、この方法はさらに、
前記論文を受信する工程を有するものである。
請求項１の方法において、前記特徴は、位置的特徴、字句的特徴、修辞的特徴、および句読点のうち少なくとも１つを有するものである。
請求項４の方法であって、この方法はさらに、
前記文用のエントリを含むフラットファイルを前記論文用に生成する工程と、
前記位置的特徴に関連付けられたデータを含むように前記エントリを修正する工程と、
前記字句的特徴に関連付けられたデータを含むように前記エントリを修正する工程と、
前記修辞的特徴に関連付けられたデータを含むように前記エントリを修正する工程と、
前記文に関連付けられた前記句読点を特定する工程と、
前記句読点に関連付けられたデータを含むように前記エントリを修正する工程と
を有するものである。
請求項５の方法において、前記位置的特徴は、
前記論文中での前記文の位置に関連付けられた文位置と、
前記論文中での前記文の相対位置に関連付けられた相対文位置と、
前記論文の段落中での前記文の位置に関連付けられた段落位置と、
前記論文中での前記段落の相対位置に関連付けられた相対段落位置と
のうち少なくとも１つを有するものである。
請求項５の方法において、前記字句的特徴は、
典型的に談話要素に関連付けられたカテゴリー固有キュー（手がかり）と、
典型的に談話構造に関連付けられた一般語彙キューと、
典型的に談話関係に関連付けられたキー用語と
のうち少なくとも１つを有するものである。
請求項５の方法であって、この方法はさらに、
前記フラットファイルに基づいて修辞的構造ツリーを生成する工程と、
前記修辞的構造ツリーに基づいて前記修辞的特徴を特定する工程であって、前記修辞的特徴は、
典型的に基本談話単位に関連付けられた談話構造と、
複数の前記談話構造間の関連様態を記述する修辞的関係と、
ステータスであって、
前記複数の談話構造のうち比較的より重要な１つに関連付けられた主要素と、
前記複数の談話構造のうち比較的より重要でない１つに関連付けられた従属要素と
を有するステータスと
のうち少なくとも１つを有する、前記修辞的特徴を特定する工程と
を有するものである。
請求項１の方法において、前記修辞的構造ツリーは複数のモデルにマッピングされ、前記確率は採決アルゴリズムに基づいて決定されるものである。
論文中の文を特定する工程と、
前記文用のエントリを含むフラットファイルを前記論文用に生成する工程と、
前記文に関連付けられた位置的特徴を決定する工程と、
前記位置的特徴に関連付けられたデータを含むように前記エントリを修正する工程と、
前記文に関連付けられた字句的特徴を特定する工程と、
前記字句的特徴に関連付けられたデータを含むように前記エントリを修正する工程と、
前記文に関連付けられた修辞的特徴を特定する工程と、
前記修辞的特徴に関連付けられたデータを含むように前記エントリを修正する工程と、
前記フラットファイルをモデルにマッピングすることにより、前記文が談話要素である確率を決定する工程であって、前記モデルは少なくとも１つの注釈付き論文に基づいて機械学習アプリケーションにより生成される、前記文が談話要素である確率を決定する工程と、
前記確率に基づいて前記論文に注釈を付記する工程と
を有する方法。
請求項１０の方法において、前記談話要素は、表題、背景、主題文、要点、支持文、および結論のうち少なくとも１つである。
請求項１０の方法であって、この方法はさらに、
前記論文を受信する工程を有するものである。
請求項１０の方法において、前記位置的特徴は、
前記論文中での前記文の位置に関連付けられた文位置と、
前記論文中での前記文の相対位置に関連付けられた相対文位置と、
前記論文の段落中での前記文の位置に関連付けられた段落位置と、
前記論文中での前記段落の相対位置に関連付けられた相対段落位置と
のうち少なくとも１つを有するものである。
請求項１０の方法において、前記字句的特徴は、
典型的に談話要素に関連付けられたカテゴリー固有キューと、
典型的に談話構造に関連付けられた一般語彙キューと、
典型的に談話関係に関連付けられたキー用語と
のうち少なくとも１つを有するものである。
請求項１０の方法であって、この方法はさらに、
前記フラットファイルに基づいて修辞的構造ツリーを生成する工程と、
前記修辞的構造ツリーに基づいて前記修辞的特徴を特定する工程であって、前記修辞的特徴は、
典型的に基本談話単位に関連付けられた談話構造と、
複数の前記談話構造間の関連様態を記述する修辞的関係と、
ステータスであって、
前記複数の談話構造のうち比較的より重要な１つに関連付けられた主要素と、
前記複数の談話構造のうち比較的より重要でない１つに関連付けられた従属要素と
を有するステータスと
のうち少なくとも１つを有する、前記修辞的特徴を特定する工程と
を有するものである。
請求項１０の方法であって、この方法はさらに、
前記文に関連付けられた句読点を特定する工程と、
前記句読点に関連付けられたデータを含むように前記エントリを修正する工程と
を有するものである。
請求項１０の方法において、前記フラットファイルは複数のモデルにマッピングされ、前記確率は採決アルゴリズムに基づいて決定されるものである。
論文を受信する工程と
前記論文中の文を特定する工程と、
前記文用のエントリを含むフラットファイルを前記論文用に生成する工程と、
前記文に関連付けられた位置的特徴を決定する工程であって、この位置的特徴は、
前記論文中での前記文の位置に関連付けられた文位置と、
前記論文中での前記文の相対位置に関連付けられた相対文位置と、
前記論文の段落中での前記文の位置に関連付けられた段落位置と、
前記論文中での前記段落の相対位置に関連付けられた相対段落位置と
のうち少なくとも１つを有する、位置的特徴を決定する工程と、
前記位置的特徴に関連付けられたデータを含むように前記エントリを修正する工程と、
前記文に関連付けられた字句的特徴を特定する工程であって、この字句的特徴は、
典型的に談話要素に関連付けられたカテゴリー固有キューと、
典型的に談話構造に関連付けられた一般語彙キューと、
典型的に談話関係に関連付けられたキー用語と
のうち少なくとも１つを有する、字句的特徴を決定する工程と、
前記字句的特徴に関連付けられたデータを含むように前記エントリを修正する工程と、
前記文に関連付けられた句読点を特定する工程と、
前記句読点に関連付けられたデータを含むように前記エントリを修正する工程と、
前記フラットファイルに基づいて修辞的構造ツリーを生成する工程と、
前記修辞的構造ツリーに基づいて修辞的特徴を特定する工程であって、この修辞的特徴は、
基本談話単位に典型的に関連付けられた談話構造と、
複数の前記談話構造間の関連様態を記述する修辞的関係と、
ステータスであって、
前記複数の談話構造のうち比較的より重要な１つに関連付けられた主要素と、
前記複数の談話構造のうち比較的より重要でない１つに関連付けられた従属要素と
を有するステータスと
のうち少なくとも１つを有する、修辞的特徴を特定する工程と、
前記修辞的特徴に関連付けられたデータを含むように前記エントリを修正する工程と、
前記フラットファイルをモデルにマッピングすることにより、前記文が談話要素である確率を決定する工程であって、前記モデルは少なくとも１つの注釈付き論文に基づいて機械学習アプリケーションにより生成される、前記文が談話要素である確率を決定する工程と、
前記確率に基づいて前記論文に注釈を付記する工程と
を有する方法。
請求項１８の方法において、前記談話要素は、表題、背景、主題文、要点、支持文、および結論のうち少なくとも１つである。
論文中の文を談話要素として特定するように第１の審査員を訓練する工程と、
前記第１の審査員からの前記論文の第１の注釈を受け取る工程と、
前記第１の注釈と、第２の審査員の第２の注釈との比較に基づいて前記第１の審査員を評価する工程と、
所定の値を超える前記評価に応答して、前記第１の注釈に基づいて経験的確率を計算する工程であって、前記経験的確率は、
前記論文中での前記文の位置的特徴と、
前記論文中での前記文のカテゴリー固有特徴と、
前記論文中での前記文の字句的特徴と、
前記論文中での前記文のキー用語と、
前記論文中での前記文の句読点と
のうち少なくとも１つを含む、前記第１の注釈に基づいて経験的確率を計算する工程と
を有する工程。
コンピュータソフトウェアが埋め込まれたコンピュータで読み込み可能な媒体であって、前記ソフトウェアは方法を実行するための実行可能なコードを有し、この方法は、
論文中の文を特定する工程と、
前記文に関連付けられた特徴を決定する工程と、
前記特徴をモデルにマッピングすることにより、前記文が談話要素である確率を決定する工程であって、前記モデルは少なくとも１つの注釈付き論文に基づいて機械学習アプリケーションにより生成される、前記文が談話要素である確率を決定する工程と、
前記確率に基づいて前記論文に注釈を付記する工程と
を有する方法を実行するための実行可能なコードを有する、
コンピュータで読み込み可能な媒体。
請求項２１の方法において、前記談話要素は、表題、背景、主題文、要点、支持文、および結論のうち少なくとも１つである。
請求項２１の方法であって、この方法はさらに、
前記論文を受信する工程を有するものである。
請求項２１の方法において、前記特徴は、位置的特徴、字句的特徴、修辞的特徴、および句読点のうち少なくとも１つを有するものである。
請求項２４の方法であって、この方法はさらに、
前記文用のエントリを含むフラットファイルを前記論文用に生成する工程と、
前記位置的特徴に関連付けられたデータを含むように前記エントリを修正する工程と、
前記字句的特徴に関連付けられたデータを含むように前記エントリを修正する工程と、
前記修辞的特徴に関連付けられたデータを含むように前記エントリを修正する工程と、
前記文に関連付けられた前記句読点を特定する工程と、
前記句読点に関連付けられたデータを含むように前記エントリを修正する工程と
を有するものである。
請求項２５の方法において、前記位置的特徴は、
前記論文中での前記文の位置に関連付けられた文位置と、
前記論文中での前記文の相対位置に関連付けられた相対文位置と、
前記論文の段落中での前記文の位置に関連付けられた段落位置と、
前記論文中での前記段落の相対位置に関連付けられた相対段落位置と
のうち少なくとも１つを有するものである。
請求項２５の方法において、前記字句的特徴は、
典型的に談話要素に関連付けられたカテゴリー固有キューと、
典型的に談話構造に関連付けられた一般語彙キューと、
典型的に談話関係に関連付けられたキー用語と
のうち少なくとも１つを有するものである。
請求項２５の方法であって、この方法はさらに、
前記フラットファイルに基づいて修辞的構造ツリーを生成する工程と、
前記修辞的構造ツリーに基づいて前記修辞的特徴を特定する工程であって、前記修辞的特徴は、
典型的に基本談話単位に関連付けられた談話構造と、
複数の前記談話構造間の関連様態を記述する修辞的関係と、
ステータスであって、
前記複数の談話構造のうち比較的より重要な１つに関連付けられた主要素と、
前記複数の談話構造のうち比較的より重要でない１つに関連付けられた従属要素と
を有するステータスと
のうち少なくとも１つを有する、前記修辞的特徴を特定する工程と
を有するものである。
請求項２１の方法において、前記修辞的構造ツリーは複数のモデルにマッピングされ、前記確率は採決アルゴリズムに基づいて決定されるものである。
自動論文注釈付記プログラムであって、
論文中の文を特定する手段と、
前記文に関連付けられた特徴を決定する手段と、
前記特徴をモデルにマッピングするように構成された、前記文が談話要素である確率を決定する手段であって、このモデルが少なくとも１つの注釈付き論文に基づいて機械学習アプリケーションにより生成済みであり、前記談話要素が、表題、背景、主題文、要点、支持文、および結論のうち少なくとも１つである、確率を決定する手段と、
前記確率に基づいて前記論文に注釈を付記する手段と
を有する自動論文注釈付記プログラム。
請求項３０の自動論文注釈付記プログラムであって、この自動論文注釈付記プログラムはさらに、
前記論文を受信する手段を有するものである。
請求項３０の自動論文注釈付記プログラムにおいて、前記特徴を決定する手段はさらに、
位置的特徴を決定する手段と、
字句的特徴を決定する手段と、
修辞的特徴を決定する手段と、
句読点を決定する手段と
のうち少なくとも１つを有するものである。
請求項３２の自動論文注釈付記プログラムであって、この自動論文注釈付記プログラムはさらに、
前記文用のエントリを含むフラットファイルを前記論文用に生成する手段と、
前記位置的特徴に関連付けられたデータを含むように前記エントリを修正する手段と、
前記字句的特徴に関連付けられたデータを含むように前記エントリを修正する手段と、
前記修辞的特徴に関連付けられたデータを含むように前記エントリを修正する手段と、
前記文に関連付けられた前記句読点を特定する手段と、
前記句読点に関連付けられたデータを含むように前記エントリを修正する手段と
を有するものである。
請求項３３の自動論文注釈付記プログラムにおいて、前記位置的特徴を決定する手段は、
前記論文中での前記文の位置に関連付けられた文位置を決定する手段と、
前記論文中での前記文の相対位置に関連付けられた相対文位置を決定する手段と、
前記論文の段落中での前記文の位置に関連付けられた段落位置を決定する手段と、
前記論文中での前記段落の相対位置に関連付けられた相対段落位置を決定する手段と
のうち少なくとも１つを有するものである。
請求項３３の自動論文注釈付記プログラムにおいて、前記字句的特徴を決定する手段は、
談話要素に典型的に関連付けられたカテゴリー固有キューを特定する手段と、
談話構造に典型的に関連付けられた一般語彙キューを特定する手段と、
談話関係に典型的に関連付けられたキー用語を特定する手段と
のうち少なくとも１つを有するものである。
請求項３３の自動論文注釈付記プログラムであって、この自動論文注釈付記プログラムはさらに、
前記フラットファイルに基づいて修辞的構造ツリーを生成する手段と、
前記修辞的構造ツリーに基づいて前記修辞的特徴を特定する手段であって、前記修辞的特徴は、
基本談話単位に典型的に関連付けられた談話構造と、
複数の前記談話構造間の関連様態を記述する修辞的関係と、
ステータスであって、
前記複数の談話構造のうち比較的より重要な１つに関連付けられた主要素と、
前記複数の談話構造のうち比較的より重要でない１つに関連付けられた従属要素と
を有するステータスと
のうち少なくとも１つを有する、前記修辞的特徴を特定する手段と
を有するものである。
請求項３０の自動論文注釈付記プログラムにおいて、前記確率を決定する手段はさらに、
前記修辞的構造ツリーを複数のモデルにマッピングする手段を有し、前記確率が採決アルゴリズムに基づいて決定されるものである。
自動論文注釈付記プログラムであって、
特徴抽出プログラムを有し、この特徴抽出プログラムは、
前記論文の文に関連付けられた位置的特徴を決定するように構成された位置特定プログラムであって、この位置特定プログラムはさらにフラットファイルを生成するように構成されており、このフラットファイルが前記文用のエントリを含み、このエントリが前記位置的特徴に関連付けられたデータを含む、位置特定プログラムと、
前記文に関連付けられた字句的特徴を特定するように構成された字句的項目特定プログラムであって、前記字句的特徴に関連付けられたデータを含むように前記エントリを修正するようにさらに構成された、字句的項目特定プログラムと、
修辞的特徴を特定するように構成された修辞的関係特定プログラムであって、前記修辞的特徴に関連付けられたデータを含むように前記エントリを修正するようにさらに構成された、修辞的関係特定プログラムと
を有する特徴抽出プログラムと、
前記文が談話要素である確率を決定するように構成された談話解析モデル化プログラムであって、この談話解析モデル化プログラムが前記フラットファイルをモデルにマッピングすることにより前記確率を決定するように構成されており、前記モデルが少なくとも１つの注釈付き論文に基づいて機械学習アプリケーションにより生成済みであり、前記確率に基づいて前記論文に注釈を付記するようにさらに構成された、談話解析モデル化プログラムと
を有する自動論文注釈付記プログラム。
請求項３８の前記自動論文注釈付記プログラムにおいて、前記談話解析モデル化プログラムは、前記文が複数の談話要素のうち少なくとも１つである確率を決定するようにさらに構成されており、前記複数の談話要素は表題、背景、主題文、要点、支持文、および結論を含むものである。
請求項３８の自動論文注釈付記プログラムにおいて、前記特徴抽出プログラムは前記論文を受信するように構成されているものである。
請求項３８の自動論文注釈付記プログラムにおいて、前記位置特定プログラムはさらに、
前記論文中での前記文の位置に関連付けられた文位置と、
前記論文中での前記文の相対位置に関連付けられた相対文位置と、
前記論文の段落中での前記文の位置に関連付けられた段落位置と、
前記論文中での前記段落の相対位置に関連付けられた相対段落位置と
のうち少なくとも１つを決定するように構成されている。
請求項３８の自動論文注釈付記プログラムにおいて、前記字句的項目特定プログラムは、
談話要素に典型的に関連付けられたキューを特定するように構成されたカテゴリー固有キュー特定プログラムと、
談話構造に典型的に関連付けられたキューを特定するように構成された一般語彙キュー特定プログラムと、
談話関係に典型的に関連付けられたキー用語を特定するように構成されたキー用語特定プログラムと
を有するものである。
請求項３８の自動論文注釈付記プログラムであって、この自動論文注釈付記プログラムはさらに、
前記文に関連付けられた句読点を特定するように構成された句読点特定プログラムであって、前記句読点に関連付けられたデータを含むように前記エントリを修正するようにさらに構成された、句読点特定プログラムを有するものである。
請求項３８の自動論文注釈付記プログラムにおいて、前記修辞的関係特定プログラムは、前記フラットファイルに基づいて修辞的構造ツリーを生成するように、且つ前記修辞的構造ツリーに基づいて前記修辞的特徴を特定するようにさらに構成されており、前記修辞的特徴は、
基本談話単位に典型的に関連付けられた談話構造と、
複数の前記談話構造間の関連様態を記述する修辞的関係と、
ステータスであって、
前記複数の談話構造のうち比較的より重要な１つに関連付けられた主要素と、
前記複数の談話構造のうち比較的より重要でない１つに関連付けられた従属要素と
を有するステータスと
のうち少なくとも１つを有するものである。
請求項３８の前記自動論文注釈付記プログラムにおいて、前記談話解析モデル化プログラムはさらに、前記修辞的構造ツリーを複数のモデルにマッピングするように、且つ採決アルゴリズムに基づいて前記文が談話要素である確率を決定するように構成されているものである。