JP5690829B2

JP5690829B2 - 表現および説明抽出のための文書処理装置および方法

Info

Publication number: JP5690829B2
Application number: JP2012530792A
Authority: JP
Inventors: ノ・ヒョンジョン; イ・ジョンフン; イ・ソンジン; イ・ゲイリー・グンベ
Original assignee: Academy Industry Foundation of POSTECH
Current assignee: Academy Industry Foundation of POSTECH
Priority date: 2009-10-23
Filing date: 2010-10-11
Publication date: 2015-03-25
Anticipated expiration: 2030-10-11
Also published as: US20120197894A1; KR20110044345A; KR101072100B1; CN102576367A; CN102576367B; WO2011049313A2; US8666987B2; WO2011049313A9; JP2013506187A; WO2011049313A3

Description

本発明は、文書処理装置および方法に関し、より詳細には、ウェブから文書を収集し、収集された文書から表現および説明を抽出する文書処理装置および方法に関する。

英語教育の重要性が強調され続けており、このための多様な教育方法が開発されてきている。しかし、現在存在するほとんどの英語教育方法は、練習問題および暗記が中心となっており、読み書きの部分に特化している。このような英語教育方法の限界を克服するための方策の一つとして、英語を利用した対話システムが開発されて用いられている。このシステムは、英語学習者とシステムとの間の対話を通じて実生活に必要な多様な表現を自然に習得するように誘導することができる。

しかし、対話の途中にシステムによって提示された単語や熟語などの英語表現に慣れていない場合、学習者はこれに対する説明を確認したがることがある。この場合、学習者は主に英語辞書などを通じて当該英語表現に対する説明を確認することができる。しかし、英語辞書などで英語表現に関する説明を提示しているとはいえ、英語初心者を理解させるためのもので理論的な説明が主となっており、英語表現を韓国語で説明しているため、正確な意味を伝達するには限界があった。

本発明が解決しようとする課題は、学習表現とこれを説明する説明部分とが一対となる学習資料をウェブから自動的に構築することができる文書処理装置および方法を提供することである。

このような技術的課題を解決するための、本発明の実施形態にかかる文書処理装置は、ウェブから文書を収集し、文書をスクリプト部分と説明部分とに分離してスクリプト文書および説明文書を生成する文書収集部と、説明文書にから表現説明文章を抽出し、前記スクリプト文書内から表現説明文章が説明している表現を抽出する表現抽出部とを含む。

スクリプト文書から文章を分離して複数のスクリプト文章を抽出し、説明文書から文章を分離して複数の説明文章を抽出する文章抽出部をさらに含むことができる。

文章抽出部は、各説明文章が複数のスクリプト文章のどのスクリプト文章に対する説明であるかを分類することができる。

文章抽出部は、条件付き確率場（ｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄ、ＣＲＦ）分類器を用いて分類を行うことができる。

表現抽出部は、ラベルド順次パターン（ｌａｂｅｌｅｄｓｅｑｕｅｎｔｉａｌｐａｔｔｅｒｎ）手法を用いて複数の説明文章から表現説明文章を抽出することができる。

表現抽出部は、表現説明文章とスクリプト文章内の表現との類似度を測定し、表現説明文章がスクリプト文章内で説明している表現を抽出することができる。

類似度は、コサイン類似度（ｃｏｓｉｎｅｓｉｍｉｌａｒｉｔｙ）手法または編集距離（ｅｄｉｔｄｉｓｔａｎｃｅ）手法を用いて測定できる。

文書収集部は、スクリプト部分および説明部分の始まりまたは終わりを示す識別子または文章に基づいてスクリプト文書および説明文書を生成することができる。

抽出された表現と抽出された表現を説明する表現説明文章とを格納するデータベースをさらに含むことができる。

ユーザからの要請に応じて、抽出された表現と抽出された表現を説明する表現説明文章とをユーザに提供する資料提供部をさらに含むことができる。

文書は、英語で作成できる。

本発明の他の態様にかかる語学教育システムは、上記した装置のいずれか１つを含む。

本発明の他の態様にかかる文書処理方法は、ウェブから文書を収集し、文書をスクリプト部分と説明部分とに分離してスクリプト文書および説明文書を生成するステップと、説明文書に基づいて表現説明文章を抽出し、表現説明文章がスクリプト文書内で説明している表現を抽出するステップとを含む。

スクリプト文書から文章を分離して複数のスクリプト文章を抽出し、説明文書から文章を分離して複数の説明文章を抽出するステップをさらに含むことができる。

文章抽出ステップは、各説明文章が複数のスクリプト文章のどのスクリプト文章に対する説明であるかを分類するステップを含むことができる。

分類ステップは、条件付き確率場（ｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄ、ＣＲＦ）分類器を用いるステップを含むことができる。

表現抽出ステップは、ラベルド順次パターン（ｌａｂｅｌｅｄｓｅｑｕｅｎｔｉａｌｐａｔｔｅｒｎ）手法を用いて複数の説明文章から表現説明文章を抽出するステップを含むことができる。

表現抽出ステップは、表現説明文章とスクリプト文章内の表現との類似度を測定し、表現説明文章がスクリプト文章内で説明している表現を抽出するステップを含むことができる。

文書生成ステップは、スクリプト部分および前説明部分の始まりまたは終わりを示す識別子または文章に基づいてスクリプト文書および説明文書を生成することができる。

抽出された表現と抽出された表現を説明する表現説明文章とを格納するステップをさらに含むことができる。

ユーザからの要請に応じて、抽出された表現と抽出された表現を説明する表現説明文章とをユーザに提供するステップをさらに含むことができる。

本発明の他の態様にかかる語学教育方法は、上記した方法のいずれか１つを含む。

本発明の他の態様にかかるコンピュータ読取可能な媒体は、上記した方法のいずれか１つをコンピュータに実行させるためのプログラムを記録する。

このように、本発明によれば、学習表現とこれに対する説明部分とが一対となる学習資料を自動的に構築することができる。また、実際に文章内で使われる表現を学習対象とすることにより、辞書的な意味のみを提示する辞書の検索結果に比べて、表現の使い方を含む詳細な説明を提供することができ、説明も学習表現と同じ言語でなされているため、翻訳による意味の損傷なしに表現の意味を正確に提供することができる。

本発明の実施形態にかかる文書処理装置を説明するためのブロック図である。本発明の実施形態にかかる文書処理装置が収集した文書を例示した図である。本発明の実施形態にかかる文書処理方法を説明するためのフローチャートである。

以下、添付した図面を参照して、本発明の実施形態について、本発明の属する技術分野における通常の知識を有する者が容易に実施できるように詳細に説明する。

まず、図１および図２を参照して、本発明の実施形態にかかる文書処理装置について詳細に説明する。

図１は、本発明の実施形態にかかる文書処理装置を説明するためのブロック図であり、図２は、本発明の実施形態にかかる文書処理装置が収集した文書を例示した図である。

図１に示すように、本発明の実施形態にかかる文書処理装置１００は、通信網４００を介してウェブサーバ２００およびユーザ端末３００に接続されている。文書処理装置１００は、ウェブサーバ２００から提供するウェブページを介して収集した文書から学習表現とこれに対する説明とを自動的に抽出して格納する。また、文書処理装置１００は、ユーザ端末３００から質疑を受け、質疑に対応する学習表現とこれに対する説明とからなる学習資料をユーザ端末３００に提供する。

ウェブサーバ２００は、通信網４００を介してユーザ端末３００および文書処理装置１００からの要請に応じて、ウェブページを提供する。ウェブサーバ２００は、語学教育サイトを介してウェブページを提供することができ、文書処理装置１００は、ウェブページに含まれている多様な文書の中から所定の文書を抽出することができる。例えば、ウェブサイト「ｗｗｗ．ｅｓｌｐｏｄ．ｃｏｍ」では、英語スクリプト（ｓｃｒｉｐｔ）とこれに対する説明（ｄｅｓｃｒｉｐｔｉｏｎ）とを含む文書を提供する。以下、文書処理装置１００が、このサイトから抽出した所定の文書を持って作業を行うとして説明する。もちろん、このサイトに限定されず、文書処理装置１００は、作業に必要な文書を他のサイトから抽出することもできる。

文書の一例として、図２に示すように、「ｗｗｗ．ｅｓｌｐｏｄ．ｃｏｍ」サイトから提供する文書ＤＣは、スクリプト部分ＳＰと説明部分ＤＰとを含む構成となっている。文書ＤＣごとに、スクリプト部分ＳＰには多様な話が展開され、説明部分ＤＰには当該スクリプト部分ＳＰにある表現に対する意味や用例が説明される。ここで、文書ＤＣは、英語で作成されているとして説明するが、これに限定されず、韓国語、日本語、ドイツ語、中国語などの他の言語でもかまわない。そして、表現とは、少なくとも１つの意味を伝達する単位であって、単語、熟語や他の構成要素、およびこれらの組合せからなる。以下、説明の便宜のために、表現も英語で作成された英語表現について説明するが、これに限定されない。また、スクリプト部分ＳＰと説明部分ＤＰはすべて同じ言語で作成されていることが好ましいが、異なっていてもかまわない。

ユーザ端末３００は、ユーザがウェブサービスを受けるために用いる通信端末装置であって、通信網４００を介してウェブサーバ２００、文書処理装置１００などに接続して情報のやり取りを行う。ユーザ端末３００は、デスクトップコンピュータのみならず、ノート型コンピュータ、ワークステーション、パームトップ（ｐａｌｍｔｏｐ）コンピュータ、ＵＭＰＣ（ｕｌｔｒａｍｏｂｉｌｅｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、タブレットＰＣ、個人携帯情報端末（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ、ＰＤＡ）、ウェブパッド、携帯電話などのようなメモリ手段を具備し、マイクロプロセッサを搭載して演算能力を備えた端末からなってもよい。

通信網４００は、ローカルエリアネットワーク（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ、ＬＡＮ）、メトロポリタンエリアネットワーク（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ、ＭＡＮ）、ワイドエリアネットワーク（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ、ＷＡＮ）、インターネットなどを含むデータ通信網のみならず、電話網などを含むことができ、有線と無線を問わず、どの通信方式を用いても構わない。

以下、本発明の実施形態にかかる文書処理装置１００についてより詳細に説明する。図１に示すように、文書処理装置１００は、文書収集部１１０と、文章抽出部１３０と、表現抽出部１５０と、データベース１７０と、資料提供部１９０とを含む。

文書収集部１１０は、ウェブサーバ２００で提供するウェブサイトから文書を収集する。前述したように、文書は、「ｗｗｗ．ｅｓｌｐｏｄ．ｃｏｍ」のような、予め定められているウェブサイトから抽出することができ、スクリプトとこれに対する説明とを含む。ここで、スクリプトは、特定の主題に対する短い物語を意味し、叙述文や対話文を問わない。

また、文書収集部１１０は、スクリプト部分および説明部分の始まりまたは終わりを示す識別子または文章に基づき、収集された文書からスクリプト部分と説明部分とを抽出してスクリプト文書と説明文書をそれぞれ生成する。例えば、図２に示すように、＜ｓｔａｒｔｏｆｓｔｏｒｙ＞という識別子がスクリプト部分ＳＰの始まりを示し、＜ｅｎｄｏｆｓｔｏｒｙ＞という識別子がスクリプト部分ＳＰの終わりと説明部分ＤＰの始まりを示すことができる。この他にも、識別子は、例えば、「＊」や「※」などの特定の記号と「ｓｔａｒｔ」や「ｅｎｄ」などの単語のように、多様な形態で存在することができる。また、「Ｌｅｔ’ｓｇｏ！」や「Ｔｈａｎｋｙｏｕ」のような文章形式でもスクリプト部分と説明部分とを区別させることができる。文書は、このように特定の形式を持っていて、スクリプト部分と説明部分とを容易に抽出できるようにすることが好ましいが、これに限定されない。

文章抽出部１３０は、ピリオド、疑問符、感嘆符などの、文章の終わりを示す記号などの識別子に基づき、スクリプト文書からそれぞれのスクリプト文章を分離し、説明文書からそれぞれの説明文章を分離する。その後、文章抽出部１３０は、各説明文章がどのスクリプト文章に対する説明であるかを分類する。説明文章の分類のために、例えば、条件付き確率場（ｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄ、ＣＲＦ）分類器を用いることができるが、これに限定されない。条件付き確率場分類器は、自然言語テキストのような順次データのラベリング（ｌａｂｅｌｉｎｇ）またはパーシング（ｐａｒｓｉｎｇ）に用いられる一種の識別確率モデル（ｄｉｓｃｒｉｍｉｎａｔｉｖｅｐｒｏｂａｂｉｌｉｓｔｉｃｍｏｄｅｌ）分類器である。

このとき、分類の結果は、任意のｉ番目のスクリプト文章に対して各説明文章がｉ番目のスクリプト文章に対する説明であるか否か、２進分類で示される。より詳細に説明すると、１つのスクリプト文書に含まれているスクリプト文章の数をＭとすれば、ｉ番目のスクリプト文章に対して説明文書の各説明文章が分類器の入力となり、説明文書のすべての説明文章に対して２進分類の結果が出力される。このような分類過程をすべてのスクリプト文章（１≦ｉ≦Ｍ）に対して行うと、各スクリプト文章に対応する説明文章を抽出することができ、これにより、説明文書の各文章がスクリプト文書のどの文章に対する説明であるかを分類することができる。以下、あるスクリプト文章に対応する説明文章を、当該スクリプト文章に対する文章説明という。もちろん、スクリプト文章に対応する説明文章が存在しなくてもよく、説明文章中においてスクリプト文章に対応しない説明文章が存在してもよい。

表現抽出部１５０は、文章説明から表現説明文章を抽出し、抽出された表現説明文章が当該スクリプト文章内でどの表現を説明しているかを見つけて抽出する。
まず、表現抽出部１５０は、抽出された文章説明のすべての文章に対し、各文章が英語表現の説明形態を持っているか否かに対する２進分類を行う。このために、例えば、ラベルド順次パターン（ｌａｂｅｌｅｄｓｅｑｕｅｎｔｉａｌｐａｔｔｅｒｎ、ＬＳＰ）手法を用いることができるが、これに限定されない。ＬＳＰ手法は、ある文章が与えられたとき、これをパターン化して表現するための方法であって、例えば、「ＷｈｅｒｅｃａｎＩｆｉｎｄａｊｏｂ？」という文章を「ＷｈｅｒｅｃａｎＰＲＮＶＢＤＴＮＮ？」に置き換えるように、一般的な単語をより大きい範囲のクラスに置き換える方法をいう。ここで、ＰＲＮは代名詞、ＶＢは動詞、ＤＴは冠詞、そして、ＮＮは名詞を表す。

英語表現の説明形態を示すことができるパターンは、スクリプト部分と説明部分とを含む文書から学習可能である。例えば、英語表現を説明するとき、よく登場する表現である「…ｍｅａｎｓｔｏ…」または「…ｉｓａ…」などがパターンとして学習される。このパターンに従って、全体文章説明の各文章に対して２進分類を行い、英語表現を示す表現説明文章を抽出することができる。

次に、表現抽出部１５０は、抽出された表現説明文章が説明している当該スクリプト文章内の英語表現を抽出する。スクリプト文章内の表現と表現説明文章との類似度が大きいほど、表現説明文章が当該英語表現に関する説明となる確率が高い。したがって、表現抽出部１５０は、スクリプト文章内の表現と表現説明文章との類似度に基づいて表現説明文章が説明している英語表現を抽出する。類似度は、例えば、テキストマイニング（ｔｅｘｔｍｉｎｉｎｇ）で文書を比較するのに用いられ、テキスト間の類似度を測定可能なコサイン類似度（ｃｏｓｉｎｅｓｉｍｉｌａｒｉｔｙ）手法、または文字列間の距離を測定可能な編集距離（ｅｄｉｔｄｉｓｔａｎｃｅ）手法を用いることができるが、これらに限定されない。

表現抽出部１５０は、このような方法により、全体表現説明文章に対して当該英語表現を抽出し、抽出された英語表現とこれを説明する表現説明文章とをデータベース１７０に格納する。このとき、表現抽出部１５０は、英語表現とこれを説明する表現説明文章とを対（以下、「英語表現とこれを説明する表現説明文章との対」を「表現−説明対」という）としてデータベース１７０に格納することができる。

データベース１７０は、表現抽出部１５０から提供された表現−説明対を格納し、資料提供部１９０の要請に応じて表現−説明対を提供する。

資料提供部１９０は、データベース１７０を容易に検索できるように表現−説明対に対するインデクシング作業を行う。また、資料提供部１９０は、ユーザ端末３００から質疑語が入力されると、分析を通じて質疑語に最も適合した表現を抽出するなどの前処理過程を経た後、当該表現が含まれている表現−説明対をデータベース１７０から検索し、検索された表現−説明対をユーザ端末３００に提供する。

このように、本発明の実施形態にかかる文書処理装置１００によれば、英語表現とこれに対する説明部分とが一対となる学習資料をウェブから収集して自動的に構築することができる。このような資料は、単語および構文辞書の自動構築に使用可能であり、外国語教育のためのソフトウェア全般において教育資料として活用可能である。

また、本発明の実施形態にかかる文書処理装置１００は、表現および説明データベースを介して、実際にユーザが理解できないか慣れていない英語表現に対して説明を要求するとき、適切な英語表現および説明文章の対を検索して提示することができる。従って、ウェブ文書を用いて英語表現および説明を提示することにより、辞書的な意味のみを含む、韓国語による説明の英語辞書の検索結果に比べて、実際にスクリプト内での表現の使い方を含む詳細な説明を提供することができ、説明文章も英語でなされているため、元々の意味を翻訳による損傷なしに提供することができる。

本発明の実施形態にかかる文書処理装置１００は、語学教育のための表現−説明対を収集するのに使用可能であり、語学教育のための多様なシステム（図示せず）に含まれてもよい。このようなシステムの例として、オンライン辞書システムや対話型教育システムを挙げることができるが、これらに限定されない。

一方、本発明の実施形態にかかる文書処理装置１００は、データベース１７０および資料提供部１９０の少なくともいずれか１つを含まないように実現されてもよく、この場合、データベース１７０および／または資料提供部１９０は、英語対話システムなどの外国語教育システムに含まれてもよい。そして、文書処理装置１００は、独立したサーバ形態で実現できるが、ユーザ端末３００と一体に統合された形態で実現されてもよい。すなわち、文書処理装置１００の機能のすべてがユーザ端末３００に実現され、ユーザ端末３００からウェブ文書を収集し、これより表現−説明対を抽出することができ、ユーザの要請に応じて、表現−説明対を検索してユーザに提供することができる。もちろん、文書処理装置１００の機能の一部がユーザ端末３００に実現されてもよい。

以下、図３を参照して、本発明の実施形態にかかる文書処理方法について説明する。

図３は、本発明の実施形態にかかる文書処理方法を説明するためのフローチャートである。

まず、文書処理装置１００は、ウェブサーバ２００で提供するウェブサイトからスクリプトとこれに対する説明とを含む文書を収集する（Ｓ５１０）。その後、文書処理装置１００は、スクリプト部分および説明部分の始まりと終わりを示す識別子または文章に基づき、収集された文書からスクリプト部分と説明部分とを抽出してスクリプト文書と説明文書をそれぞれ生成する（Ｓ５２０）。

文書処理装置１００は、ピリオド、疑問符、感嘆符などの、文章の終わりを示す記号などの識別子に基づき、スクリプト文書からそれぞれのスクリプト文章を分離し、説明文書からそれぞれの説明文章を分離する（Ｓ５３０）。その後、文書処理装置１００は、ＣＲＦ分類器などを用いて各説明文章がどのスクリプト文章に対する説明であるかを分類する（Ｓ５４０）。

以後、文書処理装置１００は、ＬＳＰ手法などを用いて抽出された前述の文章説明のすべての文章に対して各文章が英語表現の説明形態を持っているか否かに対する２進分類を行い、英語表現の説明形態を持っている表現説明文章を抽出する（Ｓ５５０）。そして、文書処理装置１００は、抽出された表現説明文章が当該スクリプト文章内で説明している英語表現を抽出する（Ｓ５６０）。このとき、文書処理装置１００は、コサイン類似度手法または編集距離手法などを用いて抽出された表現説明文章と当該スクリプト文章内の表現との類似度を測定し、当該表現説明文章が説明する英語表現を抽出することができる。

その後、文書処理装置１００は、抽出された英語表現とこれを説明する表現説明文章とを格納する（Ｓ５７０）。このとき、文書処理装置１００は、英語表現とこれを説明する表現説明文章とを対にして１つの文書として格納することができる。

文書処理装置１００は、ユーザ端末３００から質疑語が入力され、質疑語を分析して質疑語に最も適合した表現を抽出するなどの前処理過程を行い、当該表現が含まれている文書をデータベース１７０から検索し、検索された結果をユーザ端末３００に伝送する。

本発明の実施形態にかかる文書処理方法は、外国語教育のための表現およびその説明文章の対を収集するのに使用可能であり、外国語教育のための多様な方法に含まれてもよい。このような方法の例として、オンライン辞書提供方法や対話型教育方法を挙げることができるが、これらに限定されない。

本発明の実施形態は、多様なコンピュータで実現される動作を行うためのプログラム命令を含むコンピュータ読取可能な媒体を含む。この媒体は、これまで説明した文書処理方法を実行させるためのプログラムを記録する。この媒体は、プログラム命令、データファイル、データ構造などを単独または組合せて含むことができる。このような媒体の例には、ハードディスク、フロッピー（登録商標）ディスクおよび磁気テープのような磁気媒体、ＣＤおよびＤＶＤのような光記録媒体、フロプティカルディスク（ＦｌｏｐｔｉｃａｌＤｉｓｋ）と磁気−光媒体、ＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を格納し実行するように構成されたハードウェア装置などがある。あるいは、このような媒体は、プログラム命令、データ構造などを指定する信号を伝送する搬送波を含む光または金属線、導波管などの伝送媒体であってもよい。プログラム命令の例には、コンパイラにより作われるような機械語コードのみならず、インタプリタなどを用いてコンピュータにより実行できる高級言語コードを含む。

以上、本発明の好ましい実施形態について詳細に説明したが、本発明の権利範囲は、これに限定されるものではなく、以下の請求の範囲で定義している本発明の基本概念を利用した当業者の様々な変形および改良形態も本発明の権利範囲に属する。

１００文書処理装置
１１０文書収集部
１３０文章抽出部
１５０表現抽出部
１７０データベース
１９０資料提供部

Claims

ウェブから文書を収集し、スクリプト部分および説明部分の始まりまたは終わりを示す識別子または文章に基づいて前記文書をスクリプト部分と説明部分とに分離してスクリプト文書および説明文書を生成する文書収集部と、
文章の終わりを示す識別子に基づいてスクリプト文書からスクリプト文章を分離し、説明文書から説明文章を分離した後、識別確率モデル（ｄｉｓｃｒｉｍｉｎａｔｉｖｅｐｒｏｂａｂｉｌｉｓｔｉｃｍｏｄｅｌ）分類器を用いて前記説明文章に対してスクリプト文章に対する説明であるか否かを示す２進分類を行い、前記２進分類の結果に基づいて前記分離された説明文章がスクリプト文書のどの文章に対する説明文章であるかを分類する文章抽出部と、
前記説明文書上において該当する言語表現の説明形態を示すパターンに従って、全体文章説明の各文章に対して２進分類を行って表現説明文章を抽出し、前記表現説明文章と前記スクリプト文章内の表現との類似度を測定し、前記表現説明文章が説明している前記スクリプト文章内での表現を抽出する表現抽出部とを含み、
前記表現抽出部は、与えられた文章をパターン化して表現するラベルド順次パターン（ｌａｂｅｌｅｄｓｅｑｕｅｎｔｉａｌｐａｔｔｅｒｎ）手法を用いて前記説明文章から前記表現説明文章を抽出し、前記類似度は、コサイン類似度（ｃｏｓｉｎｅｓｉｍｉｌａｒｉｔｙ）手法または編集距離（ｅｄｉｔｄｉｓｔａｎｃｅ）手法を用いて測定されることを特徴とする文書処理装置。
前記文章抽出部は、順次データのラベリング（ｌａｂｅｌｉｎｇ）またはパーシング（ｐａｒｓｉｎｇ）に用いられる識別確率モデル（ｄｉｓｃｒｉｍｉｎａｔｉｖｅｐｒｏｂａｂｉｌｉｓｔｉｃｍｏｄｅｌ）分類器を用いて各説明文章が前記複数のスクリプト文章のどのスクリプト文章に対する説明であるかを分類することを特徴とする請求項１に記載の文書処理装置。
前記文書収集部は、前記スクリプト部分および前記説明部分の始まりまたは終わりを示す識別子または文章に基づいて前記スクリプト文書および前記説明文書を生成することを特徴とする請求項１に記載の文書処理装置。
前記抽出された表現と前記抽出された表現を説明する表現説明文章とを格納するデータベースをさらに含むことを特徴とする請求項１に記載の文書処理装置。
ユーザからの要請に応じて、前記抽出された表現と前記抽出された表現を説明する表現説明文章とを前記ユーザに提供する資料提供部をさらに含むことを特徴とする請求項１に記載の文書処理装置。
前記文書は、英語で作成されていることを特徴とする請求項１に記載の文書処理装置。
文書収集部がウェブから文書を収集し、前記文書をスクリプト部分と説明部分とに分離してスクリプト文書および説明文書を生成するステップと、
文章抽出部が文章の終わりを示す識別子に基づいてスクリプト文書からスクリプト文章を分離し、説明文書から説明文章を分離した後、識別確率モデル（ｄｉｓｃｒｉｍｉｎａｔｉｖｅｐｒｏｂａｂｉｌｉｓｔｉｃｍｏｄｅｌ）分類器を用いて前記説明文章に対してスクリプト文章に対する説明であるか否かを示す２進分類を行い、前記２進分類の結果に基づいて前記分離された説明文章がスクリプト文書のどの文章に対する説明文章であるかを分類するステップと、
表現抽出部が前記説明文書上において該当する言語表現の説明形態を示すパターンに従って、全体文章説明の各文章に対して２進分類を行って表現説明文章を抽出し、前記表現説明文章と前記スクリプト文章内の表現との類似度を測定し、前記表現説明文章が説明している前記スクリプト文章内での表現を抽出するステップとを含み、
前記表現抽出ステップは、与えられた文章をパターン化して表現するラベルド順次パターン（ｌａｂｅｌｅｄｓｅｑｕｅｎｔｉａｌｐａｔｔｅｒｎ）手法を用いて前記説明文章から前記表現説明文章を抽出し、前記類似度は、コサイン類似度（ｃｏｓｉｎｅｓｉｍｉｌａｒｉｔｙ）手法または編集距離（ｅｄｉｔｄｉｓｔａｎｃｅ）手法を用いて測定されるステップを含むことを特徴とする文書処理方法。
前記文章抽出ステップは、順次データのラベリング（ｌａｂｅｌｉｎｇ）またはパーシング（ｐａｒｓｉｎｇ）に用いられる識別確率モデル（ｄｉｓｃｒｉｍｉｎａｔｉｖｅｐｒｏｂａｂｉｌｉｓｔｉｃｍｏｄｅｌ）分類器を用いて各説明文章が前記複数のスクリプト文章のどのスクリプト文章に対する説明であるかを分類するステップを含むことを特徴とする請求項７に記載の文書処理方法。
前記文書生成ステップは、前記スクリプト部分および前記説明部分の始まりまたは終わりを示す識別子または文章に基づいて前記スクリプト文書および前記説明文書を生成することを特徴とする請求項７に記載の文書処理方法。
前記抽出された表現と前記抽出された表現を説明する表現説明文章とを格納するステップをさらに含むことを特徴とする請求項７に記載の文書処理方法。
ユーザからの要請に応じて、前記抽出された表現と前記抽出された表現を説明する表現説明文章とを前記ユーザに提供するステップをさらに含むことを特徴とする請求項７に記載の文書処理方法。
前記文書は、英語で作成されていることを特徴とする請求項７に記載の文書処理方法。