JP5690829B2 - 表現および説明抽出のための文書処理装置および方法 - Google Patents

表現および説明抽出のための文書処理装置および方法 Download PDF

Info

Publication number
JP5690829B2
JP5690829B2 JP2012530792A JP2012530792A JP5690829B2 JP 5690829 B2 JP5690829 B2 JP 5690829B2 JP 2012530792 A JP2012530792 A JP 2012530792A JP 2012530792 A JP2012530792 A JP 2012530792A JP 5690829 B2 JP5690829 B2 JP 5690829B2
Authority
JP
Japan
Prior art keywords
sentence
explanation
expression
document
script
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012530792A
Other languages
English (en)
Other versions
JP2013506187A (ja
Inventor
ノ・ヒョンジョン
イ・ジョンフン
イ・ソンジン
イ・ゲイリー・グンベ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Academy Industry Foundation of POSTECH
Original Assignee
Academy Industry Foundation of POSTECH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Academy Industry Foundation of POSTECH filed Critical Academy Industry Foundation of POSTECH
Publication of JP2013506187A publication Critical patent/JP2013506187A/ja
Application granted granted Critical
Publication of JP5690829B2 publication Critical patent/JP5690829B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、文書処理装置および方法に関し、より詳細には、ウェブから文書を収集し、収集された文書から表現および説明を抽出する文書処理装置および方法に関する。
英語教育の重要性が強調され続けており、このための多様な教育方法が開発されてきている。しかし、現在存在するほとんどの英語教育方法は、練習問題および暗記が中心となっており、読み書きの部分に特化している。このような英語教育方法の限界を克服するための方策の一つとして、英語を利用した対話システムが開発されて用いられている。このシステムは、英語学習者とシステムとの間の対話を通じて実生活に必要な多様な表現を自然に習得するように誘導することができる。
しかし、対話の途中にシステムによって提示された単語や熟語などの英語表現に慣れていない場合、学習者はこれに対する説明を確認したがることがある。この場合、学習者は主に英語辞書などを通じて当該英語表現に対する説明を確認することができる。しかし、英語辞書などで英語表現に関する説明を提示しているとはいえ、英語初心者を理解させるためのもので理論的な説明が主となっており、英語表現を韓国語で説明しているため、正確な意味を伝達するには限界があった。
本発明が解決しようとする課題は、学習表現とこれを説明する説明部分とが一対となる学習資料をウェブから自動的に構築することができる文書処理装置および方法を提供することである。
このような技術的課題を解決するための、本発明の実施形態にかかる文書処理装置は、ウェブから文書を収集し、文書をスクリプト部分と説明部分とに分離してスクリプト文書および説明文書を生成する文書収集部と、説明文書にから表現説明文章を抽出し、前記スクリプト文書内から表現説明文章が説明している表現を抽出する表現抽出部とを含む。
スクリプト文書から文章を分離して複数のスクリプト文章を抽出し、説明文書から文章を分離して複数の説明文章を抽出する文章抽出部をさらに含むことができる。
文章抽出部は、各説明文章が複数のスクリプト文章のどのスクリプト文章に対する説明であるかを分類することができる。
文章抽出部は、条件付き確率場(conditional random field、CRF)分類器を用いて分類を行うことができる。
表現抽出部は、ラベルド順次パターン(labeled sequential pattern)手法を用いて複数の説明文章から表現説明文章を抽出することができる。
表現抽出部は、表現説明文章とスクリプト文章内の表現との類似度を測定し、表現説明文章がスクリプト文章内で説明している表現を抽出することができる。
類似度は、コサイン類似度(cosine similarity)手法または編集距離(edit distance)手法を用いて測定できる。
文書収集部は、スクリプト部分および説明部分の始まりまたは終わりを示す識別子または文章に基づいてスクリプト文書および説明文書を生成することができる。
抽出された表現と抽出された表現を説明する表現説明文章とを格納するデータベースをさらに含むことができる。
ユーザからの要請に応じて、抽出された表現と抽出された表現を説明する表現説明文章とをユーザに提供する資料提供部をさらに含むことができる。
文書は、英語で作成できる。
本発明の他の態様にかかる語学教育システムは、上記した装置のいずれか1つを含む。
本発明の他の態様にかかる文書処理方法は、ウェブから文書を収集し、文書をスクリプト部分と説明部分とに分離してスクリプト文書および説明文書を生成するステップと、説明文書に基づいて表現説明文章を抽出し、表現説明文章がスクリプト文書内で説明している表現を抽出するステップとを含む。
スクリプト文書から文章を分離して複数のスクリプト文章を抽出し、説明文書から文章を分離して複数の説明文章を抽出するステップをさらに含むことができる。
文章抽出ステップは、各説明文章が複数のスクリプト文章のどのスクリプト文章に対する説明であるかを分類するステップを含むことができる。
分類ステップは、条件付き確率場(conditional random field、CRF)分類器を用いるステップを含むことができる。
表現抽出ステップは、ラベルド順次パターン(labeled sequential pattern)手法を用いて複数の説明文章から表現説明文章を抽出するステップを含むことができる。
表現抽出ステップは、表現説明文章とスクリプト文章内の表現との類似度を測定し、表現説明文章がスクリプト文章内で説明している表現を抽出するステップを含むことができる。
類似度は、コサイン類似度(cosine similarity)手法または編集距離(edit distance)手法を用いて測定できる。
文書生成ステップは、スクリプト部分および前説明部分の始まりまたは終わりを示す識別子または文章に基づいてスクリプト文書および説明文書を生成することができる。
抽出された表現と抽出された表現を説明する表現説明文章とを格納するステップをさらに含むことができる。
ユーザからの要請に応じて、抽出された表現と抽出された表現を説明する表現説明文章とをユーザに提供するステップをさらに含むことができる。
本発明の他の態様にかかる語学教育方法は、上記した方法のいずれか1つを含む。
本発明の他の態様にかかるコンピュータ読取可能な媒体は、上記した方法のいずれか1つをコンピュータに実行させるためのプログラムを記録する。
このように、本発明によれば、学習表現とこれに対する説明部分とが一対となる学習資料を自動的に構築することができる。また、実際に文章内で使われる表現を学習対象とすることにより、辞書的な意味のみを提示する辞書の検索結果に比べて、表現の使い方を含む詳細な説明を提供することができ、説明も学習表現と同じ言語でなされているため、翻訳による意味の損傷なしに表現の意味を正確に提供することができる。
本発明の実施形態にかかる文書処理装置を説明するためのブロック図である。 本発明の実施形態にかかる文書処理装置が収集した文書を例示した図である。 本発明の実施形態にかかる文書処理方法を説明するためのフローチャートである。
以下、添付した図面を参照して、本発明の実施形態について、本発明の属する技術分野における通常の知識を有する者が容易に実施できるように詳細に説明する。
まず、図1および図2を参照して、本発明の実施形態にかかる文書処理装置について詳細に説明する。
図1は、本発明の実施形態にかかる文書処理装置を説明するためのブロック図であり、図2は、本発明の実施形態にかかる文書処理装置が収集した文書を例示した図である。
図1に示すように、本発明の実施形態にかかる文書処理装置100は、通信網400を介してウェブサーバ200およびユーザ端末300に接続されている。文書処理装置100は、ウェブサーバ200から提供するウェブページを介して収集した文書から学習表現とこれに対する説明とを自動的に抽出して格納する。また、文書処理装置100は、ユーザ端末300から質疑を受け、質疑に対応する学習表現とこれに対する説明とからなる学習資料をユーザ端末300に提供する。
ウェブサーバ200は、通信網400を介してユーザ端末300および文書処理装置100からの要請に応じて、ウェブページを提供する。ウェブサーバ200は、語学教育サイトを介してウェブページを提供することができ、文書処理装置100は、ウェブページに含まれている多様な文書の中から所定の文書を抽出することができる。例えば、ウェブサイト「www.eslpod.com」では、英語スクリプト(script)とこれに対する説明(description)とを含む文書を提供する。以下、文書処理装置100が、このサイトから抽出した所定の文書を持って作業を行うとして説明する。もちろん、このサイトに限定されず、文書処理装置100は、作業に必要な文書を他のサイトから抽出することもできる。
文書の一例として、図2に示すように、「www.eslpod.com」サイトから提供する文書DCは、スクリプト部分SPと説明部分DPとを含む構成となっている。文書DCごとに、スクリプト部分SPには多様な話が展開され、説明部分DPには当該スクリプト部分SPにある表現に対する意味や用例が説明される。ここで、文書DCは、英語で作成されているとして説明するが、これに限定されず、韓国語、日本語、ドイツ語、中国語などの他の言語でもかまわない。そして、表現とは、少なくとも1つの意味を伝達する単位であって、単語、熟語や他の構成要素、およびこれらの組合せからなる。以下、説明の便宜のために、表現も英語で作成された英語表現について説明するが、これに限定されない。また、スクリプト部分SPと説明部分DPはすべて同じ言語で作成されていることが好ましいが、異なっていてもかまわない。
ユーザ端末300は、ユーザがウェブサービスを受けるために用いる通信端末装置であって、通信網400を介してウェブサーバ200、文書処理装置100などに接続して情報のやり取りを行う。ユーザ端末300は、デスクトップコンピュータのみならず、ノート型コンピュータ、ワークステーション、パームトップ(palmtop)コンピュータ、UMPC(ultra mobile personal computer)、タブレットPC、個人携帯情報端末(personal digital assistant、PDA)、ウェブパッド、携帯電話などのようなメモリ手段を具備し、マイクロプロセッサを搭載して演算能力を備えた端末からなってもよい。
通信網400は、ローカルエリアネットワーク(local area network、LAN)、メトロポリタンエリアネットワーク(metropolitan area network、MAN)、ワイドエリアネットワーク(wide area network、WAN)、インターネットなどを含むデータ通信網のみならず、電話網などを含むことができ、有線と無線を問わず、どの通信方式を用いても構わない。
以下、本発明の実施形態にかかる文書処理装置100についてより詳細に説明する。図1に示すように、文書処理装置100は、文書収集部110と、文章抽出部130と、表現抽出部150と、データベース170と、資料提供部190とを含む。
文書収集部110は、ウェブサーバ200で提供するウェブサイトから文書を収集する。前述したように、文書は、「www.eslpod.com」のような、予め定められているウェブサイトから抽出することができ、スクリプトとこれに対する説明とを含む。ここで、スクリプトは、特定の主題に対する短い物語を意味し、叙述文や対話文を問わない。
また、文書収集部110は、スクリプト部分および説明部分の始まりまたは終わりを示す識別子または文章に基づき、収集された文書からスクリプト部分と説明部分とを抽出してスクリプト文書と説明文書をそれぞれ生成する。例えば、図2に示すように、<start of story>という識別子がスクリプト部分SPの始まりを示し、<end of story>という識別子がスクリプト部分SPの終わりと説明部分DPの始まりを示すことができる。この他にも、識別子は、例えば、「*」や「※」などの特定の記号と「start」や「end」などの単語のように、多様な形態で存在することができる。また、「Let’s go!」や「Thank you」のような文章形式でもスクリプト部分と説明部分とを区別させることができる。文書は、このように特定の形式を持っていて、スクリプト部分と説明部分とを容易に抽出できるようにすることが好ましいが、これに限定されない。
文章抽出部130は、ピリオド、疑問符、感嘆符などの、文章の終わりを示す記号などの識別子に基づき、スクリプト文書からそれぞれのスクリプト文章を分離し、説明文書からそれぞれの説明文章を分離する。その後、文章抽出部130は、各説明文章がどのスクリプト文章に対する説明であるかを分類する。説明文章の分類のために、例えば、条件付き確率場(conditional random field、CRF)分類器を用いることができるが、これに限定されない。条件付き確率場分類器は、自然言語テキストのような順次データのラベリング(labeling)またはパーシング(parsing)に用いられる一種の識別確率モデル(discriminative probabilistic model)分類器である。
このとき、分類の結果は、任意のi番目のスクリプト文章に対して各説明文章がi番目のスクリプト文章に対する説明であるか否か、2進分類で示される。より詳細に説明すると、1つのスクリプト文書に含まれているスクリプト文章の数をMとすれば、i番目のスクリプト文章に対して説明文書の各説明文章が分類器の入力となり、説明文書のすべての説明文章に対して2進分類の結果が出力される。このような分類過程をすべてのスクリプト文章(1≦i≦M)に対して行うと、各スクリプト文章に対応する説明文章を抽出することができ、これにより、説明文書の各文章がスクリプト文書のどの文章に対する説明であるかを分類することができる。以下、あるスクリプト文章に対応する説明文章を、当該スクリプト文章に対する文章説明という。もちろん、スクリプト文章に対応する説明文章が存在しなくてもよく、説明文章中においてスクリプト文章に対応しない説明文章が存在してもよい。
表現抽出部150は、文章説明から表現説明文章を抽出し、抽出された表現説明文章が当該スクリプト文章内でどの表現を説明しているかを見つけて抽出する。
まず、表現抽出部150は、抽出された文章説明のすべての文章に対し、各文章が英語表現の説明形態を持っているか否かに対する2進分類を行う。このために、例えば、ラベルド順次パターン(labeled sequential pattern、LSP)手法を用いることができるが、これに限定されない。LSP手法は、ある文章が与えられたとき、これをパターン化して表現するための方法であって、例えば、「Where can I find a job?」という文章を「Where can PRN VB DT NN?」に置き換えるように、一般的な単語をより大きい範囲のクラスに置き換える方法をいう。ここで、 PRNは代名詞、VBは動詞、DTは冠詞、そして、NNは名詞を表す。
英語表現の説明形態を示すことができるパターンは、スクリプト部分と説明部分とを含む文書から学習可能である。例えば、英語表現を説明するとき、よく登場する表現である「…means to…」または「…is a…」などがパターンとして学習される。このパターンに従って、全体文章説明の各文章に対して2進分類を行い、英語表現を示す表現説明文章を抽出することができる。
次に、表現抽出部150は、抽出された表現説明文章が説明している当該スクリプト文章内の英語表現を抽出する。スクリプト文章内の表現と表現説明文章との類似度が大きいほど、表現説明文章が当該英語表現に関する説明となる確率が高い。したがって、表現抽出部150は、スクリプト文章内の表現と表現説明文章との類似度に基づいて表現説明文章が説明している英語表現を抽出する。類似度は、例えば、テキストマイニング(text mining)で文書を比較するのに用いられ、テキスト間の類似度を測定可能なコサイン類似度(cosine similarity)手法、または文字列間の距離を測定可能な編集距離(edit distance)手法を用いることができるが、これらに限定されない。
表現抽出部150は、このような方法により、全体表現説明文章に対して当該英語表現を抽出し、抽出された英語表現とこれを説明する表現説明文章とをデータベース170に格納する。このとき、表現抽出部150は、英語表現とこれを説明する表現説明文章とを対(以下、「英語表現とこれを説明する表現説明文章との対」を「表現−説明対」という)としてデータベース170に格納することができる。
データベース170は、表現抽出部150から提供された表現−説明対を格納し、資料提供部190の要請に応じて表現−説明対を提供する。
資料提供部190は、データベース170を容易に検索できるように表現−説明対に対するインデクシング作業を行う。また、資料提供部190は、ユーザ端末300から質疑語が入力されると、分析を通じて質疑語に最も適合した表現を抽出するなどの前処理過程を経た後、当該表現が含まれている表現−説明対をデータベース170から検索し、検索された表現−説明対をユーザ端末300に提供する。
このように、本発明の実施形態にかかる文書処理装置100によれば、英語表現とこれに対する説明部分とが一対となる学習資料をウェブから収集して自動的に構築することができる。このような資料は、単語および構文辞書の自動構築に使用可能であり、外国語教育のためのソフトウェア全般において教育資料として活用可能である。
また、本発明の実施形態にかかる文書処理装置100は、表現および説明データベースを介して、実際にユーザが理解できないか慣れていない英語表現に対して説明を要求するとき、適切な英語表現および説明文章の対を検索して提示することができる。従って、ウェブ文書を用いて英語表現および説明を提示することにより、辞書的な意味のみを含む、韓国語による説明の英語辞書の検索結果に比べて、実際にスクリプト内での表現の使い方を含む詳細な説明を提供することができ、説明文章も英語でなされているため、元々の意味を翻訳による損傷なしに提供することができる。
本発明の実施形態にかかる文書処理装置100は、語学教育のための表現−説明対を収集するのに使用可能であり、語学教育のための多様なシステム(図示せず)に含まれてもよい。このようなシステムの例として、オンライン辞書システムや対話型教育システムを挙げることができるが、これらに限定されない。
一方、本発明の実施形態にかかる文書処理装置100は、データベース170および資料提供部190の少なくともいずれか1つを含まないように実現されてもよく、この場合、データベース170および/または資料提供部190は、英語対話システムなどの外国語教育システムに含まれてもよい。そして、文書処理装置100は、独立したサーバ形態で実現できるが、ユーザ端末300と一体に統合された形態で実現されてもよい。すなわち、文書処理装置100の機能のすべてがユーザ端末300に実現され、ユーザ端末300からウェブ文書を収集し、これより表現−説明対を抽出することができ、ユーザの要請に応じて、表現−説明対を検索してユーザに提供することができる。もちろん、文書処理装置100の機能の一部がユーザ端末300に実現されてもよい。
以下、図3を参照して、本発明の実施形態にかかる文書処理方法について説明する。
図3は、本発明の実施形態にかかる文書処理方法を説明するためのフローチャートである。
まず、文書処理装置100は、ウェブサーバ200で提供するウェブサイトからスクリプトとこれに対する説明とを含む文書を収集する(S510)。その後、文書処理装置100は、スクリプト部分および説明部分の始まりと終わりを示す識別子または文章に基づき、収集された文書からスクリプト部分と説明部分とを抽出してスクリプト文書と説明文書をそれぞれ生成する(S520)。
文書処理装置100は、ピリオド、疑問符、感嘆符などの、文章の終わりを示す記号などの識別子に基づき、スクリプト文書からそれぞれのスクリプト文章を分離し、説明文書からそれぞれの説明文章を分離する(S530)。その後、文書処理装置100は、CRF分類器などを用いて各説明文章がどのスクリプト文章に対する説明であるかを分類する(S540)。
以後、文書処理装置100は、LSP手法などを用いて抽出された前述の文章説明のすべての文章に対して各文章が英語表現の説明形態を持っているか否かに対する2進分類を行い、英語表現の説明形態を持っている表現説明文章を抽出する(S550)。そして、文書処理装置100は、抽出された表現説明文章が当該スクリプト文章内で説明している英語表現を抽出する(S560)。このとき、文書処理装置100は、コサイン類似度手法または編集距離手法などを用いて抽出された表現説明文章と当該スクリプト文章内の表現との類似度を測定し、当該表現説明文章が説明する英語表現を抽出することができる。
その後、文書処理装置100は、抽出された英語表現とこれを説明する表現説明文章とを格納する(S570)。このとき、文書処理装置100は、英語表現とこれを説明する表現説明文章とを対にして1つの文書として格納することができる。
文書処理装置100は、ユーザ端末300から質疑語が入力され、質疑語を分析して質疑語に最も適合した表現を抽出するなどの前処理過程を行い、当該表現が含まれている文書をデータベース170から検索し、検索された結果をユーザ端末300に伝送する。
本発明の実施形態にかかる文書処理方法は、外国語教育のための表現およびその説明文章の対を収集するのに使用可能であり、外国語教育のための多様な方法に含まれてもよい。このような方法の例として、オンライン辞書提供方法や対話型教育方法を挙げることができるが、これらに限定されない。
本発明の実施形態は、多様なコンピュータで実現される動作を行うためのプログラム命令を含むコンピュータ読取可能な媒体を含む。この媒体は、これまで説明した文書処理方法を実行させるためのプログラムを記録する。この媒体は、プログラム命令、データファイル、データ構造などを単独または組合せて含むことができる。このような媒体の例には、ハードディスク、フロッピー(登録商標)ディスクおよび磁気テープのような磁気媒体、CDおよびDVDのような光記録媒体、フロプティカルディスク(Floptical Disk)と磁気−光媒体、ROM、RAM、フラッシュメモリなどのようなプログラム命令を格納し実行するように構成されたハードウェア装置などがある。あるいは、このような媒体は、プログラム命令、データ構造などを指定する信号を伝送する搬送波を含む光または金属線、導波管などの伝送媒体であってもよい。プログラム命令の例には、コンパイラにより作われるような機械語コードのみならず、インタプリタなどを用いてコンピュータにより実行できる高級言語コードを含む。
以上、本発明の好ましい実施形態について詳細に説明したが、本発明の権利範囲は、これに限定されるものではなく、以下の請求の範囲で定義している本発明の基本概念を利用した当業者の様々な変形および改良形態も本発明の権利範囲に属する。
100 文書処理装置
110 文書収集部
130 文章抽出部
150 表現抽出部
170 データベース
190 資料提供部

Claims (12)

  1. ウェブから文書を収集し、スクリプト部分および説明部分の始まりまたは終わりを示す識別子または文章に基づいて前記文書をスクリプト部分と説明部分とに分離してスクリプト文書および説明文書を生成する文書収集部と、
    文章の終わりを示す識別子に基づいてスクリプト文書からスクリプト文章を分離し、説明文書から説明文章を分離した後、識別確率モデル(discriminative probabilistic model)分類器を用いて前記説明文章に対してスクリプト文章に対する説明であるか否かを示す2進分類を行い、前記2進分類の結果に基づいて前記分離された説明文章がスクリプト文書のどの文章に対する説明文章であるかを分類する文章抽出部と、
    前記説明文書上において該当する言語表現の説明形態を示すパターンに従って、全体文章説明の各文章に対して2進分類を行って表現説明文章を抽出し、前記表現説明文章と前記スクリプト文章内の表現との類似度を測定し、前記表現説明文章が説明している前記スクリプト文章内での表現を抽出する表現抽出部とを含み、
    前記表現抽出部は、与えられた文章をパターン化して表現するラベルド順次パターン(labeled sequential pattern)手法を用いて前記説明文章から前記表現説明文章を抽出し、前記類似度は、コサイン類似度(cosine similarity)手法または編集距離(edit distance)手法を用いて測定されることを特徴とする文書処理装置。
  2. 前記文章抽出部は、順次データのラベリング(labeling)またはパーシング(parsing)に用いられる識別確率モデル(discriminative probabilistic model)分類器を用いて各説明文章が前記複数のスクリプト文章のどのスクリプト文章に対する説明であるかを分類することを特徴とする請求項1に記載の文書処理装置。
  3. 前記文書収集部は、前記スクリプト部分および前記説明部分の始まりまたは終わりを示す識別子または文章に基づいて前記スクリプト文書および前記説明文書を生成することを特徴とする請求項1に記載の文書処理装置。
  4. 前記抽出された表現と前記抽出された表現を説明する表現説明文章とを格納するデータベースをさらに含むことを特徴とする請求項1に記載の文書処理装置。
  5. ユーザからの要請に応じて、前記抽出された表現と前記抽出された表現を説明する表現説明文章とを前記ユーザに提供する資料提供部をさらに含むことを特徴とする請求項1に記載の文書処理装置。
  6. 前記文書は、英語で作成されていることを特徴とする請求項1に記載の文書処理装置。
  7. 文書収集部がウェブから文書を収集し、前記文書をスクリプト部分と説明部分とに分離してスクリプト文書および説明文書を生成するステップと、
    文章抽出部が文章の終わりを示す識別子に基づいてスクリプト文書からスクリプト文章を分離し、説明文書から説明文章を分離した後、識別確率モデル(discriminative probabilistic model)分類器を用いて前記説明文章に対してスクリプト文章に対する説明であるか否かを示す2進分類を行い、前記2進分類の結果に基づいて前記分離された説明文章がスクリプト文書のどの文章に対する説明文章であるかを分類するステップと、
    表現抽出部が前記説明文書上において該当する言語表現の説明形態を示すパターンに従って、全体文章説明の各文章に対して2進分類を行って表現説明文章を抽出し、前記表現説明文章と前記スクリプト文章内の表現との類似度を測定し、前記表現説明文章が説明している前記スクリプト文章内での表現を抽出するステップとを含み、
    前記表現抽出ステップは、与えられた文章をパターン化して表現するラベルド順次パターン(labeled sequential pattern)手法を用いて前記説明文章から前記表現説明文章を抽出し、前記類似度は、コサイン類似度(cosine similarity)手法または編集距離(edit distance)手法を用いて測定されるステップを含むことを特徴とする文書処理方法。
  8. 前記文章抽出ステップは、順次データのラベリング(labeling)またはパーシング(parsing)に用いられる識別確率モデル(discriminative probabilistic model)分類器を用いて各説明文章が前記複数のスクリプト文章のどのスクリプト文章に対する説明であるかを分類するステップを含むことを特徴とする請求項に記載の文書処理方法。
  9. 前記文書生成ステップは、前記スクリプト部分および前記説明部分の始まりまたは終わりを示す識別子または文章に基づいて前記スクリプト文書および前記説明文書を生成することを特徴とする請求項に記載の文書処理方法。
  10. 前記抽出された表現と前記抽出された表現を説明する表現説明文章とを格納するステップをさらに含むことを特徴とする請求項に記載の文書処理方法。
  11. ユーザからの要請に応じて、前記抽出された表現と前記抽出された表現を説明する表現説明文章とを前記ユーザに提供するステップをさらに含むことを特徴とする請求項に記載の文書処理方法。
  12. 前記文書は、英語で作成されていることを特徴とする請求項に記載の文書処理方法。
JP2012530792A 2009-10-23 2010-10-11 表現および説明抽出のための文書処理装置および方法 Expired - Fee Related JP5690829B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020090100962A KR101072100B1 (ko) 2009-10-23 2009-10-23 표현 및 설명 추출을 위한 문서 처리 장치 및 방법
KR10-2009-0100962 2009-10-23
PCT/KR2010/006943 WO2011049313A2 (ko) 2009-10-23 2010-10-11 표현 및 설명 추출을 위한 문서 처리 장치 및 방법

Publications (2)

Publication Number Publication Date
JP2013506187A JP2013506187A (ja) 2013-02-21
JP5690829B2 true JP5690829B2 (ja) 2015-03-25

Family

ID=43900780

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012530792A Expired - Fee Related JP5690829B2 (ja) 2009-10-23 2010-10-11 表現および説明抽出のための文書処理装置および方法

Country Status (5)

Country Link
US (1) US8666987B2 (ja)
JP (1) JP5690829B2 (ja)
KR (1) KR101072100B1 (ja)
CN (1) CN102576367B (ja)
WO (1) WO2011049313A2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011078194A1 (ja) * 2009-12-25 2011-06-30 日本電気株式会社 テキストマイニングシステム、テキストマイニング方法および記録媒体
CN104517106B (zh) * 2013-09-29 2017-11-28 北大方正集团有限公司 一种列表识别方法与系统
US9858923B2 (en) * 2015-09-24 2018-01-02 Intel Corporation Dynamic adaptation of language models and semantic tracking for automatic speech recognition
EP3575987A1 (en) * 2018-06-01 2019-12-04 Fortia Financial Solutions Extracting from a descriptive document the value of a slot associated with a target entity

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69333568T2 (de) * 1992-09-04 2004-10-21 Caterpillar Inc Integriertes entwurf- und übersetzungssystem.
JP2003085181A (ja) 2001-09-07 2003-03-20 Japan Science & Technology Corp 事典システム
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
US20070255553A1 (en) * 2004-03-31 2007-11-01 Matsushita Electric Industrial Co., Ltd. Information Extraction System
US20060074980A1 (en) * 2004-09-29 2006-04-06 Sarkar Pte. Ltd. System for semantically disambiguating text information
US8983962B2 (en) * 2005-02-08 2015-03-17 Nec Corporation Question and answer data editing device, question and answer data editing method and question answer data editing program
US7376551B2 (en) 2005-08-01 2008-05-20 Microsoft Corporation Definition extraction
CN100474301C (zh) 2005-09-08 2009-04-01 富士通株式会社 基于数据挖掘获取词或词组单元译文信息的系统和方法
US20090019362A1 (en) * 2006-03-10 2009-01-15 Avri Shprigel Automatic Reusable Definitions Identification (Rdi) Method
JP2007286355A (ja) 2006-04-17 2007-11-01 Masanori Fukushima 学習支援装置および学習支援方法
US7657421B2 (en) * 2006-06-28 2010-02-02 International Business Machines Corporation System and method for identifying and defining idioms
KR20080037323A (ko) 2006-10-26 2008-04-30 주식회사 문깡 영어학습방법
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
KR20090035346A (ko) 2007-10-05 2009-04-09 박철 어휘 분석을 수행하는 어학학습 방법
CN101441636A (zh) * 2007-11-21 2009-05-27 中国科学院自动化研究所 一种基于知识库的医院信息搜索引擎及系统
JP4654238B2 (ja) 2007-12-26 2011-03-16 みずほ情報総研株式会社 説明表示システム、説明表示方法及び説明表示プログラム
US20090327210A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Advanced book page classification engine and index page extraction
US20100063797A1 (en) * 2008-09-09 2010-03-11 Microsoft Corporation Discovering question and answer pairs
US7937386B2 (en) * 2008-12-30 2011-05-03 Complyon Inc. System, method, and apparatus for information extraction of textual documents

Also Published As

Publication number Publication date
US20120197894A1 (en) 2012-08-02
KR20110044345A (ko) 2011-04-29
KR101072100B1 (ko) 2011-10-10
CN102576367A (zh) 2012-07-11
CN102576367B (zh) 2014-09-10
WO2011049313A2 (ko) 2011-04-28
US8666987B2 (en) 2014-03-04
WO2011049313A9 (ko) 2011-06-30
JP2013506187A (ja) 2013-02-21
WO2011049313A3 (ko) 2011-09-01

Similar Documents

Publication Publication Date Title
US20210124876A1 (en) Evaluating the Factual Consistency of Abstractive Text Summarization
US20180366013A1 (en) System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter
US20230069935A1 (en) Dialog system answering method based on sentence paraphrase recognition
Napoles et al. Learning simple Wikipedia: A cogitation in ascertaining abecedarian language
Karim Technical challenges and design issues in bangla language processing
CN113761377A (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
CN110610003A (zh) 用于辅助文本标注的方法和系统
JP5690829B2 (ja) 表現および説明抽出のための文書処理装置および方法
CN113361252B (zh) 基于多模态特征和情感词典的文本抑郁倾向检测系统
Suman et al. Gender Age and Dialect Recognition using Tweets in a Deep Learning Framework-Notebook for FIRE 2019.
KR102072708B1 (ko) 텍스트 콘텐츠의 장르를 추론하는 방법 및 컴퓨터 프로그램
US20240012996A1 (en) Alignment apparatus, learning apparatus, alignment method, learning method and program
Bannò et al. Back to grammar: Using grammatical error correction to automatically assess L2 speaking proficiency
Zhang Russian speech conversion algorithm based on a parallel corpus and machine translation
Hoseinmardy et al. Recognizing transliterated English words in Persian texts
Shahin et al. Part of speech tagging for Arabic text based radial basis function
Rodríguez-García et al. URJC-Team at FinancES 2023: Financial Targeted Sentiment Analysis in Spanish Combining Transformers.
Abu Bakar et al. Part-of-speech for old Malay manuscript corpus: A Review
Dhanya et al. Automatic Spelling Error Classification in Malayalam
Nyetanyane et al. UmobiTalk: Ubiquitous Mobile Speech Based Translator for Sesotho Language
Poojary et al. Multifunctional Language Processing Software Framework
González-López et al. A model for identifying steps in undergraduate thesis methodology
Balan Introduction to Natural Language Processing
Amon Setswana grammar checker for declarative sentences using LSTM-Recurrent Neural Network
Samota et al. Improving the Punjabi-Hindi Braille Neural Machine Translation through Syntax Augmentation

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140811

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150202

R150 Certificate of patent or registration of utility model

Ref document number: 5690829

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees