JP2006031143A - 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム - Google Patents

文書解析装置、および文書解析方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP2006031143A
JP2006031143A JP2004205617A JP2004205617A JP2006031143A JP 2006031143 A JP2006031143 A JP 2006031143A JP 2004205617 A JP2004205617 A JP 2004205617A JP 2004205617 A JP2004205617 A JP 2004205617A JP 2006031143 A JP2006031143 A JP 2006031143A
Authority
JP
Japan
Prior art keywords
noun
term pair
words
analysis
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004205617A
Other languages
English (en)
Inventor
Yohei Yamane
洋平 山根
Atsukimi Monma
敦仁 門馬
Keiko Shimazu
恵子 島津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004205617A priority Critical patent/JP2006031143A/ja
Publication of JP2006031143A publication Critical patent/JP2006031143A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 高精度なテキストマイニングを可能とするタームペアの選択を実現する装置および方法を提供する。
【解決手段】 形態素解析処理部からの出力データに基づいて、単語の組データとしてのタームペアを選択するタームペア選択部において、直接的な係り受け関係の有無に関わらず、予め設定された品詞関係にある単語の組の全てをタームペアとして抽出する処理を実行する。品詞の対応が[名詞、動詞]、[名詞、目的語]、[目的語、動詞]、[名詞、名詞]、[形容詞、名詞]、[形容詞、目的語]、[形容詞、動詞]のいずれかの関係を持つ単語の組をタームペアとして全て選択する構成としたので、オリジナルテキストに含まれる重要な情報の維持を可能とした処理可能となり、高精度なテキストマイニングが実現される。
【選択図】 図1

Description

本発明は、文書データの解析による文書分類、文書の特徴抽出などデータマイニング処理を実行する文書解析装置、および文書解析方法、並びにコンピュータ・プログラムに関する。特に、最適な単語の組(タームペア)の抽出を実行し、高精度なデータマイニングを実現する文書解析装置、および文書解析方法、並びにコンピュータ・プログラムに関する。
大量の情報が流通している情報産業界では、効率的で精度の高いデータの分類方法や装置が求められている。近年、例えばデータベースに蓄積された文書データの分類処理、重要単語の抽出、単語間の関連抽出など、様々なテキストマイニング技術が提案されている。
例えば、非特許文献1および非特許文献2には、テキストデータを解析処理の対象とし、市場調査などに有効利用可能なテキストマイニング技術を開示している。また、非特許文献3には、文章を単語に分解するソフトウェアを開示している。また、非特許文献4には、文章に含まれる単語の相関関係を示す規則(相関規則;相関ルール)を求める方法が開示されており、さらに、非特許文献5には、相関規則を求めるソフトウェア(Apriori)が開示されている。また、非特許文献6には、テキストの集合からその特徴を抽出するソフトウェア(Aleph)が開示されている。また、非特許文献7には、日本語分の単語の係り受け関係(例えば、主語と動詞、動詞と目的語・補語)を解析するためのソフトウェア(CaboCha)が開示されている。
データマイニングは、例えば、コンピュータやOA機器のメーカー・商社などに設けられたユーザの相談を受け付ける部門として設けられるコールセンターの受領した相談内容解析処理などにおいて適用される。コールセンターの受領するユーザの相談には、製品開発のためのヒントが多く含まれるが、ユーザと製品開発者との間で、文章に用いる言葉が違うことがある。従って、コールセンターが受け付けた相談をデータベース化しても、製品開発者が、ユーザが相談に用いる言葉を知らなければ、有用な情報を上手く引き出すことができない。
このような問題点に対し、例えば、非特許文献8,9は、コールセンターで受け付けられたテキストに対して、単語間の相関の抽出を行うことにより、テキストに基づく有用な知識を得る手法を開示している。
一般的なテキストマイニング処理においては、解析処理対象となるテキストデータを構成する文章(センテンス)に基づいて生成する係り受け関係を考慮した構文木から係り受け関係にある単語の組(タームペア)の抽出を実行し、この単語の組を入力として意味ある相関ルールの発見・抽出を行っている。従って、タームペア(単語の組)の選択精度がテキストマイニングの有効性を左右することになる。すなわち、テキストマイニングの前処理プロセスとして実行されるタームペア選択処理においては、オリジナルテキストからのノイズ除去と、オリジナルテキストに含まれる重要な情報をいかに残すかということが重要となる。
これまでのタームペア(単語の組)の選択においては、[名詞と動詞]など特定の品詞関係を持ち、さらに直接的な係り受け関係にあるタームペア(単語の組)のみの選択を実行していた。しかし、このような品詞限定型の系列データ抽出処理を実行すると、本来、意味を解釈できるにもかかわらず、文章の意味を発見・抽出することが出来ないという問題が発生する。
特集「テキストマイニング」,人工知能学会誌 vol.16, No.2, 2001 特集「ナレッジ・マネージメントとその支援技術」,人工知能学会誌 vol.16, No.1, 2001 http://chasen.aist−nara.ac.jp/index.html.ja データマイニング(データサイエンス・シリーズ3,福田他、共立出版社(2001年9月1日初版第1刷),ISBN−4−320−12002−7) http://fuzzy.cs.uni−magdeburg.de/〜borgelt/apriori/ http://web.comlab.ox.ac.uk/oucl/research/areas/machlearn/Aleph/ http://cl.aist−nara.ac.jp/〜taku−ku/software/cabocha/ コールセンターにおけるテキストマイニング(人工知能学会誌16巻2号、p220〜225、那須川) テキストマイニング:膨大な文章データからの知識獲得−意図の認識−(情報処理学会第57回(平成10年後期)全国大会予稿;3−75、那須川他)
本発明は、上述の問題点に鑑みてなされたものであり、テキストマイニングにおいて適用するタームペア(単語の組)の選択処理において、オリジナルテキストからのノイズ除去と、オリジナルテキストに含まれる重要な情報の維持を可能とした処理を実現し、高精度なテキストマイニングを可能とする文書解析装置、および文書解析方法、並びにコンピュータ・プログラムを提供することを目的とする。
本発明は、詳細には、タームペア(単語の組)の選択処理において、形態素解析処理部の出力データに含まれる単語の品詞の対応が[名詞、動詞]のみならず、[名詞、動詞]、[名詞、目的語]、[目的語、動詞]、[名詞、名詞]、[形容詞、名詞]、[形容詞、目的語]、[形容詞、動詞]のいずれかの関係を持つ単語の組をタームペアとして全て選択することで、オリジナルテキストに含まれる重要な情報の維持を可能とした処理を実現し、高精度なテキストマイニングを可能とする文書解析装置、および文書解析方法、並びにコンピュータ・プログラムを提供することを目的とする。
本発明の第1の側面は、文書解析装置であり、解析処理対象のテキストデータを入力し形態素解析を実行する形態素解析処理部と、前記形態素解析処理部からの出力データに基づいて、単語の組データとしてのタームペアを選択するタームペア選択部と、前記タームペア選択部において選択されたタームペアに基づくルール検出を実行するルール検出部とを有し、前記タームペア選択部は、前記形態素解析処理部の出力データに含まれる単語の品詞に基づいて、直接的な係り受け関係の有無に関わらず、予め設定された品詞関係にある単語の組の全てを抽出する処理を実行する構成を有することを特徴とする文書解析装置にある。
本構成によれば、オリジナルテキストからのノイズ除去と、オリジナルテキストに含まれる重要な情報の維持を可能としたタームペア選択処理が実現され、高精度なテキストマイニングが可能となる。
さらに、本発明の文書解析装置の一実施態様において、前記タームペア選択部は、前記形態素解析処理部の出力データに含まれる単語の品詞に基づいて、[名詞、動詞]、[名詞、目的語]、[目的語、動詞]、[名詞、名詞]、[形容詞、名詞]、[形容詞、目的語]、[形容詞、動詞]のいずれかの関係を持つ単語の組をタームペアとして選択する処理を実行する構成であることを特徴とする。
本構成によれば、従来の[名詞,動詞]など特定の品詞関係にあるタームペアのみならず、多くの品詞関係にあるタームペアの抽出が可能となり、オリジナルテキストに含まれる重要な情報の維持を可能としたタームペア選択処理が実現され、高精度なテキストマイニングが可能となる。
さらに、本発明の文書解析装置の一実施態様において、前記文書解析装置は、さらに、前記形態素解析処理部から出力される単語から不要単語を機械学習システムに基づいて削除する処理を実行する不要ワード削除処理部を有し、前記タームペア選択部は、前記不要ワード削除処理部において削除された単語を除く単語に基づいて、タームペアの選択処理を実行する構成であることを特徴とする。
本構成によれば、タームペア選択部において実行するタームペア選択処理を、機械学習システムに基づいて不要ワードを削除した残りのデータに対して実行することが可能となり、効率的な処理が実現される。
さらに、本発明の文書解析装置の一実施態様において、前記形態素解析処理部は、nグラム解析処理に基づく生成辞書に従ったテキスト解析において抽出された特定品詞列データを辞書に再登録して生成した辞書を適用した形態素解析処理を実行する構成であることを特徴とする。
本構成によれば、例えば日本語のように、単語抽出が困難な構成を持つデータにおいても、テキスト対応の辞書の生成が可能となるので、的確な単語抽出が実現される。
さらに、本発明の第2の側面は、文書解析方法であり、解析処理対象のテキストデータを入力し形態素解析を実行する形態素解析処理ステップと、前記形態素解析処理ステップにおける生成データに基づいて、単語の組データとしてのタームペアを選択するタームペア選択ステップと、前記タームペア選択ステップにおいて選択されたタームペアに基づくルール検出を実行するルール検出ステップとを有し、前記タームペア選択ステップは、前記形態素解析処理ステップの生成データに含まれる単語の品詞に基づいて、直接的な係り受け関係の有無に関わらず、予め設定された品詞関係にある単語の組の全てを抽出する処理を実行することを特徴とする文書解析方法にある。
本構成によれば、オリジナルテキストからのノイズ除去と、オリジナルテキストに含まれる重要な情報の維持を可能としたタームペア選択処理が実現され、高精度なテキストマイニングが可能となる。
さらに、本発明の文書解析方法の一実施態様において、前記タームペア選択ステップは、前記形態素解析処理ステップの生成データに含まれる単語の品詞に基づいて、[名詞、動詞]、[名詞、目的語]、[目的語、動詞]、[名詞、名詞]、[形容詞、名詞]、[形容詞、目的語]、[形容詞、動詞]のいずれかの関係を持つ単語の組をタームペアとして選択する処理を実行することを特徴とする。
本構成によれば、従来の[名詞,動詞]など特定の品詞関係にあるタームペアのみならず、多くの品詞関係にあるタームペアの抽出が可能となり、オリジナルテキストに含まれる重要な情報の維持を可能としたタームペア選択処理が実現され、高精度なテキストマイニングが可能となる。
さらに、本発明の文書解析方法の一実施態様において、前記文書解析方法は、さらに、前記形態素解析処理ステップの生成するデータに含まれる単語から不要単語を機械学習システムに基づいて削除する処理を実行する不要ワード削除処理ステップを有し、前記タームペア選択ステップは、前記不要ワード削除処理ステップにおいて削除された単語を除く単語に基づいて、タームペアの選択処理を実行することを特徴とする。
本構成によれば、タームペア選択部において実行するタームペア選択処理を、機械学習システムに基づいて不要ワードを削除した残りのデータに対して実行することが可能となり、効率的な処理が実現される。
さらに、本発明の文書解析方法の一実施態様において、前記形態素解析処理ステップは、nグラム解析処理に基づく生成辞書に従ったテキスト解析において抽出された特定品詞列データを辞書に再登録して生成した辞書を適用した形態素解析処理を実行するステップを含むことを特徴とする。
本構成によれば、例えば日本語のように、単語抽出が困難な構成を持つデータにおいても、テキスト対応の辞書の生成が可能となるので、的確な単語抽出が実現される。
さらに、本発明の第3の側面は、文書解析処理を実行するコンピュータ・プログラムであり、解析処理対象のテキストデータを入力し形態素解析を実行する形態素解析処理ステップと、前記形態素解析処理ステップにおける生成データに基づいて、単語の組データとしてのタームペアを選択するタームペア選択ステップと、前記タームペア選択ステップにおいて選択されたタームペアに基づくルール検出を実行するルール検出ステップとを有し、前記タームペア選択ステップは、前記形態素解析処理ステップの生成データに含まれる単語の品詞に基づいて、直接的な係り受け関係の有無に関わらず、予め設定された品詞関係にある単語の組の全てを抽出する処理を実行するステップとして設定されていることを特徴とするコンピュータ・プログラムにある。
本構成によれば、オリジナルテキストからのノイズ除去と、オリジナルテキストに含まれる重要な情報の維持を可能としたタームペア選択処理が実現され、高精度なテキストマイニングが可能となる。
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータシステムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、CDやFD、MOなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータシステム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の構成によれば、形態素解析処理部からの出力データに基づいて単語の組データとしてのタームペアを選択するタームペア選択部において、直接的な係り受け関係の有無に関わらず、予め設定された品詞関係にある単語の組の全てをタームペアとして抽出する処理を実行する構成とし、このタームペアに基づくルール生成処理を行なう構成としたので、オリジナルテキストに含まれる重要な情報の維持を可能とした処理可能となり、高精度なテキストマイニングが実現される。
本発明の構成によれば、テキストマイニングにおいて適用するタームペア(単語の組)の選択処理において、形態素解析処理部の出力データに含まれる単語の品詞の対応が[名詞、動詞]のみならず、[名詞、動詞]、[名詞、目的語]、[目的語、動詞]、[名詞、名詞]、[形容詞、名詞]、[形容詞、目的語]、[形容詞、動詞]のいずれかの関係を持つ単語の組をタームペアとして全て選択する構成としたので、オリジナルテキストに含まれる重要な情報の維持を可能とした処理可能となり、高精度なテキストマイニングが実現される。
以下、図面を参照しながら本発明の文書解析装置、および文書解析方法、並びにコンピュータ・プログラムの詳細について説明する。
まず、図1に示すフローチャートを参照しては本発明の文書解析処理手順について説明する。本発明の文書解析処理は、以下の4つのステップから構成される。
ステップS101:形態素解析の実行
ステップS102:不要単語の削除を実行
ステップS103:テキストをタームペア(単語の組)からなるアイテムに変換し、係り受け解析による有効タームペア(単語の組)としてのアイテム選択を実行
以下、これら3つのステップの詳細について、順次説明する。
[(1)形態素解析]
まず、ステップS101で実行する形態素解析処理について説明する。形態素解析は、解析対象となるテキスト201を入力し、テキスト201を構成するセンテンス(文書)を最小有意ユニットに分割する処理として実行される。なお、処理対象が日本語の場合には、このユニット分割における問題が存在する。すなわち、日本語は英語と異なり、単語間にスペースを設定することがないため、スペースに基づいて単語区分を行なうことができない。従って、解析エンジンによるユニット分割処理が困難となるという問題がある。
具体例について、図2を参照して説明する。図2に示すように、解析対象のテキストデータが、
「ニワニワニワトリガイル」というテキストデータである場合、ユニット分割による単語識別処理を行うと、
「ニワ/ニワ/ニワトリ/ガイル」というユニット分割に基づいて単語識別を行なうと、「庭には鶏がいる」という意味になる。一方、
「ニワ/ニワ/ニワ/トリ/ガイル」というユニット分割に基づいて単語識別を行なうと、「庭には二羽鳥がいる」という意味になる。このようにユニット分割の適用によって異なる意味の文書として解釈される。
一般的に、ユニット分割に基づいて単語識別を行なう場合、辞書が適用される。辞書の適用により、文書中に辞書に対応する単語(ワード)が出現した場合、これを抽出することが可能となる。辞書は、ユニット分割に基づく単語識別処理、いわゆるワードセグメンテーションにおける有効な情報ソースである。しかし、辞書によって、解析対象の文章(センテンス)を構成する各文字単位で解析を行なうことは処理が膨大となり、実質的に不可能である。これを解決する手法がnグラム解析である。
nグラム解析は、解析対象の文章(センテンス)の開始文字から終了文字までをn文字ずつに区切り、区切られたn文字毎に出現頻度の高いものを単語として識別する処理である。例えば、文献1「Nagao M., Mori, S.: A New Method of N-gram Statistics for Large Number of N and Automatic Extraction of Words and Phrases from Large Text Data of Japanese, Proc. COLING'94. 1994.」には、日本の新聞の記事データを解析対象としてn=6としたnグラム解析、すなわち、6グラム解析を実行した処理例が記載されている。この処理例では、解析に基づいて抽出された単語の上位40の出現頻度はすべて0.01%程度(値の小さいことが高精度であることを示す)であることが示されている。われわれの解析によれば、同一の新聞記事データをデータソースとして5グラム解析を実行した場合、抽出された単語の上位40の出現頻度は0.1%程度となることが分かった。
さらに、上記文献1は、日本語の文字種類の多さに起因する問題についても記述している。英語は26文字のアルファベットによって構成されるが、日本語は、4000〜5000の文字が存在し、例えば2グラム解析を行おうとした場合、抽出データとの照合処理のために4000×4000〜5000×5000のテーブルデータが必要となる。このように単純な統計学的な解析を行おうとすると膨大なテーブルデータが必要となるという問題がある。
そこで、本発明においては、図1に示すステップS101の形態素解析を図1に示すステップS101a〜cの各ステップによって実行することとした。すなわち、
[ステップS101−a]
処理対象テキスト201に対して、5グラム解析を実行し、出現頻度が0.1%以上のものを辞書に登録する。
[ステップS101−b]
入力テキスト201を辞書に従って単語(ワード)に区分する。ワード配列が、(名詞1/名詞2/・・・/名詞n/・・・/その他の品詞)の場合、名詞1〜/名詞nまでの連結データを辞書に登録する。
[ステップS101−c]
上記ステップにおいて生成した辞書を適用して形態素解析、すなわち、ユニット分割に基づく単語識別処理、いわゆるワードセグメンテーションを実行する。
なお、上述の例では、5グラム解析を適用したが、n=5以外の設定におけるnグラム解析を適用してもよい。このように、本発明の処理における形態素解析処理は、nグラム解析と処理テキストに基づく辞書の更新によって生成した辞書を適用して形態素解析を実行する。この結果として、ワード202が出力される。なお、区分ワードには、それぞれ名詞、動詞、目的語、形容詞、副詞、関係詞などの品詞タイプが属性情報として設定される。
[(2)不要ワードの削除]
次に、図1の処理フローにおけるステップS102の不要ワードの削除処理について説明する。図1のステップS101において、入力テキストに対して辞書を適用した単語識別処理を実行することで、テキストが複数の単語(ワード)に区分される。ステップS102においては、この単語中から不要な単語を除去する処理を実行する。
日本語には、単独では意味を持たない様々な単語が存在する。すなわち、これらの不要な単語は、内容を把握するために意味がないのみならず、抽出ワードに基づく意味解釈処理などにおいて誤解をもたらす場合があり、テキストマイニングの妨げになる。このようなことを防止するため不要単語の除去を実行する。この不要単語の除去処理には、例えばあらかじめ定めたルールに従って単語除去処理を実行する機械学習システムの適用が可能である。この不要単語の削除処理によって、抽出ワード203が出力される。
[(3)アイテム選択処理]
次に、図1の処理フローにおけるステップS103の不要アイテム選択処理について説明する。このステップでは、抽出ワード203を入力し、テキストをタームペア(単語の組)からなるアイテムに変換し、係り受け解析による有効タームペア(単語の組)としてのアイテムの選択を実行する。
単語(ワード)の組からなるアイテムセットの抽出は、ステップS102において生成した抽出ワード203に含まれる単語の関係を解析して実行される。すなわち、テキストを構成する2単語間の係り受け関係を解析する。この解析処理は係り受け解析とよばれ、テキスト解析手法の1つの有効な手段である。この係り受け解析は、例えば、単語の関係のタイプ分類処理を含む処理として実行される。単語は、「名詞」、「動詞」、「目的語」、「形容詞(副詞)」、「接続詞」、および「独立単語」のいずれかに分類される。
解析対象の文章(センテンス)は、以下に示すいずれかの品詞関係を持つ単語の組としてのアイテムに変換される。
[名詞、動詞]
[名詞、目的語]
[目的語、動詞]
[名詞、名詞]
[形容詞、名詞]
[形容詞、目的語]
[形容詞、動詞]
上記の品詞関係を持つ単語の組(タームペア)をアイテムと呼ぶ。複数のアイテムからなるアイテムセットを解析することにより、処理が効率化される。従来手法においては、図3に示すように、構文木から直接的な係り受け関係にある[名詞と動詞]、[形容詞、名詞]など特定の品詞関係を持つアイテムのみを抽出し、それを、例えば事前確信度と事後確信度の差により絞り込むなどの処理により意味ある相関ルールの発見・抽出を行っていた。
図3の例において、入力テキストは、例えば、
「父は赤い大きい車を買う」
であり、
この入力テキストに基づいて、形態素解析、不要単語の削除などが実行され、その結果として、[父]、[赤い]、[大きい]、[車]、[買う]の各単語が抽出ワードとして選定されたものである。この抽出ワードが係り受け関係の解析処理対象となる。
従来の処理において、構文木に基づく係り受け関係図は、図3(b)のように設定される。図3(b)の矢印で結ばれた品詞の組が、[名詞と動詞]、[形容詞、名詞]など特定の品詞関係を持ち、かつ直接的な係り受け関係にあるタームペア(単語の組)、すなわちアイテムとして選定される。この品詞関係を限定した限定的な係り受け関係の絞り込み処理を適用した場合、図3(c)に示すように、
[父,買う]
[車,買う]
[大きい,車]
[赤い,大きい]
の4つのタームペア(単語の組)、すなわちアイテムが抽出される。なお、アイテムは、系列データとも呼ばれる。
図3の例は、[名詞と動詞]、[形容詞、名詞]など特定の品詞関係を持ち値直接的な係り受け関係にあるタームペア(単語の組)の抽出処理によるものであるが、このような品詞限定型の系列データ抽出処理を実行すると、本来、意味を解釈できるにもかかわらず、文章の意味を発見・抽出することが出来ないという問題が存在する。
本発明では、図4(b)に示すように、拡張構文木に基づく係り受け関係図を設定する。すべての品詞関係、すなわち、上述した[名詞、動詞]、[名詞、目的語]、[目的語、動詞]、[名詞、名詞]、[形容詞、名詞]、[形容詞、目的語]、[形容詞、動詞]のすべての関係を持つタームペア(単語の組)を抽出するようにする。すなわち、図3を参照して説明した例のように、[名詞と動詞]、[形容詞、名詞]など特定の品詞関係を持ち直接的な係り受け関係にあるタームペアのみならず、品詞関係を拡張し、さらに直接的な係り受け関係にあるか否かにかかわらず、[名詞、動詞]、[名詞、目的語]、[目的語、動詞]、[名詞、名詞]、[形容詞、名詞]、[形容詞、目的語]、[形容詞、動詞]のいずれかの品詞関係を持つタームペア(単語の組)を抽出する。すなわち、図4(b)に示すように、拡張構文木に基づく係り受け関係図において弧で結ばれた全てのタームペア(単語の組)を選択する。
図4に示すように、単語間の品詞関係を拡張し、[名詞、動詞]、[名詞、目的語]、[目的語、動詞]、[名詞、名詞]、[形容詞、名詞]、[形容詞、目的語]、[形容詞、動詞]の品詞関係を持つ組を抽出した例では、抽出されるタームペア(単語の組)は、図4(c)に示すように、
[父,買う]
[車,買う]
[大きい,車]
[赤い,大きい]
[赤い,車]
[赤い,買う]
[大きい,買う]
の7つのタームペア(単語の組)となる。このタームペア(単語の組)は、直接的な係り受け関係を考慮せず、品詞関係が、[名詞、動詞]、[名詞、目的語]、[目的語、動詞]、[名詞、名詞]、[形容詞、名詞]、[形容詞、目的語]、[形容詞、動詞]のいずれかの品詞関係を持つ組を全て抽出したものである。このタームペア(単語の組)を適用して、さらに、例えば、最小支持率や、最小確信度を適用した絞込み処理や、事前確信度と事後確信度の差により絞り込むことにより意味ある相関ルールの発見・抽出が可能となる。このように、[名詞、動詞]のみ等、限定的な品詞関係を持つ係り受け関係の組に限定せず、単語間の品詞関係を拡張してタームペアの抽出を実行し、抽出したタームペアに基づくルール作成を行なうことで、本来、意味を解釈できるにもかかわらず、文章の意味を発見・抽出することが出来ないという問題が解決される。具体的なルール作成、検証処理例については後述する。
さらに、処理対象テキストが英文の場合の例を図5、図6を参照して説明する。処理対象テキストが、
[We simply compare small−size printer and big sizecopier]
であるとき、構文木は、図5(b)のように設定される。構文木の構成について説明する。上位階層から順次説明する。
センテンス(S)は名詞(N)=Weと動詞フレーズ(VP)に分離され、
動詞フレーズ(VP)は、副詞(Adv)と、動詞フレーズ(VP)に分離され、
動詞フレーズ(VP)は、動詞(V)と、名詞フレーズ(VP)に分離され、
名詞フレーズ(VP)は、2つの名詞フレーズ(VP)と関係詞(Conj)に分離され、
2つの名詞フレーズ(VP)はそれぞれ副詞(Adv)と名詞(N)に分離される。
この構文木に基づく係り受け関係図を図6(c)に示す。図6(c)に示す係り受け関係図を適用し、特定品詞関係として[名詞,動詞]および[名詞,名詞]関係にあり、直接的な係り受け関係にある単語の組を抽出した場合のタームペア(単語の組)が図6(d)の(1)に示すタームペア(単語の組)である。
すなわち、{(compare,we),(compare,printer),(printer,copier)}の3つのタームペア(単語の組)が抽出される。
一方、[名詞,動詞]および[名詞,名詞]関係のみならず、上述した[名詞、動詞]、[名詞、目的語]、[目的語、動詞]、[名詞、名詞]、[形容詞、名詞]、[形容詞、目的語]、[形容詞、動詞]のいずれかの関係にあり、さらに直接的な係り受け関係にある単語に限らないタームペア(単語の組)の抽出を実行した場合には、図6(d)の(2)に示すタームペア(単語の組)が抽出される。
すなわち、{(compare,we),(compare,simply),(compare,printer),(small−size,printer),(printer,copier),(big−size,copier),(compare,copier),(small−size,copier)}の7つのタームペア(単語の組)が抽出される。
このように、特定の品詞関係を持つ係り受け関係にある組に限定せず、単語間の品詞関係を拡張してタームペア(単語の組)の抽出を実行することで、本来、意味を解釈できるにもかかわらず、文章の意味を発見・抽出することが出来ないという問題が解決される。
上述した品詞拡張型のタームペア(単語の組)抽出処理を実行することで、より的確に文章(センテンス)の意味を把握することが可能となるが、一方、意味の把握などに不要なタームペア(単語の組)が抽出される可能性も高い。そこで、図1のステップS103では不要タームの除去処理を実行する。例えば図5、図6を参照して説明した例において、図6(d)の(2)に示す系列データ中、(compare,simply)は、文章の意味の把握において重要でないと判断され、これらのタームの除去を実行する。このターム除去処理によって解析処理における計算量の削減が可能となる。この処理の結果として選択タームペア204が出力され、この選択タームペア204を適用した解析処理が実行される。
[2.本発明の適用処理具体例]
次に、上述した本発明に従ってテキストから取得したタームペアを適用したテキストマイニング処理の具体的処理例について説明する。上述したタームペア(単語の組)の選択精度がテキストマイニングの有効性を左右することになる。すなわち、テキストマイニングの前処理プロセスとしてのタームペア選択処理においては、オリジナルテキストからのノイズ除去と、オリジナルテキストに含まれる重要な情報をいかに残すかということが重要となる。
以下、テキストマイニングにおいて適用される既存の前処理アルゴリズムによって選択されたタームペアを適用したルール抽出処理と、上述した本発明の処理によって選択されたタームペアを適用したルール抽出処理との対比を行ないながら、本発明の処理の有効性について検証する。
図7は、同一の処理対象テキストに対して、それぞれ異なった処理アルゴリズムに従ったタームペア選出処理としてのプリプロセスを実行した場合の結果を比較したテーブルである。以下に説明する(1)〜(4)の異なる前処理アルゴリズムを実行した場合に抽出されるタームペア(単語の組)としての[全アイテム数]と、[1アイテムあたりの平均アイテム数]と、[個別アイテム数]とを示している。[1アイテムあたりの平均アイテム数]とは1つの同じ種類のアイテムについて抽出された数であり、[個別アイテム数]は抽出された異なるアイテムの数、すなわちアイテム種類の数を示している。なお、アイテム=タームペア(単語の組)である。
図7において、各プリプロセスアルゴリズムは、
(1)テキストセグメンテーションのみを実行した場合
(2)係り受け関係を持つ全アイテムの抽出を実行した場合
(3)本発明に従ったアイテム選択処理を実行した場合
(4)品詞限定手法に従ったアイテム選択処理を実行した場合
である。
図7のテーブルから理解されるように、(2)係り受け関係を持つ全アイテムの抽出を実行した場合には、(1)テキストセグメンテーションのみを実行した場合に比較して、全アイテム数が約58%削減され、1アイテムあたりの平均アイテム数においては約25%削減されている。しかし、個別アイテム数については、約3.7倍に増加している。また、(3)本発明に従ったアイテム選択処理を実行した場合、(2)係り受け関係を持つ全アイテムの抽出を実行した場合に比較して、全アイテム数が約4%削減され、1アイテムあたりの平均アイテム数においては約20%改善されている。また、個別アイテム数については、約96%になり、わずかな減少を示している。
また、(3)本発明に従ったアイテム選択処理を実行した場合、(1)テキストセグメンテーションのみを実行した場合と比較すると、全アイテム数が約60%削減され、1アイテムあたりの平均アイテム数においては約40%削減されている。しかし、個別アイテム数については、約3.6倍に増加している。
さらに、(4)品詞限定手法に従ったアイテム選択処理を実行した場合、(1)テキストセグメンテーションのみを実行した場合と比較すると、全アイテム数が約84%削減され、一方、個別アイテム数については、約150%に増加している。また、(4)品詞限定手法に従ったアイテム選択処理を実行した場合、(3)本発明に従ったアイテム選択処理を実行した場合と比較すると、個別アイテム数については、約42%削減されている。
この図7に示すテーブルのみからは、(4)品詞限定手法に従ったアイテム選択処理を実行した場合が最も優れているように判定され得るが、さらにこれらの各アルゴリズムに従った処理において抽出されたタームがテキストの作者の意図に対応したデータであるかの検証を行なった。
上記(1)〜(4)の異なるアルゴリズムによって生成されるアイテムシーケンスに対して、相関規則(ルール)を求めるソフトウェア(Apriori)を適用して、最小支持率(minimum support)=0.25%、最小確信度(minimum confidence)=80%の設定でルールを抽出し、抽出ルールの評価を実行した。評価結果を図8に示す。
図8は、(1)〜(4)の異なるアルゴリズムによって生成されるアイテムシーケンスに対するルール抽出の結果を示すテーブルであり、(1)〜(4)のそれぞれのアイテムシーケンスに対して抽出された[全ルール数]、[有意ルール数]、[作者の意図を反映したルール数]を示している。
(1)テキストセグメンテーションのみを実行した場合、[全ルール数]に占める[有意ルール数]の割合は約48%であり、62%がオリジナル文書の再構築に適用できない意味のないルールであった。さらに、[作者の意図を反映したルール数]は0であり、全く抽出できなかった。
(2)係り受け関係を持つ全アイテムの抽出を実行した場合には、(1)テキストセグメンテーションのみを実行した場合に比較すると、[全ルール数]は約0.1%に減少し、そのうち約81%が[有意ルール数]であった。また、約57%が[作者の意図を反映したルール数]として抽出できた。
(3)本発明に従ったアイテム選択処理を実行した場合、(2)係り受け関係を持つ全アイテムの抽出を実行した場合に比較すると、[全ルール数]は約86%に減少し、そのうち約89%が[有意ルール数]であり、約63%が[作者の意図を反映したルール数]として抽出できた。
(4)品詞限定手法に従ったアイテム選択処理を実行した場合、(1)テキストセグメンテーションのみを実行した場合に比較すると、[全ルール数]は約0.008%に減少している。これは、(3)本発明に従ったアイテム選択処理を実行した場合のわずか9%にすぎない。抽出全ルール数における約75%が[作者の意図を反映したルール数]であった。
このように、(4)品詞限定手法に従ったアイテム選択処理を実行した場合には、
[作者の意図を反映したルール]が効率よく抽出できず、(3)本発明に従ったアイテム選択処理を実行した場合には、[作者の意図を反映したルール]を効率よく抽出できる。
図9は、(1)〜(4)の異なるアルゴリズムによって生成されるアイテムシーケンスに対するルール抽出の結果を示すテーブルであり、相関規則(ルール)を求めるソフトウェア(Apriori)を適用して、最小支持率(minimum support)=0.25%〜1.50%、最小確信度(minimum confidence)=0〜100%の複数の設定で、抽出された[全ルール数]を示すテーブルである。
図9に示すテーブルから理解されるように、(1)テキストセグメンテーションのみを実行した場合、例えば、最小支持率=1.5%、最小確信度=100%の設定では、321のルールが抽出された。一方、(4)品詞限定手法に従ったアイテム選択処理を実行した場合には、最小支持率=0.25%、最小確信度=0%の設定でも、231のみのルール抽出しか実現されていない。
(2)係り受け関係を持つ全アイテムの抽出を実行した場合、最小支持率を0.25%から0.5%に増加させると、抽出ルールは、約1/10に減少し、さらに最小支持率を0.75%に増加させると、抽出ルールは、さらに約1/3に減少する。しかし、さらに最小支持率を増加させても抽出ルール数の大きな減少は発生しない。
(3)本発明に従ったアイテム選択処理を実行した場合には、(2)係り受け関係を持つ全アイテムの抽出を実行した場合に比較すると、最小指示率=0.25%の場合において、約16%の減少がみられるが、その他の最小指示率の場合には、ほぼ同様の値となっている。
上述した各種解析の結果をまとめて説明する。図10には、最小支持率=0.25%、最小確信度=100%の設定における(1)〜(4)のアルゴリズムに従った処理によって抽出される[全ルール数]、[有意ルール数とその割合]、および[作者の意図を反映したルール数およびその割合]を表として示した。
(3)本発明に従ったアイテム選択処理を実行した場合は、最小支持率=0.25%、最小確信度=100%の設定において、(1)テキストセグメンテーションのみを実行した場合に比較すると、抽出される[全ルール数]は約0.1%に減少するが、(1)テキストセグメンテーションのみを実行した場合の[全ルール数]に占める[有意ルール数]の割合が38%であったのに対し、(3)本発明に従ったアイテム選択処理を実行した場合は、[全ルール数]に占める[有意ルール数]の割合が89%に上昇する。
さらに、(1)テキストセグメンテーションのみを実行した場合の[全ルール数]に占める[作者の意図を反映したルール数]の割合が0%であったのに対し、(3)本発明に従ったアイテム選択処理を実行した場合は、[全ルール数]に占める[作者の意図を反映したルール数]の割合が63%に上昇する。
同様に、最小支持率=0.25%、最小確信度=100%の設定において、(2)係り受け関係を持つ全アイテムの抽出を実行した場合の抽出される[全ルール数]は、(3)本発明に従ったアイテム選択処理を実行した場合に抽出される[全ルール数]より63多いが、(2)係り受け関係を持つ全アイテムの抽出を実行した場合、[全ルール数]に占める[有意ルール数]の割合は約81%であり、さらに、[作者の意図を反映したルール数]の割合は約57%である。
また、最小支持率=0.25%、最小確信度=100%の設定において、(4)品詞限定手法に従ったアイテム選択処理を実行した場合、抽出される[全ルール数]は、36のみであり、そのうち[作者の意図を反映したルール数]の割合は約75%となる。
(3)本発明に従ったアイテム選択処理は、近接した直接係り受け関係にある[名詞,動詞]のみならず、これら以外の近接しない係り受け関係のタームを除去することのないアイテム(タームペア)選択を実行した結果、オリジナルテキストからのノイズ除去と、オリジナルテキストに含まれる重要な情報の残存性が高まり、アイテム(タームペア)に基づくルール設定により、高精度なオリジナル文章の意味の発見・抽出が可能となる。
次に、図11を参照して、本発明の文書解析装置の構成について説明する。図11に示すように、文書解析装置300は、タームペア選択処理として実行されるプリプロセス実行部310と、プリプロセス実行部310において抽出したタームペアを適用したルール検出を実行するルール検出部320とを有する。
プリプロセス実行部310は、形態祖解析処理部311、不要ワード削除処理部312、タームペア選択部313を有し、ルール検出部320は相関ルール作成部321、相関ルール絞込み部322を有する。
プリプロセス実行部310における、形態素解析処理部311、不要ワード削除処理部312、タームペア選択部313の各構成部は、それぞれ図1におけるステップS101、S102、S103の処理を実行する。
形態素解析処理部311は、テキストデータを入力し、形態素解析を実行する。なお、この形態素解析においては辞書を適用したユニット分割に基づく単語識別処理、いわゆるワードセグメンテーションを行なうが、前述したように、適用する辞書は、入力テキストに対するnグラム解析を実行し、出現頻度が所定閾値(例えば0.1%)以上のものを辞書に登録し、さらに、辞書に従った単語(ワード)区分を実行し、ワード配列が、あらかじめ定めた特定配列に該当する場合、例えば、(名詞1/名詞2/・・・/名詞n/・・・/その他の品詞)の場合、その特定配列データ(名詞1〜/名詞nまでの連結データ)を辞書に登録することによって生成した辞書である。
不要ワード削除処理部312は、形態素解析処理部311の出力したワード情報から不要ワードを削除する処理を実行する。前述したように、テキスト中には、単独では意味を持たない様々な単語が存在する。すなわち、これらの不要な単語は、内容を把握するために意味がないのみならず、抽出ワードに基づく意味解釈処理などにおいて誤解をもたらす場合があり、テキストマイニングの妨げになる。このようなことを防止するため不要単語の除去を実行する。この不要単語の除去処理には、例えばあらかじめ定めたルールに従って単語除去処理を実行する機械学習システムの適用が可能である。この不要単語の削除処理によって、抽出ワードがタームペア選択部313に出力される。
タームペア選択部313は、前述したように、品詞関係を拡張し、かつ直接的な係り受け関係の有無に関わらないタームペアの抽出処理を実行する。具体的には、先に図4、図6等を参照して説明したように、[名詞、動詞]、[名詞、目的語]、[目的語、動詞]、[名詞、名詞]、[形容詞、名詞]、[形容詞、目的語]、[形容詞、動詞]のいずれかの関係を持つタームペア(単語の組)を抽出する。なお、このタームペア選択部313では、文章の意味の把握において重要でないと判断される不要なタームペアの除去を実行する。
タームペア選択部313で選択されたタームペア、すなわちアイテムに基づいて、ルール検出部320においてルールの抽出処理が実行される。まず、相関ルール作成部321において、入力タームペアに基づくルールが作成され、さらに、相関ルール絞込み部322においてルールの絞込みが実行され、解析結果が出力される。このルール検出部320の処理は従来の手法が適用され、前述したように、例えば、相関ルール作成部321では、相関規則(ルール)を求めるソフトウェア(Apriori)を適用してルールが生成され、相関ルール絞込み部322では、最小支持率や、最小確信度を適用した処理、事前確信度と事後確信度の差によるルール絞り込み処理が実行され、解析結果が出力される。
次に、上述した文書解析装置のハードウェア構成例について、図12を参照して説明する。
CPU(Central Processing Unit)501は、OS(Operating System)、通信制御プログラム、図1他を参照して説明したタームペアの選択処理、ルール生成、絞込み処理プログラム等、各種コンピュータ・プログラムに従った処理を実行する制御部である。
ROM(Read Only Memory)502は、CPU501が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)503は、CPU501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス504により相互に接続されている。
ホストバス504は、ブリッジ505を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス506に接続されている。
キーボード508、ポインティングデバイス509は、ユーザにより操作される入力デバイスである。ディスプレイ510は、液晶表示装置またはCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージで表示する。
HDD(Hard Disk Drive)511は、ハードディスクを内臓し、ハードディスクを駆動し、CPU501によって実行するプログラムや情報を記録または再生させる。ハードディスクは、処理対象となるデータ、例えばテキストデータ、具体的には、コールセンターにおいて集積されたテキストデータなどの処理対象データが格納される。また、図1他を参照して説明したタームペア選択等のデータ処理を実行するプログラム等、各種コンピュータ・プログラムが格納される。
ドライブ512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース507、外部バス506、ブリッジ505、およびホストバス504を介して接続されているRAM503に供給する。
接続ポート514は、外部接続機器522を接続するポートであり、USB,IEEE1394等の接続部を持つ。接続ポート514は、インタフェース507、および外部バス506、ブリッジ505、ホストバス504等を介してCPU501等に接続されている。通信部515は、ネットワークに接続され、CPU501、またはHDD511等からの供給データの送信、データ受信を実行する。
なお、図12に示すデータ分類処理装置のハードウェア構成例は、例えばPCを適用して構成した文書解析装置の一例であり、本発明の文書解析装置は、図12に示す構成に限らず、図11に示す処理ブロックに対応する構成が実現され、図1に示すフローチャートに従った処理を実行可能な構成であればよい。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、冒頭に記載した特許請求の範囲の欄を参酌すべきである。
なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
例えば、プログラムは記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の構成によれば、形態素解析処理部からの出力データに基づいて単語の組データとしてのタームペアを選択するタームペア選択部において、直接的な係り受け関係の有無に関わらず、予め設定された品詞関係にある単語の組の全てをタームペアとして抽出する処理を実行する構成とし、このタームペアに基づくルール生成処理を行なう構成としたので、オリジナルテキストに含まれる重要な情報の維持を可能とした処理可能となり、高精度なテキストマイニングが実現される。
本発明の構成によれば、テキストマイニングにおいて適用するタームペア(単語の組)の選択処理において、形態素解析処理部の出力データに含まれる単語の品詞の対応が[名詞、動詞]のみならず、[名詞、動詞]、[名詞、目的語]、[目的語、動詞]、[名詞、名詞]、[形容詞、名詞]、[形容詞、目的語]、[形容詞、動詞]のいずれかの関係を持つ単語の組をタームペアとして全て選択する構成としたので、オリジナルテキストに含まれる重要な情報の維持を可能とした処理可能となり、高精度なテキストマイニングが実現される。
本発明に係る文書解析処理の処理手順を説明するフローチャートを示す図である。 日本語における形態素解析処理における問題点を説明する図である。 タームペア(系列データ)の出力例を説明する図である。 本発明の文書解析処理を適用したタームペア(系列データ)の出力例を説明する図である。 英文テキストにおける構文木設定例について説明する図である。 英文テキストに対するタームペア(系列データ)の出力例を説明する図である。 本発明を適用したアイテム抽出処理と、既存アルゴリズムにおける抽出アイテム処理の比較テーブルを示す図である。 本発明を適用して抽出したアイテムと、既存アルゴリズムにおける抽出アイテムに基づいて設定されるルールの比較テーブルを示す図である。 本発明を適用して抽出したアイテムと、既存アルゴリズムにおける抽出アイテムに基づいて設定されるルールの比較テーブルを示す図である。 本発明を適用して抽出したアイテムと、既存アルゴリズムにおける抽出アイテムに基づいて設定されるルールの比較テーブルを示す図である。 本発明に係る文書解析装置の構成を示すブロック図である。 本発明に係る文書解析装置のハードウェア構成例について説明する図である。
符号の説明
201 テキスト
202 ワード
203 抽出ワード
204 抽出タームペア
300 文書解析装置
310 プリプロセス実行部
311 形態素解析処理部
312 不要ワード削除処理部
313 タームペア選択部
320 ルール検出部
321 相関ルール作成部
322 相関ルール絞込み部
501 CPU(Central processing Unit)
502 ROM(Read-Only-Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 キーボード
509 ポインティングデバイス
510 ディスプレイ
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器

Claims (9)

  1. 文書解析装置であり、
    解析処理対象のテキストデータを入力し形態素解析を実行する形態素解析処理部と、
    前記形態素解析処理部からの出力データに基づいて、単語の組データとしてのタームペアを選択するタームペア選択部と、
    前記タームペア選択部において選択されたタームペアに基づくルール検出を実行するルール検出部とを有し、
    前記タームペア選択部は、
    前記形態素解析処理部の出力データに含まれる単語の品詞に基づいて、直接的な係り受け関係の有無に関わらず、予め設定された品詞関係にある単語の組の全てを抽出する処理を実行する構成を有することを特徴とする文書解析装置。
  2. 前記タームペア選択部は、
    前記形態素解析処理部の出力データに含まれる単語の品詞に基づいて、[名詞、動詞]、[名詞、目的語]、[目的語、動詞]、[名詞、名詞]、[形容詞、名詞]、[形容詞、目的語]、[形容詞、動詞]のいずれかの関係を持つ単語の組をタームペアとして選択する処理を実行する構成であることを特徴とする請求項1に記載の文書解析装置。
  3. 前記文書解析装置は、さらに、
    前記形態素解析処理部から出力される単語から不要単語を機械学習システムに基づいて削除する処理を実行する不要ワード削除処理部を有し、
    前記タームペア選択部は、
    前記不要ワード削除処理部において削除された単語を除く単語に基づいて、タームペアの選択処理を実行する構成であることを特徴とする請求項1に記載の文書解析装置。
  4. 前記形態素解析処理部は、
    nグラム解析処理に基づく生成辞書に従ったテキスト解析において抽出された特定品詞列データを辞書に再登録して生成した辞書を適用した形態素解析処理を実行する構成であることを特徴とする請求項1に記載の文書解析装置。
  5. 文書解析方法であり、
    解析処理対象のテキストデータを入力し形態素解析を実行する形態素解析処理ステップと、
    前記形態素解析処理ステップにおける生成データに基づいて、単語の組データとしてのタームペアを選択するタームペア選択ステップと、
    前記タームペア選択ステップにおいて選択されたタームペアに基づくルール検出を実行するルール検出ステップとを有し、
    前記タームペア選択ステップは、
    前記形態素解析処理ステップの生成データに含まれる単語の品詞に基づいて、直接的な係り受け関係の有無に関わらず、予め設定された品詞関係にある単語の組の全てを抽出する処理を実行することを特徴とする文書解析方法。
  6. 前記タームペア選択ステップは、
    前記形態素解析処理ステップの生成データに含まれる単語の品詞に基づいて、[名詞、動詞]、[名詞、目的語]、[目的語、動詞]、[名詞、名詞]、[形容詞、名詞]、[形容詞、目的語]、[形容詞、動詞]のいずれかの関係を持つ単語の組をタームペアとして選択する処理を実行することを特徴とする請求項5に記載の文書解析方法。
  7. 前記文書解析方法は、さらに、
    前記形態素解析処理ステップの生成するデータに含まれる単語から不要単語を機械学習システムに基づいて削除する処理を実行する不要ワード削除処理ステップを有し、
    前記タームペア選択ステップは、
    前記不要ワード削除処理ステップにおいて削除された単語を除く単語に基づいて、タームペアの選択処理を実行することを特徴とする請求項5に記載の文書解析方法。
  8. 前記形態素解析処理ステップは、
    nグラム解析処理に基づく生成辞書に従ったテキスト解析において抽出された特定品詞列データを辞書に再登録して生成した辞書を適用した形態素解析処理を実行するステップを含むことを特徴とする請求項5に記載の文書解析方法。
  9. 文書解析処理を実行するコンピュータ・プログラムであり、
    解析処理対象のテキストデータを入力し形態素解析を実行する形態素解析処理ステップと、
    前記形態素解析処理ステップにおける生成データに基づいて、単語の組データとしてのタームペアを選択するタームペア選択ステップと、
    前記タームペア選択ステップにおいて選択されたタームペアに基づくルール検出を実行するルール検出ステップとを有し、
    前記タームペア選択ステップは、
    前記形態素解析処理ステップの生成データに含まれる単語の品詞に基づいて、直接的な係り受け関係の有無に関わらず、予め設定された品詞関係にある単語の組の全てを抽出する処理を実行するステップとして設定されていることを特徴とするコンピュータ・プログラム。
JP2004205617A 2004-07-13 2004-07-13 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム Pending JP2006031143A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004205617A JP2006031143A (ja) 2004-07-13 2004-07-13 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004205617A JP2006031143A (ja) 2004-07-13 2004-07-13 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム

Publications (1)

Publication Number Publication Date
JP2006031143A true JP2006031143A (ja) 2006-02-02

Family

ID=35897454

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004205617A Pending JP2006031143A (ja) 2004-07-13 2004-07-13 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム

Country Status (1)

Country Link
JP (1) JP2006031143A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145844A (ja) * 2010-01-14 2011-07-28 Nippon Telegr & Teleph Corp <Ntt> 述部機能表現正規化方法、その装置及びプログラム
CN105786928A (zh) * 2014-12-26 2016-07-20 北大医疗信息技术有限公司 医疗系统数据查询方法和医疗系统数据查询系统
KR20190020643A (ko) * 2017-05-05 2019-03-04 핑안 테크놀로지 (션젼) 컴퍼니 리미티드 정보 마이닝 방법, 시스템, 전자장치 및 판독 가능한 저장매체
CN112381143A (zh) * 2020-11-13 2021-02-19 长城计算机软件与系统有限公司 基于机器学习的变量自动分类方法及系统
CN113536766A (zh) * 2020-04-16 2021-10-22 浙江大搜车软件技术有限公司 一种汽车维保记录的解析方法和装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145844A (ja) * 2010-01-14 2011-07-28 Nippon Telegr & Teleph Corp <Ntt> 述部機能表現正規化方法、その装置及びプログラム
CN105786928A (zh) * 2014-12-26 2016-07-20 北大医疗信息技术有限公司 医疗系统数据查询方法和医疗系统数据查询系统
KR20190020643A (ko) * 2017-05-05 2019-03-04 핑안 테크놀로지 (션젼) 컴퍼니 리미티드 정보 마이닝 방법, 시스템, 전자장치 및 판독 가능한 저장매체
KR102157202B1 (ko) * 2017-05-05 2020-09-18 핑안 테크놀로지 (션젼) 컴퍼니 리미티드 정보 마이닝 방법, 시스템, 전자장치 및 판독 가능한 저장매체
CN113536766A (zh) * 2020-04-16 2021-10-22 浙江大搜车软件技术有限公司 一种汽车维保记录的解析方法和装置
CN113536766B (zh) * 2020-04-16 2024-04-12 浙江大搜车软件技术有限公司 一种汽车维保记录的解析方法和装置
CN112381143A (zh) * 2020-11-13 2021-02-19 长城计算机软件与系统有限公司 基于机器学习的变量自动分类方法及系统
CN112381143B (zh) * 2020-11-13 2023-12-05 新长城科技有限公司 基于机器学习的变量自动分类方法及系统

Similar Documents

Publication Publication Date Title
US8996593B2 (en) File management apparatus and file management method
KR20080092337A (ko) 자연어 문서들에서 인과 관계들의 인식을 위한 시맨틱프로세서
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
JP2005174336A (ja) 情報抽出のための一般化文字列パターンの学習および使用
US8204736B2 (en) Access to multilingual textual resources
WO2022134779A1 (zh) 人物动作相关数据的提取方法、装置、设备及存储介质
JP2009295052A (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP2006031143A (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP4401269B2 (ja) 対訳判断装置及びプログラム
JP2009128967A (ja) 文書検索装置
JP2003108571A (ja) 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP7227705B2 (ja) 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム
JP2009140113A (ja) 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム
JP2018077604A (ja) 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2021043624A (ja) 情報処理装置及び情報処理プログラム
JP2006190072A (ja) 自動換言装置、自動換言方法及び換言処理プログラム
CN117972025B (zh) 一种基于语义分析的海量文本检索匹配方法
JP4206266B2 (ja) 全文検索装置、処理方法、処理プログラム及び記録媒体
JP4933118B2 (ja) 文章区間抽出装置及びプログラム
JP2018073298A (ja) 人工知能装置による手段・方法の自動抽出・作成方法
JP6957388B2 (ja) 業務用語判別装置、及び業務用語判別方法
JP6410455B2 (ja) 意味関係抽出装置およびプログラム
JP2023152343A (ja) 生成装置、生成方法、および生成プログラム