JP3934586B2 - 情報分類システム及びプログラム - Google Patents

情報分類システム及びプログラム Download PDF

Info

Publication number
JP3934586B2
JP3934586B2 JP2003318368A JP2003318368A JP3934586B2 JP 3934586 B2 JP3934586 B2 JP 3934586B2 JP 2003318368 A JP2003318368 A JP 2003318368A JP 2003318368 A JP2003318368 A JP 2003318368A JP 3934586 B2 JP3934586 B2 JP 3934586B2
Authority
JP
Japan
Prior art keywords
word
dictionary
morphemes
index
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003318368A
Other languages
English (en)
Other versions
JP2005085112A (ja
Inventor
光一 笹氣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003318368A priority Critical patent/JP3934586B2/ja
Publication of JP2005085112A publication Critical patent/JP2005085112A/ja
Application granted granted Critical
Publication of JP3934586B2 publication Critical patent/JP3934586B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、複数の文書等の情報に出現する複数の形態素から分類分けをする情報分類システム及びプログラムに関する。
一般に、文書管理システムでは、時間の経過とともに大量の文書が発生し、効率的に文書を管理するのが難しくなってくる。
そこで、以上のように大量に発生する文書を管理する場合、おおよそ次の2通りの情報分類方法用いられている。
その1つの情報分類方法は、文書の分類階層と各分類階層に属する文書のプロファイルとを定義しておき、新規に管理すべき文書が発生したとき、当該文書が何れの分類階層のプロファイルに類似しているか否かを判断し、最も類似しているプロファイルの分類階層に該当文書を加えていく方法である。
他の1つの情報分類方法は、複数の文書内に含まれるキーワードの出現頻度と共起関係とに基づいて文書の類似度を算出し、類似度の高い文書同士をグループ化するとともに、同一グループ内の各文書の階層関係を生成し、文書を分類していく方法である。
本願発明における分類方法は、どちらかと言えば後者に属すると判断できるので、以下、後者に属する従来技術について説明する。
従来技術の1つは、文書中の単語同士の共起関係データに基づいて単語間の意味的距離を求め、意味的に近い距離にある単語を同じクラスに分類するクラスタリング方法である(特許文献1)。
従来技術の他の1つは、各文書データに対して形態素解析などを行い、不要語処理などを行ってキーワードを抽出する。そして、各文書データに対するキーワードの特徴ベクトルを生成し、これら特徴ベクトル間の類似度を計算し、各文書データを分類していく方法である(特許文献2)。
特開2001−331515 特開2002−245067
しかしながら、以上のような技術のうち、特に前者の従来技術では、各単語間の共起関係だけに着目して単語の分類分けを行っているので、例えば複数の形態素から成る合成語を分類分けする際、形態素同士が離れた位置に共起している場合と合成語の一部として存在している場合とを区別することが困難である。その結果、分類分けされたグループがユーザの意図するグループと異なる結果となる可能性があること。また、単語単位で共起関係を判断している限り、合成語を構成する形態素同士の位置関係について、必ず隣接している場合と途中に何単語か存在して隣接している場合とを区別できないので、複数の形態素から成る複数の合成語を同一の合成語として扱うことができず、適切な分類分けができない問題がある。
一方、後者の従来技術では、各文書を形態素解析した結果の形態素をキーワードとして用い、これらキーワードの特徴ベクトルの類似度から各文書を分類分けするが、新たに管理すべき文書が発生した時、過去に遡って既に管理されているキーワードから過去のキーワードをそのまま用いるか、新たなキーワードを付けるかを判断する必要があり、どうしてもキーワードが増えてしまう問題がある。キーワードが増えれば、大量に発生し続ける文書の分類には管理コストが大きくなる問題がある。
また、複数の形態素から成る合成語の分類分けについては、前者の従来技術と同様の問題が生ずる。
さらに、2つの従来技術に共通して言えることは、新しい概念として合成語が発生し場合、何れの時期から発生した文書に基づいて合成語の分類分け処理を行うのか不明である。
本発明は上記事情にかんがみてなされたもので、複数の文書間の複数の形態素から成る合成語に対して、ユーザの意図に即した精度の高い分類分け処理を実行する情報分類システム及びプログラムを提供することを目的とする。
(1) 上記課題を解決するために、複数の文書に含まれる形態素から複数のグループにグループ分けする本発明に係る情報分類システムは、複数の文書及び各文書に含まれる形態素を記憶する文書記憶手段と、予め複数の形態素からなる辞書語ごとに当該辞書語を構成する複数の形態素についての共起関係判定条件を規定する合成語辞書記憶手段と、前記文書記憶手段に記憶される形態素ごとに各文書に出現する数から当該形態素である索引語候補要素を選定し、これら選定された索引語候補要素の2個以上連なる形態素で構成される索引語が前記合成語辞書記憶手段に記憶される辞書語に存在し、かつ、当該辞書語を構成する複数の形態素についての共起関係判定条件を満たす場合、前記合成語辞書記憶手段に記憶される該当辞書語に属するグループとするクラスタ生成処理部とを設けた構成である。
この発明は以上のような構成とすることにより、合成語辞書記憶手段には予めグループ分けの単位となる複数の形態素からなる辞書語及びこれら各辞書語ごとに当該辞書語を構成する複数の形態素についての共起関係判定条件が規定されており、一方、文書記憶手段には複数の文書及び各文書に含まれる形態素が記憶されている。
この状態において、クラスタ生成処理部は、情報分類時、文書記憶手段から記憶される形態素ごとに各文書に出現する数が予め設定される数を超える形態素を索引語候補要素として選定する。そして、これら選定された索引語候補要素の2個以上連なる形態素で構成される索引語が前記辞書語の中に存在し、かつ、当該辞書語に対応して規定されている例えば索引語と辞書語とを構成する形態素の関係が隣接する場合のみとか、同一フレーズに存在するとか、さらに有効年月日以降にグループ分けするなどの共起関係判定条件を満たす場合、前記合成語辞記憶手段に記憶される該当辞書語のグループに連なるようにグループ分けすることが可能となり、文書に含まれる複数の形態素からなる合成語であっても、同一の合成語として取り扱うことができる。
(2) また、本発明に係る情報分類システムは、複数の文書及び各文書に含まれる形態素を記憶する文書記憶手段と、予め複数の形態素からなる辞書語ごとに当該辞書語を構成する複数の形態素についての共起関係判定条件を規定する合成語辞書記憶手段と、前記文書記憶手段に記憶される形態素ごとに各文書に出現する数から当該形態素である索引語候補要素を選定し、索引語候補要素の集合を作成する索引語候補選定手段と、この索引語候補選定手段で選定された集合の索引語候補要素の2個以上連なる形態素で構成される索引語が前記合成語辞書記憶手段に記憶される辞書語に存在する場合、当該索引語が前記辞書語を構成する複数の形態素についての共起関係判定条件を満たすかを判定し、満たすと判定された場合に前記連なる形態素個数ごとの索引語の組の集合を作成するターム集合作成手段と、このターム集合作成手段で作成された索引語の組の集合の各要素同士の出現相関を計算する出現相関処理手段と、この出現相関処理手段で得られた出現相関に基づいて前記索引語の階層関係を作成する階層関係作成手段とを設けた構成である。
この発明は以上のような構成とすることにより、索引語候補選定手段では、文書記憶手段に記憶される形態素ごとに各文書に出現する数から索引語候補要素を選定し、索引語候補要素の集合を作成し、ターム集合作成手段に渡す。このターム集合作成手段は、選定された集合の索引語候補要素の2個以上連なる形態素で構成される索引語が合成語辞書記憶手段に記憶される辞書語の中に存在するか否かを判断し、存在すると判定された場合、引き続き、当該索引語が辞書語を構成する複数の形態素についての共起関係判定条件を満たすかを判定し、満たすと判定された場合に前記連なる形態素個数ごとの索引語の組の集合を作成する。そして、ターム集合作成手段で作成された索引語の組の集合の各要素同士の出現相関を計算し、索引語の階層関係を決定するので、2個以上連なる形態素からなる索引語であっても、共起関係判定条件の条件設定内容に応じて、例えば形態素同士が文書内の離れた位置に共起している場合でも、途中に何単語か存在して隣接する場合でも、ユーザの意図するグループに連なるようにすることが可能である。
なお、情報分類システムによる前記(2)による実現手段は、記録媒体に記憶されるプログラムによっても同様に実現できる。
本発明は、複数の文書間の複数の形態素から成る合成語に対しても、ユーザの意図に即した精度の高い分類分け処理を行うことができる情報分類システム及びプログラムを提供できる。
以下、本発明の実施の形態について図面を参照して説明する。
図1は本発明に係る情報分類システムの一実施の形態を示す構成図である。
この情報分類システムは、分類対象とする文書や各種制御指示情報を入力する情報入力手段1、形態素インデックス記憶部2a及び本文データ記憶部2bを有する文書蓄積用データベース2及び情報入力手段1から入力される文書から形態素インデックスを抽出し、この抽出された形態素インデックス及び入力文書である本文データを文書蓄積用データベース2に格納し管理する文書データ管理部3とが設けられている。
情報入力手段1は、キーボード、ポインティングデバイスであるマウスなどが用いられ、ユーザが複数の文書を入力する他、所要の処理を実行する制御指示情報を入力する。なお、ここでいう文書とは、キーボードから入力する文書だけでなく、OCR(Optical Character Reader)で読み取った文書、フロッピー(登録商標)ディスク、磁気テープ、磁気ディスクなどに格納されている電子化文書、インターネット上から取り込んだ電子化文書などを含むものである。
文書データ管理部3は、入力される文書に対して、図示していない形態素解析用辞書に記憶される単語情報及び文法規則を用いて、形態素解析を実施し、当該文書の形態素及び各形態素に係る位置情報を取り出し、この形態素及び位置情報からなる形態素インデックスを作成して形態素インデックス記憶部2aに格納する一方、当該形態素解析の対象となった文書を本文データ記憶部2bに記憶する機能をもっている。
また、情報分類システムは、ユーザが予め分類の見出し語としたい複数の形態素からなる合成語(辞書語)及び当該合成語を構成する複数の形態素についての共起関係を判定する共起関係判定条件を登録する合成語辞書記憶部4(図2参照)と、文書蓄積用データベース2に蓄積される複数の文書について合成語辞書記憶部4に規定する共起関係判定条件を用いてクラスタ生成処理及びクラスタ編集処理を行うクラスタ情報処理管理部5と、このクラスタ情報処理管理部5によるクラスタ生成処理などの過程で一時的に必要なデータを記憶するバッフアメモリ6と、クラスタ情報処理管理部5で生成されたクラスタリング情報を記憶するクラスタリング情報記憶部7と、クラスタ情報処理管理部5によるクラスタ編集処理時などの際にクラスタリング情報を表示したり、プリントアウトする出力手段8と、クラスタ情報処理管理部5がCPUで構成されている場合、当該CPUにクラスタ生成処理を実行させるためのクラスタ生成処理用プログラムを格納する記録媒体9とが設けられている。
前記合成語辞書記憶部4は、図2に示すように合成語である辞書語,例えば「国土交通省」、「浮動小数点演算」、…等々が登録され、これら辞書語「国土交通省」、「浮動小数点演算」、…ごとにクラスタリングする基本単位となっている。この辞書語に対するフィールドには、形態素区切り情報、隣接判定条件、有効年月日などが規定されている。つまり、辞書語である「国土交通省」は、国土/交通/省の3つの形態素区切り情報で構成され、これら形態素区切り情報が隣接判定条件として隣接の場合のみ共起関係が成立するように規定されている。この辞書語である「国土交通省」の有効年月日は、2000年1月1日から有効と規定されている。つまり、辞書語「国土交通省」に対するクラスタリング処理は、2000年1月1日以降に発生する文書に適用することを意味する。
また、例えば辞書語である「浮動小数点演算」については、浮動/小数/点/演算の4つの形態素区切り情報で構成され、この場合の隣接判定条件は同一フレーズに存在すれば共起関係が成立するように規定されている。この辞書語の有効年月日はなしと規定され、何時でも複数の文書に対するクラスタ生成処理を行うことが可能であることを意味する。
なお、隣接判定条件としては、辞書語に応じて種々の取決めが可能であり、前述する「隣接の場合のみ」、「同一フレーズに存在する」、「○語以内に存在する」、「何語ごとに存在する」などが規定されるものである。
前記クラスタ情報処理管理部5は、文書蓄積用データベース2に格納される全文書に含まれる形態素に基づいて前記合成語辞書記憶部4に規定する共起関係判定条件のもとに共起関係を判定し、各文書に対するクラスタを生成し、クラスタリング結果としてクラスタリング情報記憶部7に記憶するクラスタ生成処理部51と、このクラスタ生成処理部51によって生成されたクラスタリング結果を読み出して出力手段8に表示し、生成されたクラスタの編集処理を実行するクラスタ編集処理部52とによって構成されている。
このクラスタ生成処理部51は、機能的には図3に示すように、文書蓄積用データベース2に格納される全文書に含まれる形態素インデックスに含む形態素から索引語候補を選定する索引語候補選定手段51A、この索引語候補選定手段51Aにより選定された索引語候補の集合から、ある文書の形態素をもとに他の文書の形態素(自文書の他の形態素も含む)の間に共起関係が成立するか否かを判断し、共起関係が成立すれば当該共起関係にある各文書の形態素の組,つまりターム集合を作成するターム集合作成手段51B、このターム集合作成手段51Bで作成されたターム集合の中の各要素である形態素同士の出現相関を計算する出現相関処理手段51C及びこの出現相関処理手段51Cによって得られる形態素同士の出現相関に基づいて索引語の階層関係を作成し、クラスタリング情報記憶部7に記憶する階層関係作成手段51Dが設けられている。
次に、以上のような情報分類システムの動作及び本発明に係るプログラムによる一連の処理例について図4ないし図7を参照して説明する。
先ず、ユーザが情報入力手段1から分類対象とする複数の文書を入力すると、文書データ管理部3は、入力される文書に基づき、形態素解析用辞書(図示せず)の辞書引きを行い、各文書の形態素、当該形態素に係る位置情報を取り出し、形態素及び位置情報よりなる形態素インデックスを形態素インデックス記憶部2aに格納し、また形態素解析対象となった文書を本文データ記憶部2bに格納する。従って、文書蓄積用データベース2には多数の形態素インデックス及び本文データが蓄積されている。
この状態において、ユーザが情報入力手段1からクラスタ生成制御指示を入力すると、クラスタ情報処理管理部5のクラスタ生成処理部51は例えば記録媒体9に記憶されるクラスタ処理用プログラムに基づいて図4に示す処理を実行する。
すなわち、クラスタ生成処理部51の索引語候補選定手段51Aは、文書蓄積用データベース2から全文書に含まれる形態素の集合の中から、出現頻度がある範囲内にある形態素を索引語の候補として選定し、索引語候補集合E={el,…,ek}を作成するものである(S1:索引語候補選定機能)。
この索引語候補選定手段51Aないし索引語候補選定機能S1は、具体的には、図5に示すように全文書に含まれる形態素の集合M={ml,…,mkk}を読出してバッフアメモリ6に記憶した後(S101)、第1のカウンタ(図示せず)にi=1を設定した後(S102)、ある1つの文書の形態素miに対する出現文書の数Niを計数する(S103)。
そして、形態素miの出現文書数Niが予め設定されているパラメータPl個以上出現しているか否かを判断し(S104)、形態素miがPl個以上出現している場合にはその出現した文書数ciを算出し、該当形態素mi及び出現文書数ciをバッフアメモリ6などに格納する(S105)。
ステップS104において形態素miがPl個以上でない場合もしくはステップS105にてバッフアメモリ6に該当形態素mi及び出現文書数ci(=cl)を格納した後、最後の形態素mkkまで出現文書数を調べたか否かを判断し(S106)、未だ未処理の形態素が残っている場合には、第1のカウンタに+1をインクリメントし(S107)、ステップS103に戻り、同様の処理を繰り返し実行する。
以上のようにして最後の形態素mkkについて各文書の出現文書数ci(=ckk)を計算し終了すると、これら文書出現数cl,…,ckkの平均値Aを算出し(S108)、バッフアメモリ6に格納する。
さらに、第2のカウンタにi=1を設定した後(S109)、前記ステップS103で計数された形態素mi(=mi)の文書出現数Niが予め設定されるパラメータP2とP3との範囲内に有り、かつ、パラメータP1個以上の文書出現数ci(=cl)が平均値Aよりも大きいか否か,つまり索引語の候補として選定条件を満たしているか否かを判断し(S110)、満たしていると判断された場合には形態素mi(=ml)を索引語候補として選定し、索引語候補集合Eに追加する(S111)。
さらに、索引語候補を追加した後もしくはステップS110による選定条件を満たしていない場合、次のステップS112に移行し、全ての形態素の処理が終了したか否かを判断し(S112)、未処理の形態素があれば、第2のカウンタに+1をインクリメントし(S113)、ステップS110に戻って同様の処理を繰り返し実行し、最終的に索引語候補集合E={el,…,ek}を作成する。
以上のようにして索引語候補集合E={el,…,ek}を作成した後、クラスタ生成処理部51のターム集合作成手段51Bを実行する。このターム集合作成手段51Bは、図4のステップS2に示すように、索引語の候補から文書中に共起関係をもつ形態素の組を作成する機能をもっている(ターム集合作成機能に相当する)。この作成された結果をターム集合と呼ぶ。このターム集合がクラスタリング結果の見出し,つまりラベル語となる。
このターム集合作成手段51Bないしターム集合作成機能S2について図6を用いて更に詳しく説明する。
先ず、索引語候補集合Eの要素である形態素のうち、予め設定されるパラメータP4個以上の文書に出現する形態素を抽出し、これら抽出された形態素の集合をC1とし(S201)、これをL1=C1とする(S202)。ここでは、比較的多数の文書に出現する1つの形態素集合C1を作成できる。
引き続き、第3のカウンタiに「2」を設定する(S203)。このi=「2」とは2つ連なる形態素の共起関係を判定し、2つの形態素の組の集合Ci(=C2)を作成することを意味する。そこで、先ず、2つ連なる形態素に関する集合Ciを空にした後(S204)、ステップS201においてP4以上となった出現文書の全ての形態素に索引語候補集合Eの要素である各形態素を1つ加え、2つ連なる形態素Liを順次作成する(S205)。従って、2つの形態素Liの要素数をqとすると、q=Li={l1,…,lq}を作成することができる(S206)。ここでは、2つ連なる形態素Liである要素が多数作成されることになる。
このようにして2つの形態素からなる多数の要素l1,…,lqを作成した後、第4のカウンタj=1を設定し(S207)、最初の2つの形態素からなる要素lj(=l1)を構成する索引語(2つの形態素)を含む全ての文書集合Djを作成し、バッフアメモリ6などに格納する(S208)。そして、この要素lj(=l1)を構成する索引語,つまり2つの形態素が合成語辞書記憶部4に規定する辞書語の中に登録されているか否かを判断し(S209)、登録されていない場合にはステップS210に移行し、ここで文書集合Djの数が予め定めるパラメータP4以上かを判断し、P4以上であれば2つの形態素で構成する索引語ljをステップS204で空にした集合Ci={ }の1つの要素として加える(S211)。
一方、ステップS209において、要素ljで構成する索引語が辞書語の中に登録されている場合にはその登録されている辞書語Wをバッフアメモリ6などに記憶する(S212)。そして、複数の文書集合Djのうち、当該辞書語Wに対応する有効年月日より新しい文書の集合Dj'を順次抽出し(S213)、これら文書集合Dj'の要素のうち、合成語辞書記憶部4に規定する隣接判定条件を満たす文書が予め設定されるP5以上存在するか否かを判断する(S214)。ここで、隣接判定条件を満たす文書が存在する場合、前述同様に2つの形態素からなる索引語ljをステップS204で空にした集合の要素として加える(S211)。
以上のようにして要素lj(=l1)を構成する索引語の集合要素の抽出処理が終了すると、第4のカウンタjに+1をインクリメントし(S215)、リスト要素のqまで処理が終了したかを判断し(S216)、未処理の要素が存在する場合にはステップS208に戻り、次の要素ljで構成する索引語について同様の処理を繰り返し実行する。
従って、以上のような一連の処理により、2つ連なる形態素の組の集合を作成することができる。
一方、要素qまで処理が終了している場合、iが予め定める最大形態素数P6に達したかを判断し(S217)、P6に達していなければ、集合C1をCiにインクリメントしてLi=Ciとし(S218)、第3のカウンタiに+1をインクリメントし(S219)、ステップS204に移行する。ここでは、P4以上となった出現文書の全ての形態素に索引語候補集合Eの要素である各形態素をさらに1つ加え、3つの形態素からなる要素Liを作成し(S205)、形態素数P6となるまで繰り返し実行し、1つの形態素から6つ連なる形態素の組の集合,つまりターム集合T={C1UC2,…,CP6}を作成することができる(S220)。なお、各形態素の組の集合C1,C2,…,CP6はそれぞれ{T1、…,Tnを構成している。
引き続き、クラスタ生成処理部51は出現相関処理手段51Cを実行する。この出現相関処理手段51Cは、ターム集合Tである各形態素の組の集合C1,C2,…,CP6ごとに各要素Ti同士の出現相関を計算する(S3)。具体的には、例えば図7に示すような処理を実行する(出現相関処理機能に相当する)。
すなわち、出現相関処理手段51Cないし出現相関処理機能S3は、ターム集合Tの要素Tiを構成するn個の要素の中から任意の3個の要素Tx,Ty,Tzを取り出し、これら要素Tx,Ty,Tzが|Tx|+|Ty|=|Tz|であり、かつTxUTy=Tzの関係が成立するかどうかを評価する(S301)。ここで、|Tx|とはTxを構成する形態素の数を意味し、またx,y,zは{1,…,n}の任意の要素である。つまり、以上のような2つの条件を満たすTx,Ty,Txの3項組を探し出し、集合Rに順次追加していく。従って、3項組の集合R={R1,…,Rm}を作成できる。なお、3項組の集合はR={R1,…,Rm}ですが、Rの要素Ri=(Txi,Tyi,Tzi)というように集合Tの要素3つの組となる。このxi,yi,ziはそれぞれ{1,…,n}の任意の数である。
以上のようにして3項組の集合R={R1,…,Rm}を作成した後、この集合Rの要素から1つのRi={Txi,Tyi,Tzi}を取り出した後(S302)、Ri={Txi,Tyi,Tzi}というTの要素3つの組に対して、特定の条件が成り立つ場合、出現相関有りの処理を行う(S303)。具体的には、Nxi=Txiの要素を含む文書の数、Nyi=Tyiの要素を含む文書の数、Nzi=Tziの要素を含む文書の数とすると、
Nzi/Nxi>P8 かつ Nzi/Nyi≦P8ならば、Nxi→Nyi
Nzi/Nxi≦P8 かつ Nzi/Nyi>P8ならば、Nxi←Nyi
の出現相関有りとする。
引き続き、要素Tに未処理の要素が存在するか否かを調べ(S304)、存在する場合にはステップS302に戻り、3項組の集合Rから未処理の1つの要素を取り出し、同様の処理を実施し、出現相関を判断していく。
さらに、クラスタ生成処理部51は階層関係作成手段51Dを実行する。この階層関係作成手段51Dは、ターム集合Tの要素Ti同士の出現相関に基づき、索引語の階層関係を作成処理する(S4:階層関係作成機能)。
この階層関係作成手段51Dは、図4に示すように要素T1,T2,T3,T4,T5がステップS3にてT1←T2、T1←T3、T4←T5の出現相関を有する場合、索引語の階層関係は図4の右図に示すように作成され、クラスタリング情報記憶部7に格納される。なお、このときT1が親クラスタである場合、当該親クラスタID、ラベル語、文書IDなどにより管理され、例えばT2のごとく子クラスタの場合には文書ID、親クラスタIDなどにより管理される。
さらに、クラスタ編集処理部52では、クラスタ生成処理部51によって生成されたクラスタリング結果をクラスタリング情報記憶部7に記憶した後、その生成されたクラスタリング結果をクラスタリング情報記憶部7から読出し、出力手段8に表示し、ユーザが必要に応じて修正するなどの編集処理を実施し、クラスタリング情報記憶部7に再度記憶するものである。
従って、以上のような実施の形態によれば、複数の文書に含まれる形態素ごとに各文書に出現する数に基づいて当該形態素である索引語候補要素を選定し、これら選定された索引語候補要素の2個以上連なる形態素で構成される索引語が合成語辞書記憶部4に規定する辞書語に存在し、かつ、当該辞書語に対応して規定される共起関係判定条件を満たすことを前提とし、該当辞書語に属するグループとして扱うグループ分け処理を行うので、文書に含まれる複数の形態素からなる合成語であっても、同一の合成語として取り扱うことができる。
また、合成語辞書記憶部4に隣接する場合のみ有効とする共起関係判定条件が規定されている場合、合成語を構成する形態素と該当辞書語を構成する形態素区切り情報とが隣接する関係とも同一である時、当該合成語が該当辞書語のグループに属すると判断でき、また同一フレーズに存在すれば有効とする場合には合成語の一部として存在する場合とか、中間に何単語か存在して隣接している場合でも、合成語が該当辞書語のグループに属すると判断することができる。
さらに、合成語辞書記憶部4に有効年月日に関する共起関係判定条件が規定されている場合、有効年月日以降のグループ分けのみ有効となるので、ユーザの要求に応じたグループ分け処理を実施できる。
その他、本願発明は、上記実施の形態に限定されるものでなく、その要旨を逸脱しない範囲で種々変形して実施できる。また、各実施の形態は可能な限り組み合わせて実施することが可能であり、その場合には組み合わせによる効果が得られる。さらに、上記各実施の形態には種々の上位,下位段階の発明が含まれており、開示された複数の構成要素の適宜な組み合わせにより種々の発明が抽出され得るものである。例えば問題点を解決するための手段に記載される全構成要件から幾つかの構成要件が省略されうることで発明が抽出された場合には、その抽出された発明を実施する場合には省略部分が周知慣用技術で適宜補われるものである。
本発明に係る情報分類システムの一実施の形態を示す構成図。 合成語辞書記憶部に規定される辞書語と共起関係判定条件との対応関係を示す図。 図1に示すクラスタ生成処理部の機能ブロック図。 図1に示クラスタ生成処理部の一連の処理例を説明する図。 図3に示す索引語候補選定手段における処理の一具体例を説明するフローチャート。 図3に示すターム集合作成手段における処理の一具体例を説明するフローチャート。 図3に示す出現相関処理手段における処理の一具体例を説明するフローチャート。
符号の説明
1…情報入力手段、2…文書蓄積用データベース、2a…形態素インデックス記憶部、2b…本文データ記憶部、3…文書データ管理部、4…合成語辞書記憶部、5…クラスタ情報処理管理部、7…クラスタリング情報記憶部、9…記録媒体、51…クラスタ生成処理部、52…クラスタ編集処理部、51A…索引語候補選定手段、51B…ターム集合作成手段、51C…出現相関処理手段、51D…階層関係作成手段。

Claims (6)

  1. 複数の文書に含まれる形態素から複数のグループにグループ分けする情報分類システムにおいて、
    複数の文書及び各文書に含まれる形態素を記憶する文書記憶手段と、
    予め複数の形態素からなる辞書語ごとに当該辞書語を構成する複数の形態素についての共起関係判定条件を規定する合成語辞書記憶手段と、
    前記文書記憶手段に記憶される形態素ごとに各文書に出現する数から当該形態素である索引語候補要素を選定し、これら選定された索引語候補要素の2個以上連なる形態素で構成される索引語が前記合成語辞書記憶手段に記憶される辞書語に存在し、かつ、当該辞書語を構成する複数の形態素についての共起関係判定条件を満たす場合、前記合成語辞書記憶手段に記憶される該当辞書語に属するグループとするクラスタ生成処理部とを備えたことを特徴とする情報分類システム。
  2. 請求項1に記載の情報分類システムにおいて、
    前記クラスタ生成処理部は、前記合成語辞書記憶手段に共起関係判定条件として隣接する場合のみを有効であると規定されている場合、2個以上連なる形態素で構成される索引語が前記合成語辞書記憶手段に記憶される辞書語に存在することを条件とし、当該索引語と当該辞書語の形態素区切り情報とが隣接する関係まで同一のときに共起関係判定条件を満たすと判定することを特徴とする情報分類システム。
  3. 請求項1に記載の情報分類システムにおいて、
    前記クラスタ生成処理部は、前記合成語辞書記憶手段に共起関係判定条件として隣接する場合だけでなく、同一フレーズに存在する場合も有効である規定されている場合、2個以上連なる形態素で構成される索引語が前記合成語辞書記憶手段に記憶される辞書語に存在することを条件とし、当該索引語と当該辞書語の形態素区切り情報とが隣接する関係が同一であるか、同一フレーズに存在するときに共起関係判定条件を満たすと判定することを特徴とする情報分類システム。
  4. 請求項1ないし請求項3の何れか一項に記載の情報分類システムにおいて、
    前記クラスタ生成処理部は、前記合成語辞書記憶手段に共起関係判定条件として有効年月日が規定されている場合、2個以上連なる形態素で構成される索引語が前記合成語辞書記憶手段に記憶される辞書語に存在することを条件とし、前記有効年月日以降の索引語に対して前記共起関係判定条件を満たすと判定することを特徴とする情報分類システム。
  5. 複数の文書に含まれる形態素から複数のグループにグループ分けし、階層関係を作成する情報分類システムにおいて、
    複数の文書及び各文書に含まれる形態素を記憶する文書記憶手段と、
    予め複数の形態素からなる辞書語ごとに当該辞書語を構成する複数の形態素についての共起関係判定条件を規定する合成語辞書記憶手段と、
    前記文書記憶手段に記憶される形態素ごとに各文書に出現する数から当該形態素である索引語候補要素を選定し、索引語候補要素の集合を作成する索引語候補選定手段と、
    この索引語候補選定手段で選定された集合の索引語候補要素の2個以上連なる形態素で構成される索引語が前記合成語辞書記憶手段に記憶される辞書語に存在する場合、当該索引語が前記辞書語を構成する複数の形態素についての共起関係判定条件を満たすかを判定し、満たすと判定された場合に前記連なる形態素個数ごとの索引語の組の集合を作成するターム集合作成手段と、
    このターム集合作成手段で作成された索引語の組の集合の各要素同士の出現相関を計算する出現相関処理手段と、
    この出現相関処理手段で得られた出現相関に基づいて前記索引語の階層関係を作成する階層関係作成手段とを備えたことを特徴とする情報分類システム。
  6. 複数の文書、各文書に含まれる形態素及び複数の形態素からなる辞書語ごとに当該辞書語を構成する複数の形態素間についての共起関係判定条件が記憶され、前記複数の文書に含まれる形態素から複数のグループにグループ分けし、階層関係を作成するコンピュータに、
    情報分類時、前記複数の文書にそれぞれ含まれる形態素ごとに各文書に出現する数から当該形態素である索引語候補要素を選定し、索引語候補要素の集合を作成する索引語候補選定機能と、この機能によって選定された集合の索引語候補要素の1個以上連なる形態素で構成される索引語が前記辞書語に存在する場合、当該索引語が前記辞書語を構成する複数の形態素についての共起関係判定条件を満たすかを判定し、満たすと判定された場合に前記連なる形態素個数ごとの索引語の組の集合を作成するターム集合作成機能と、この作成された索引語の組の集合の各要素同士の出現相関を計算する出現相関処理機能と、この処理機能によって得られた出現相関に基づいて前記索引語の階層関係を作成する階層関係作成機能とを実現させることを特徴とするプログラム。
JP2003318368A 2003-09-10 2003-09-10 情報分類システム及びプログラム Expired - Lifetime JP3934586B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003318368A JP3934586B2 (ja) 2003-09-10 2003-09-10 情報分類システム及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003318368A JP3934586B2 (ja) 2003-09-10 2003-09-10 情報分類システム及びプログラム

Publications (2)

Publication Number Publication Date
JP2005085112A JP2005085112A (ja) 2005-03-31
JP3934586B2 true JP3934586B2 (ja) 2007-06-20

Family

ID=34417666

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003318368A Expired - Lifetime JP3934586B2 (ja) 2003-09-10 2003-09-10 情報分類システム及びプログラム

Country Status (1)

Country Link
JP (1) JP3934586B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7849090B2 (en) * 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
JP5252410B2 (ja) * 2007-03-05 2013-07-31 公立大学法人広島市立大学 専門用語分類装置、専門用語分類方法、及びプログラム
JP6835713B2 (ja) * 2015-05-18 2021-02-24 株式会社スキャる 会計支援システム
KR101656245B1 (ko) * 2015-09-09 2016-09-09 주식회사 위버플 문장 추출 방법 및 시스템

Also Published As

Publication number Publication date
JP2005085112A (ja) 2005-03-31

Similar Documents

Publication Publication Date Title
Daumé et al. Search-based structured prediction
Onan et al. Ensemble of keyword extraction methods and classifiers in text classification
Gambhir et al. Recent automatic text summarization techniques: a survey
Garreta et al. Learning scikit-learn: machine learning in python
Daelemans et al. MBT: A memory-based part of speech tagger-generator
Jin et al. A novel lexicalized HMM-based learning framework for web opinion mining
Neumann et al. A shallow text processing core engine
Ekbal et al. Multiobjective optimization for classifier ensemble and feature selection: an application to named entity recognition
Pivk et al. From tables to frames
Ekbal et al. Simultaneous feature and parameter selection using multiobjective optimization: application to named entity recognition
Manjari Extractive summarization of Telugu documents using TextRank algorithm
Rani et al. Aspect-based sentiment analysis using dependency parsing
Agarwal et al. Single-document summarization using sentence embeddings and k-means clustering
Belwal et al. Extractive text summarization using clustering-based topic modeling
JP3934586B2 (ja) 情報分類システム及びプログラム
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
CN113158659A (zh) 一种基于司法文本的涉案财物计算方法
Popova et al. Keyphrase extraction using extended list of stop words with automated updating of stop words list
Chowdhury et al. A new method for extractive text summarization using neural networks
Jain et al. Knowledge-based data processing for multilingual natural language analysis
Gao et al. Newspaper article reconstruction using ant colony optimization and bipartite graph
Heidary et al. Automatic text summarization using genetic algorithm and repetitive patterns
Lu et al. Duration modeling with semi-Markov Conditional Random Fields for keyphrase extraction
Hogenboom Automated detection of financial events in news text
JP4393482B2 (ja) 情報共有システム及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061212

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070315

R151 Written notification of patent or utility model registration

Ref document number: 3934586

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100330

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110330

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120330

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130330

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140330

Year of fee payment: 7