JP5251099B2

JP5251099B2 - 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム

Info

Publication number: JP5251099B2
Application number: JP2007316422A
Authority: JP
Inventors: 英紀河合
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-12-06
Filing date: 2007-12-06
Publication date: 2013-07-31
Anticipated expiration: 2027-12-06
Also published as: JP2009140263A

Description

本発明は、検索対象の用語をノードとし、前記検索対象の任意の２つの用語について、該２つの用語が同一文書で出現する度合いを示す共起度を該２つの用語に対応するノードの間のエッジとする、共起度グラフを抽出する用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラムに関する。

近年、インターネットおよびＷＷＷ（World Wide Web。以下、Ｗｅｂという）の普及とともに爆発的な情報が流通するようになり、Ｗｅｂをマイニングの対象とする情報抽出の研究が盛んに行われている。特に、人名、組織名、施設名、地名などの用語を検索クエリとしてＷｅｂ検索エンジンに入力し、得られた検索結果をコーパス（corpus：言語資料）として用いることによって、用語間の共起度を求める手法に注目が集まっている。共起度とは、特定の２つの用語が同一文書中に出現する度合い（頻度、割合）の指標である。

例えば、Ｗｅｂ検索エンジンで人名を検索することによって、人間関係を推定する技術として、特許文献１の技術が挙げられる。特許文献１の技術によれば、人名のリストが入力されると、２つの人名同士の組み合わせを検索クエリとしてＷｅｂ検索エンジンで検索することによって、２つの人名同士の人間関係を文書内の共起度として求めることができる。

用語間の共起度について、特許文献２には、自然言語文で入力された膨大な量の時系列データから任意の区間で分割したスナップショット・データを生成し、スナップショット・データに含まれるデータに自然言語解析を施し、得られたノード対から共起関係を求めネットワーク図を描画する技術が記載されている。また、ノード対に対し、相互情報量を用いて共起関係を算出することが記載されている。相互情報量Ｉ（ｘ，ｙ）は、単語「ｘ」と単語「ｙ」とが共起する確率Ｐ（ｘ，ｙ）と、それぞれがテキスト内で生起する確率Ｐ（ｘ）Ｐ（ｙ）との比である。

特許文献３には、統語処理を一括して行う同音語グループ間の共起単語の組み合わせの集合を、同音語グループの組み合わせと対応付けて格納する技術が記載されている。特許文献３の技術は、候補バッファから後側の先頭単語を取り出し、この後側単語で共起辞書インデックスを検索することにより、共起辞書本体の検索範囲を限定する。代表単語として前側の先頭単語を取り出し、この前側単語で共起辞書本体を検索する。それによって、優先すべき単語の組み合わせがあるかどうか判る。
特開２００４−３４８１７９号公報特開２００５−３５２８１７号公報特開平０８−１１５３１８号公報

共起度の計算方法には共起頻度、相互情報量、Dice係数、Jaccard係数、Simpson係数、Cosine係数など、様々な方法がある。Ｗｅｂページ全体の数をＮ、用語K1、K2のＷｅｂ検索エンジンにおけるヒット件数をそれぞれ｜K1｜、｜K2｜とし、用語K1、K2を論理積条件（AND条件）で検索したときのヒット件数を｜K1 AND K2｜とし、用語K1、K2を論理和条件（OR条件）で検索したときのヒット件数を｜K1 OR K2｜と標記することにすると、共起頻度、相互情報量、Dice係数、Jaccard係数、Simpson係数はそれぞれ以下のように定義される。共起度は、２つの用語の文書内での共起の度合いを数値化する指標であるため、いずれの定義でも｜K1 AND K2｜の項が必須である。
共起頻度＝｜K1 AND K2｜
相互情報量＝ −log｛Ｎ×｜K1 AND K2｜／（｜K1｜×｜K2｜）｝
Dice係数＝｜K1 AND K2｜／（｜K1｜＋｜K2｜）
Jaccard係数＝｜K1 AND K2｜／｜K1 OR K2｜
Simpson係数＝｜K1 AND K2｜／min（｜K1｜，｜K2｜）
Cosine係数＝｜K1 AND K2｜／√（｜K1｜×｜K2｜）

特許文献１では、ヒット数の少ない人名の共起度が不当に高く評価されるのを防ぐため、閾値付Simpson係数も例として用いている。これは、｜K1｜と｜K2｜の最小値min（｜K1｜，｜K2｜）が閾値ｋよりも大きい場合には、共起度として通常のSimpson係数を用いるが、min（｜K1｜，｜K2｜）が閾値ｋ以下の場合は共起度を０として計算する方法である。

また、特許文献１は人名のみを対象とした技術であるが、入力データを組織名や地名などの用語リストに置き換えることによって、人名以外の用語間の関係を得ることは可能である。

共起度を求める関連する技術における第１の問題点は、入力データとなる用語リストが大規模になると、共起度を求めるために必要な検索の回数が飛躍的に増大してしまうことである。例えば、入力データとなる用語リストが１００語である場合、任意の２語の組み合わせは100×99／2！＝4,950通り存在する。Simpson係数を使って用語間の共起度を求めることにすると、｜K1 AND K2｜を全ての組み合わせに対して求めるために4,950回、min（｜K1｜，｜K2｜）を求めるために100回の検索が必要で、Ｗｅｂ検索エンジンに対する検索回数は合計5,050回になる。

同様に、用語リストが１万語になると、10,000×9,999／2！＋10,000＝50,005,000回もの検索が必要になってしまう。Ｗｅｂ検索エンジンに対して短時間に大量のクエリを発行して検索するわけにはいかないが、仮に１秒間に１回のペースで検索を行ったとしても、１万語の用語の関係を全て求めるためには、50,005,000回／（3,600秒×24時間）＝579日もかかってしまうことになる。一般に、用語リストの語数がｎ倍になると、検索回数はｎの２乗に比例して増大する。これは、共起度の計算のために、２つの用語の論理積条件で検索を行うことが原因である。

第２の問題点は、用語間の共起度を近似的に計算することが不可能なことである。例えば、用語K1で検索を行った場合、検索結果の文書の中に用語K2が100回出現しているのに対し、用語K3が10回しか出現していなかったとすると、用語K2と用語K3を検索しなくても、Kl−K2の共起度の方がK1−K3の共起度よりも強い可能性があることは推定できる。しかし、特許文献１の発明では、Ｗｅｂ検索エンジンを使って、２つの用語の共起度を求めない限り、その共起度を計算することはできない。

第３の問題点は、入力データである用語リストに含まれていない新語を抽出しながら再帰的に共起度を計算することが不可能なことである。その理由は、特許文献１には、新語を抽出する手段がないからである。また、仮に新語を抽出する手段があったとしても、新語の抽出によって用語リストが増大すると、第１の問題点で指摘した問題が発生し、検索回数の幾何級数的な増大を招いてしまう。

本発明の目的は、入力データとして与えられた用語リストに対して、用語間の共起度を少ない検索回数で近似的に求めることによって、大規模で近似度の高い共起度グラフを抽出できる用語共起度抽出装置を提供することにある。

本発明の第１の観点に係る用語共起度抽出装置は、
検索対象の用語をノードとし、前記検索対象の任意の２つの用語について、該２つの用語が同一文書で出現する度合いを示す共起度を該２つの用語に対応するノードの間のエッジとする、共起度グラフを抽出する用語共起度抽出装置であって、
未検索の用語について、着目する未検索の用語と共起していることがわかっている既知共起用語の数と、該既知共起用語のうち未検索の用語の数および検索済みの用語の数、ならびに、該既知共起用語の未検索の用語と共起している検索済みの用語に接続するエッジの数、の線形和と、の積である近似グラフスコアを、前記着目する未検索の用語を検索することによって用語間の共起度が求まる可能性として算出する共起度検出確度判定手段と、
前記共起度検出確度判定手段で判定した可能性の大きい用語から順に所定の基準で、用語の検索順を決定する検索戦略決定手段と、
前記検索戦略決定手段で決定した順序に従って、検索対象の用語１語ずつをキーワードとして、文書データを検索する検索手段と、
前記検索手段で検索した用語を含む検索結果文書から、未検索の用語についてはそれまでに検索された該未検索の用語が出現する文書の数を検索対象の全文書における出現文書数とみなして、該検索結果文書に含まれる検索対象の用語について、検索対象の全文書における用語間の共起度を近似的に求める共起度計算手段と、
を備えることを特徴とする。

好ましくは、所定の規則に基づいて、前記検索結果文書から、前記検索対象の用語に含まれていない用語を抽出する用語抽出手段を備える。

さらに好ましくは、前記検索結果文書における用語の出現傾向から、動的に用語を抽出する規則を生成する抽出規則学習手段を備える。

なお、前記抽出規則学習手段は、
前記検索結果文書における用語の周辺に出現する文字列を列挙し、
前記検索対象の用語に登録されている用語の単語属性、および該単語属性を一般化した正規表現によって、前記周辺文字列から規則候補の集合を生成し、
前記規則候補の出現頻度および／または用語抽出率の値をそれぞれの所定の閾値と比較して、前記規則候補を絞り込む、
ことによって前記用語を抽出する規則を生成してもよい。

好ましくは、前記用語抽出手段は、単語属性および単語属性の正規表現によって記述された所定の規則に基づいて用語を抽出する。

本発明の第２の観点に係る用語共起度抽出方法は、
検索対象の用語をノードとし、前記検索対象の任意の２つの用語について、該２つの用語が同一文書で出現する度合いを示す共起度を該２つの用語に対応するノードの間のエッジとする、共起度グラフを抽出する用語共起度抽出装置が行う用語共起度抽出方法であって、
共起度検出確度判定手段が行う、未検索の用語について、着目する未検索の用語と共起していることがわかっている既知共起用語の数と、該既知共起用語のうち未検索の用語の数および検索済みの用語の数、ならびに、該既知共起用語の未検索の用語と共起している検索済みの用語に接続するエッジの数、の線形和と、の積である近似グラフスコアを、前記着目する未検索の用語を検索することによって用語間の共起度が求まる可能性として算出する共起度検出確度判定ステップと、
検索戦略決定手段が行う、前記共起度検出確度判定ステップで判定した可能性の大きい用語から順に所定の基準で、用語の検索順を決定する検索戦略決定ステップと、
検索手段が行う、前記検索戦略決定ステップで決定した順序に従って、検索対象の用語１語ずつをキーワードとして、文書データを検索する検索ステップと、
共起度計算手段が行う、前記検索ステップで検索した用語を含む検索結果文書から、未検索の用語についてはそれまでに検索された該未検索の用語が出現する文書の数を検索対象の全文書における出現文書数とみなして、該検索結果文書に含まれる検索対象の用語について、検索対象の全文書における用語間の共起度を近似的に求める共起度計算ステップと、
を備えることを特徴とする。

好ましくは、用語抽出手段が行う、所定の規則に基づいて、前記検索結果文書から、前記検索対象の用語に含まれていない用語を抽出する用語抽出ステップを備えることを特徴とする。

さらに好ましくは、抽出規則学習手段が行う、前記検索結果文書における用語の出現傾向から、動的に用語を抽出する規則を生成する抽出規則学習ステップを備えることを特徴とする。

なお、前記抽出規則学習ステップでは、前記抽出規則学習手段は、
前記検索結果文書における用語の周辺に出現する文字列を列挙し、
前記検索対象の用語に登録されている用語の単語属性、および該単語属性を一般化した正規表現によって、前記周辺文字列から規則候補の集合を生成し、
前記規則候補の出現頻度および／または用語抽出率の値をそれぞれの所定の閾値と比較して、前記規則候補を絞り込むことによって前記用語を抽出する規則を生成してもよい。

好ましくは、前記用語抽出ステップでは、前記用語抽出手段は、単語属性および単語属性の正規表現によって記述された所定の規則に基づいて用語を抽出する。

本発明の第３の観点に係る用語共起度抽出プログラムは、
検索対象の用語をノードとし、前記検索対象の任意の２つの用語について、該２つの用語が同一文書で出現する度合いを示す共起度を該２つの用語に対応するノードの間のエッジとする、共起度グラフを抽出する用語共起度抽出プログラムであって、
コンピュータを、
未検索の用語について、着目する未検索の用語と共起していることがわかっている既知共起用語の数と、該既知共起用語のうち未検索の用語の数および検索済みの用語の数、ならびに、該既知共起用語の未検索の用語と共起している検索済みの用語に接続するエッジの数、の線形和と、の積である近似グラフスコアを、前記着目する未検索の用語を検索することによって用語間の共起度が求まる可能性として算出する共起度検出確度判定手段と、
前記共起度検出確度判定手段で判定した可能性の大きい用語から順に所定の基準で、用語の検索順を決定する検索戦略決定手段と、
前記検索戦略決定手段で決定した順序に従って、検索対象の用語１語ずつをキーワードとして、文書データを検索する検索手段と、
前記検索手段で検索した用語を含む検索結果文書から、未検索の用語についてはそれまでに検索された該未検索の用語が出現する文書の数を検索対象の全文書における出現文書数とみなして、該検索結果文書に含まれる検索対象の用語について、検索対象の全文書における用語間の共起度を近似的に求める共起度計算手段、
として機能させることを特徴とする。

好ましくは、所定の規則に基づいて、前記検索結果文書から、前記検索対象の用語に含まれていない用語を抽出する用語抽出手段としての機能を備えることを特徴とする。

さらに好ましくは、前記検索結果文書における用語の出現傾向から、動的に用語を抽出する規則を生成する抽出規則学習手段としての機能を備える。

本発明によれば、検索対象の用語の数に対して、検索回数が幾何級数的に増加するのを防止できる。また、少ない検索回数でもより多くの用語の関係を近似的に求めることができる。さらに、少ない検索回数でもより真の値に近い共起度グラフを求めることができる。

本発明では、グラフ理論の用語を用いて、検索対象の用語をノードとし、用語間の共起度をエッジとして、検索対象の用語の関係をグラフ（共起度グラフ）で表す。共起度グラフは、エッジに値（共起度）が付いた重み付きグラフであり、通常、ループや多重エッジを含まない単純グラフで表される。２つの用語の間の共起度が０または所定のしきい値以下である場合には、エッジがないものとする。

（実施の形態１）
図１は、本発明の実施の形態１に係る用語共起度抽出装置１００の構成例を示すブロック図である。本発明の実施の形態１に係る用語共起度抽出装置１００は、記憶装置１と、処理装置２と、キーボード等の入力部３と、ディスプレイやプリンタ等の出力部４を含む。また、処理装置２は、インターネットやイントラネット等のネットワーク５を介してＷｅｂ検索エンジン等の公開データ６にアクセス可能な構成となっている。

記憶装置１は、用語記憶部１１と、共起度データ記憶部１３とを含む。また、処理装置２は、検索戦略決定部２１と、共起度検出確度判定部２０と、データ検索部２２と、共起度計算部２４を含む。

用語記憶部１１には、共起度抽出の対象となる用語リストが格納されている。図２は、用語記憶部１１に格納されるデータの例を示す。図２では、人名のリスト、用語ＩＤ、用語、検索フラグ、出現文書ＩＤがテーブルとして格納されている。図２を見ると、用語ＩＤがK01の「田中一郎」の検索フラグは「未」、出現文書ＩＤは「なし」となっている。これは、「田中一郎」というキーワードで検索を行ったことがなく、また、出現する文書も見つかっていないことを意味している。

また、用語ＩＤがK02の「高橋二郎」の検索フラグは「済」、出現文書ＩＤは「D01，D02，D04，D05，D10，D13，D15，D18」となっている。これは、「高橋二郎」というキーワードで検索を行ったことがあり、また、検索結果として、文書ＩＤが「D01，D02，D04，D05，D10，D13，D15，D18」の８件の文書がヒットしていることを意味している。

図２において、用語ＩＤがK03の「佐藤花子」の検索フラグは「未」、出現文書ＩＤは「D02，D05，D10，D18」となっている。これは、「佐藤花子」というキーワードで検索を行ったことはないが、「佐藤花子」が出現する文書ＩＤとして「D02，D05，D10，D18」の４件の文書が得られていることを意味している。「佐藤花子」が未検索にも拘わらず、出現文書ＩＤが得られているのは、他の用語を検索した結果の文書中に、「佐藤花子」が出現したことを検出したからである。例えば図２では、文書D02は「高橋二郎」を検索した結果得られたものであり、その中に「佐藤花子」も出現していたと解釈することができる。

文書D05，D10，D18についても同様の解釈が可能である。以下同様に、用語ＩＤがK04の「鈴木三郎」は検索済みで、出現文書として「D01，D03，D05，D07，D10，D15，D17，D20」の８件の文書が得られていることを意味している。また、用語ＩＤがK05の「田中太郎」は未検索だが、出現文書として「D03，D05，D07，D11，D18」の５件の文書が得られていることを意味している。

なお、ここでは説明を簡潔にするため、用語記憶部１１に格納される用語リストを用語ＩＤ、用語、検索フラグ、出現文書ＩＤからなるテーブルとして説明したが、用語ＩＤを使わず用語そのものを主キーとして用いたり、出現文書ＩＤの変わりにＵＲＬ（Uniform Resource Locator）やファイルのアドレスを用いたり、出現文書の最終更新日を一緒に格納したりするなどの方法も考えられ、本実施の形態に述べる方法に限定されない。

共起度データ記憶部１３には、用語と用語の関係が重み付のグラフ構造として格納される。図３は、共起度データ記憶部１３に格納される共起度グラフの例を示す。図３を参照すると、用語K01と用語K02の共起度は0.1、用語K01と用語K05の共起度は0.5であることが分かる。また、検索済みの用語はハッチングを付したノードで、未検索の用語は白色のノードとして表現されているため、用語K01と用語K02の共起度0.1は、両方の用語が検索された結果、算出されたものであることが分かる。また、用語K01と用語K11の共起度0.1は、用語K01の片方だけの検索結果に基づいて算出されたものであることが分かる。さらに、用語K15と用語16はどちらも未検索だが、他の用語の検索結果文書に出現した頻度を使って共起度0.5が算出されていることが分かる。

共起度グラフの算出について、両側のノードが検索済みか未検索かの組み合わせは、（ａ）両側検索済み、（ｂ）片側検索済み、（ｃ）両側未検索の３通り存在する。図４は、３つの組み合わせについて、近似的な共起度計算を説明する概念図である。

図４（ａ）は、両側検索済みの用語の共起度の概念図である。左側の円Ｋ１が用語K1が出現する文書集合、右側の円Ｋ２が用語K2が出現する文書集合を表す。この場合、用語K1と用語K2は両方とも検索済みであるため、共起頻度、相互情報量、Dice係数、Jaccard係数、Simpson係数、Cosine係数のいずれの定義であっても誤差なく共起度を計算することができる。例えば、用語記憶部１１に格納されているデータが図２の通りであった場合、用語K02と用語K04は両側検索済みの共起度を算出することができる。図２より、用語K02が出現する文書は「D01，D02，D04，D05，D10，D13，D15，D18」の８件、用語K04が出現する文書は「D01，D03，D05，D07，D10，D15，D17，D20」の８件、用語K02と用語K04が両方出現する文書は、「D01，D05，D10，D15」の４件であるので、Simpson係数を使って共起度を算出したとすると、｜K02 AND K04｜／min（｜K02｜，｜K04｜）＝4／8＝0.5となる。

図４（ｂ）は、片側検索済みの用語の共起度の概念図である。左側の円Ｋ１が用語K1が出現する文書集合、右側の点線の円Ｋ２が用語K2が出現する真の文書集合、その内側の長円Ｋ２’が他の用語を検索した結果、用語K2が抽出された文書集合を表す。この場合、用語K1は検索済みであるため、用語K1が出現する文書集合は既に明らかになっている。一方、用語K2については、他の用語の検索結果から抽出された文書集合は、用語K2が出現する真の文書集合の部分集合のみである。このような場合でも、用語K1が出現する文書集合と用語K2が抽出された文書集合との積集合に含まれる文書の数は｜K1 AND K2｜に一致する。なぜなら、用語K1と用語K2が共起している文書集合は、用語K1が出現する文書集合のうち、用語K2が抽出された文書集合として求めることができるからである。この場合、用語間の近似的な共起度を以下のようにして算出することができる。

共起度の指標として、共起頻度を用いる場合は、｜K1 AND K2｜が得られているため、用語K1と用語K2の共起度を誤差なく算出することが可能である。例えば、用語記憶部１１に格納されているデータが図２の通りであった場合、用語K02と用語K03が両方出現する文書は「D02，D05，D10，D18」の４件であるため、共起頻度は４となる。

共起度の指標として、相互情報量を用いる場合は、用語K2が出現する文書の数｜K2｜の代わりに、用語K2が抽出された文書の数｜K2｜’を用いることによって、近似的に
−log｛N×｜K1 AND K2｜／(｜K1｜×｜K2｜’)}
として共起度を計算することが可能である。図４（ｂ）から明らかなように、｜K2｜＞｜K2｜’であるため、片側検索済みにおける近似的な相互情報量の値は、両側検索済みにおける真の相互情報量の値の下限が分かっていることになる。

例えば、Ｗｅｂ検索エンジンに登録されている文書数が1,000,000ページで、用語記憶部１１に格納されているデータが図２の通りであった場合、用語K02と用語K03の共起度を近似的な総合情報量で求める方法は次のようになる。用語K02と用語K03が両方出現する文書は「D02，D05，D10，D18」の４件、用語K02が出現する文書は「D01，D02，D04，D05，D10，D13，D15，D18」の８件、用語K03が抽出された文書は「D02，D05，D10，D18」の４件であるため、近似的な相互情報量は−log（1,000,000×4／（8×4）｝＝−5.4となる。この値は、その後、用語K2が抽出される文書が増えることによって、大きくなる可能性はあるが、これより小さくなる可能性はない。

共起度の指標として、Dice係数を用いる場合は、用語K2が出現する文書の数｜K2｜の代わりに、用語K2が抽出された文書の数｜K2｜’を用いることによって、近似的に、｜K1 AND K2｜／（｜K1｜＋｜K2｜’）として共起度を計算することが可能である。この場合、片側検索済みにおける近似的なDice係数は、両側検索済みにおける真のDice係数の値の上限となる。

例えば、用語記憶部１１に格納されているデータが図２の通りであった場合、用語K02と用語K03の共起度を近似的なDice係数で求める方法は次のようになる。用語K02と用語K03が両方出現する文書は「D02，D05，D10，D18」の４件、用語K02が出現する文書は「D01，D02，D04，D05，D10，D13，D15，D18」の８件、用語K03が抽出された文書は「D02，D05，D10，D18」の４件であるため、近似的なDice係数は4／（4＋8）＝0.3となる。この値は、その後、用語K2が抽出される文書が増えることによって、小さくなる可能性はあるが、これ以上大きくなる可能性はない。

共起度の指標として、Jaccard係数を用いる場合は、｜K1
OR K2｜の代わりに用語K1が出現する文書集合と用語K2が抽出された文書集合の和集合に含まれる文書の数｜K1 OR K2｜’を用いることによって、近似的に｜K1 AND K2｜／｜K1 OR K2｜’として共起度を計算することが可能である。この場合、片側検索済みにおける近似的なJaccard係数は、両側検索済みにおける真のJaccard係数の値の上限となる。

例えば、用語記憶部１１に格納されているデータが図２の通りであった場合、用語K02と用語K03の共起度を近似的なJaccard係数で求める方法は次のようになる。用語K02と用語K03が両方出現する文書は「D02，D05，D10，D18」の４件、用語K02が出現する文書集合と用語K03が抽出された文書の和集合は「D01，D02，D04，D05，D10，D13，D15，D18」の８件であるため、近似的なJaccard係数は4／8＝0.5となる。この値は、その後、用語K2が抽出される文書が増えることによって、小さくなる可能性はあるが、これより大きくなる可能性はない。

共起度の指標として、Simpson係数を用いる場合は、用語K2が出現する文書の数｜K2｜の代わりに、用語K2が抽出された文書の数｜K2｜’を用いることによって、近似的に、
｜K1 AND K2｜／min(｜K1｜，｜K2｜’）
として共起度を計算することが可能である。この場合、片側検索済みにおける近似的なSimpson係数は、両側検索済みにおける真のSimpson係数の値の上限となる。

例えば、用語記憶部１１に格納されているデータが図２の通りであった場合、用語K02と用語K03の共起度を近似的なSimpson係数で求める方法は次のようになる。用語K02と用語K03が両方出現する文書は「D02，D05，D10，D18」の４件、用語K02が出現する文書は「D01，D02，D04，D05，D10，D13，D15，D18」の８件、用語K03が抽出された文書は「D02，D05，D10，D18」の４件であるため、近似的なSimpson係数は4／min（8，4）＝1となる。この値は、その後、用語K2が抽出される文書が増えることによって、小さくなる可能性はあるが、これより大きくなる可能性はない。

さらに細かく場合分けを考えると、検索済みの用語K1が出現する文書数｜K1｜と未検索の用語K2が抽出された文書数｜K2｜’を比較した場合、｜K1｜＜｜K2｜’であれば、片側検索済みの場合であっても、両側検索済みにおける真のSimpson係数の値と等しくなる。

共起度の指標として、Cosine係数を用いる場合は、用語K2が出現する文書の数｜K2｜の代わりに、用語K2が抽出された文書の数｜K2｜’を用いることによって、近似的に、
｜K1 AND K2｜／√(｜K1｜ × ｜K2｜’）
として共起度を計算することが可能である。この場合、片側検索済みにおける近似的なCosine係数は、両側検索済みにおける真のCosine係数の値の上限となる。

例えば、用語記憶部１１に格納されているデータが図２の通りであった場合、用語K02と用語K03の共起度を近似的なCosine係数で求める方法は次のようになる。用語K02と用語K03が両方出現する文書は「D02，D05，D10，D18」の４件、用語K02が出現する文書は「D01，D02，D04， D05，D10，D13，D15，D18」の８件、用語K03が抽出された文書は「D02，D05，D10，D18」の４件であるため、近似的なCosine係数は4／√（8×4）＝22.6となる。この値は、その後、用語K2が抽出される文書が増えることによって、小さくなる可能性はあるが、これより大きくなる可能性はない。

図４（ｃ）は、両側未検索の用語の共起度の概念図である。左側の点線の円Ｋ１が用語K1が出現する真の文書集合、その内側の円Ｋ１’が他の用語を検索した結果、用語K1が抽出された文書集合、右側の点線の円Ｋ２が用語K2が出現する真の文書集合、その内側の円Ｋ２’が他の用語を検索した結果、用語K2が抽出された文書集合を表す。この場合、用語K1と用語K2のどちらも、出現する真の文書集合の部分集合しか得られていないことになる。このような場合でも、用語K1が抽出された文書の数｜K1｜’、用語K2が抽出された文書の数｜K2｜’、用語K1と用語K2が抽出された文書の数｜K1
AND K2｜’を用いることによって、用語間の近似的な共起度を算出することができる。

ただし、片側検索済みの場合に、｜K1 AND K2｜が正確に求まっており、共起度の近似値が上限または下限であることが明らかであったのに対して、両側未検索の場合は｜K1 AND K2｜’も近似値であるため、後の処理で別の用語が検索されて用語K1および用語K2が抽出される文書集合が追加されることにより、共起度の近似値は大きくなる可能性も小さくなる可能性も残っていることになる。

図１の検索戦略決定部２１は、用語記憶部１１に格納されている用語リストと、共起度データ記憶部１３に格納されている共起度グラフを参照し、各未検索の用語について共起度グラフの近似度を高める可能性を近似グラフスコアAGS（Approximate Graph Score）として算出し、近似グラフスコアAGS上位k個の用語を検索候補語としてデータ検索部２２に渡す。

用語Kiに対する近似グラフスコアAGS（Ki）は例えば、以下のように定義できる。
AGS(Ki) ＝ ΔN ×（α｜E01｜＋ β｜E12｜＋ γ｜E11｜）
ここで、△Nは用語Kiを検索することによって、新たに抽出される用語の数の期待値である。一般に、より多くの抽出済み用語と共起している用語ほど、多くの未抽出の用語とも共起していると推測できるため、△Nには、図３の共起度グラフにおける用語Kiのまわりのエッジ数が目安として利用できる。例えば、図３において、用語K16の周りのエッジはK16−K07、K16−K12、K16−K13、K16−K14、K16−K15、K16−K17の６本であるので、K16に関する△Nの値は６になる。

｜E01｜は、用語Kiを検索することによって、両側未検索から片側検索済みになるエッジの数である。図３において、新たに用語K16を検索することにすると、K16−K12、K16−K13、K16−K14、K16−K15、K16−K17の５本のエッジは、両側未検索から片側検索済みになるため、用語K16に関する｜E01｜は５になる。

｜E12｜は、用語Kiを検索することによって、片側検索済みから両側検索済みになるエッジの数である。例えば、図３において、新たに用語K16を検索することにすると、K16−K07の１本のエッジは、片側検索済みから両側検索済みになるため、用語K16に関する｜E12｜は１になる。

｜E11｜は用語Kiを検索することによって、片側未検索のままだが情報量が多くなることによってより近似された共起度が計算できることが期待できるエッジの数である。例えば、図３において、新たに用語K16を検索することにすると、K12−K10、K13−K08、K14−K08、K15−K08、K15−K07、K17−K07、K17−K09の７本のエッジは、片側検索済みのままだが、検索結果に含まれる文書から新たにK12、K13、K14、K15、K17が抽出される可能性があるため、より近似された共起度が計算できることが期待できる。従って、用語K16に関する｜E11｜は７になる。なお、α、β、γは｜E01｜、｜E12｜、｜E11｜のエッジの本数に対する重みである。

図４の説明で議論した通り、片側検索済みの場合は、両側検索済みと同等の共起度または上限もしくは下限が定まるのに対して、両側未検索の場合は、あくまで共起度の目安が求まっているに過ぎない。従って、真の共起度で構成される共起度グラフに対する近似の度合いとしては、両側未検索が片側検索済みになるエッジの方が、片側検索済みが両側検索済みになるエッジよりも重要である。また片側検索済みが両側検索済みになるエッジの方が、片側検索済みのままのエッジよりも重要である。以上の議論から、重みα、β、γは、α＞β＞γとなるように設定することが好ましい。

図１のデータ検索部２２は、検索戦略決定部２１から渡されたk個の検索候補語について、１語ずつネットワーク５を介して公開データ６を検索し、検索結果として用語が出現する文書ＩＤのリストを得る。次に、得られた文書ＩＤのリストを用語記憶部１１に格納されている用語リストに追加する。また、文書ＩＤで示される文書の本体をネットワーク５を介して取得し、共起度計算部２４に渡す。

共起度計算部２４は、用語記憶部１１に格納されている用語リストから、各用語間の共起度を計算し、重み付グラフとして共起度データ記憶部１３に格納する。

次に、図１及び図２〜図８を参照して本実施の形態の動作について詳細に説明する。図５は、本実施の形態における用語共起度抽出装置１００の動作の一例を示す流れ図である。

検索戦略決定部２１は、用語記憶部１１に格納されている用語リストと、共起度データ記憶部１３に格納されている共起度グラフとを参照し、各未検索の用語について、共起度グラフの近似度を高める可能性を近似グラフスコアAGSとして算出する。そして、近似グラフスコアAGS上位k個の用語を検索候補語と決定する（図５のステップＳ２０１）。

データ検索部２２は、検索戦略決定部２１から渡されたk個の検索候補語について、１語ずつネットワーク５を介して公開データ６を検索し、検索結果として得られた文書ＩＤのリストを用語記億部１１に格納されている用語リストに追加する。文書ＩＤで示される文書群をネットワーク５を介して取得し、共起度計算部２４に渡す（図５のステップＳ２０２）。

ここで、共起度データ記憶部１３の更新度合いが閾値以上の場合は（図５のステップＳ２０５；Ｙｅｓ）、さらに処理を繰り返すことでグラフの近似度が高まることを意味しているため、図５のステップＳ２０１に戻って再帰的に処理を繰り返す。共起度データ記憶部１３の更新度合いの高さは、（１）共起度グラフに新しく追加された用語の数△K、（２）エッジの重みの変化の合計△E、によって△K×△Eとして定義できる。一方、共起度データ記憶部１３の更新度合いが閾値未満の場合は（図５のステップＳ２０５；Ｎｏ）、十分高い近似度の共起度グラフが得られていることになるため、処理を終了する。

なお、ここでは説明を簡潔にするため、図５のステップＳ２０１で検索戦略決定部２１がデータ検索部２２に渡す検索候補語を、近似グラフスコアAGSの上位k個の用語としたが、他にも、近似グラフスコアAGSの上位x％を検索候補語とする方法や閾値ρ以上の用語を検索候補語とする方法も考えられ、本実施の形態に述べた方法に限定されない。また、図５のステップＳ２０５の終了条件として、共起度データ記憶部１３の更新度合いを測定する方法について述べたが、他にも、処理時間の合計が閾値以上に達したかどうか、あるいは、検索回数が閾値以上に達したかどうかを基準に再起処理を打ち切る方法も考えられ、本実施の形態に述べた方法に限定されない。

図６は、検索戦略決定部２１の動作の一例を示す流れ図である。検索戦略決定部２１は、検索候補集合Ｔを空集合として初期化する（図６のステップＳ２１１)。次に、検索戦略決定部２１は、共起度データ記憶部１３に格納されている共起度グラフ内を走査し、未検索の用語Kiを見つけ出す（図６のステップＳ２１２)。もし、未検索の用語Kiが見つかった場合（ステップＳ２１２；Ｙｅｓ）、検索戦略決定部２１は、用語Kiの近似グラフスコアAGS（Ki）を計算する（図６のステップＳ２１３）。そして、用語Kiとその近時グラフスコアAGS（Ki）を検索候補集合Ｔに追加する（図６のステップＳ２１４）。

用語Kiと近似グラフスコアAGS（Ki）の組、例えば、共起度データ記憶部１３に格納されている共起度グラフが図３の通りであった場合、未検索の用語はK11、K12、K13、K14、K15、K16、K17の７語存在することになる。それぞれの未検索の用語について、α＝100、β＝10、γ＝1として近似グラフスコアを求めると、次のようになる。

用語K11のノードの周りのエッジの本数はK11−K01，K11−K02, K11−K03，K11−K04, K11−K05，K11−K07の６本、用語K11を検索することによって、両側未検索から片側検索済みになるエッジの数｜E01｜は０本、片側検索済みから両側検索済みになるエッジの数｜E12｜はK11−K01、K11−K02、K11−K03、K11−K04、K11−K05、K11−K07の６本、片側検索済みのままだが情報量が増えるエッジの数｜E11｜は０本である。従って、
AGS（K11）＝ △N×（α｜E01｜＋β｜E12｜＋γ｜E11｜）
＝ 6×（100×0＋10×6＋1×0）
＝ 360

用語K12のノードの周りのエッジの本数はK12−K10，K12−K16の２本、用語K12を検索することによって、両側未検索から片側検索済みになるエッジの数｜E01｜はK12−K16の１本、片側検索済みから両側検索済みになるエッジの数｜E12｜はK12−K10の１本、片側検索済みのままだが情報量が増えるエッジの数｜E11｜はK16−K07の１本である。従って、
AGS(K12) ＝ ΔN×（α｜E01｜＋β｜E12｜＋γ｜E11｜)
＝ 2×（100×1＋10×1＋1×1）
＝ 222

用語K13のノードの周りのエッジの本数はK13−K16，K13−K08の２本、用語K13を検索することによって、両側未検索から片側検索済みになるエッジの数｜E01｜はK13−K16の１本、片側検索済みから両側検索済みになるエッジの数｜E12｜はK13−K08の１本、片側検索済みのままだが情報量が増えるエッジの数｜E11｜はK16−K07の1本である。従って、
AGS(K13) ＝ ΔN×（α｜E01｜＋β｜E12｜＋γ｜E11｜）
＝ 2×（100×1＋10×1＋1×1）
＝ 222

用語K14のノードの周りのエッジの本数はK14−K16, K14−K08の２本、用語K14を検索することによって、両側未検索から片側検索済みになるエッジの数｜E01｜はK14−K16の１本、片側検索済みから両側検索済みになるエッジの数｜E12｜はK14−K08の１本、片側検索済みのままだが情報量が増えるエッジの数｜E11｜はK08−K15の１本である。従って、
AGS(K14) ＝ ΔN×（α｜E01｜＋β｜E12｜＋γ｜E11｜）
＝ 2×（100×1＋10×1＋1×1）
＝ 222

用語K15のノードの周りのエッジの本数はK15−K16，K15−K07，K15−K08の３本、用語K15を検索することによって、両側未検索から片側検索済みになるエッジの数｜E01｜はK15−K16の１本、片側検索済みから両側検索済みになるエッジの数｜E12｜はK15−K07， K15−K08の２本、片側検索済みのままだが情報量が増えるエッジの数｜E11｜はK16−K07の１本である。従って、
AGS（K15）＝ ΔN×（α｜E01｜＋β｜E12｜＋γ｜E11｜）
＝ 3×（100×1＋10×2＋1×1）
＝ 363

用語K16のノードの周りのエッジの本数はK16−K07，K16−K12，K16−K13，K16−K14，K16−K15，K16−K17の６本、用語K16を検索することによって、両側未検索から片側検索済みになるエッジの数｜E01｜はK16−K12, K16−K13, K16−K14, K16−K15,
K16−K17の５本、片側検索済みから両側検索済みになるエッジの数｜E12｜はK16−K07の１本、片側検索済みのままだが情報量が増えるエッジの数｜E11｜はK12−K10，K13−K08，K14−K08，K15−K07，K15−K08，K17−K07，K17−K09の７本である。従って、
AGS(K16) ＝ △N×（α｜E01｜＋β｜E12｜＋γ｜E11｜）
＝ 6×（100×5＋10×1＋1×7）
＝ 3,102

用語K17のノードの周りのエッジの本数はK17−K07，K17−K09，K17−K16の３本、用語K17を検索することによって、両側未検索から片側検索済みになるエッジの数｜E01｜はK17−K16の１本、片側検索済みから両側検索済みになるエッジの数｜E12｜はK17−K07，K17−K09の２本、片側検索済みのままだが情報量が増えるエッジの数｜E11｜はK16−K07の１本である。従って、
AGS(K17) ＝ △N×（α｜E01｜＋β｜E12｜＋γ｜E11｜）
＝ 3×（100×1＋10×2＋1×l）
＝ 363

次に、検索戦略決定部２１は、近似グラフスコアAGS（Ki）を計算すべき未検索の用語Kiがなくなると（図６のステップＳ２１２；Ｎｏ）、検索候補集合Ｔを近似グラフスコアAGSの順にソートし（図６のステップＳ２１５）、上位ｎ件の未検索用語を出力としてデータ検索部２２に渡す（図６のステップＳ２１６）。例えば、上述した用語K12〜K17の近似グラフスコア計算の例で、上位３語の未検索用語を出力するとした場合、用語K16、K15、K17の３語が、次に検索されるべき用語としてデータ検索部２２に渡されることになる。

なお、ここでは説明を簡潔にするため、共起度データ記憶部１３に格納されている共起度グラフがある程度構築された後の途中状態での処理について説明を行ったが、初期状態では、共起度データ記憶部１３には共起度グラフは構築されておらず、用語リストが用語記憶部１１に全て未検索の状態で格納されているだけである。従って、初期状態では、用語記憶部１１に格納されている用語リストの先頭からk個、もしくはランダムにk個を選択して検索候補語とするなどの方法が考えられ、本実施の形態に述べた方法に限定されない。

図７は、データ検索部２２の動作の一例を示す流れ図である。データ検索部２２は、検索戦略決定部２１から渡された検索候補語の集合から、１語ずつ取り出しながら（図７のステップＳ２２１；Ｙｅｓ）、検索侯補語をクエリとしてネットワーク５を介して公開データ６を検索する（図７のステップＳ２２２）。次に、用語記憶部１１に格納されている用語リストに対して、クエリとして使われた用語の出現文書ＩＤの欄に、検索結果として得られた文書ＩＤのリストを追加する（図７のステップＳ２２３）。また、検索語果として得られた文書ＩＤのリストで示される文書本体を取得しておく（図７のステップＳ２２４）。

検索候補語を全て検索し終わったら（図７のステップＳ２２１；Ｎｏ）、取得した文書本体の集合を共起度計算部２４に渡す。このように、データ検索部２２は、検索候補語の集合から１語ずつ検索を行うため、検索回数はたかだか用語リストに含まれる用語の数であり、検索回数が幾何級数的に増加するのを防ぐことができる。

なお、ここでは説明を簡潔にするため、データ検索部２２は、検索結果として得られた文書ＩＤのリストで示される文書本体を全て取得するとして説明を行ったが、一度取得済みの文書をキャッシュとして残しておき、同じ文書は改めて取得しないようにして効率化を図る方法なども考えられ、本実施の形態に述べた方法に限定されない。

図８は、共起度計算部２４の動作の一例を示す流れ図である。共起度計算部２４は、用語記憶部１１に格納されている用語リストから1組ずつペアの組み合わせを生成し（図８のステップＳ２４１；Ｙｅｓ）、用語リストに記述されている出現文書ＩＤのリストから、Simpson係数を用いて共起度を計算する（図８のステップＳ２４２）。次に、計算された共起度があらかじめ指定された閾値βよりも高ければ（図８のステップＳ２４３；Ｙｅｓ）、該当する用語のペアを共起度データ記憶部１３に格納されている共起度グラフに追加し、エッジの重みとして共起度の値を設定する（図８のステップＳ２４４）。この時、用語のペアが既に共起度グラフに登録されている場合は、そのエッジの重みの値を更新する。これを、全ての用語のペアについて共起度を計算するまで繰り返す（図８のステップＳ２４１；Ｎｏ）。

なお、ここでは説明を簡潔にするため、共起度の計算方法としてSimpson係数を用いる例について述べたが、他にも、共起頻度、相互情報量、Dice係数、Jaccard係数、閾値付Simpson係数、Cosine係数など、様々な共起度の計算方法が考えられ、本実施の形態に述べた方法に限定されない。また、共起度計算部２４は、用語記憶部１１に格納されている用語の全ての組み合わせについて共起度を計算するものとして説明を行ったが、データ検索部２２によって更新が起こった用語とその他の用語のペアの組み合わせだけに限って共起度の計算を行うことにより処理の効率化を図る方法も考えられ、本実施の形態に述べる方法に限定されない。

次に、本実施の形態の効果について説明する。
本実施の形態では、公開データ６に対する検索は、用語のペアではなく、用語１語ずつで行う。そのため、検索回数はたかだか用語リストに含まれる用語の数であり、検索回数が幾何級数的に増加するのを防ぐことができる。

また、本実施の形態では、未検索の用語であっても、検索済み用語の検索結果に含まれる文書中に出現していれば、近似的な共起度を求めることができる。そのため、少ない検索回数でもより多くの用語の関係を近似的に求めることができる。

また、本実施の形態では、未検索のどの用語を検索すれば、より近似度の高い共起度グラフが求まるかという指標を近似グラフスコアとして計算し、近似グラフスコアの高い用語の順に検索を行う。そのため、少ない検索回数でもより真の値に近い共起度グラフを求めることができる。

（実施の形態２）
図１０は、本発明の実施の形態２に係る用語共起度抽出装置１００の構成例を示すブロック図である。実施の形態２は、実施の形態１の構成に加えて、処理装置２に用語抽出部２３が追加されている点で異なる。また、記憶装置１に抽出ルール記憶部１２が追加されている。

抽出ルール記憶部１２には、用語として抽出すべき文字列を記述した抽出ルールとそのスコアの組が格納されている。抽出ルールは単語属性の組み合わせとして表現される。単語属性とは、用語記憶部１１に記憶されている用語、表層文字列である表記、動詞や形容詞の活用の原形、品詞、読み（ふりがな、仮名表記）、同義表現や送り仮名、ひらがなカタカナ表記の違いを吸収した代表表記、「地名」や「色名」などの意味分類などを含む。

図１１は、抽出ルール記憶部１２に格納されている抽出ルールの例を示す。ダブルクォーテーション“”で囲まれた抽出ルールに一致する文字列を用語として抽出する。図１１における「｜」「＋」「（）」などの演算子の意味は、一般的な正規表現演算子の意味と同じである。図１１は、例として人名を抽出するためのルールである。

抽出ルールR01は、用語記憶部１１に記憶されている用語と完全一致する文字列を人名として抽出するルールである。例えば、用語記憶部１１の内容が図２のようであった場合、「田中一郎」や「高橋二郎」などの文字列が文書に出現すると、それは人名と判断され、スコア1.0が加算される。

抽出ルールR02は、文書を形態素解析した際に、品詞が「名詞−固有名詞−人名−姓」「名詞−固有名詞−人名−名」の順で出現している文字列を人名として抽出するルールである。例えば、用語記憶部１１に「田中五郎」という人名が登録されていなくても、「田中五郎」を形態素解析した結果が、「田中／名詞−固有名詞−人名−姓五郎／名詞−固有名詞−人名−名」であれば、「田中五郎」を新しい人名として抽出し、スコア1.0を加算する。

抽出ルールR03は、文書を形態素解析した際に、品詞が「名詞」の単語が繰り返し出現し、次に、「名詞−固有名詞−人名−名」が出現し、さらに、表記が「氏」、「様」、「さん」、「先生」のような、人名によく付属する接尾語が出現した場合に、接尾語の前までの文字列を人名として抽出するルールである。例えば、用語記憶部１１に「笹間太郎」という人名が登録されていなくても、「笹間太郎さん」を形態素解析した結果が、「笹／名詞−一般間／名詞−一般−一郎／名詞−固有名詞−人名−名さん／名詞−接尾−人名」であれば、「笹間一郎」を新しい人名として抽出し、スコア0.5を加算する。このようなルールを使うことによって、「笹間」という姓が形態素解析器に登録されていなくても、人名らしい文字列を抽出することができる。

抽出ルールR04は、文書を形態素解析した際に、品詞が「名詞−固有名詞−人名−姓」の単語が出現し、次に、「名詞」が繰り返し出現し、さらに、表記が「氏」、「様」、「さん」、「先生」のような、人名によく付属する接尾語が出現した場合に、接尾語の前までの文字列を人名として抽出するルールである。例えば、用語記憶部１１に「田中仙太郎」という人名が登録されていなくても、「田中仙太郎先生」を形態素解析した結果が、「田中／名詞−固有名詞−人名−姓仙／名詞−固有名詞−人名−名太郎／名詞−固有名詞−人名−名先生／名詞−一般」であれば、「田中仙太郎」を新しい人名として抽出し、スコア0.4を加算する。このようなルールを使うことによって、「仙太郎」という名が形態素解析器に登録されていなくても、人名らしい文字列を抽出することができる。

抽出ルールR05は、用語記憶部１１に記憶されている用語の先頭２文字と末尾２文字の文字列で構成されている文字列を人名として抽出するルールである。例えば、用語記憶部１１の内容が図２のようであった場合、「高橋一郎」や「佐藤太郎」のような文字列が文書に出現すると、それは人名と判断され、スコア0.7が加算される。上述の抽出ルールは必ずしも排他的でなく、一つの文字列に複数の抽出ルールが該当する場合もある。例えば、用語記憶部１１に「田中一郎」という人名が登録されており、形態素解析の結果が「田中／名詞−固有名詞−人名−姓一郎／名詞−固有名詞−人名−名」であれば、この文字列は抽出ルールR01、R02、R05に該当することになる。この場合、全ての抽出ルールを加算して、2.7とする。これにより、スコアの高い文字列ほど人名らしいと判断できるようになる。

用語抽出部２３は、データ検索部２２から渡された文書本体に対して、抽出ルール記憶部１２に記述されている抽出ルールに該当する文字列を用語として抽出し、用語記憶部１１に格納されている用語リストの該当する用語の出現文書ＩＤを追加する。抽出した用語が用語記憶部１１に未登録の場合、新しい行を作成し、検索フラグを「未」に設定して、出現文書ＩＤを記録する。

図１２は、実施の形態２に係る用語共起度抽出装置１００の動作の一例を示す流れ図である。実施の形態２の用語共起度抽出処理は、図５に示す実施の形態１の処理の動作に、用語抽出処理が追加されている。すなわち、ステップＳ２０１、ステップＳ２０２は実施の形態１と同様である。用語抽出部２３は、データ検索部２２と共起度計算部２４の間に置かれている。データ検索部２２は、公開データ６から検索した文書データを用語抽出部２３に渡す（図１２のステップＳ２０２）。

用語抽出部２３は、データ検索部２２から渡された文書群に対して、抽出ルール記憶部１２に記述されている抽出ルールに該当する文字列を用語として抽出する。そして、用語記憶部１１に格納されている用語リストの該当する用語の出現文書ＩＤを追加する（図１２のステップＳ２０３）。以降の処理は、実施の形態１と同様である。

図１３は、用語抽出部２３の動作の一例を示す流れ図である。用語抽出部２３は、最初に、初期化処理として、抽出候補集合Ｅを空集合として設定する（図１３のステップＳ２３１）。次に、データ検索部２２から渡された文書集合から1文書ずつ取り出しながら（図１３のステップＳ２３２；Ｙｅｓ）、文書の形態素解析を行い、文書内に抽出ルール記憶部１２に格納されている抽出ルールにマッチする文字列がないか調べる（図１３のステップＳ２３３）。

文書中に抽出ルールにマッチする文字列があれば（図１３のステップＳ２３３；Ｙｅｓ）、その文字列ESと出現文書ＩＤ、およびその抽出スコアRSの組を抽出候補集合Ｅに追加する（図１３のステップＳ２３４）。このとき、既に文字列ESが抽出候補集合Ｅに登録済みであれば、出現文書ＩＤをリストとして追加し、抽出スコアRSの合計を計算する。文書中に抽出ルールにマッチする文字列が出てこなくなれば（図１３のステップＳ２３３；Ｎｏ）、次の文書に対して繰り返し処理を行う（図１３のステップＳ２３２）。

全ての文書に対して処理が終わったら（図１３のステップＳ２３２；Ｎｏ）、抽出候補集合Ｅの中から、抽出スコアの合計が閾値以上になっている用語について、出現文書ＩＤのリストを用語記憶部１１に格納されている用語リストに追加する。このように、用語抽出部２３は、抽出ルールに従って文書中に含まれる用語を抽出できるため、初期の入力データの用語リストに含まれていない新語であっても、再帰的に共起度を計算することができるようになる。

なお、共起度計算部２４は、データ検索部２２と用語抽出部２３によって更新が起こった用語とその他の用語のペアの組み合わせだけに限って共起度の計算を行うことにより処理の効率化を図る方法も考えられる。

また、ここでは説明を簡潔にするため、収集対象の用語を人名に限定した例について述べたが、他にも、例えば図９に示すような組織名リストを用語記憶部１１に格納し、図１４に示すような抽出ルールを抽出ルール記憶部１２に与えることによって、組織名の共起度も抽出することができるようになり、本実施の形態に述べた方法に限定されない。

さらに、用語記憶部１１に格納される用語リストと、抽出ルール記憶部１２に格納される抽出ルールに、ドメインのラベルのデータを付与することによって、人と組織、組織と地名など、異なる複数のドメインに属する用語を新たに抽出することができる。

本実施の形態２では、検索の結果得られた文書に対して、抽出ルールを用いて用語リストに未登録の新語を抽出して追加する。そのため、入力データである用語リストに含まれていない新語を抽出しながら再帰的に共起度を計算することができる。

（実施の形態３）
図１５は、本発明の実施の形態３に係る用語共起度抽出装置１００の構成例を示すブロック図である。図１５を参照すると、本発明の実施の形態３は、図１０に示された実施の形態２の構成に加えて、処理装置２に抽出ルール学習部２５が追加されている点で異なる。

抽出ルール学習部２５が用語記憶部１１に格納されている用語リストの文書中での出現傾向の統計量を計算することにより、抽出ルール記憶部１２に格納されている抽出ルールを増やす。

本実施の形態の動作を、図１５〜１７を参照して詳細に説明する。
図１６は、本発明の実施の形態３の動作の一例を示す流れ図である。図１６におけるステップＳ２０１〜Ｓ２０５における、検索戦略決定部２１、データ検索部２２、共起度計算部２４の動作は、図５に示す実施の形態１における検索戦略決定部２１〜共起度計算部２４の動作と同一のため、説明は省略する。用語抽出部２３は、図１６のステップＳ２０３の後、データ検索部２２から渡された検索結果の文書群をそのまま抽出ルール学習部２５に渡すものとする。

抽出ルール学習部２５は、用語記憶部１１に格納されている用語リストについて、用語抽出部２３から渡された文書群中での出現パタンを計測し、出現頻度が高く、かつ、用語を抽出する可能性の高いパタンを抽出ルールとして抽出ルール記憶部１２に追加する。

図１７は、抽出ルール学習部２５の動作の一例を示す流れ図である。抽出ルール学習部２５は、初期化処理として、周辺文字列集合Ｃとルール候補集合Ｒを空集合に設定する（図１７のステップＳ２５０）。次に、用語記憶部１１に格納されている用語リスト中の用語を１語ずつ取り出して（図１７のステップＳ２５１；Ｙｅｓ）、取り出された用語が、用語抽出部２３から渡された文書群中に出現している前後w語以内の周辺文字列を全て列挙し、周辺文字列集合Ｃに追加する（図１７のステップＳ２５２）。

例えば、ｗ＝４で、取り出された用語が「田中一郎」であり、文書群中に「凸凹株式会社の田中一郎社長が語る」という記述があったとする。この場合、「凸凹株式会社の田中一郎社長が語る」という記述を形態素解析すると、「凸凹／名詞−一般株式会社／名詞−一般の／助詞−連帯化田中／名詞−固有名詞−人名−姓一郎／名詞−固有名詞−人名−名社長／名詞−一般が／助詞−格助詞−一般語る／動詞−自立」となるため、「田中一郎」を含む４語以内の周辺文字列は、「株式会社／の／田中／一郎」「の／田中／一郎／社長」「田中／一郎／社長／が」「の／田中／一郎」「田中／一郎／社長」「田中／一郎」の６通り存在する。

なお、ここでは、説明を簡潔にするため、文書群中に出現している前後w語以内の周辺文字列を全て列挙するものとして説明を行ったが、自立語で始まる周辺文字列に限定する、自立語で終わる周辺文字列に限定する、自立語で始まりかつ自立語で終わる周辺文字列に限定するなどの方法も考えられ、本実施の形態に述べた方法に限定されない。例えば、自立語で始まりかつ自立語で終わる周辺文字列に限定する場合、「凸凹株式会社の田中一郎社長が語る」という記述における「田中一郎」のｗ＝４の周辺文字列は、「株式会社／の／田中／一郎」「田中／一郎／社長」「田中／一郎」の３通りになる。

次に、抽出ルール学習部２５は、列挙された周辺文字列について、用語を品詞などの単語属性として一般化したルールを生成し、ルール候補集合Ｒに追加する（図１７のステップＳ２５３）。例えば、周辺文字列が「株式会社の田中一郎」であった場合、
「株式会社の“［品詞：名詞−固有名詞−姓］［品詞：名詞−固有名詞−名］”」、
「株式会社の“［品詞：名詞−固有名国−姓］［品詞：名詞−固有名詞］”」、
「株式会社の“［品詞：名詞−固有名詞−姓］［品詞：名詞］”」、
「株式会社の“［品詞：名詞−固有名詞」［品詞：名詞−固有名詞−名］”」、
「株式会社の“［品詞：名詞−固有名詞］［品詞：名詞−固有名詞］”」、
「株式会社の“［品詞：名詞−固有名詞］［品詞：名詞］”」、
「株式会社の“［品詞：名詞］［品詞：名詞−固有名詞−名］”」、
「株式会社の“［品詞：名詞］［品詞：名詞−固有名詞］”」、
「株式会社の“［品詞：名詞］［品詞：名詞］”」、
の９つのルールがルール候補Rに追加される。

次に、抽出ルール学習部２５は、ルール候補集合Ｒに含まれる各ルール候補について、用語抽出部２３から渡された文書群中でマッチする頻度を数え、その頻度が閾値fを超えていないルール候補はルール候補集合Ｒから削除する（図１７のステップＳ２５４）。例えば、閾値f＝10で、ルール「株式会社の［品詞：名詞−固有名詞−姓］［品詞：名詞−固有名詞−名］」とがマッチする文字列の頻度が5だった場合、ルール候補集合Ｒから削除される。

次に、抽出ルール学習部２５は、ルール候補集合Ｒに含まれる各ルール候補について、用語抽出部２３から渡された文書群中でマッチする文字列を抽出し、その文字列が用語記憶部１１に格納されている用語リストに登録されている割合を、用語抽出率として計算する。用語抽出率が低いルール候補は、多くの語を抽出できる可能性があるが、一方で、ノイズとなる語を抽出しやすいことを意味している。そのため、用語抽出率が閾値rを超えていないルール候補はルール候補集合Ｒから削除する（図１７のステップＳ２５５）。

例えば、用語抽出率の閾値r＝50％とする。この時、ルール候補r［品詞名詞−固有名詞］［品詞：名詞−固有名詞］”社長」により抽出される文字列が10語あり、そのうち7語が用語記憶部１１に格納されている用語リストに登録されている場合、このルール候補の用語抽出率は7／10＝70％となり、閾値r＝50％を超えているので、ルール候補集合Ｒから削除されない。一方、ルール候補「株式会社の”［品詞名詞］［品詞’名詞］”」により抽出される文字列が100語あり、そのうち20語が用語記憶部１１に格納きれている用語リストに登録されている場合、このルール候補の用語抽出率は20／100＝20％となり、閾値r＝50％未満であるので、ルール候補集合Ｒから削除される。

次に、抽出ルール学習部２５は、ルール候補集合Ｒに残っているルール候補を、抽出ルールとして、抽出ルール記憶部１２に追加する（図１７のステップＳ２５６）

なお、ここでは説明を簡潔にするため、抽出ルール学習部２５は、用語抽出部２３から渡された文書群のみを用いて周辺文字列の抽出とルール候補の生成を行う方法について説明を行ったが、他にも、データ検索部２２が取得した文書群全てを記憶装置１に格納しておき、それら文書群全体を使って周辺文字列の抽出とルール候補の生成を行う方法もあり、本実施の形態に述べた方法に限定されない。

本実施の形態では、検索結果の文書群に含まれる用語周辺の文字列の出現傾向を求めることにより、動的に新しい抽出ルールを生成する。そのため、初期の抽出ルールが少なくても、より多くの用語を再帰的に抽出することができる。

図１８は、図１、図１０または図１５に示す用語共起度抽出装置１００のハードウェア構成の一例を示すブロック図である。用語共起度抽出装置１００は、図１８に示すように、制御部３１、主記憶部３２、外部記憶部３３、操作部３４、表示部３５及び送受信部３６を備える。主記憶部３２、外部記憶部３３、操作部３４、表示部３５及び送受信部３６はいずれも内部バス３０を介して制御部３１に接続されている。

制御部３１はＣＰＵ（Central Processing Unit）等から構成され、外部記憶部３３に記憶されている用語共起度抽出用プログラム５００に従って、前述の用語共起度抽出装置１００の処理を実行する。

主記憶部３２はＲＡＭ（Random-Access Memory）等から構成され、外部記憶部３３に記憶されている用語共起度抽出用プログラム５００をロードし、制御部３１の作業領域として用いられる。

外部記憶部３３は、フラッシュメモリ、ハードディスク、ＤＶＤ−ＲＡＭ（Digital Versatile
Disc Random-Access Memory）、ＤＶＤ−ＲＷ（Digital Versatile
Disc ReWritable）等の不揮発性メモリから構成され、前記の処理を制御部３１に行わせるための用語共起度抽出用プログラム５００を予め記憶し、また、制御部３１の指示に従って、このプログラムが記憶するデータを制御部３１に供給し、制御部３１から供給されたデータを記憶する。図１、図１０または図１５の用語記憶部１１、抽出ルール記憶部１２および共起度データ記憶部１３は、外部記憶部３３に構成される。用語共起度抽出処理を行っているときは、それらのデータの一部は主記憶部３２に記憶されて制御部３１の作業に用いる。

操作部３４はキーボード及びマウスなどのポインティングデバイス等と、キーボード及びポインティングデバイス等を内部バス３０に接続するインターフェース装置から構成されている。操作部３４を介して、参加者を絞り込む条件設定などが入力され、制御部３１に供給される。操作部３４は、図１、図１０または図１５の入力部３に相当する。

表示部３５は、ＣＲＴ（Cathode Ray Tube）又はＬＣＤ（Liquid Crystal Display）などから構成され、検索対象の用語、検索結果、検索結果文書、用語抽出ルール、共起度グラフなどを表示する。表示部３５は、図１、図１０または図１５の出力部４の例である。その他、出力部４として、プリンタなどを備えてもよい。

送受信部３６は、ネットワーク５に接続する網終端装置または無線通信装置、及びそれらと接続するシリアルインタフェース又はＬＡＮ（Local Area Network）インタフェースから構成されている。送受信部３６は、ネットワーク５を介して、検索エンジンを提供するサーバ（図示せず）に接続し、公開データ６の情報にアクセスする。

図１、図１０または図１５の検索戦略決定部２１、データ検索部２２、用語抽出部２３、共起度計算部２４および抽出ルール学習部２５の処理は、用語共起度抽出用プログラム５００が、制御部３１、主記憶部３２、外部記憶部３３、操作部３４、表示部３５および送受信部３６などを資源として用いて処理することによって実行する。

以上、説明したように、本発明の第１の効果は、検索回数が幾何級数的に増加するのを防ぐことができることである。その理由は、公開データ６に対する検索は、用語のペアではなく、用語１語ずつで行うからである。

第２の効果は、少ない検索回数でもより多くの用語の関係を近似的に求めることができることである。その理由は、未検索の用語であっても、検索済み用語の検索結果に含まれる文書中に出現していれば、近似的な共起度を求めることができるからである。

第３の効果は、少ない検索回数でもより真の値に近い共起度グラフを求めることができることである。その理由は、未検索のどの用語を検索すれば、より近似度の高い共起度グラフが求まるかという指標を近似グラフスコアとして計算し、近似グラフスコアの高い用語の順に検索を行うからである。

第４の効果は、入力データである用語リストに含まれていない新語を抽出しながら再帰的に共起度を計算することができることである。その理由は、検索の結果得られた文書に対して、抽出ルールを用いて用語リストに未登録の新語を抽出して追加するからである。

その他、前記のハードウエア構成やフローチャートは一例であり、任意に変更及び修正が可能である。

制御部３１、主記憶部３２、外部記憶部３３、送受信部３６及び内部バス３０などから構成される用語共起度抽出装置１００の処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するための用語共起度抽出用プログラム５００を、コンピュータが読み取り可能な記録媒体（フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等）に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する用語共起度抽出装置１００を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで用語共起度抽出装置１００を構成してもよい。

また、用語共起度抽出装置１００の機能を、ＯＳ（オペレーティングシステム）とアプリケーションプログラムの分担、またはＯＳとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。

また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に用語共起度抽出用プログラム５００を掲示し、ネットワークを介して用語共起度抽出用プログラム５００を配信してもよい。そして、用語共起度抽出用プログラム５００を起動し、ＯＳの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。

本発明によれば、新開記事、スポーツニュース、論文、日記、掲示板、blog、メーリングリスト、メールマガジンなどの様々な情報源から、人間関係を表す情報や、組織間の関係を表す情報、組織と人の関係を表す情報、製品と企業の関係を表す情報などの抽出に適用することができる。

本発明の実施の形態１に係る用語共起度抽出装置の構成例を示すブロック図である。実施の形態１における用語記憶部に格納されるデータの例を示す図である。実施の形態１における共起度データ記憶部に格納されるデータの例を示す図である。実施の形態１における近似的な共起度計算を説明する図である。実施の形態１に係る用語共起度抽出装置の動作の一例を示す流れ図である。実施の形態１における検索戦略決定部の動作の一例を示す流れ図である。実施の形態１におけるデータ検索部の動作の一例を示す流れ図である。実施の形態１における共起度計算部の動作の一例を示す流れ図である。実施の形態１における用語記憶部に格納されるデータの例を示す図である。本発明の実施の形態２に係る用語共起度抽出装置の構成例を示すブロック図である。実施の形態２における抽出ルール記憶部に格納されるデータの例を示す図である。実施の形態２に係る用語共起度抽出装置の動作の一例を示す流れ図である。実施の形態２における用語抽出部の動作の一例を示す流れ図である。実施の形態２における抽出ルール記憶部に格納されるデータの例を示す図である。本発明の実施の形態３に係る用語共起度抽出装置の構成例を示すブロック図である。実施の形態３に係る用語共起度抽出装置の動作の一例を示す流れ図である。実施の形態３における抽出ルール学習部の動作の一例を示す流れ図である。用語共起度抽出装置のハードウェア構成の一例を示すブロック図である。

符号の説明

１記憶装置
２処理装置
３入力部
４出力部
５ネットワーク
６公開データ
１１用語記憶部
１２抽出ルール記憶部
１３共起度データ記憶部
２１検索戦略決定部
２２データ検索部
２３用語抽出部
２４共起度計算部
２５抽出ルール学習部
３１制御部
３２主記憶部
３３外部記憶部
３４操作部
３５表示部
３６送受信部
１００用語共起度抽出装置
５００用語共起度抽出用プログラム

Claims

検索対象の用語をノードとし、前記検索対象の任意の２つの用語について、該２つの用語が同一文書で出現する度合いを示す共起度を該２つの用語に対応するノードの間のエッジとする、共起度グラフを抽出する用語共起度抽出装置であって、
未検索の用語について、着目する未検索の用語と共起していることがわかっている既知共起用語の数と、該既知共起用語のうち未検索の用語の数および検索済みの用語の数、ならびに、該既知共起用語の未検索の用語と共起している検索済みの用語に接続するエッジの数、の線形和と、の積である近似グラフスコアを、前記着目する未検索の用語を検索することによって用語間の共起度が求まる可能性として算出する共起度検出確度判定手段と、
前記共起度検出確度判定手段で判定した可能性の大きい用語から順に所定の基準で、用語の検索順を決定する検索戦略決定手段と、
前記検索戦略決定手段で決定した順序に従って、検索対象の用語１語ずつをキーワードとして、文書データを検索する検索手段と、
前記検索手段で検索した用語を含む検索結果文書から、未検索の用語についてはそれまでに検索された該未検索の用語が出現する文書の数を検索対象の全文書における出現文書数とみなして、該検索結果文書に含まれる検索対象の用語について、検索対象の全文書における用語間の共起度を近似的に求める共起度計算手段と、
を備えることを特徴とする用語共起度抽出装置。
所定の規則に基づいて、前記検索結果文書から、前記検索対象の用語に含まれていない用語を抽出する用語抽出手段を備えることを特徴とする請求項１に記載の用語共起度抽出装置。
前記検索結果文書における用語の出現傾向から、動的に用語を抽出する規則を生成する抽出規則学習手段を備えることを特徴とする請求項２に記載の用語共起度抽出装置。
前記抽出規則学習手段は、
前記検索結果文書における用語の周辺に出現する文字列を列挙し、
前記検索対象の用語に登録されている用語の単語属性、および該単語属性を一般化した正規表現によって、前記周辺文字列から規則候補の集合を生成し、
前記規則候補の出現頻度および／または用語抽出率の値をそれぞれの所定の閾値と比較して、前記規則候補を絞り込む、
ことによって前記用語を抽出する規則を生成することを特徴とする請求項３に記載の用語共起度抽出装置。
前記用語抽出手段は、単語属性および単語属性の正規表現によって記述された所定の規則に基づいて用語を抽出することを特徴とする請求項２ないし４のいずれか１項に記載の用語共起度抽出装置。
検索対象の用語をノードとし、前記検索対象の任意の２つの用語について、該２つの用語が同一文書で出現する度合いを示す共起度を該２つの用語に対応するノードの間のエッジとする、共起度グラフを抽出する用語共起度抽出装置が行う用語共起度抽出方法であって、
共起度検出確度判定手段が行う、未検索の用語について、着目する未検索の用語と共起していることがわかっている既知共起用語の数と、該既知共起用語のうち未検索の用語の数および検索済みの用語の数、ならびに、該既知共起用語の未検索の用語と共起している検索済みの用語に接続するエッジの数、の線形和と、の積である近似グラフスコアを、前記着目する未検索の用語を検索することによって用語間の共起度が求まる可能性として算出する共起度検出確度判定ステップと、
検索戦略決定手段が行う、前記共起度検出確度判定ステップで判定した可能性の大きい用語から順に所定の基準で、用語の検索順を決定する検索戦略決定ステップと、
検索手段が行う、前記検索戦略決定ステップで決定した順序に従って、検索対象の用語１語ずつをキーワードとして、文書データを検索する検索ステップと、
共起度計算手段が行う、前記検索ステップで検索した用語を含む検索結果文書から、未検索の用語についてはそれまでに検索された該未検索の用語が出現する文書の数を検索対象の全文書における出現文書数とみなして、該検索結果文書に含まれる検索対象の用語について、検索対象の全文書における用語間の共起度を近似的に求める共起度計算ステップと、
を備えることを特徴とする用語共起度抽出方法。
用語抽出手段が行う、所定の規則に基づいて、前記検索結果文書から、前記検索対象の用語に含まれていない用語を抽出する用語抽出ステップを備えることを特徴とする請求項６に記載の用語共起度抽出方法。
抽出規則学習手段が行う、前記検索結果文書における用語の出現傾向から、動的に用語を抽出する規則を生成する抽出規則学習ステップを備えることを特徴とする請求項７に記載の用語共起度抽出方法。
前記抽出規則学習ステップでは、前記抽出規則学習手段は、
前記検索結果文書における用語の周辺に出現する文字列を列挙し、
前記検索対象の用語に登録されている用語の単語属性、および該単語属性を一般化した正規表現によって、前記周辺文字列から規則候補の集合を生成し、
前記規則候補の出現頻度および／または用語抽出率の値をそれぞれの所定の閾値と比較して、前記規則候補を絞り込むことによって前記用語を抽出する規則を生成する
ことを特徴とする請求項８に記載の用語共起度抽出方法。
前記用語抽出ステップでは、前記用語抽出手段は、単語属性および単語属性の正規表現によって記述された所定の規則に基づいて用語を抽出することを特徴とする請求項７ないし９のいずれか１項に記載の用語共起度抽出方法。
検索対象の用語をノードとし、前記検索対象の任意の２つの用語について、該２つの用語が同一文書で出現する度合いを示す共起度を該２つの用語に対応するノードの間のエッジとする、共起度グラフを抽出する用語共起度抽出プログラムであって、
コンピュータを、
未検索の用語について、着目する未検索の用語と共起していることがわかっている既知共起用語の数と、該既知共起用語のうち未検索の用語の数および検索済みの用語の数、ならびに、該既知共起用語の未検索の用語と共起している検索済みの用語に接続するエッジの数、の線形和と、の積である近似グラフスコアを、前記着目する未検索の用語を検索することによって用語間の共起度が求まる可能性として算出する共起度検出確度判定手段と、
前記共起度検出確度判定手段で判定した可能性の大きい用語から順に所定の基準で、用語の検索順を決定する検索戦略決定手段と、
前記検索戦略決定手段で決定した順序に従って、検索対象の用語１語ずつをキーワードとして、文書データを検索する検索手段と、
前記検索手段で検索した用語を含む検索結果文書から、未検索の用語についてはそれまでに検索された該未検索の用語が出現する文書の数を検索対象の全文書における出現文書数とみなして、該検索結果文書に含まれる検索対象の用語について、検索対象の全文書における用語間の共起度を近似的に求める共起度計算手段、
として機能させることを特徴とする用語共起度抽出プログラム。
所定の規則に基づいて、前記検索結果文書から、前記検索対象の用語に含まれていない用語を抽出する用語抽出手段としての機能を備えることを特徴とする請求項１１に記載の用語共起度抽出プログラム。
前記検索結果文書における用語の出現傾向から、動的に用語を抽出する規則を生成する抽出規則学習手段としての機能を備えることを特徴とする請求項１２に記載の用語共起度抽出プログラム。
前記抽出規則学習手段は、
前記検索結果文書における用語の周辺に出現する文字列を列挙し、
前記検索対象の用語に登録されている用語の単語属性、および該単語属性を一般化した正規表現によって、前記周辺文字列から規則候補の集合を生成し、
前記規則候補の出現頻度および／または用語抽出率の値をそれぞれの所定の閾値と比較して、前記規則候補を絞り込む、
ことによって前記用語を抽出する規則を生成することを特徴とする請求項１３に記載の用語共起度抽出プログラム。
前記用語抽出手段は、単語属性および単語属性の正規表現によって記述された所定の規則に基づいて用語を抽出することを特徴とする請求項１２ないし１４のいずれか１項に記載の用語共起度抽出プログラム。