JP5251099B2 - 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム - Google Patents

用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム Download PDF

Info

Publication number
JP5251099B2
JP5251099B2 JP2007316422A JP2007316422A JP5251099B2 JP 5251099 B2 JP5251099 B2 JP 5251099B2 JP 2007316422 A JP2007316422 A JP 2007316422A JP 2007316422 A JP2007316422 A JP 2007316422A JP 5251099 B2 JP5251099 B2 JP 5251099B2
Authority
JP
Japan
Prior art keywords
term
terms
search
occurrence
occurrence degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007316422A
Other languages
English (en)
Other versions
JP2009140263A (ja
Inventor
英紀 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007316422A priority Critical patent/JP5251099B2/ja
Publication of JP2009140263A publication Critical patent/JP2009140263A/ja
Application granted granted Critical
Publication of JP5251099B2 publication Critical patent/JP5251099B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、検索対象の用語をノードとし、前記検索対象の任意の2つの用語について、該2つの用語が同一文書で出現する度合いを示す共起度を該2つの用語に対応するノードの間のエッジとする、共起度グラフを抽出する用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラムに関する。
近年、インターネットおよびWWW(World Wide Web。以下、Webという)の普及とともに爆発的な情報が流通するようになり、Webをマイニングの対象とする情報抽出の研究が盛んに行われている。特に、人名、組織名、施設名、地名などの用語を検索クエリとしてWeb検索エンジンに入力し、得られた検索結果をコーパス(corpus:言語資料)として用いることによって、用語間の共起度を求める手法に注目が集まっている。共起度とは、特定の2つの用語が同一文書中に出現する度合い(頻度、割合)の指標である。
例えば、Web検索エンジンで人名を検索することによって、人間関係を推定する技術として、特許文献1の技術が挙げられる。特許文献1の技術によれば、人名のリストが入力されると、2つの人名同士の組み合わせを検索クエリとしてWeb検索エンジンで検索することによって、2つの人名同士の人間関係を文書内の共起度として求めることができる。
用語間の共起度について、特許文献2には、自然言語文で入力された膨大な量の時系列データから任意の区間で分割したスナップショット・データを生成し、スナップショット・データに含まれるデータに自然言語解析を施し、得られたノード対から共起関係を求めネットワーク図を描画する技術が記載されている。また、ノード対に対し、相互情報量を用いて共起関係を算出することが記載されている。相互情報量I(x,y)は、単語「x」と単語「y」とが共起する確率P(x,y)と、それぞれがテキスト内で生起する確率P(x)P(y)との比である。
特許文献3には、統語処理を一括して行う同音語グループ間の共起単語の組み合わせの集合を、同音語グループの組み合わせと対応付けて格納する技術が記載されている。特許文献3の技術は、候補バッファから後側の先頭単語を取り出し、この後側単語で共起辞書インデックスを検索することにより、共起辞書本体の検索範囲を限定する。代表単語として前側の先頭単語を取り出し、この前側単語で共起辞書本体を検索する。それによって、優先すべき単語の組み合わせがあるかどうか判る。
特開2004−348179号公報 特開2005−352817号公報 特開平08−115318号公報
共起度の計算方法には共起頻度、相互情報量、Dice係数、Jaccard係数、Simpson係数、Cosine係数など、様々な方法がある。Webページ全体の数をN、用語K1、K2のWeb検索エンジンにおけるヒット件数をそれぞれ|K1|、|K2|とし、用語K1、K2を論理積条件(AND条件)で検索したときのヒット件数を|K1 AND K2|とし、用語K1、K2を論理和条件(OR条件)で検索したときのヒット件数を|K1 OR K2|と標記することにすると、共起頻度、相互情報量、Dice係数、Jaccard係数、Simpson係数はそれぞれ以下のように定義される。共起度は、2つの用語の文書内での共起の度合いを数値化する指標であるため、いずれの定義でも|K1 AND K2|の項が必須である。
共起頻度 = |K1 AND K2|
相互情報量 = −log{N×|K1 AND K2|/(|K1|×|K2|)}
Dice係数 = |K1 AND K2|/(|K1|+|K2|)
Jaccard係数 = |K1 AND K2|/|K1 OR K2|
Simpson係数 = |K1 AND K2|/min(|K1|,|K2|)
Cosine係数 = |K1 AND K2|/√(|K1|×|K2|)
特許文献1では、ヒット数の少ない人名の共起度が不当に高く評価されるのを防ぐため、閾値付Simpson係数も例として用いている。これは、|K1|と|K2|の最小値min(|K1|,|K2|)が閾値kよりも大きい場合には、共起度として通常のSimpson係数を用いるが、min(|K1|,|K2|)が閾値k以下の場合は共起度を0として計算する方法である。
また、特許文献1は人名のみを対象とした技術であるが、入力データを組織名や地名などの用語リストに置き換えることによって、人名以外の用語間の関係を得ることは可能である。
共起度を求める関連する技術における第1の問題点は、入力データとなる用語リストが大規模になると、共起度を求めるために必要な検索の回数が飛躍的に増大してしまうことである。例えば、入力データとなる用語リストが100語である場合、任意の2語の組み合わせは100×99/2!=4,950通り存在する。Simpson係数を使って用語間の共起度を求めることにすると、|K1 AND K2|を全ての組み合わせに対して求めるために4,950回、min(|K1|,|K2|)を求めるために100回の検索が必要で、Web検索エンジンに対する検索回数は合計5,050回になる。
同様に、用語リストが1万語になると、10,000×9,999/2!+10,000=50,005,000回もの検索が必要になってしまう。Web検索エンジンに対して短時間に大量のクエリを発行して検索するわけにはいかないが、仮に1秒間に1回のペースで検索を行ったとしても、1万語の用語の関係を全て求めるためには、50,005,000回/(3,600秒×24時間)=579日もかかってしまうことになる。一般に、用語リストの語数がn倍になると、検索回数はnの2乗に比例して増大する。これは、共起度の計算のために、2つの用語の論理積条件で検索を行うことが原因である。
第2の問題点は、用語間の共起度を近似的に計算することが不可能なことである。例えば、用語K1で検索を行った場合、検索結果の文書の中に用語K2が100回出現しているのに対し、用語K3が10回しか出現していなかったとすると、用語K2と用語K3を検索しなくても、Kl−K2の共起度の方がK1−K3の共起度よりも強い可能性があることは推定できる。しかし、特許文献1の発明では、Web検索エンジンを使って、2つの用語の共起度を求めない限り、その共起度を計算することはできない。
第3の問題点は、入力データである用語リストに含まれていない新語を抽出しながら再帰的に共起度を計算することが不可能なことである。その理由は、特許文献1には、新語を抽出する手段がないからである。また、仮に新語を抽出する手段があったとしても、新語の抽出によって用語リストが増大すると、第1の問題点で指摘した問題が発生し、検索回数の幾何級数的な増大を招いてしまう。
本発明の目的は、入力データとして与えられた用語リストに対して、用語間の共起度を少ない検索回数で近似的に求めることによって、大規模で近似度の高い共起度グラフを抽出できる用語共起度抽出装置を提供することにある。
本発明の第1の観点に係る用語共起度抽出装置は、
検索対象の用語をノードとし、前記検索対象の任意の2つの用語について、該2つの用語が同一文書で出現する度合いを示す共起度を該2つの用語に対応するノードの間のエッジとする、共起度グラフを抽出する用語共起度抽出装置であって、
未検索の用語について、着目する未検索の用語と共起していることがわかっている既知共起用語の数と、該既知共起用語のうち未検索の用語の数および検索済みの用語の数、ならびに、該既知共起用語の未検索の用語と共起している検索済みの用語に接続するエッジの数、の線形和と、の積である近似グラフスコアを、前記着目する未検索の用語を検索することによって用語間の共起度が求まる可能性として算出する共起度検出確度判定手段と、
前記共起度検出確度判定手段で判定した可能性の大きい用語から順に所定の基準で、用語の検索順を決定する検索戦略決定手段と、
前記検索戦略決定手段で決定した順序に従って、検索対象の用語1語ずつをキーワードとして、文書データを検索する検索手段と、
前記検索手段で検索した用語を含む検索結果文書から、未検索の用語についてはそれまでに検索された該未検索の用語が出現する文書の数を検索対象の全文書における出現文書数とみなして、該検索結果文書に含まれる検索対象の用語について、検索対象の全文書における用語間の共起度を近似的に求める共起度計算手段と、
を備えることを特徴とする。
好ましくは、所定の規則に基づいて、前記検索結果文書から、前記検索対象の用語に含まれていない用語を抽出する用語抽出手段を備える。
さらに好ましくは、前記検索結果文書における用語の出現傾向から、動的に用語を抽出する規則を生成する抽出規則学習手段を備える。
なお、前記抽出規則学習手段は、
前記検索結果文書における用語の周辺に出現する文字列を列挙し、
前記検索対象の用語に登録されている用語の単語属性、および該単語属性を一般化した正規表現によって、前記周辺文字列から規則候補の集合を生成し、
前記規則候補の出現頻度および/または用語抽出率の値をそれぞれの所定の閾値と比較して、前記規則候補を絞り込む、
ことによって前記用語を抽出する規則を生成してもよい。
好ましくは、前記用語抽出手段は、単語属性および単語属性の正規表現によって記述された所定の規則に基づいて用語を抽出する。
本発明の第2の観点に係る用語共起度抽出方法は、
検索対象の用語をノードとし、前記検索対象の任意の2つの用語について、該2つの用語が同一文書で出現する度合いを示す共起度を該2つの用語に対応するノードの間のエッジとする、共起度グラフを抽出する用語共起度抽出装置が行う用語共起度抽出方法であって、
共起度検出確度判定手段が行う、未検索の用語について、着目する未検索の用語と共起していることがわかっている既知共起用語の数と、該既知共起用語のうち未検索の用語の数および検索済みの用語の数、ならびに、該既知共起用語の未検索の用語と共起している検索済みの用語に接続するエッジの数、の線形和と、の積である近似グラフスコアを、前記着目する未検索の用語を検索することによって用語間の共起度が求まる可能性として算出する共起度検出確度判定ステップと、
検索戦略決定手段が行う、前記共起度検出確度判定ステップで判定した可能性の大きい用語から順に所定の基準で、用語の検索順を決定する検索戦略決定ステップと、
検索手段が行う、前記検索戦略決定ステップで決定した順序に従って、検索対象の用語1語ずつをキーワードとして、文書データを検索する検索ステップと、
共起度計算手段が行う、前記検索ステップで検索した用語を含む検索結果文書から、未検索の用語についてはそれまでに検索された該未検索の用語が出現する文書の数を検索対象の全文書における出現文書数とみなして、該検索結果文書に含まれる検索対象の用語について、検索対象の全文書における用語間の共起度を近似的に求める共起度計算ステップと、
を備えることを特徴とする。
好ましくは、用語抽出手段が行う、所定の規則に基づいて、前記検索結果文書から、前記検索対象の用語に含まれていない用語を抽出する用語抽出ステップを備えることを特徴とする。
さらに好ましくは、抽出規則学習手段が行う、前記検索結果文書における用語の出現傾向から、動的に用語を抽出する規則を生成する抽出規則学習ステップを備えることを特徴とする。
なお、前記抽出規則学習ステップは、前記抽出規則学習手段は、
前記検索結果文書における用語の周辺に出現する文字列を列挙し、
前記検索対象の用語に登録されている用語の単語属性、および該単語属性を一般化した正規表現によって、前記周辺文字列から規則候補の集合を生成し、
前記規則候補の出現頻度および/または用語抽出率の値をそれぞれの所定の閾値と比較して、前記規則候補を絞り込むことによって前記用語を抽出する規則を生成してもよい。
好ましくは、前記用語抽出ステップは、前記用語抽出手段は、単語属性および単語属性の正規表現によって記述された所定の規則に基づいて用語を抽出する。
本発明の第3の観点に係る用語共起度抽出プログラムは、
検索対象の用語をノードとし、前記検索対象の任意の2つの用語について、該2つの用語が同一文書で出現する度合いを示す共起度を該2つの用語に対応するノードの間のエッジとする、共起度グラフを抽出する用語共起度抽出プログラムであって、
コンピュータを、
未検索の用語について、着目する未検索の用語と共起していることがわかっている既知共起用語の数と、該既知共起用語のうち未検索の用語の数および検索済みの用語の数、ならびに、該既知共起用語の未検索の用語と共起している検索済みの用語に接続するエッジの数、の線形和と、の積である近似グラフスコアを、前記着目する未検索の用語を検索することによって用語間の共起度が求まる可能性として算出する共起度検出確度判定手段と、
前記共起度検出確度判定手段で判定した可能性の大きい用語から順に所定の基準で、用語の検索順を決定する検索戦略決定手段と、
前記検索戦略決定手段で決定した順序に従って、検索対象の用語1語ずつをキーワードとして、文書データを検索する検索手段と、
前記検索手段で検索した用語を含む検索結果文書から、未検索の用語についてはそれまでに検索された該未検索の用語が出現する文書の数を検索対象の全文書における出現文書数とみなして、該検索結果文書に含まれる検索対象の用語について、検索対象の全文書における用語間の共起度を近似的に求める共起度計算手段、
として機能させることを特徴とする。
好ましくは、所定の規則に基づいて、前記検索結果文書から、前記検索対象の用語に含まれていない用語を抽出する用語抽出手段としての機能を備えることを特徴とする。
さらに好ましくは、前記検索結果文書における用語の出現傾向から、動的に用語を抽出する規則を生成する抽出規則学習手段としての機能を備える。
なお、前記抽出規則学習手段は、
前記検索結果文書における用語の周辺に出現する文字列を列挙し、
前記検索対象の用語に登録されている用語の単語属性、および該単語属性を一般化した正規表現によって、前記周辺文字列から規則候補の集合を生成し、
前記規則候補の出現頻度および/または用語抽出率の値をそれぞれの所定の閾値と比較して、前記規則候補を絞り込む、
ことによって前記用語を抽出する規則を生成してもよい。
好ましくは、前記用語抽出手段は、単語属性および単語属性の正規表現によって記述された所定の規則に基づいて用語を抽出する。
本発明によれば、検索対象の用語の数に対して、検索回数が幾何級数的に増加するのを防止できる。また、少ない検索回数でもより多くの用語の関係を近似的に求めることができる。さらに、少ない検索回数でもより真の値に近い共起度グラフを求めることができる。
本発明では、グラフ理論の用語を用いて、検索対象の用語をノードとし、用語間の共起度をエッジとして、検索対象の用語の関係をグラフ(共起度グラフ)で表す。共起度グラフは、エッジに値(共起度)が付いた重み付きグラフであり、通常、ループや多重エッジを含まない単純グラフで表される。2つの用語の間の共起度が0または所定のしきい値以下である場合には、エッジがないものとする。
(実施の形態1)
図1は、本発明の実施の形態1に係る用語共起度抽出装置100の構成例を示すブロック図である。本発明の実施の形態1に係る用語共起度抽出装置100は、記憶装置1と、処理装置2と、キーボード等の入力部3と、ディスプレイやプリンタ等の出力部4を含む。また、処理装置2は、インターネットやイントラネット等のネットワーク5を介してWeb検索エンジン等の公開データ6にアクセス可能な構成となっている。
記憶装置1は、用語記憶部11と、共起度データ記憶部13とを含む。また、処理装置2は、検索戦略決定部21と、共起度検出確度判定部20と、データ検索部22と、共起度計算部24を含む。
用語記憶部11には、共起度抽出の対象となる用語リストが格納されている。図2は、用語記憶部11に格納されるデータの例を示す。図2では、人名のリスト、用語ID、用語、検索フラグ、出現文書IDがテーブルとして格納されている。図2を見ると、用語IDがK01の「田中一郎」の検索フラグは「未」、出現文書IDは「なし」となっている。これは、「田中一郎」というキーワードで検索を行ったことがなく、また、出現する文書も見つかっていないことを意味している。
また、用語IDがK02の「高橋二郎」の検索フラグは「済」、出現文書IDは「D01,D02,D04,D05,D10,D13,D15,D18」となっている。これは、「高橋二郎」というキーワードで検索を行ったことがあり、また、検索結果として、文書IDが「D01,D02,D04,D05,D10,D13,D15,D18」の8件の文書がヒットしていることを意味している。
図2において、用語IDがK03の「佐藤花子」の検索フラグは「未」、出現文書IDは「D02,D05,D10,D18」となっている。これは、「佐藤花子」というキーワードで検索を行ったことはないが、「佐藤花子」が出現する文書IDとして「D02,D05,D10,D18」の4件の文書が得られていることを意味している。「佐藤花子」が未検索にも拘わらず、出現文書IDが得られているのは、他の用語を検索した結果の文書中に、「佐藤花子」が出現したことを検出したからである。例えば図2では、文書D02は「高橋二郎」を検索した結果得られたものであり、その中に「佐藤花子」も出現していたと解釈することができる。
文書D05,D10,D18についても同様の解釈が可能である。以下同様に、用語IDがK04の「鈴木三郎」は検索済みで、出現文書として「D01,D03,D05,D07,D10,D15,D17,D20」の8件の文書が得られていることを意味している。また、用語IDがK05の「田中太郎」は未検索だが、出現文書として「D03,D05,D07,D11,D18」の5件の文書が得られていることを意味している。
なお、ここでは説明を簡潔にするため、用語記憶部11に格納される用語リストを用語ID、用語、検索フラグ、出現文書IDからなるテーブルとして説明したが、用語IDを使わず用語そのものを主キーとして用いたり、出現文書IDの変わりにURL(Uniform Resource Locator)やファイルのアドレスを用いたり、出現文書の最終更新日を一緒に格納したりするなどの方法も考えられ、本実施の形態に述べる方法に限定されない。
共起度データ記憶部13には、用語と用語の関係が重み付のグラフ構造として格納される。図3は、共起度データ記憶部13に格納される共起度グラフの例を示す。図3を参照すると、用語K01と用語K02の共起度は0.1、用語K01と用語K05の共起度は0.5であることが分かる。また、検索済みの用語はハッチングを付したノードで、未検索の用語は白色のノードとして表現されているため、用語K01と用語K02の共起度0.1は、両方の用語が検索された結果、算出されたものであることが分かる。また、用語K01と用語K11の共起度0.1は、用語K01の片方だけの検索結果に基づいて算出されたものであることが分かる。さらに、用語K15と用語16はどちらも未検索だが、他の用語の検索結果文書に出現した頻度を使って共起度0.5が算出されていることが分かる。
共起度グラフの算出について、両側のノードが検索済みか未検索かの組み合わせは、(a)両側検索済み、(b)片側検索済み、(c)両側未検索の3通り存在する。図4は、3つの組み合わせについて、近似的な共起度計算を説明する概念図である。
図4(a)は、両側検索済みの用語の共起度の概念図である。左側の円K1が用語K1が出現する文書集合、右側の円K2が用語K2が出現する文書集合を表す。この場合、用語K1と用語K2は両方とも検索済みであるため、共起頻度、相互情報量、Dice係数、Jaccard係数、Simpson係数、Cosine係数のいずれの定義であっても誤差なく共起度を計算することができる。例えば、用語記憶部11に格納されているデータが図2の通りであった場合、用語K02と用語K04は両側検索済みの共起度を算出することができる。図2より、用語K02が出現する文書は「D01,D02,D04,D05,D10,D13,D15,D18」の8件、用語K04が出現する文書は「D01,D03,D05,D07,D10,D15,D17,D20」の8件、用語K02と用語K04が両方出現する文書は、「D01,D05,D10,D15」の4件であるので、Simpson係数を使って共起度を算出したとすると、|K02 AND K04|/min(|K02|,|K04|)=4/8=0.5となる。
図4(b)は、片側検索済みの用語の共起度の概念図である。左側の円K1が用語K1が出現する文書集合、右側の点線の円K2が用語K2が出現する真の文書集合、その内側の長円K2’が他の用語を検索した結果、用語K2が抽出された文書集合を表す。この場合、用語K1は検索済みであるため、用語K1が出現する文書集合は既に明らかになっている。一方、用語K2については、他の用語の検索結果から抽出された文書集合は、用語K2が出現する真の文書集合の部分集合のみである。このような場合でも、用語K1が出現する文書集合と用語K2が抽出された文書集合との積集合に含まれる文書の数は|K1 AND K2|に一致する。なぜなら、用語K1と用語K2が共起している文書集合は、用語K1が出現する文書集合のうち、用語K2が抽出された文書集合として求めることができるからである。この場合、用語間の近似的な共起度を以下のようにして算出することができる。
共起度の指標として、共起頻度を用いる場合は、|K1 AND K2|が得られているため、用語K1と用語K2の共起度を誤差なく算出することが可能である。例えば、用語記憶部11に格納されているデータが図2の通りであった場合、用語K02と用語K03が両方出現する文書は「D02,D05,D10,D18」の4件であるため、共起頻度は4となる。
共起度の指標として、相互情報量を用いる場合は、用語K2が出現する文書の数|K2|の代わりに、用語K2が抽出された文書の数|K2|’を用いることによって、近似的に
−log{N×|K1 AND K2|/(|K1|×|K2|’)}
として共起度を計算することが可能である。図4(b)から明らかなように、|K2|>|K2|’であるため、片側検索済みにおける近似的な相互情報量の値は、両側検索済みにおける真の相互情報量の値の下限が分かっていることになる。
例えば、Web検索エンジンに登録されている文書数が1,000,000ページで、用語記憶部11に格納されているデータが図2の通りであった場合、用語K02と用語K03の共起度を近似的な総合情報量で求める方法は次のようになる。用語K02と用語K03が両方出現する文書は「D02,D05,D10,D18」の4件、用語K02が出現する文書は「D01,D02,D04,D05,D10,D13,D15,D18」の8件、用語K03が抽出された文書は「D02,D05,D10,D18」の4件であるため、近似的な相互情報量は−log(1,000,000×4/(8×4)}=−5.4となる。この値は、その後、用語K2が抽出される文書が増えることによって、大きくなる可能性はあるが、これより小さくなる可能性はない。
共起度の指標として、Dice係数を用いる場合は、用語K2が出現する文書の数|K2|の代わりに、用語K2が抽出された文書の数|K2|’を用いることによって、近似的に、|K1 AND K2|/(|K1| + |K2|’)として共起度を計算することが可能である。この場合、片側検索済みにおける近似的なDice係数は、両側検索済みにおける真のDice係数の値の上限となる。
例えば、用語記憶部11に格納されているデータが図2の通りであった場合、用語K02と用語K03の共起度を近似的なDice係数で求める方法は次のようになる。用語K02と用語K03が両方出現する文書は「D02,D05,D10,D18」の4件、用語K02が出現する文書は「D01,D02,D04,D05,D10,D13,D15,D18」の8件、用語K03が抽出された文書は「D02,D05,D10,D18」の4件であるため、近似的なDice係数は4/(4+8)=0.3となる。この値は、その後、用語K2が抽出される文書が増えることによって、小さくなる可能性はあるが、これ以上大きくなる可能性はない。
共起度の指標として、Jaccard係数を用いる場合は、|K1
OR K2|の代わりに用語K1が出現する文書集合と用語K2が抽出された文書集合の和集合に含まれる文書の数|K1 OR K2|’を用いることによって、近似的に|K1 AND K2|/|K1 OR K2|’として共起度を計算することが可能である。この場合、片側検索済みにおける近似的なJaccard係数は、両側検索済みにおける真のJaccard係数の値の上限となる。
例えば、用語記憶部11に格納されているデータが図2の通りであった場合、用語K02と用語K03の共起度を近似的なJaccard係数で求める方法は次のようになる。用語K02と用語K03が両方出現する文書は「D02,D05,D10,D18」の4件、用語K02が出現する文書集合と用語K03が抽出された文書の和集合は「D01,D02,D04,D05,D10,D13,D15,D18」の8件であるため、近似的なJaccard係数は4/8=0.5となる。この値は、その後、用語K2が抽出される文書が増えることによって、小さくなる可能性はあるが、これより大きくなる可能性はない。
共起度の指標として、Simpson係数を用いる場合は、用語K2が出現する文書の数|K2|の代わりに、用語K2が抽出された文書の数|K2|’を用いることによって、近似的に、
|K1 AND K2|/min(|K1|,|K2|’)
として共起度を計算することが可能である。この場合、片側検索済みにおける近似的なSimpson係数は、両側検索済みにおける真のSimpson係数の値の上限となる。
例えば、用語記憶部11に格納されているデータが図2の通りであった場合、用語K02と用語K03の共起度を近似的なSimpson係数で求める方法は次のようになる。用語K02と用語K03が両方出現する文書は「D02,D05,D10,D18」の4件、用語K02が出現する文書は「D01,D02,D04,D05,D10,D13,D15,D18」の8件、用語K03が抽出された文書は「D02,D05,D10,D18」の4件であるため、近似的なSimpson係数は4/min(8,4)=1となる。この値は、その後、用語K2が抽出される文書が増えることによって、小さくなる可能性はあるが、これより大きくなる可能性はない。
さらに細かく場合分けを考えると、検索済みの用語K1が出現する文書数|K1|と未検索の用語K2が抽出された文書数|K2|’を比較した場合、|K1|<|K2|’であれば、片側検索済みの場合であっても、両側検索済みにおける真のSimpson係数の値と等しくなる。
共起度の指標として、Cosine係数を用いる場合は、用語K2が出現する文書の数|K2|の代わりに、用語K2が抽出された文書の数|K2|’を用いることによって、近似的に、
|K1 AND K2|/√(|K1| × |K2|’)
として共起度を計算することが可能である。この場合、片側検索済みにおける近似的なCosine係数は、両側検索済みにおける真のCosine係数の値の上限となる。
例えば、用語記憶部11に格納されているデータが図2の通りであった場合、用語K02と用語K03の共起度を近似的なCosine係数で求める方法は次のようになる。用語K02と用語K03が両方出現する文書は「D02,D05,D10,D18」の4件、用語K02が出現する文書は「D01,D02,D04, D05,D10,D13,D15,D18」の8件、用語K03が抽出された文書は「D02,D05,D10,D18」の4件であるため、近似的なCosine係数は4/√(8×4)=22.6となる。この値は、その後、用語K2が抽出される文書が増えることによって、小さくなる可能性はあるが、これより大きくなる可能性はない。
図4(c)は、両側未検索の用語の共起度の概念図である。左側の点線の円K1が用語K1が出現する真の文書集合、その内側の円K1’が他の用語を検索した結果、用語K1が抽出された文書集合、右側の点線の円K2が用語K2が出現する真の文書集合、その内側の円K2’が他の用語を検索した結果、用語K2が抽出された文書集合を表す。この場合、用語K1と用語K2のどちらも、出現する真の文書集合の部分集合しか得られていないことになる。このような場合でも、用語K1が抽出された文書の数|K1|’、用語K2が抽出された文書の数|K2|’、用語K1と用語K2が抽出された文書の数|K1
AND K2|’を用いることによって、用語間の近似的な共起度を算出することができる。
ただし、片側検索済みの場合に、|K1 AND K2|が正確に求まっており、共起度の近似値が上限または下限であることが明らかであったのに対して、両側未検索の場合は|K1 AND K2|’も近似値であるため、後の処理で別の用語が検索されて用語K1および用語K2が抽出される文書集合が追加されることにより、共起度の近似値は大きくなる可能性も小さくなる可能性も残っていることになる。
図1の検索戦略決定部21は、用語記憶部11に格納されている用語リストと、共起度データ記憶部13に格納されている共起度グラフを参照し、各未検索の用語について共起度グラフの近似度を高める可能性を近似グラフスコアAGS(Approximate Graph Score)として算出し、近似グラフスコアAGS上位k個の用語を検索候補語としてデータ検索部22に渡す。
用語Kiに対する近似グラフスコアAGS(Ki)は例えば、以下のように定義できる。
AGS(Ki) = ΔN ×(α|E01| + β|E12| + γ|E11|)
ここで、△Nは用語Kiを検索することによって、新たに抽出される用語の数の期待値である。一般に、より多くの抽出済み用語と共起している用語ほど、多くの未抽出の用語とも共起していると推測できるため、△Nには、図3の共起度グラフにおける用語Kiのまわりのエッジ数が目安として利用できる。例えば、図3において、用語K16の周りのエッジはK16−K07、K16−K12、K16−K13、K16−K14、K16−K15、K16−K17の6本であるので、K16に関する△Nの値は6になる。
|E01|は、用語Kiを検索することによって、両側未検索から片側検索済みになるエッジの数である。図3において、新たに用語K16を検索することにすると、K16−K12、K16−K13、K16−K14、K16−K15、K16−K17の5本のエッジは、両側未検索から片側検索済みになるため、用語K16に関する|E01|は5になる。
|E12|は、用語Kiを検索することによって、片側検索済みから両側検索済みになるエッジの数である。例えば、図3において、新たに用語K16を検索することにすると、K16−K07の1本のエッジは、片側検索済みから両側検索済みになるため、用語K16に関する|E12|は1になる。
|E11|は用語Kiを検索することによって、片側未検索のままだが情報量が多くなることによってより近似された共起度が計算できることが期待できるエッジの数である。例えば、図3において、新たに用語K16を検索することにすると、K12−K10、K13−K08、K14−K08、K15−K08、K15−K07、K17−K07、K17−K09の7本のエッジは、片側検索済みのままだが、検索結果に含まれる文書から新たにK12、K13、K14、K15、K17が抽出される可能性があるため、より近似された共起度が計算できることが期待できる。従って、用語K16に関する|E11|は7になる。なお、α、β、γは|E01|、|E12|、|E11|のエッジの本数に対する重みである。
図4の説明で議論した通り、片側検索済みの場合は、両側検索済みと同等の共起度または上限もしくは下限が定まるのに対して、両側未検索の場合は、あくまで共起度の目安が求まっているに過ぎない。従って、真の共起度で構成される共起度グラフに対する近似の度合いとしては、両側未検索が片側検索済みになるエッジの方が、片側検索済みが両側検索済みになるエッジよりも重要である。また片側検索済みが両側検索済みになるエッジの方が、片側検索済みのままのエッジよりも重要である。以上の議論から、重みα、β、γは、α>β>γとなるように設定することが好ましい。
図1のデータ検索部22は、検索戦略決定部21から渡されたk個の検索候補語について、1語ずつネットワーク5を介して公開データ6を検索し、検索結果として用語が出現する文書IDのリストを得る。次に、得られた文書IDのリストを用語記憶部11に格納されている用語リストに追加する。また、文書IDで示される文書の本体をネットワーク5を介して取得し、共起度計算部24に渡す。
共起度計算部24は、用語記憶部11に格納されている用語リストから、各用語間の共起度を計算し、重み付グラフとして共起度データ記憶部13に格納する。
次に、図1及び図2〜図8を参照して本実施の形態の動作について詳細に説明する。図5は、本実施の形態における用語共起度抽出装置100の動作の一例を示す流れ図である。
検索戦略決定部21は、用語記憶部11に格納されている用語リストと、共起度データ記憶部13に格納されている共起度グラフとを参照し、各未検索の用語について、共起度グラフの近似度を高める可能性を近似グラフスコアAGSとして算出する。そして、近似グラフスコアAGS上位k個の用語を検索候補語と決定する(図5のステップS201)。
データ検索部22は、検索戦略決定部21から渡されたk個の検索候補語について、1語ずつネットワーク5を介して公開データ6を検索し、検索結果として得られた文書IDのリストを用語記億部11に格納されている用語リストに追加する。文書IDで示される文書群をネットワーク5を介して取得し、共起度計算部24に渡す(図5のステップS202)。
ここで、共起度データ記憶部13の更新度合いが閾値以上の場合は(図5のステップS205;Yes)、さらに処理を繰り返すことでグラフの近似度が高まることを意味しているため、図5のステップS201に戻って再帰的に処理を繰り返す。共起度データ記憶部13の更新度合いの高さは、(1)共起度グラフに新しく追加された用語の数△K、(2)エッジの重みの変化の合計△E、によって△K×△Eとして定義できる。一方、共起度データ記憶部13の更新度合いが閾値未満の場合は(図5のステップS205;No)、十分高い近似度の共起度グラフが得られていることになるため、処理を終了する。
なお、ここでは説明を簡潔にするため、図5のステップS201で検索戦略決定部21がデータ検索部22に渡す検索候補語を、近似グラフスコアAGSの上位k個の用語としたが、他にも、近似グラフスコアAGSの上位x%を検索候補語とする方法や閾値ρ以上の用語を検索候補語とする方法も考えられ、本実施の形態に述べた方法に限定されない。また、図5のステップS205の終了条件として、共起度データ記憶部13の更新度合いを測定する方法について述べたが、他にも、処理時間の合計が閾値以上に達したかどうか、あるいは、検索回数が閾値以上に達したかどうかを基準に再起処理を打ち切る方法も考えられ、本実施の形態に述べた方法に限定されない。
図6は、検索戦略決定部21の動作の一例を示す流れ図である。検索戦略決定部21は、検索候補集合Tを空集合として初期化する(図6のステップS211)。次に、検索戦略決定部21は、共起度データ記憶部13に格納されている共起度グラフ内を走査し、未検索の用語Kiを見つけ出す(図6のステップS212)。もし、未検索の用語Kiが見つかった場合(ステップS212;Yes)、検索戦略決定部21は、用語Kiの近似グラフスコアAGS(Ki)を計算する(図6のステップS213)。そして、用語Kiとその近時グラフスコアAGS(Ki)を検索候補集合Tに追加する(図6のステップS214)。
用語Kiと近似グラフスコアAGS(Ki)の組、例えば、共起度データ記憶部13に格納されている共起度グラフが図3の通りであった場合、未検索の用語はK11、K12、K13、K14、K15、K16、K17の7語存在することになる。それぞれの未検索の用語について、α=100、β=10、γ=1として近似グラフスコアを求めると、次のようになる。
用語K11のノードの周りのエッジの本数はK11−K01,K11−K02, K11−K03,K11−K04, K11−K05,K11−K07の6本、用語K11を検索することによって、両側未検索から片側検索済みになるエッジの数|E01|は0本、片側検索済みから両側検索済みになるエッジの数|E12|はK11−K01、K11−K02、K11−K03、K11−K04、K11−K05、K11−K07の6本、片側検索済みのままだが情報量が増えるエッジの数|E11|は0本である。従って、
AGS(K11)= △N×(α|E01|+β|E12|+γ|E11|)
= 6×(100×0+10×6+1×0)
= 360
用語K12のノードの周りのエッジの本数はK12−K10,K12−K16の2本、用語K12を検索することによって、両側未検索から片側検索済みになるエッジの数|E01|はK12−K16の1本、片側検索済みから両側検索済みになるエッジの数|E12|はK12−K10の1本、片側検索済みのままだが情報量が増えるエッジの数|E11|はK16−K07の1本である。従って、
AGS(K12) = ΔN×(α|E01|+β|E12|+γ|E11|)
= 2×(100×1+10×1+1×1)
= 222
用語K13のノードの周りのエッジの本数はK13−K16,K13−K08の2本、用語K13を検索することによって、両側未検索から片側検索済みになるエッジの数|E01|はK13−K16の1本、片側検索済みから両側検索済みになるエッジの数|E12|はK13−K08の1本、片側検索済みのままだが情報量が増えるエッジの数|E11|はK16−K07の1本である。従って、
AGS(K13) = ΔN×(α|E01|+β|E12|+γ|E11|)
= 2×(100×1+10×1+1×1)
= 222
用語K14のノードの周りのエッジの本数はK14−K16, K14−K08の2本、用語K14を検索することによって、両側未検索から片側検索済みになるエッジの数|E01|はK14−K16の1本、片側検索済みから両側検索済みになるエッジの数|E12|はK14−K08の1本、片側検索済みのままだが情報量が増えるエッジの数|E11|はK08−K15の1本である。従って、
AGS(K14) = ΔN×(α|E01|+β|E12|+γ|E11|)
= 2×(100×1+10×1+1×1)
= 222
用語K15のノードの周りのエッジの本数はK15−K16,K15−K07,K15−K08の3本、用語K15を検索することによって、両側未検索から片側検索済みになるエッジの数|E01|はK15−K16の1本、片側検索済みから両側検索済みになるエッジの数|E12|はK15−K07, K15−K08の2本、片側検索済みのままだが情報量が増えるエッジの数|E11|はK16−K07の1本である。従って、
AGS(K15)= ΔN×(α|E01|+β|E12|+γ|E11|)
= 3×(100×1+10×2+1×1)
= 363
用語K16のノードの周りのエッジの本数はK16−K07,K16−K12,K16−K13,K16−K14,K16−K15,K16−K17の6本、用語K16を検索することによって、両側未検索から片側検索済みになるエッジの数|E01|はK16−K12, K16−K13, K16−K14, K16−K15,
K16−K17の5本、片側検索済みから両側検索済みになるエッジの数|E12|はK16−K07の1本、片側検索済みのままだが情報量が増えるエッジの数|E11|はK12−K10,K13−K08,K14−K08,K15−K07,K15−K08,K17−K07,K17−K09の7本である。従って、
AGS(K16) = △N×(α|E01|+β|E12|+γ|E11|)
= 6×(100×5+10×1+1×7)
= 3,102
用語K17のノードの周りのエッジの本数はK17−K07,K17−K09,K17−K16の3本、用語K17を検索することによって、両側未検索から片側検索済みになるエッジの数|E01|はK17−K16の1本、片側検索済みから両側検索済みになるエッジの数|E12|はK17−K07,K17−K09の2本、片側検索済みのままだが情報量が増えるエッジの数|E11|はK16−K07の1本である。従って、
AGS(K17) = △N×(α|E01|+β|E12|+γ|E11|)
= 3×(100×1+10×2+1×l)
= 363
次に、検索戦略決定部21は、近似グラフスコアAGS(Ki)を計算すべき未検索の用語Kiがなくなると(図6のステップS212;No)、検索候補集合Tを近似グラフスコアAGSの順にソートし(図6のステップS215)、上位n件の未検索用語を出力としてデータ検索部22に渡す(図6のステップS216)。例えば、上述した用語K12〜K17の近似グラフスコア計算の例で、上位3語の未検索用語を出力するとした場合、用語K16、K15、K17の3語が、次に検索されるべき用語としてデータ検索部22に渡されることになる。
なお、ここでは説明を簡潔にするため、共起度データ記憶部13に格納されている共起度グラフがある程度構築された後の途中状態での処理について説明を行ったが、初期状態では、共起度データ記憶部13には共起度グラフは構築されておらず、用語リストが用語記憶部11に全て未検索の状態で格納されているだけである。従って、初期状態では、用語記憶部11に格納されている用語リストの先頭からk個、もしくはランダムにk個を選択して検索候補語とするなどの方法が考えられ、本実施の形態に述べた方法に限定されない。
図7は、データ検索部22の動作の一例を示す流れ図である。データ検索部22は、検索戦略決定部21から渡された検索候補語の集合から、1語ずつ取り出しながら(図7のステップS221;Yes)、検索侯補語をクエリとしてネットワーク5を介して公開データ6を検索する(図7のステップS222)。次に、用語記憶部11に格納されている用語リストに対して、クエリとして使われた用語の出現文書IDの欄に、検索結果として得られた文書IDのリストを追加する(図7のステップS223)。また、検索語果として得られた文書IDのリストで示される文書本体を取得しておく(図7のステップS224)。
検索候補語を全て検索し終わったら(図7のステップS221;No)、取得した文書本体の集合を共起度計算部24に渡す。このように、データ検索部22は、検索候補語の集合から1語ずつ検索を行うため、検索回数はたかだか用語リストに含まれる用語の数であり、検索回数が幾何級数的に増加するのを防ぐことができる。
なお、ここでは説明を簡潔にするため、データ検索部22は、検索結果として得られた文書IDのリストで示される文書本体を全て取得するとして説明を行ったが、一度取得済みの文書をキャッシュとして残しておき、同じ文書は改めて取得しないようにして効率化を図る方法なども考えられ、本実施の形態に述べた方法に限定されない。
図8は、共起度計算部24の動作の一例を示す流れ図である。共起度計算部24は、用語記憶部11に格納されている用語リストから1組ずつペアの組み合わせを生成し(図8のステップS241;Yes)、用語リストに記述されている出現文書IDのリストから、Simpson係数を用いて共起度を計算する(図8のステップS242)。次に、計算された共起度があらかじめ指定された閾値βよりも高ければ(図8のステップS243;Yes)、該当する用語のペアを共起度データ記憶部13に格納されている共起度グラフに追加し、エッジの重みとして共起度の値を設定する(図8のステップS244)。この時、用語のペアが既に共起度グラフに登録されている場合は、そのエッジの重みの値を更新する。これを、全ての用語のペアについて共起度を計算するまで繰り返す(図8のステップS241;No)。
なお、ここでは説明を簡潔にするため、共起度の計算方法としてSimpson係数を用いる例について述べたが、他にも、共起頻度、相互情報量、Dice係数、Jaccard係数、閾値付Simpson係数、Cosine係数など、様々な共起度の計算方法が考えられ、本実施の形態に述べた方法に限定されない。また、共起度計算部24は、用語記憶部11に格納されている用語の全ての組み合わせについて共起度を計算するものとして説明を行ったが、データ検索部22によって更新が起こった用語とその他の用語のペアの組み合わせだけに限って共起度の計算を行うことにより処理の効率化を図る方法も考えられ、本実施の形態に述べる方法に限定されない。
次に、本実施の形態の効果について説明する。
本実施の形態では、公開データ6に対する検索は、用語のペアではなく、用語1語ずつで行う。そのため、検索回数はたかだか用語リストに含まれる用語の数であり、検索回数が幾何級数的に増加するのを防ぐことができる。
また、本実施の形態では、未検索の用語であっても、検索済み用語の検索結果に含まれる文書中に出現していれば、近似的な共起度を求めることができる。そのため、少ない検索回数でもより多くの用語の関係を近似的に求めることができる。
また、本実施の形態では、未検索のどの用語を検索すれば、より近似度の高い共起度グラフが求まるかという指標を近似グラフスコアとして計算し、近似グラフスコアの高い用語の順に検索を行う。そのため、少ない検索回数でもより真の値に近い共起度グラフを求めることができる。
(実施の形態2)
図10は、本発明の実施の形態2に係る用語共起度抽出装置100の構成例を示すブロック図である。実施の形態2は、実施の形態1の構成に加えて、処理装置2に用語抽出部23が追加されている点で異なる。また、記憶装置1に抽出ルール記憶部12が追加されている。
抽出ルール記憶部12には、用語として抽出すべき文字列を記述した抽出ルールとそのスコアの組が格納されている。抽出ルールは単語属性の組み合わせとして表現される。単語属性とは、用語記憶部11に記憶されている用語、表層文字列である表記、動詞や形容詞の活用の原形、品詞、読み(ふりがな、仮名表記)、同義表現や送り仮名、ひらがなカタカナ表記の違いを吸収した代表表記、「地名」や「色名」などの意味分類などを含む。
図11は、抽出ルール記憶部12に格納されている抽出ルールの例を示す。ダブルクォーテーション“”で囲まれた抽出ルールに一致する文字列を用語として抽出する。図11における「|」「+」「()」などの演算子の意味は、一般的な正規表現演算子の意味と同じである。図11は、例として人名を抽出するためのルールである。
抽出ルールR01は、用語記憶部11に記憶されている用語と完全一致する文字列を人名として抽出するルールである。例えば、用語記憶部11の内容が図2のようであった場合、「田中一郎」や「高橋二郎」などの文字列が文書に出現すると、それは人名と判断され、スコア1.0が加算される。
抽出ルールR02は、文書を形態素解析した際に、品詞が「名詞−固有名詞−人名−姓」「名詞−固有名詞−人名−名」の順で出現している文字列を人名として抽出するルールである。例えば、用語記憶部11に「田中五郎」という人名が登録されていなくても、「田中五郎」を形態素解析した結果が、「田中/名詞−固有名詞−人名−姓 五郎/名詞−固有名詞−人名−名」であれば、「田中五郎」を新しい人名として抽出し、スコア1.0を加算する。
抽出ルールR03は、文書を形態素解析した際に、品詞が「名詞」の単語が繰り返し出現し、次に、「名詞−固有名詞−人名−名」が出現し、さらに、表記が「氏」、「様」、「さん」、「先生」のような、人名によく付属する接尾語が出現した場合に、接尾語の前までの文字列を人名として抽出するルールである。例えば、用語記憶部11に「笹間太郎」という人名が登録されていなくても、「笹間太郎さん」を形態素解析した結果が、「笹/名詞−一般 間/名詞−一般−一郎/名詞−固有名詞−人名−名 さん/名詞−接尾−人名」であれば、「笹間一郎」を新しい人名として抽出し、スコア0.5を加算する。このようなルールを使うことによって、「笹間」という姓が形態素解析器に登録されていなくても、人名らしい文字列を抽出することができる。
抽出ルールR04は、文書を形態素解析した際に、品詞が「名詞−固有名詞−人名−姓」の単語が出現し、次に、「名詞」が繰り返し出現し、さらに、表記が「氏」、「様」、「さん」、「先生」のような、人名によく付属する接尾語が出現した場合に、接尾語の前までの文字列を人名として抽出するルールである。例えば、用語記憶部11に「田中仙太郎」という人名が登録されていなくても、「田中仙太郎先生」を形態素解析した結果が、「田中/名詞−固有名詞−人名−姓 仙/名詞−固有名詞−人名−名 太郎/名詞−固有名詞−人名−名 先生/名詞−一般」であれば、「田中仙太郎」を新しい人名として抽出し、スコア0.4を加算する。このようなルールを使うことによって、「仙太郎」という名が形態素解析器に登録されていなくても、人名らしい文字列を抽出することができる。
抽出ルールR05は、用語記憶部11に記憶されている用語の先頭2文字と末尾2文字の文字列で構成されている文字列を人名として抽出するルールである。例えば、用語記憶部11の内容が図2のようであった場合、「高橋一郎」や「佐藤太郎」のような文字列が文書に出現すると、それは人名と判断され、スコア0.7が加算される。上述の抽出ルールは必ずしも排他的でなく、一つの文字列に複数の抽出ルールが該当する場合もある。例えば、用語記憶部11に「田中一郎」という人名が登録されており、形態素解析の結果が「田中/名詞−固有名詞−人名−姓 一郎/名詞−固有名詞−人名−名」であれば、この文字列は抽出ルールR01、R02、R05に該当することになる。この場合、全ての抽出ルールを加算して、2.7とする。これにより、スコアの高い文字列ほど人名らしいと判断できるようになる。
用語抽出部23は、データ検索部22から渡された文書本体に対して、抽出ルール記憶部12に記述されている抽出ルールに該当する文字列を用語として抽出し、用語記憶部11に格納されている用語リストの該当する用語の出現文書IDを追加する。抽出した用語が用語記憶部11に未登録の場合、新しい行を作成し、検索フラグを「未」に設定して、出現文書IDを記録する。
図12は、実施の形態2に係る用語共起度抽出装置100の動作の一例を示す流れ図である。実施の形態2の用語共起度抽出処理は、図5に示す実施の形態1の処理の動作に、用語抽出処理が追加されている。すなわち、ステップS201、ステップS202は実施の形態1と同様である。用語抽出部23は、データ検索部22と共起度計算部24の間に置かれている。データ検索部22は、公開データ6から検索した文書データを用語抽出部23に渡す(図12のステップS202)。
用語抽出部23は、データ検索部22から渡された文書群に対して、抽出ルール記憶部12に記述されている抽出ルールに該当する文字列を用語として抽出する。そして、用語記憶部11に格納されている用語リストの該当する用語の出現文書IDを追加する(図12のステップS203)。以降の処理は、実施の形態1と同様である。
図13は、用語抽出部23の動作の一例を示す流れ図である。用語抽出部23は、最初に、初期化処理として、抽出候補集合Eを空集合として設定する(図13のステップS231)。次に、データ検索部22から渡された文書集合から1文書ずつ取り出しながら(図13のステップS232;Yes)、文書の形態素解析を行い、文書内に抽出ルール記憶部12に格納されている抽出ルールにマッチする文字列がないか調べる(図13のステップS233)。
文書中に抽出ルールにマッチする文字列があれば(図13のステップS233;Yes)、その文字列ESと出現文書ID、およびその抽出スコアRSの組を抽出候補集合Eに追加する(図13のステップS234)。このとき、既に文字列ESが抽出候補集合Eに登録済みであれば、出現文書IDをリストとして追加し、抽出スコアRSの合計を計算する。文書中に抽出ルールにマッチする文字列が出てこなくなれば(図13のステップS233;No)、次の文書に対して繰り返し処理を行う(図13のステップS232)。
全ての文書に対して処理が終わったら(図13のステップS232;No)、抽出候補集合Eの中から、抽出スコアの合計が閾値以上になっている用語について、出現文書IDのリストを用語記憶部11に格納されている用語リストに追加する。このように、用語抽出部23は、抽出ルールに従って文書中に含まれる用語を抽出できるため、初期の入力データの用語リストに含まれていない新語であっても、再帰的に共起度を計算することができるようになる。
なお、共起度計算部24は、データ検索部22と用語抽出部23によって更新が起こった用語とその他の用語のペアの組み合わせだけに限って共起度の計算を行うことにより処理の効率化を図る方法も考えられる。
また、ここでは説明を簡潔にするため、収集対象の用語を人名に限定した例について述べたが、他にも、例えば図9に示すような組織名リストを用語記憶部11に格納し、図14に示すような抽出ルールを抽出ルール記憶部12に与えることによって、組織名の共起度も抽出することができるようになり、本実施の形態に述べた方法に限定されない。
さらに、用語記憶部11に格納される用語リストと、抽出ルール記憶部12に格納される抽出ルールに、ドメインのラベルのデータを付与することによって、人と組織、組織と地名など、異なる複数のドメインに属する用語を新たに抽出することができる。
本実施の形態2では、検索の結果得られた文書に対して、抽出ルールを用いて用語リストに未登録の新語を抽出して追加する。そのため、入力データである用語リストに含まれていない新語を抽出しながら再帰的に共起度を計算することができる。
(実施の形態3)
図15は、本発明の実施の形態3に係る用語共起度抽出装置100の構成例を示すブロック図である。図15を参照すると、本発明の実施の形態3は、図10に示された実施の形態2の構成に加えて、処理装置2に抽出ルール学習部25が追加されている点で異なる。
抽出ルール学習部25が用語記憶部11に格納されている用語リストの文書中での出現傾向の統計量を計算することにより、抽出ルール記憶部12に格納されている抽出ルールを増やす。
本実施の形態の動作を、図15〜17を参照して詳細に説明する。
図16は、本発明の実施の形態3の動作の一例を示す流れ図である。図16におけるステップS201〜S205における、検索戦略決定部21、データ検索部22、共起度計算部24の動作は、図5に示す実施の形態1における検索戦略決定部21〜共起度計算部24の動作と同一のため、説明は省略する。用語抽出部23は、図16のステップS203の後、データ検索部22から渡された検索結果の文書群をそのまま抽出ルール学習部25に渡すものとする。
抽出ルール学習部25は、用語記憶部11に格納されている用語リストについて、用語抽出部23から渡された文書群中での出現パタンを計測し、出現頻度が高く、かつ、用語を抽出する可能性の高いパタンを抽出ルールとして抽出ルール記憶部12に追加する。
図17は、抽出ルール学習部25の動作の一例を示す流れ図である。抽出ルール学習部25は、初期化処理として、周辺文字列集合Cとルール候補集合Rを空集合に設定する(図17のステップS250)。次に、用語記憶部11に格納されている用語リスト中の用語を1語ずつ取り出して(図17のステップS251;Yes)、取り出された用語が、用語抽出部23から渡された文書群中に出現している前後w語以内の周辺文字列を全て列挙し、周辺文字列集合Cに追加する(図17のステップS252)。
例えば、w=4で、取り出された用語が「田中一郎」であり、文書群中に「凸凹株式会社の田中一郎社長が語る」という記述があったとする。この場合、「凸凹株式会社の田中一郎社長が語る」という記述を形態素解析すると、「凸凹/名詞−一般 株式会社/名詞−一般 の/助詞−連帯化 田中/名詞−固有名詞−人名−姓 一郎/名詞−固有名詞−人名−名 社長/名詞−一般 が/助詞−格助詞−一般 語る/動詞−自立」となるため、「田中一郎」を含む4語以内の周辺文字列は、「株式会社/の/田中/一郎」 「の/田中/一郎/社長」 「田中/一郎/社長/が」「の/田中/一郎」「田中/一郎/社長」「田中/一郎」の6通り存在する。
なお、ここでは、説明を簡潔にするため、文書群中に出現している前後w語以内の周辺文字列を全て列挙するものとして説明を行ったが、自立語で始まる周辺文字列に限定する、自立語で終わる周辺文字列に限定する、自立語で始まりかつ自立語で終わる周辺文字列に限定するなどの方法も考えられ、本実施の形態に述べた方法に限定されない。例えば、自立語で始まりかつ自立語で終わる周辺文字列に限定する場合、「凸凹株式会社の田中一郎社長が語る」という記述における「田中一郎」のw=4の周辺文字列は、「株式会社/の/田中/一郎」「田中/一郎/社長」「田中/一郎」の3通りになる。
次に、抽出ルール学習部25は、列挙された周辺文字列について、用語を品詞などの単語属性として一般化したルールを生成し、ルール候補集合Rに追加する(図17のステップS253)。例えば、周辺文字列が「株式会社の田中一郎」であった場合、
「株式会社の“[品詞:名詞−固有名詞−姓][品詞:名詞−固有名詞−名]”」、
「株式会社の“[品詞:名詞−固有名国−姓][品詞:名詞−固有名詞]”」、
「株式会社の“[品詞:名詞−固有名詞−姓][品詞:名詞]”」、
「株式会社の“[品詞:名詞−固有名詞」[品詞:名詞−固有名詞−名]”」、
「株式会社の“[品詞:名詞−固有名詞][品詞:名詞−固有名詞]”」、
「株式会社の“[品詞:名詞−固有名詞][品詞:名詞]”」、
「株式会社の“[品詞:名詞][品詞:名詞−固有名詞−名]”」、
「株式会社の“[品詞:名詞][品詞:名詞−固有名詞]”」、
「株式会社の“[品詞:名詞][品詞:名詞]”」、
の9つのルールがルール候補Rに追加される。
次に、抽出ルール学習部25は、ルール候補集合Rに含まれる各ルール候補について、用語抽出部23から渡された文書群中でマッチする頻度を数え、その頻度が閾値fを超えていないルール候補はルール候補集合Rから削除する(図17のステップS254)。例えば、閾値f=10で、ルール「株式会社の[品詞:名詞−固有名詞−姓][品詞:名詞−固有名詞−名]」とがマッチする文字列の頻度が5だった場合、ルール候補集合Rから削除される。
次に、抽出ルール学習部25は、ルール候補集合Rに含まれる各ルール候補について、用語抽出部23から渡された文書群中でマッチする文字列を抽出し、その文字列が用語記憶部11に格納されている用語リストに登録されている割合を、用語抽出率として計算する。用語抽出率が低いルール候補は、多くの語を抽出できる可能性があるが、一方で、ノイズとなる語を抽出しやすいことを意味している。そのため、用語抽出率が閾値rを超えていないルール候補はルール候補集合Rから削除する(図17のステップS255)。
例えば、用語抽出率の閾値r=50%とする。この時、ルール候補r[品詞 名詞−固有名詞][品詞:名詞−固有名詞]”社長」により抽出される文字列が10語あり、そのうち7語が用語記憶部11に格納されている用語リストに登録されている場合、このルール候補の用語抽出率は7/10=70%となり、閾値r=50%を超えているので、ルール候補集合Rから削除されない。一方、ルール候補「株式会社の”[品詞 名詞][品詞’名詞]”」により抽出される文字列が100語あり、そのうち20語が用語記憶部11に格納きれている用語リストに登録されている場合、このルール候補の用語抽出率は20/100=20%となり、閾値r=50%未満であるので、ルール候補集合Rから削除される。
次に、抽出ルール学習部25は、ルール候補集合Rに残っているルール候補を、抽出ルールとして、抽出ルール記憶部12に追加する(図17のステップS256)
なお、ここでは説明を簡潔にするため、抽出ルール学習部25は、用語抽出部23から渡された文書群のみを用いて周辺文字列の抽出とルール候補の生成を行う方法について説明を行ったが、他にも、データ検索部22が取得した文書群全てを記憶装置1に格納しておき、それら文書群全体を使って周辺文字列の抽出とルール候補の生成を行う方法もあり、本実施の形態に述べた方法に限定されない。
本実施の形態では、検索結果の文書群に含まれる用語周辺の文字列の出現傾向を求めることにより、動的に新しい抽出ルールを生成する。そのため、初期の抽出ルールが少なくても、より多くの用語を再帰的に抽出することができる。
図18は、図1、図10または図15に示す用語共起度抽出装置100のハードウェア構成の一例を示すブロック図である。用語共起度抽出装置100は、図18に示すように、制御部31、主記憶部32、外部記憶部33、操作部34、表示部35及び送受信部36を備える。主記憶部32、外部記憶部33、操作部34、表示部35及び送受信部36はいずれも内部バス30を介して制御部31に接続されている。
制御部31はCPU(Central Processing Unit)等から構成され、外部記憶部33に記憶されている用語共起度抽出用プログラム500に従って、前述の用語共起度抽出装置100の処理を実行する。
主記憶部32はRAM(Random-Access Memory)等から構成され、外部記憶部33に記憶されている用語共起度抽出用プログラム500をロードし、制御部31の作業領域として用いられる。
外部記憶部33は、フラッシュメモリ、ハードディスク、DVD−RAM(Digital Versatile
Disc Random-Access Memory)、DVD−RW(Digital Versatile
Disc ReWritable)等の不揮発性メモリから構成され、前記の処理を制御部31に行わせるための用語共起度抽出用プログラム500を予め記憶し、また、制御部31の指示に従って、このプログラムが記憶するデータを制御部31に供給し、制御部31から供給されたデータを記憶する。図1、図10または図15の用語記憶部11、抽出ルール記憶部12および共起度データ記憶部13は、外部記憶部33に構成される。用語共起度抽出処理を行っているときは、それらのデータの一部は主記憶部32に記憶されて制御部31の作業に用いる。
操作部34はキーボード及びマウスなどのポインティングデバイス等と、キーボード及びポインティングデバイス等を内部バス30に接続するインターフェース装置から構成されている。操作部34を介して、参加者を絞り込む条件設定などが入力され、制御部31に供給される。操作部34は、図1、図10または図15の入力部3に相当する。
表示部35は、CRT(Cathode Ray Tube)又はLCD(Liquid Crystal Display)などから構成され、検索対象の用語、検索結果、検索結果文書、用語抽出ルール、共起度グラフなどを表示する。表示部35は、図1、図10または図15の出力部4の例である。その他、出力部4として、プリンタなどを備えてもよい。
送受信部36は、ネットワーク5に接続する網終端装置または無線通信装置、及びそれらと接続するシリアルインタフェース又はLAN(Local Area Network)インタフェースから構成されている。送受信部36は、ネットワーク5を介して、検索エンジンを提供するサーバ(図示せず)に接続し、公開データ6の情報にアクセスする。
図1、図10または図15の検索戦略決定部21、データ検索部22、用語抽出部23、共起度計算部24および抽出ルール学習部25の処理は、用語共起度抽出用プログラム500が、制御部31、主記憶部32、外部記憶部33、操作部34、表示部35および送受信部36などを資源として用いて処理することによって実行する。
以上、説明したように、本発明の第1の効果は、検索回数が幾何級数的に増加するのを防ぐことができることである。その理由は、公開データ6に対する検索は、用語のペアではなく、用語1語ずつで行うからである。
第2の効果は、少ない検索回数でもより多くの用語の関係を近似的に求めることができることである。その理由は、未検索の用語であっても、検索済み用語の検索結果に含まれる文書中に出現していれば、近似的な共起度を求めることができるからである。
第3の効果は、少ない検索回数でもより真の値に近い共起度グラフを求めることができることである。その理由は、未検索のどの用語を検索すれば、より近似度の高い共起度グラフが求まるかという指標を近似グラフスコアとして計算し、近似グラフスコアの高い用語の順に検索を行うからである。
第4の効果は、入力データである用語リストに含まれていない新語を抽出しながら再帰的に共起度を計算することができることである。その理由は、検索の結果得られた文書に対して、抽出ルールを用いて用語リストに未登録の新語を抽出して追加するからである。
その他、前記のハードウエア構成やフローチャートは一例であり、任意に変更及び修正が可能である。
制御部31、主記憶部32、外部記憶部33、送受信部36及び内部バス30などから構成される用語共起度抽出装置100の処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するための用語共起度抽出用プログラム500を、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD−ROM、DVD−ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する用語共起度抽出装置100を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで用語共起度抽出装置100を構成してもよい。
また、用語共起度抽出装置100の機能を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。
また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に用語共起度抽出用プログラム500を掲示し、ネットワークを介して用語共起度抽出用プログラム500を配信してもよい。そして、用語共起度抽出用プログラム500を起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。
本発明によれば、新開記事、スポーツニュース、論文、日記、掲示板、blog、メーリングリスト、メールマガジンなどの様々な情報源から、人間関係を表す情報や、組織間の関係を表す情報、組織と人の関係を表す情報、製品と企業の関係を表す情報などの抽出に適用することができる。
本発明の実施の形態1に係る用語共起度抽出装置の構成例を示すブロック図である。 実施の形態1における用語記憶部に格納されるデータの例を示す図である。 実施の形態1における共起度データ記憶部に格納されるデータの例を示す図である。 実施の形態1における近似的な共起度計算を説明する図である。 実施の形態1に係る用語共起度抽出装置の動作の一例を示す流れ図である。 実施の形態1における検索戦略決定部の動作の一例を示す流れ図である。 実施の形態1におけるデータ検索部の動作の一例を示す流れ図である。 実施の形態1における共起度計算部の動作の一例を示す流れ図である。 実施の形態1における用語記憶部に格納されるデータの例を示す図である。 本発明の実施の形態2に係る用語共起度抽出装置の構成例を示すブロック図である。 実施の形態2における抽出ルール記憶部に格納されるデータの例を示す図である。 実施の形態2に係る用語共起度抽出装置の動作の一例を示す流れ図である。 実施の形態2における用語抽出部の動作の一例を示す流れ図である。 実施の形態2における抽出ルール記憶部に格納されるデータの例を示す図である。 本発明の実施の形態3に係る用語共起度抽出装置の構成例を示すブロック図である。 実施の形態3に係る用語共起度抽出装置の動作の一例を示す流れ図である。 実施の形態3における抽出ルール学習部の動作の一例を示す流れ図である。 用語共起度抽出装置のハードウェア構成の一例を示すブロック図である。
符号の説明
1 記憶装置
2 処理装置
3 入力部
4 出力部
5 ネットワーク
6 公開データ
11 用語記憶部
12 抽出ルール記憶部
13 共起度データ記憶部
21 検索戦略決定部
22 データ検索部
23 用語抽出部
24 共起度計算部
25 抽出ルール学習部
31 制御部
32 主記憶部
33 外部記憶部
34 操作部
35 表示部
36 送受信部
100 用語共起度抽出装置
500 用語共起度抽出用プログラム

Claims (15)

  1. 検索対象の用語をノードとし、前記検索対象の任意の2つの用語について、該2つの用語が同一文書で出現する度合いを示す共起度を該2つの用語に対応するノードの間のエッジとする、共起度グラフを抽出する用語共起度抽出装置であって、
    未検索の用語について、着目する未検索の用語と共起していることがわかっている既知共起用語の数と、該既知共起用語のうち未検索の用語の数および検索済みの用語の数、ならびに、該既知共起用語の未検索の用語と共起している検索済みの用語に接続するエッジの数、の線形和と、の積である近似グラフスコアを、前記着目する未検索の用語を検索することによって用語間の共起度が求まる可能性として算出する共起度検出確度判定手段と、
    前記共起度検出確度判定手段で判定した可能性の大きい用語から順に所定の基準で、用語の検索順を決定する検索戦略決定手段と、
    前記検索戦略決定手段で決定した順序に従って、検索対象の用語1語ずつをキーワードとして、文書データを検索する検索手段と、
    前記検索手段で検索した用語を含む検索結果文書から、未検索の用語についてはそれまでに検索された該未検索の用語が出現する文書の数を検索対象の全文書における出現文書数とみなして、該検索結果文書に含まれる検索対象の用語について、検索対象の全文書における用語間の共起度を近似的に求める共起度計算手段と、
    を備えることを特徴とする用語共起度抽出装置。
  2. 所定の規則に基づいて、前記検索結果文書から、前記検索対象の用語に含まれていない用語を抽出する用語抽出手段を備えることを特徴とする請求項1に記載の用語共起度抽出装置。
  3. 前記検索結果文書における用語の出現傾向から、動的に用語を抽出する規則を生成する抽出規則学習手段を備えることを特徴とする請求項2に記載の用語共起度抽出装置。
  4. 前記抽出規則学習手段は、
    前記検索結果文書における用語の周辺に出現する文字列を列挙し、
    前記検索対象の用語に登録されている用語の単語属性、および該単語属性を一般化した正規表現によって、前記周辺文字列から規則候補の集合を生成し、
    前記規則候補の出現頻度および/または用語抽出率の値をそれぞれの所定の閾値と比較して、前記規則候補を絞り込む、
    ことによって前記用語を抽出する規則を生成することを特徴とする請求項3に記載の用語共起度抽出装置。
  5. 前記用語抽出手段は、単語属性および単語属性の正規表現によって記述された所定の規則に基づいて用語を抽出することを特徴とする請求項2ないし4のいずれか1項に記載の用語共起度抽出装置。
  6. 検索対象の用語をノードとし、前記検索対象の任意の2つの用語について、該2つの用語が同一文書で出現する度合いを示す共起度を該2つの用語に対応するノードの間のエッジとする、共起度グラフを抽出する用語共起度抽出装置が行う用語共起度抽出方法であって、
    共起度検出確度判定手段が行う、未検索の用語について、着目する未検索の用語と共起していることがわかっている既知共起用語の数と、該既知共起用語のうち未検索の用語の数および検索済みの用語の数、ならびに、該既知共起用語の未検索の用語と共起している検索済みの用語に接続するエッジの数、の線形和と、の積である近似グラフスコアを、前記着目する未検索の用語を検索することによって用語間の共起度が求まる可能性として算出する共起度検出確度判定ステップと、
    検索戦略決定手段が行う、前記共起度検出確度判定ステップで判定した可能性の大きい用語から順に所定の基準で、用語の検索順を決定する検索戦略決定ステップと、
    検索手段が行う、前記検索戦略決定ステップで決定した順序に従って、検索対象の用語1語ずつをキーワードとして、文書データを検索する検索ステップと、
    共起度計算手段が行う、前記検索ステップで検索した用語を含む検索結果文書から、未検索の用語についてはそれまでに検索された該未検索の用語が出現する文書の数を検索対象の全文書における出現文書数とみなして、該検索結果文書に含まれる検索対象の用語について、検索対象の全文書における用語間の共起度を近似的に求める共起度計算ステップと、
    を備えることを特徴とする用語共起度抽出方法。
  7. 用語抽出手段が行う、所定の規則に基づいて、前記検索結果文書から、前記検索対象の用語に含まれていない用語を抽出する用語抽出ステップを備えることを特徴とする請求項に記載の用語共起度抽出方法。
  8. 抽出規則学習手段が行う、前記検索結果文書における用語の出現傾向から、動的に用語を抽出する規則を生成する抽出規則学習ステップを備えることを特徴とする請求項に記載の用語共起度抽出方法。
  9. 前記抽出規則学習ステップは、前記抽出規則学習手段は、
    前記検索結果文書における用語の周辺に出現する文字列を列挙し、
    前記検索対象の用語に登録されている用語の単語属性、および該単語属性を一般化した正規表現によって、前記周辺文字列から規則候補の集合を生成し、
    前記規則候補の出現頻度および/または用語抽出率の値をそれぞれの所定の閾値と比較して、前記規則候補を絞り込むことによって前記用語を抽出する規則を生成する
    ことを特徴とする請求項に記載の用語共起度抽出方法。
  10. 前記用語抽出ステップは、前記用語抽出手段は、単語属性および単語属性の正規表現によって記述された所定の規則に基づいて用語を抽出することを特徴とする請求項ないしのいずれか1項に記載の用語共起度抽出方法。
  11. 検索対象の用語をノードとし、前記検索対象の任意の2つの用語について、該2つの用語が同一文書で出現する度合いを示す共起度を該2つの用語に対応するノードの間のエッジとする、共起度グラフを抽出する用語共起度抽出プログラムであって、
    コンピュータを、
    未検索の用語について、着目する未検索の用語と共起していることがわかっている既知共起用語の数と、該既知共起用語のうち未検索の用語の数および検索済みの用語の数、ならびに、該既知共起用語の未検索の用語と共起している検索済みの用語に接続するエッジの数、の線形和と、の積である近似グラフスコアを、前記着目する未検索の用語を検索することによって用語間の共起度が求まる可能性として算出する共起度検出確度判定手段と、
    前記共起度検出確度判定手段で判定した可能性の大きい用語から順に所定の基準で、用語の検索順を決定する検索戦略決定手段と、
    前記検索戦略決定手段で決定した順序に従って、検索対象の用語1語ずつをキーワードとして、文書データを検索する検索手段と、
    前記検索手段で検索した用語を含む検索結果文書から、未検索の用語についてはそれまでに検索された該未検索の用語が出現する文書の数を検索対象の全文書における出現文書数とみなして、該検索結果文書に含まれる検索対象の用語について、検索対象の全文書における用語間の共起度を近似的に求める共起度計算手段、
    として機能させることを特徴とする用語共起度抽出プログラム。
  12. 所定の規則に基づいて、前記検索結果文書から、前記検索対象の用語に含まれていない用語を抽出する用語抽出手段としての機能を備えることを特徴とする請求項11に記載の用語共起度抽出プログラム。
  13. 前記検索結果文書における用語の出現傾向から、動的に用語を抽出する規則を生成する抽出規則学習手段としての機能を備えることを特徴とする請求項12に記載の用語共起度抽出プログラム。
  14. 前記抽出規則学習手段は、
    前記検索結果文書における用語の周辺に出現する文字列を列挙し、
    前記検索対象の用語に登録されている用語の単語属性、および該単語属性を一般化した正規表現によって、前記周辺文字列から規則候補の集合を生成し、
    前記規則候補の出現頻度および/または用語抽出率の値をそれぞれの所定の閾値と比較して、前記規則候補を絞り込む、
    ことによって前記用語を抽出する規則を生成することを特徴とする請求項13に記載の用語共起度抽出プログラム。
  15. 前記用語抽出手段は、単語属性および単語属性の正規表現によって記述された所定の規則に基づいて用語を抽出することを特徴とする請求項12ないし14のいずれか1項に記載の用語共起度抽出プログラム。
JP2007316422A 2007-12-06 2007-12-06 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム Active JP5251099B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007316422A JP5251099B2 (ja) 2007-12-06 2007-12-06 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007316422A JP5251099B2 (ja) 2007-12-06 2007-12-06 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム

Publications (2)

Publication Number Publication Date
JP2009140263A JP2009140263A (ja) 2009-06-25
JP5251099B2 true JP5251099B2 (ja) 2013-07-31

Family

ID=40870801

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007316422A Active JP5251099B2 (ja) 2007-12-06 2007-12-06 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム

Country Status (1)

Country Link
JP (1) JP5251099B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011081494A (ja) * 2009-10-05 2011-04-21 Tokyo Electric Power Co Inc:The 文書データ解析装置、方法及びプログラム
JP5586435B2 (ja) * 2010-11-25 2014-09-10 株式会社日立ソリューションズ 電子文書マスキングシステム
JP2014182529A (ja) * 2013-03-19 2014-09-29 Dainippon Printing Co Ltd 可視化方法、コンピュータプログラム、可視化装置
JP6524790B2 (ja) * 2015-05-14 2019-06-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP7305312B2 (ja) * 2018-06-14 2023-07-10 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09245058A (ja) * 1996-03-11 1997-09-19 Dainippon Printing Co Ltd データベースシステムおよびキーワードネットワークの構築装置
JP3431836B2 (ja) * 1998-06-18 2003-07-28 株式会社トレンディ ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体
JP2005122665A (ja) * 2003-10-20 2005-05-12 Sony Corp 電子機器装置、関連語データベースの更新方法、プログラム

Also Published As

Publication number Publication date
JP2009140263A (ja) 2009-06-25

Similar Documents

Publication Publication Date Title
US8108405B2 (en) Refining a search space in response to user input
US8543380B2 (en) Determining a document specificity
KR100974906B1 (ko) 위치와 관련하여 신뢰성 있는 문서를 식별하는 시스템 및 방법
Kaptein et al. Exploiting the category structure of Wikipedia for entity ranking
US20110161309A1 (en) Method Of Sorting The Result Set Of A Search Engine
US20090254540A1 (en) Method and apparatus for automated tag generation for digital content
Xiong et al. Towards better text understanding and retrieval through kernel entity salience modeling
US20130110839A1 (en) Constructing an analysis of a document
JP4942727B2 (ja) テキスト要約装置、その方法およびプログラム
JP5391632B2 (ja) ワードと文書の深さの決定
US20140359409A1 (en) Learning Synonymous Object Names from Anchor Texts
Hasibi et al. On the reproducibility of the TAGME entity linking system
JP5251099B2 (ja) 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム
Chen et al. Entity set expansion with semantic features of knowledge graphs
JP2002132811A (ja) 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
Najadat et al. Automatic keyphrase extractor from arabic documents
Oh et al. Efficient semantic network construction with application to PubMed search
Orăsan Comparative evaluation of term-weighting methods for automatic summarization
Ren et al. Role-explicit query extraction and utilization for quantifying user intents
US20080033953A1 (en) Method to search transactional web pages
Liu et al. A new method to compose long unknown Chinese keywords
Zhu et al. Enhance web pages genre identification using neighboring pages
Huang et al. Constructing personal knowledge base: automatic key-phrase extraction from multiple-domain web pages
Ghorai An Information Retrieval System for FIRE 2016 Microblog Track.
Stratogiannis et al. Related Entity Finding Using Semantic Clustering Based on Wikipedia Categories

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120918

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130401

R150 Certificate of patent or registration of utility model

Ref document number: 5251099

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160426

Year of fee payment: 3