JP3855551B2 - 検索方法及び検索システム - Google Patents

検索方法及び検索システム Download PDF

Info

Publication number
JP3855551B2
JP3855551B2 JP23784599A JP23784599A JP3855551B2 JP 3855551 B2 JP3855551 B2 JP 3855551B2 JP 23784599 A JP23784599 A JP 23784599A JP 23784599 A JP23784599 A JP 23784599A JP 3855551 B2 JP3855551 B2 JP 3855551B2
Authority
JP
Japan
Prior art keywords
word
document set
search
words
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP23784599A
Other languages
English (en)
Other versions
JP2001067362A5 (ja
JP2001067362A (ja
Inventor
徹 久光
芳樹 丹羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP23784599A priority Critical patent/JP3855551B2/ja
Priority to US09/642,771 priority patent/US6850937B1/en
Publication of JP2001067362A publication Critical patent/JP2001067362A/ja
Publication of JP2001067362A5 publication Critical patent/JP2001067362A5/ja
Application granted granted Critical
Publication of JP3855551B2 publication Critical patent/JP3855551B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/917Text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書群中の単語または単語列の重要性を測る技術に係り、文献検索の支援、単語辞書の自動作成等に利用される。
【0002】
【従来の技術】
図1は、検索された文書内の「特徴単語」を提示するウィンドウを持つ文書検索システムの例であるが、右側のウィンドウには左側に示されている文書中の単語が選択されて表示されている。このような検索システムの例として、例えば、特開平10-74210「文献検索支援方法及び装置およびこれを用いた文献検索サービス」(文献1)があげられる。
【0003】
また、影浦峡(他)、"Methodsof automatic term recognition: A review"、 Terminology、 1998)(文献2)には、単語の重要度を計算する方法が記載されている。単語の重要度を計算する方法は、専門用語の自動抽出や、文献検索の際に文書を特徴付ける単語に重みをつけることを目的として、長い間研究されてきた。
【0004】
単語の重み付けに関しては、特定の文書内から重要語を抽出することを目的とするもの、全文書から重要語を抽出するのを目的とするものがある。前者についてもっとも有名なものは、tf-idfである。idfは、全文書数Nをある単語wが現れる文書数N(w)で割ったものの対数、tfは単語の文書d内での出現頻度f(w、D)であり、tf-idfは、これらの積として
f(w、d) × log2(N/N(w)) で表される。次のような、f(w、d)の平方根をとる等の変形がある
f(w、d)**0。5 × log2(N/N(w))他にもさまざまな変形があるが、tf-idfの基本的な性質として、「単語がより多く、より少ない文書に偏って出現するほど大きくなる」ように設定される。
【0005】
文献2には記述されていないが、この指標を特定の文書中での単語の重要度でなく、文書集合全体での単語の重要度を測る指標に拡張する自然な方法は、f(w、d)を、wの全文書中での頻度f(w)に置き換えることである。
【0006】
全文書中から重要語を抽出するための方法の一つとして、単語の出現の偏りをより精密に捕えるために、注目する単語の、与えられた文書カテゴリごとの出現頻度の差異の偶然性を測り、偶然でない度合いが高いものを重要語としようという方法があり、尺度としてχ2検定等が利用されているが、この場合、文書集合はあらかじめカテゴリに分類されている必要がある。
【0007】
これらとは別系統の研究として、自然言語処理の立場から重要語としてふさわしい語のまとまりを捕えようとする一連の研究がある。これらの研究においては、文法知識を用いて語の並びに制約を加えるとともに、隣り合う単語の共起の強さをさまざまな尺度で測る方法が提案されている。尺度としては、(各点)相互情報量、対数尤度比等が利用されている。
【0008】
【発明が解決しようとする課題】
従来用いられてきた手法には、以下の問題があった:(1) tf-idf(もしくはその類似手法)の精度は不充分である。経験上語の頻度の寄与が大きすぎる傾向があり、例えば「する」のような一般的すぎる不用語の排除ができにくい。(2) 特定の語のカテゴリ間での分布の違いを比較する方法では、あらかじめ文書が分類されている必要があるが、この条件は一般に満たされない。(3) 隣り合う単語の共起の強さを利用する手法では、1単語のみの場合重要度が評価できない。n>2について、拡張が自明ではない。(4) 従来は重要/非重要を分ける閾値の設定が困難かつ恣意的になりがちであった。本発明の目的は、このような問題の無い方法を提案することである。
【0009】
【課題を解決するための手段】
以下、タームとは、単語または単語列のことを示す。「タームの重要さ」を、専門用語抽出や、情報検索の観点から言い替えると、あるタームが重要であるとは、そのタームがある程度のまとまった話題を想起させる、すなわち informative または domain-specific であることと言える。これは情報検索の領域ではrepresentative と呼ばれ、この意味でのタームの「重要性」は、representativeness とも呼ばれる。このようなタームは、文書集合の内容を俯瞰するときに役立つと考えられるため、情報検索やその支援システムにおいては重要である。
【0010】
representativenessを測る際、従来の方法は注目するターム自体の分布に着目していた。しかし、tf-idfのような手法は簡易ではあるが精度が不足し、χ2等の統計量を用いる手法では、一つのタームは例外を除きせいぜい数十回しか現れないため、多くのタームについて統計的に意味のある値を得るのは困難であり、それが精度の低下につながっていた。
【0011】
本発明は、特定のタームの分布でなく、注目するタームと一緒にあらわれる単語の分布に注目する。これは、「タームの重要度は、そのタームといっしょに現れる単語の分布の偏りと関係がある」という作業仮説に立つものであり、あるタームが「重要である」ということを、「そのタームと共に現われる単語の単語分布が特徴的である」と解釈する。
【0012】
そこで、本発明では、上記課題を解決するため、文書集合に含まれる単語の重要度を計算する際に、抽出すべき単語を含む部分文書集合中の単語分布と、もととなる文書集合中の単語分布との乖離度を用いるこをを特徴とする。特に、上記乖離度は、上記部分集合と上記文書集合との距離dと、上記部分集合と同程度の単語数を含み、かつ、上記文章集合からランダム選出された部分文章集合と上記文章集合との距離d’とを比較して求めることを特徴とする。
【0013】
【発明の実施の形態】
以下では、任意のタームのrepresentativenessを求める手法と、その情報検索システムへの応用を示す。まず、上記「課題を解決するための手段」の欄で述べた考え方を数学的に言い替えることにより、タームのrepresentativenessを測る指標を導入する。すなわち、任意のタームW(単語または単語列)について、Wを含む文書すべての集合における単語分布と、全文書の単語分布の距離に着目する。具体的には、W: ターム(任意の個数の単語からなる)、D(W): Wを含む文書すべての集合、D0 :全文書の集合、PD(W): D(W)における単語分布、P0 :D0 における単語分布、とするとき、Wのrepresentativeness Rep(W)を、2つの分布{PD(W)、 P0 }の距離 Dist{PD(W)、 P0 }に基づいて定義する。
【0014】
単語分布間の距離の計測の方法としては、主要なものだけでも、(1) 対数尤度比(log-likelihood ratio)、(2) Kullback-Leibler divergence、(3) transition probability、(4) vector-space model (cosign 法)等が考えられるが、例えば対数尤度比を用いて安定した結果が得られることを確認している。全単語を{w1、。。。、wn}、ki とKi を、単語wi がD(W)、D0 に出現する頻度として、対数尤度比を用いた場合のPD(W) と P0 の距離を以下で定義する。
【0015】
【数1】
Figure 0003855551
【0016】
図2は、日経新聞1996年版の記事を用い、そこにあらわれるいくつかの語Wに対し、各語Wについて、D(W)の含む単語数#D(W)を横軸に、Dist{PD(W)、 P0 }を縦軸にプロットしたものである。ここでは、距離として対数尤度比を用いている。図2から見られるとおり、#D(W)が近いターム同士で比較すれば、たとえば「米国」は「する」、「オウム」は「結び付ける」よりDist{PD(W)、 P0}の値が高く直感と合致する。しかし、このままでは#D(W)が離れたターム(これは概ね、二つのタームの頻度が大きく異なることとと等価である)同士のrepresentativenessを適切に比較することができない。なぜならば、一般にDist{PD(W)、 P0 }は、#D(W)が大きくなるにつれて増加するからである。実際、「オウム」は「する」とDist{PD(W)、 P0 }の値が同程度となる。 そこで特定のタームから離れてDist{・、P0}の振る舞いを調べるため、さまざまな数の文書をランダムサンプリングし、その結果得られたさまざまな大きさの文書集合Dに対して計算した(#D、 Dist{PD、 P0 })を、図2に「×」を用いてプロットした。これらの点は、(0、 0)に始まり(#D0、 0)に終わる一つのなめらかな曲線により良く近似できると思われる。以下、この曲線をベースライン曲線と呼ぶことにする。
【0017】
D =φのときと、D = D0のときにDist{PD、 P0 }が0となるのは定義から明らかであるが、 #D = 0 付近の挙動は、比較的全文書数が少ないとき(2、000文書程度)から、新聞1年分(3000、000文書程度)まで、全文書集合が様々な大きさの場合にかなり安定して近似できることが確認できた。
【0018】
そこで、上記のさまざまな大きさの全文書集合において、ベースライン曲線が指数関数を用いた近似関数を用いて安定して精度良く求められる区間(1000 ≦ #D < 20000)上で近似関数B(・)を求め、1000 ≦ #D(W) < 20000を満たすWのrepresenentativeness を、Dist{PD(W)、 P0 }に、B(・)による正規化を施した値: Rep(W) = Dist{PD(W)、 P0 }/B(#D(W))により定義する(ただし、ここでいう単語は、記号や助詞、格助詞などの情報検索の検索語として確実に不要とみなされたものはすでに除いたものを指す。これらを含めた場合でも同様の手法が実現できるが、その場合は上記の数字は若干異なってくる)。
【0019】
ここで、「する」のように著しく#D(W)が大きい場合でも、上記のベースライン関数の有効域を用いることを可能にすることと、計算量を低減することを意図して、20、000<#D(W)となるようなWに対しては、D(W)として150文書程度をランダム抽出し、1000 ≦ #D(W) < 20000を満たすようにしてからRep(W)を計算する。
【0020】
一方、上記の区間で求めたベースライン曲線の近似関数は、{x | 0≦x<1000}で、値を大きめに見積もる傾向があるため、#D(W)≦1000となるWについては、正規化の結果Rep(W)は低めに出る。しかし、1000単語はほぼ新聞の2、3記事に相当するが、出現文書数がその程度のタームは我々の目的からの重要度は低いため、そのまま適用した。もちろん、別のベースラインを計算しておいてもよい。 ランダムサンプリングした文書集合DにおけるDist{PD、 P0 }/B(#D)は、さまざまなコーパスにおいて、安定して平均Avrがほぼ1(±0。01)、標準偏差σが0。05程度であった。また、最大値が Avr + 4σ を越えることはなかったので、あるタームWのRep(W)の値が、「意味のある値である」と判断するための閾値として、Avr + 4σ=1。20を設ける。
【0021】
上記指標Rep(・)は、(1) 数学的な意味付けが明瞭であり、(2) 高頻度タームと低頻度タームの比較が自然にできる。(3) 閾値の設定が自然にできる。(4) 任意の長さのタームに対して適用できる。等の好ましい性質を持つ。
【0022】
本発明で提案する指標Rep(・)の有効性は、実験によっても確認されている。日経新聞1996年版の記事中、総頻度が3以上の単語から20、000語を無作為抽出し、そのうちの2、000個を、検索内容の概観に現われることが「好ましい a」「どちらでもよい」「好ましくない d」の3種類に人手で分類した。該20、000語を何らかの方法でソートしたときに、各クラスに分類された語の、先頭からN位までの累積出現頻度グラフを、ランダムソート、頻度、「従来の技術」において述べた、全文書を対象としたtf-idfの変形版、すなわち、 Nを全文書数、 N(w)をwが現れる文書数、f(w)をwの全文書中での頻度として、 f(w)**0。5 × log2(N/N(w))を用いた。
【0023】
図7は、分類が"a"となったものの累積頻度を、ランダム、頻度、tf-idf、新指標のそれぞれを用いた場合で比較したものである。グラフから明らかに、ランダム<頻度<tf-idf<新指標の順で「好ましい」と分類される語の優先順位を上げる力が強い。改善はあきらかに有為である。図8は、分類が"d"となったものの累積頻度の比較であり、新指標の選別能力の優位性がより際立っている。頻度とtf-idfはランダムな場合と変わらず、「不要語」特定能力の低さを現している。このため、本発明で提案する指標は、不要語の同定にとりわけ有効であり、「高頻度かつrepresentative-nessの低い語」を選ぶことによる、stop-word listの自動作成や、文献類似度計算における語の重み付けの精度改善等への応用が期待される。
【0024】
これまでに述べたrepresentativeness を計算するためのシステム構成例を図3に示す。以下図3、4を用いてrepresentativeness の計算について述べる。301は記憶装置であり、ハードディスク等を用いて文書データ、各種のプログラム等を格納する。また、プログラムの作業用領域としても利用される。以下、3011は、文書データ。以下の例では日本語を用いるが、言語にはよらない。3012は、形態素解析プログラム、文書を構成する単語を同定する。日本語の場合は分かち書き+品詞付け、英語の場合は原型還元等の処理を行う。この手法については特定しない。両言語とも、商用・研究用をとわずさまざまなシステムが公開されている。3013は、単語・文書対応付けプログラム。形態素解析の結果から、どの単語がどの文書に何回あらわれているか、逆にどの文書にどのような単語が何回あらわれているかを調べる。基本的には単語と文書をそれぞれ行・列とする行列の要素を計数により埋める作業であり、この手法については特定しない。3014は、単語・文書対応データベース(DB)。上記で計算された単語・文書対応データを記録するDB。3015は、representativeness計算プログラム。図4にその詳細を示す、タームのrepresentativenessを計算するプログラム。3016は、計算されたタームのrepresentativenessを記録するDB。3017は、複数のプログラム間で共通に参照するデータを記録する領域である。3018は、作業用の領域である。302は、入力装置、303は、通信装置、304は、メインメモリ、305は、CPU、306は、ディスプレイ、キーボード等より構成される端末装置、である。
【0025】
図4は、3015のrepresentativeness計算プログラムの詳細である。以下、これを用いて、特定のタームのrepresentativenessを求める手法を説明する。4011は、背景単語分布計算モジュールである。このモジュールは、一度だけ用いられ、各単語の全文中での頻度を記録する。すなわち、(数1)と同じく、全単語を{w1、。。。、wn}とし、Ki を単語wi が全文書D0 中に出現する頻度として、(K1、 。。。、 Kn)を記録する。4012は、与えられた文書データに対してベースライン関数を推定するモジュールである。このモジュールも、はじめに一度だけ用いられる。次の基本的な要素の組み合わせで実現できる。すなわち、
(1)文書集合が与えられた時、含まれる単語数が1000語前後から20、000語前後になるような文書集合をランダムに、しかも含まれる単語数が1000から20、000語の間でできるだけさまざまな値をとるように選び、それぞれの場合に(数1)を用いて4011で求めた背景単語分布との距離を計算する。
【0026】
(2)(1)で得られた点群と最小2乗法等を用いてベースライン関数B(・)を算出する。B(・)は、単語数から正の実数への関数である。これらに関する方法は特定しない。標準的な手法が存在する。
【0027】
4013は、部分文書集合抽出モジュールである。(「タームW=wn1…wnkがあたえらたとき、単語・文書対応DB3014により、各単語wni(1≦i≦k)を含む文書集合D(wni)(1≦i≦k)を求め、すべてのD(wni)(1≦i≦k)の共通集合を取ってD(W)をもとめる。」→)タームW=wn1…wnkがあたえらたとき、単語・文書対応DB3014により、各単語wni(1≦i≦k)を含む文書集合D(wni)(1≦i≦k)を求める。単語・文書対応DB3014に単語の文書内の位置情報まで記録されていると仮定すれば、タームW=wn1…wnkを含む文書集合は、すべてのD(wni)(1≦i≦k)の共通集合の、ある部分集合としてもとめることができる。単語・文書対応DB3014に単語の文書内の位置情報まで記録されていない場合は、近似として、すべてのD(wni)(1≦i≦k)の共通集合を取ってD(W)とする。4014は、共起単語ベクトル計算モジュールである。再び単語・文書対応DB3014により、D(W)内の各単語の頻度を計数し、各単語wi がD(W)に出現する頻度ki を求める。4015は、分布間距離計算モジュールである。(数1)と、4011、4014で求めた単語頻度を用いて、背景単語分布と、Wを含む全文書D(W)内の単語分布との距離 Dist{PD(W)、 P0 }を求める。4016は、分布間距離正規化モジュールである。D(W)中の単語数を#D(W)として、4012でもとめたB(・)を用いて、B(#D(W))をもとめ、Rep(W) = Dist{PD(W)、 P0 }/B(#D(W)) により、Wのrepresentativenessを求める。4017は、ランダムサンプリングモジュールである。4013で、D(W)に含まれる文書数が多すぎる場合、あらかじめ定めた数(共有データ記憶領域3017中に記録)を越える場合、あらかじめ定めた数の文書を選ぶために用いられる。この例では、文書数をパラメータとしているが、望ましい単語数をパラーメータとし、その適当な近傍に単語数が収まるように文書をランダムサンプリングするように設定することも可能である。
【0028】
図5は、本発明を文献検索支援のための検索内容表示に応用する場合の構成例である。本図は、(文献1)の文献検索支援方法図1において示された構成図に沿って、ナヴィゲーションウィンドウにおける特徴語表示に本発明を適用する場合の検索装置の構成を示したものである。(文献1)の文献検索支援方法と異なるのは、特徴語表示手段ルーチン544において、5445のreprsentativenessチェックルーチンが加わること、および、5441特徴語抽出ルーチン、5442共起関係解析ルーチン、5443グラフ配置ルーチン、5444グラフ表示ルーチンにおいて、5441特徴語抽出ルーチン、5443グラフ配置ルーチン、5444グラフ表示ルーチンにおいて、5445のreprsentativenessチェックルーチンを参照することである。 reprsentativenessチェックルーチンは、全文書集合における各語のreprsentativenessについて、要求に応じてその値を返すルーチンである。各語のreprsentativenessは、あらかじめ図4で示したプログラムにより計算しておくことが可能である。
【0029】
ユーザがキーボード511より検索キーワードを入力すると、検索インタフェイス521には、そのキーワードを含む文書の見出し等が表示され、522特徴語表示手段には、検索結果となる文書集合から選ばれた特徴語が表示される。5441の特徴語抽出ルーチンにおいて(文献1)の方法で単語をまず選出する。この中には、先にのべたごとく、「する」や「この」のような一般語が混入しているが、例えば、その単語が出現する文書集合中の単語数が、例えば10、000語を超えるような単語について、5445のreprsentativenessチェックルーチンによりreprsentativenessを調べ、その値があらかじめ定めた値(例えば1。2)より低い語を排除することにより、高頻度不要語の表示を抑制できる。さらに、5443グラフ配置ルーチン、5444グラフ表示ルーチンで5445のreprsentativenessチェックルーチンを参照することにより、 (文献1)の方法で定める各頻度クラスの中で、「語の表示が重なる場合にreprsentativeness が高い語ほど手前に表示する」、「reprsentativeness の高い語ほど文字色を濃く表示する」等の操作を行うことは容易であるから、 reprsentativeness の高い語をより目立たせるような手段で表示し、ユーザインタフェイスを改善することが可能である。さらに上では、各語のreprsentativenessを、あらかじめ図4で示したプログラムにより計算しておくこととしたが、入力キーワードごとに得られる検索結果文書の集合に対して、これを改めて全文書集合と考え、図4に示したプログラムによって、検索結果文書に含まれる各語に対し、その場でreprsentativenessを計算することも可能である。5445のreprsentativenessチェックルーチンをそのように設計した場合、同じ語でもキーワードごとにreprsentativenessが異なってくるため、より適切に、状況を反映した特徴語を表示することが可能である。
【0030】
図6は、単語の自動抽出に本発明を用いる場合の構成例である。601は記憶装置であり、ハードディスク等を用いて文書データ、各種のプログラム等を格納する。また、プログラムの作業用領域としても利用される。以下、6011は、文書データ。以下の例では日本語を用いるが、言語にはよらない。6012は、形態素解析プログラムで、文書を構成する単語を同定する。日本語の場合は分かち書き+品詞付け、英語の場合は原型還元等の処理を行う。この手法については特定しない。両言語とも、商用・研究用をとわずさまざまなシステムが公開されている。6013は、単語・文書対応付けプログラム。形態素解析の結果から、どの単語がどの文書に何回あらわれているか、逆にどの文書にどのような単語が何回あらわれているかを調べる。基本的には単語と文書をそれぞれ行・列とする行列の要素を計数により埋める作業であり、この手法については特定しない。6014は、単語・文書対応データベースDB。上記で計算された単語・文書対応データを記録するDB。6015は、抽出単語格納DB。6017は、representativeness 計算プログラム(詳細は図4)6018は、計算されたタームのrepresentativenessを記録するDB。6019は、複数のプログラム間で共通に参照するデータを記録する領域である。601Aは、最終的な抽出の候補となる単語または単語列を選び出すプログラムである。内容については特定しないが、通常、例えば「与えられた文書形態素解析した結果から、助詞、助動詞、接辞を除いた単語集合」としてよい。601Bは、601Aの選び出した候補から、文法知識を用いて用語として不適切な語の並びを排除するフィルタである。例えば格助詞や助動詞等が先頭や末尾にくるものなどを排除する。内容については特定しないが、例えば(文献2)で紹介された論文中にいくつか例がある。601Bの選び出した候補は、601Cにより、特定の指標に基づき重要度を計算し、それがあらかじめ定めた値より低いものを排除したり、重要度に従ってソートして出力する。ここでは、もっとも頻繁に用いられる指標の名前にしたがって、tf_idfフィルタプログラムと呼ぶが、実際に用いる指標は、 tf_idf以外の任意の指標であってよい。6016は、作業用の領域である。602は、入力装置、603は、通信装置、604は、メインメモリ、605は、CPU、606は、ディスプレイ、キーボード等より構成される端末装置、である。一般の単語抽出方法においては、6017、6018は用いられない。601Cの出力に対して、6017、6018により各候補のrepresentativenessを参照し、あらかじめ定めた値(例えば1。2)よりその値が小さいものを排除する。さらに変形として、601Cで6017、6018を用いて直接各候補のrepresentativenessを参照し、 representativenessのみを用いて用語候補の選別を行うことも考えられる。
【0031】
図6に述べた構成の単語の自動抽出方法を用いて、人工知能関係の1870本の論文の要旨から用語抽出を行う実験を行ったところ、601A、601Bにより約18000個の用語候補が抽出された。601Cで、representativenessのみを用いた場合と、まずtf-idfを用いて用語候補をソートし、その出力に対してrepresentativenessを用いて非重要語の除去を行う二つの場合を行ったところ、最終的に抽出された用語候補は両者とも等しく約5000語であるが、後者の場合の方が、頻度順に近い順序で用語が抽出される傾向にあるため、人間に提示して最終判断を仰ぐ場合は、見なれた語が先頭に近く現れる後者の方が、有る意味で自然であるともいえる。
【0032】
【発明の効果】
本発明で提案する representativeness を用いる事により、文書集合中のタームについて、(1) 数学的な意味付けが明瞭であり、(2) 高頻度タームと低頻度タームの比較が自然にできる。(3) 閾値の設定が自然にできる。(4) 任意の長さのタームに対して適用できる。ようなタームの representativeness 計算方法、すなわち、単語または単語列の重要度を計算する方法が実現でき、単語情報検索インタフェース、単語抽出システム等の精度の向上に役立てることができる。
【図面の簡単な説明】
【図1】特徴単語提示ウィンドウを持つ情報検索支援システムの例。
【図2】二つの単語分布の間の距離を示す例。
【図3】提案する単語の重要度計算方法を実現するための装置構成。
【図4】 representativeness 計算プログラムの構成。
【図5】文献検索支援のための検索内容表示にrepresentativenessを応用する場合の構成例。
【図6】単語の自動抽出にrepresentativenessを応用する場合の構成例。
【図7】提案する単語の重要度が、検索結果の要約にふさわしいと判断される単語の優先順位を高める力を他の指標と比較する実験結果のグラフ。
【図8】提案する単語の重要度が、検索結果の要約にふさわしくないと判断される単語の優先順位を下げる力を他の指標と比較する実験結果のグラフ。
【符号の説明】
301:記憶装置
3011:文書データ3
012:形態素解析プログラム
3013:単語・文書対応付けプログラム
3014:単語・文書対応データベース(DB)
3015:representativeness計算プログラム
3016:representativenessDB
3017:共有データ記録領域
3018:作業用の領域
302:入力装置
303:通信装置
304:メインメモリ、
305:CPU
306:端末装置、
4011:背景単語分布計算モジュール
4012:ベースライン関数推定モジュール
4013:部分文書集合抽出モジュール
4014:共起単語ベクトル計算モジュール
4015:分布間距離計算モジュール
4016:分布間距離正規化モジュール
4017:ランダムサンプリングモジュール
544:特徴単語表示手段作動ルーチン
5441:特徴語抽出ルーチン
5442:共起関係解析ルーチン
5443:グラフ配置ルーチン
5444:グラフ表示ルーチン
601:記憶装置
6011:文書データ。
6012:形態素解析プログラム
6013:単語・文書対応付けプログラム
6014:単語・文書対応データベースDB
6015:抽出単語格納DB。
6016:作業用の領域
6017:representativeness 計算プログラム
6018:representativenessDB。
6019:共通データ記録領域
601A:候補単語列抽出プログラム
601B:文法フィルタ
601C:フィルタプログラム
602:入力装置、
603:通信装置、
604:メインメモリ、
605:CPU
606:ディスプレイ、キーボード等より構成される端末装置。

Claims (6)

  1. 入力手段に対し、検索対象語が入力されるステップと、
    入力された前記検索対象語を用い、検索手段が、全文書集合を検索して検索結果の文書集合を得るステップと、
    計算手段が、得られた前記検索結果の文書集合における特徴的な単語を抽出するステップと、
    出力手段が、抽出された前記特徴的な単語を出力するステップとを有し、
    前記計算手段は、前記特徴的な単語を抽出するステップにおいて、前記検索結果の文書集合に出現する各語について、前記各語を含む部分文書集合を抽出し、前記部分文書集合における単語分布と前記全文書集合における単語分布の乖離度の大きさをもって前記各語の特徴度とすることを特徴とする検索方法。
  2. 上記乖離度は、上記部分文書集合における単語分布と上記全文書集合における単語分布との距離dと、上記部分文書集合と同数の単語数を含み、かつ、上記全文書集合からランダム選出された部分文書集合における単語分布と、上記全文書集合における単語分布との距離d'あるいは前記d'の推定値とを比較して求めることを特徴とする請求項1記載の検索方法。
  3. 上記抽出すべき単語を含む部分文書集合に含まれる文書数が所定数より大きい場合、前記計算手段は、前記部分文書集合からランダムサンプリングによりあらかじめ定めた数の文書を抽出し、前記抽出された文書の集合と上記全文書集合との乖離度を用いて、前記部分文書集合と前記全文書集合の乖離度を推定することを特徴とする請求項2記載の検索方法。
  4. 検索対象語が検索装置に入力される入力部と、
    入力された前記検索対象語について、全文書集合を検索して検索結果の文書集合を得る検索手段と、
    前記文書検索手段によって得られた前記検索結果の文書集合における特徴的な単語を抽出する計算手段と、
    抽出された前記特徴的な単語を出力する出力部とを有し、
    前記計算手段は、前記検索結果の文書集合に出現する各語について、前記各語を含む部分文書集合を抽出し、前記部分文書集合における単語分布と前記全文書集合における単語分布の乖離度の大きさをもって前記各語の特徴度とすることを特徴とする検索システム。
  5. 請求項4に記載の検索システムにおいて、前記出力部は、前記特徴度を画面に提示する単語の選択、配置、または、配色に反映させて出力するものであることを特徴とする検索システム。
  6. 前記特徴度は予め計算され、前記検索装置に記憶されていることを特徴とする請求項記載の検索システム。
JP23784599A 1999-08-25 1999-08-25 検索方法及び検索システム Expired - Fee Related JP3855551B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP23784599A JP3855551B2 (ja) 1999-08-25 1999-08-25 検索方法及び検索システム
US09/642,771 US6850937B1 (en) 1999-08-25 2000-08-22 Word importance calculation method, document retrieving interface, word dictionary making method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23784599A JP3855551B2 (ja) 1999-08-25 1999-08-25 検索方法及び検索システム

Publications (3)

Publication Number Publication Date
JP2001067362A JP2001067362A (ja) 2001-03-16
JP2001067362A5 JP2001067362A5 (ja) 2004-08-12
JP3855551B2 true JP3855551B2 (ja) 2006-12-13

Family

ID=17021270

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23784599A Expired - Fee Related JP3855551B2 (ja) 1999-08-25 1999-08-25 検索方法及び検索システム

Country Status (2)

Country Link
US (1) US6850937B1 (ja)
JP (1) JP3855551B2 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1170674A3 (en) * 2000-07-07 2002-04-17 LION Bioscience AG Method and apparatus for ordering electronic data
JP4679003B2 (ja) * 2001-08-24 2011-04-27 ヤフー株式会社 データからの特徴アイテム抽出方法
JP4452012B2 (ja) * 2002-07-04 2010-04-21 ヒューレット・パッカード・カンパニー 文書の特有性評価方法
US20040194140A1 (en) * 2003-03-27 2004-09-30 Sharp Laboratories Of America, Inc. On-screen intelligent electronic program guide
US20050246353A1 (en) * 2004-05-03 2005-11-03 Yoav Ezer Automated transformation of unstructured data
US20060053156A1 (en) * 2004-09-03 2006-03-09 Howard Kaushansky Systems and methods for developing intelligence from information existing on a network
US7558785B2 (en) * 2005-06-23 2009-07-07 International Business Machines Corporation Extrapolating continuous values for comparison with discrete valued data
US8321198B2 (en) * 2005-09-06 2012-11-27 Kabushiki Kaisha Square Enix Data extraction system, terminal, server, programs, and media for extracting data via a morphological analysis
US20070067157A1 (en) * 2005-09-22 2007-03-22 International Business Machines Corporation System and method for automatically extracting interesting phrases in a large dynamic corpus
JP4761460B2 (ja) * 2006-05-01 2011-08-31 コニカミノルタビジネステクノロジーズ株式会社 検索装置による情報検索方法、情報検索装置及び情報検索処理プログラム
EP1876540A1 (en) * 2006-07-06 2008-01-09 British Telecommunications Public Limited Company Organising and storing documents
US7856350B2 (en) * 2006-08-11 2010-12-21 Microsoft Corporation Reranking QA answers using language modeling
US20080215607A1 (en) * 2007-03-02 2008-09-04 Umbria, Inc. Tribe or group-based analysis of social media including generating intelligence from a tribe's weblogs or blogs
EP1973045A1 (en) * 2007-03-20 2008-09-24 British Telecommunications Public Limited Company Organising and storing documents
US7873640B2 (en) * 2007-03-27 2011-01-18 Adobe Systems Incorporated Semantic analysis documents to rank terms
CN101296128A (zh) * 2007-04-24 2008-10-29 北京大学 一种对互联网信息进行异常状态监测的方法
US20080288488A1 (en) * 2007-05-15 2008-11-20 Iprm Intellectual Property Rights Management Ag C/O Dr. Hans Durrer Method and system for determining trend potentials
US20090063470A1 (en) * 2007-08-28 2009-03-05 Nogacom Ltd. Document management using business objects
WO2012143839A1 (en) * 2011-04-19 2012-10-26 Greyling Abraham Carel A computerized system and a method for processing and building search strings
US9336493B2 (en) * 2011-06-06 2016-05-10 Sas Institute Inc. Systems and methods for clustering time series data based on forecast distributions
JP5583107B2 (ja) * 2011-12-02 2014-09-03 日本電信電話株式会社 キーワード地名ペア抽出装置及び方法及びプログラム
US10915543B2 (en) 2014-11-03 2021-02-09 SavantX, Inc. Systems and methods for enterprise data search and analysis
KR101671740B1 (ko) * 2015-07-07 2016-11-16 숭실대학교산학협력단 토픽 추출 장치 및 방법
CN106250526A (zh) * 2016-08-05 2016-12-21 浪潮电子信息产业股份有限公司 一种基于内容及用户行为的文本类推荐方法和装置
US10460035B1 (en) * 2016-12-26 2019-10-29 Cerner Innovation, Inc. Determining adequacy of documentation using perplexity and probabilistic coherence
US10528668B2 (en) * 2017-02-28 2020-01-07 SavantX, Inc. System and method for analysis and navigation of data
US11328128B2 (en) 2017-02-28 2022-05-10 SavantX, Inc. System and method for analysis and navigation of data
CN114661974B (zh) * 2022-03-21 2024-03-08 重庆市规划和自然资源信息中心 利用自然语言语义分析的政务网站舆情分析与预警的方法
CN115883912B (zh) * 2023-03-08 2023-05-16 山东水浒文化传媒有限公司 一种用于互联网交流演示的互动方法及系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0750486B2 (ja) * 1986-08-20 1995-05-31 松下電器産業株式会社 キ−ワ−ド抽出装置
GB9103080D0 (en) * 1991-02-14 1991-04-03 British And Foreign Bible The Analysing textual documents
JP2729356B2 (ja) * 1994-09-01 1998-03-18 日本アイ・ビー・エム株式会社 情報検索システム及び方法
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5826261A (en) * 1996-05-10 1998-10-20 Spencer; Graham System and method for querying multiple, distributed databases by selective sharing of local relative significance information for terms related to the query
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
JP3614618B2 (ja) * 1996-07-05 2005-01-26 株式会社日立製作所 文献検索支援方法及び装置およびこれを用いた文献検索サービス
US5909680A (en) * 1996-09-09 1999-06-01 Ricoh Company Limited Document categorization by word length distribution analysis
JP2940501B2 (ja) * 1996-12-25 1999-08-25 日本電気株式会社 ドキュメント分類装置及び方法
GB9701866D0 (en) * 1997-01-30 1997-03-19 British Telecomm Information retrieval
JP3607462B2 (ja) * 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
US6018735A (en) * 1997-08-22 2000-01-25 Canon Kabushiki Kaisha Non-literal textual search using fuzzy finite-state linear non-deterministic automata
US6003027A (en) * 1997-11-21 1999-12-14 International Business Machines Corporation System and method for determining confidence levels for the results of a categorization system
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
WO2000046701A1 (en) * 1999-02-08 2000-08-10 Huntsman Ici Chemicals Llc Method for retrieving semantically distant analogies
AU4328000A (en) * 1999-03-31 2000-10-16 Verizon Laboratories Inc. Techniques for performing a data query in a computer system

Also Published As

Publication number Publication date
JP2001067362A (ja) 2001-03-16
US6850937B1 (en) 2005-02-01

Similar Documents

Publication Publication Date Title
JP3855551B2 (ja) 検索方法及び検索システム
US7809718B2 (en) Method and apparatus for incorporating metadata in data clustering
US7783644B1 (en) Query-independent entity importance in books
KR100544514B1 (ko) 검색 쿼리 연관성 판단 방법 및 시스템
US7814102B2 (en) Method and system for linking documents with multiple topics to related documents
TWI431493B (zh) 用於使用多階段方式之事實摘取的最佳化之方法、電腦可讀取儲存媒體及電腦系統
US7213205B1 (en) Document categorizing method, document categorizing apparatus, and storage medium on which a document categorization program is stored
US8886661B2 (en) Information extraction system, information extraction method, information extraction program, and information service system
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
JPH07114572A (ja) 文書分類装置
US20040158558A1 (en) Information processor and program for implementing information processor
WO2016036345A1 (en) External resource identification
CN111078839A (zh) 一种用于裁判文书的结构化处理方法及处理装置
JP2001084255A (ja) 文書検索装置および方法
KR20210089340A (ko) 문서 내 텍스트를 분류하는 방법 및 장치
CN105653553B (zh) 词权重生成方法和装置
JP2000163437A (ja) 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
KR20180059112A (ko) 콘텐츠 분류 장치 및 방법
JP4525433B2 (ja) 文書集約装置及びプログラム
CN115129864A (zh) 文本分类方法、装置、计算机设备和存储介质
JP3928351B2 (ja) 確率を用いた特徴単語の選択方法
CN110807099B (zh) 一种基于模糊集的文本分析检索方法
CN110619212B (zh) 一种基于字符串的恶意软件识别方法、系统及相关装置
JP2000148770A (ja) 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
CN113204610A (zh) 基于刑事案件电子卷宗的自动编目的方法、计算机可以读取的存储装置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060904

LAPS Cancellation because of no payment of annual fees