JP3928351B2 - 確率を用いた特徴単語の選択方法 - Google Patents

確率を用いた特徴単語の選択方法 Download PDF

Info

Publication number
JP3928351B2
JP3928351B2 JP2000354407A JP2000354407A JP3928351B2 JP 3928351 B2 JP3928351 B2 JP 3928351B2 JP 2000354407 A JP2000354407 A JP 2000354407A JP 2000354407 A JP2000354407 A JP 2000354407A JP 3928351 B2 JP3928351 B2 JP 3928351B2
Authority
JP
Japan
Prior art keywords
word
document data
words
document
balls
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000354407A
Other languages
English (en)
Other versions
JP2002157273A (ja
JP2002157273A5 (ja
Inventor
徹 久光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2000354407A priority Critical patent/JP3928351B2/ja
Publication of JP2002157273A publication Critical patent/JP2002157273A/ja
Publication of JP2002157273A5 publication Critical patent/JP2002157273A5/ja
Application granted granted Critical
Publication of JP3928351B2 publication Critical patent/JP3928351B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、与えられた文書群中の単語の重要性を測る技術に係り,文献検索の支援,単語辞書の自動作成等に利用される.
【0002】
【従来の技術】
図1は,検索された文書内の「特徴単語」を提示するウィンドウを持つ文書検索システムの例である。右側のウィンドウには左側に示されている文書中の単語が選択され,表示されている.このような検索システムの例として,例えば、特開平10-74210「文献検索支援方法及び装置およびこれを用いた文献検索サービス」(文献1)があげられる。
【0003】
また、影浦峡(他),"Methods of automatic term recognition: A review", Terminology, 1996)(文献2)には、単語の重要度を計算する方法が記載されている。単語の重要度を計算する方法は,専門用語の自動抽出や,文献検索の際に文書を特徴付ける単語に重みをつけることを目的として,長い間研究されてきた.
単語の重み付けに関して,特定の文書集合内から重要語を抽出することを目的とするものでもっとも有名なものは,tf-idfである.idfは,全文書数Nallをある単語wが現れる文書数N(w)で割ったものの対数,tf,より詳しく書くとtf(w,D)は,単語の文書集合D内での出現頻度であり,tf-idfは,これらの積として, tf(w,d)×log2(Nall/N(w)) で表される.ここで,Nallは,全文書数, N(w) はwの出現する文書数である。tf-idfの基本的な性質として,単語がより多く,より少ない文書に偏って出現するほど大きくなる.tf-idfは,定義が簡便なため,少ない計算で単語の重みが計算できる。
【0004】
情報検索の分野では,近年になって,後述するSMARTと呼ばれる重み付け方法(A. Singhal et al. Pivoted Document Length Normalization, Proc. of ACM SIGIR96, pp126-133, 1996; 文献3)が開発され,現時点では最も高精度とされている。
【0005】
【発明が解決しようとする課題】
しかし,上記のtf-idfは,単語の頻度の影響を受けすぎるため,頻度の非常に高い,「する」,「いる」等の不要語を排除できないという問題があった。
【0006】
他に,直感的に妥当と思われるものに,tf(w,d)を,wの全文書集合中の出現頻度TF(w)で割った値がある。しかし,この値は,頻度が1回しかない単語の重みを最大(=1)にしてしまうため,低頻度語に偏りすぎる問題があった。
【0007】
また、SMARTと呼ばれる重み付け方法は、SMART値は後述の定義式から分かる通り,かなり多くの計算を必要とする問題があった。
【0008】
本発明は,高頻度語にも,低頻度語にも偏らず,部分文書集合が与えられたときに,それに応じてリアルタイムで単語の重みを計算でき,既存の手法より高精度な単語の重み付け方法を提案することである.
【0009】
【課題を解決するための手段】
本発明では,全語数がNの文書集合中に全部でK回現れる単語が,n語を含む部分文書集合中にk回あらわれるとき,これに,「N個の玉の中に印のついたK個の玉が入っているとき,これから任意にn個の玉を取り出したときに印のついた玉がk個以上含まれる確率」(これをhgs(N, K, n, k)と書く)の対数値の符号を反転させた重みW(N, K, n, k)を与え,この重みを用いて前記部分文書集合中の特徴単語を選択する。ここで,「N個の玉の中に印のついたK個の玉が入っているとき,これから任意にn個の玉を取り出したときに印のついた玉がちょうどk個含まれる確率(超幾何分布)」をhg (N, K, n, k)と書くとき,W(N, K, n, k), hgs(N, K, n, k),hg(N, K, n, k)は,次の式で定義される:
【0010】
【数1】
Figure 0003928351
【0011】
ここで,C(t,u)は, t個のことなるものの中からu個を選ぶ組み合わせの数を表わす。上述の確率は,「個々の単語の出現が独立である」と仮定したとき(独立性の仮定),n語を含む部分文書集合中に特定の単語がk回あらわれることがどのくらい珍しいかを示すものである。
【0012】
ここで,「k個以上」である場合の和をとるのは,「特定の単語がk個現れる」という事象が,同単語が可能な限り最大個数現れる(すなわち,min{n,K }個現れる)という事象からどの程度離れているかを測るためである。このように和を取ることにより,「出現が少なすぎる方向にめずらしい」場合と,「出現が多すぎる方向に珍しい」場合を区別できる。すなわち,k1<k2であって,hg(N, K, n, k1)= hg(N, K, n, k2)の場合,hgs(N, K, n, k1)> hgs(N, K, n, k2),したがってW(N, K, n, k1)< W(N, K, n, k2) となる。(図2)
上述の確率的解釈により, Nや Kと比較してnやkが大きな場合も小さな場合も,一貫した意味付けをもつ公平な重み付けができる。言葉を替えれば,SMARTで行われるような文書サイズによる正規化が,確率を使うことにより自動的に行われている。
【0013】
本発明の重み付けの精度上の優位性は,以下の実験によって確認された。まず,本発明の方式を含む, wを含む文書集合D(w)中の任意の語v重み付けの指標を選び,これら指標の集合をMとする:
tf:詳しくはtf(v|D(w))。もっとも単純な重みで vのD(w)での頻度そのものを用いる。
tf-idf: Saltonらによって提案された方法で(文献2参照),
tf-idf(v|D(w))=tf(v|D(w))×log(Nall/N(v))
で定義する。ここで, Nallは全文書数, N(v)はvが現れる文書数。
【0014】
tf/TF:vのD(w)中での出現確率と,全文書中での出現確率とを比較したもので,
tf/TF = tf(v|D(w))/TF(v),
で定義する。但し,TF(v)はvの全文書集合中での頻度。
【0015】
SMART
情報検索の分野で近年提案されたもので(文献3),この重みに対して最適化された文書
類似度計算方法とともに用いると,最も高精度な類似文書検索ができるとされている。
【0016】
【数2】
Figure 0003928351
【0017】
ここで, Ave{}は,{}内の要素の平均を取るオペレータ。
【0018】
HGS:数1のW(N,K,n,k)による重み付け。但し,N= Nall,Kはvの全文書での頻度, nはD(w)の単語数,kはvのD(w)での頻度。
【0019】
次に,日経新聞1998年版より,D(w)の含む文書数が似通ったwを2語ずつ計8単語選んだ。8単語と各々に対するD(w)が含む文書数は次の通り(括弧内の数字がD(w)の文書数):
{エリツィン(947), オリンピック(934),オウム (265),エイズ(202),イントラネット(152),
プリペイドカード(126),オゾン(52),テポドン(50)}
Mの各要素mにより,各D(w)に含まれる全ての単語を重み付けし,それぞれの上位50位までとった単語の集合をw(m, 50)とし,これらをマージした単語集合をw(M, 50)とする。w(M, 50)の各要素に対し,各単語があらわれるコンテクストを参照し,D(w)の内容を概観するうえで有用と思われるもの(検索内容の確認に有効or内容の絞込みに有効or関連トピックへの手がかりとして有効)にP粕,概観に現れるのにふさわしくないものにN粕,どちらともいえないものにU粕を付与し,各 w(m, 50)中に,w(M, 50)でP粕,N粕と分類される単語がそれぞれ何個含まれるかを数えた。
【0020】
その結果を示したのが図3,図4である。上記8単語すべてについて, HGSの優位性が示された。
【0021】
【発明の実施の形態】
以下では,上で与えた文書集合中の単語への重み付けを実現する方法と,その情報検索システムへの応用を示す.
重みを計算するためのシステム構成例を図5に示す.以下図5,6を用いて重み付けの計算について述べる.401は記憶装置であり,ハードディスク等を用いて文書データ,各種のプログラムモジュール等を格納する.また,プログラムの作業用領域としても利用される.以下,4011は,文書データ.以下の例では日本語を用いるが,言語にはよらない.4012は,形態素解析プログラム,文書を構成する単語を同定する.日本語の場合は分かち書き+品詞付け,英語の場合は原型還元等の処理を行う.この手法については特定しない.両言語とも,商用・研究用をとわずさまざまなシステムが公開されている.4013は,単語・文書対応付けモジュール。形態素解析の結果から,どの単語がどの文書に何回あらわれているか,逆にどの文書にどのような単語が何回あらわれているかを調べる.基本的には単語と文書をそれぞれ行・列とする行列の要素を計数により埋める作業であり,この手法については特定しない.4014は,単語・文書対応データベース(DB)。上記で計算された単語・文書対応データを記録するDB.4015は,単語ベクトル計算モジュールであって,語wが与えられたとき,4014の単語・文書対応DBにより, D(w)中の各単語とその出現回数を求め,それらを記憶した単語ベクトルV(D(w)) を生成すると同時に, D(w)中の全単語数#D(w)を求め,4017の作業用領域内に記録する。4015が最初に起動された時は,併せて,対象とするDB内の全文書中の単語頻度ベクトルV(D)と全単語数Nallを計算し,4017の作業用領域内に記録する。V(D(w))はD(w)中の単語の集合(D(w)の部分でも全体でも)の重み付けがされている間保持され,V(D)とNallは,全文書集合を変えない限り保持される。これらのデータは,4016の語の重み付けモジュールで必要に応じて参照される。図6に4016の構成を示す。4017は,上に述べた作業用の領域で,複数のプログラム間で共通に参照するデータを記録する.402は,入力装置,403は,通信装置,404は,メインメモリ,405は,CPU、406は,ディスプレイ,キーボード等より構成される端末装置,である.
4016の語の重み付け計算モジュールが, D(w)中の語vの重み付けを求める手法を説明する. D(w)中の語vに対し,4017に記録された全文書数Nall, V(D)中に記録されたvのD中の頻度TF(v),# D(w), V(D(w)) 中に記録されたvのD中の頻度tf(v|D(w))を求め,N=Nall,K= TF(v), n=# D(w),k= tf(v|D(w))として,数の組(N, K, n, k)を生成する。そして,数式1に従って,重みW(N,K,n,k)を求める。ここで,数式1の定義式におけるhg(N, K, n, l)の計算に際しては,まず対数を取り積和変換する。階乗t!の計算は,t<150のとき表を引き,そうでないときはStirlingの公式で近似する。こうすることにより,二項分布近似を行うことなく,任意の(N, K, n, l)に対して高精度に直接計算可能である。hgs(N, K, n, k)を求める際は,和の収束性を調べ,収束が早い場合は少ない項数で切り上げる等の工夫をする。また,「特異的に多い」ものを求めるのが目的なので,hg (N, K, n, k+1) >hg (N, K, n, k)のときは,直ちに計算をやめて, W(N, K, n, k)としてlog(hg (N, K, n, k))を返す(これは負値)等の工夫をすることにより,十分な高速計算が可能である。
図6は,本発明を文献検索支援のための検索内容表示に応用する場合の構成例である.本図は,(文献1)の文献検索支援方法において,ナヴィゲーションウィンドウにおける特徴語表示に本発明を適用する場合の検索装置の構成を示したものである.ここで,544の特徴単語表示手段作動ルーチンは,5441特徴語抽出ルーチン,5442共起関係解析ルーチン,5443グラフ配置ルーチン,5444グラフ表示ルーチンからなる.5441の特徴語抽出ルーチンにおいて,図5に示した語の重み付けモジュールを使って語に重みを付け,この重みを利用して(文献1)の方法で単語を選出する.544以外の説明は省略する。
【0022】
【発明の効果】
本発明で提案する語の重み付けを用いる事により,文書集合中の語について,語の頻度の影響を受けない,高精度な語の重み付け方法が実現でき,単語情報検索インタフェースに役立てることができる.
【図面の簡単な説明】
【図1】検索された文書内の「特徴単語」を提示するウィンドウを持つ文書検索システムの例。
【図2】 hgs(N,K,n,k)の模式図。
【図3】五つの重み付けについて,検索結果の要約としてふさわしい単語を上位50位に選出する数を比較したグラフ。
【図4】五つの重み付けについて,検索結果の要約としてふさわしくない単語が上位50位に現れる数を比較したグラフ。
【図5】提案する単語の重要度計算方法を実現するための装置構成。
【図6】文献検索支援のための検索内容表示に本願の重み付けを応用する場合の構成例。
【符号の説明】
401:記憶装置
4011:文書データ
4012:形態素解析プログラム
4013:単語・文書対応付けプログラム
4014:単語・文書対応データベース(DB)
4015:単語ベクトル計算モジュール
4016:語の重み付け計算モジュール
4017:作業用の領域
402:入力装置
403:通信装置
404:メインメモリ,
405:CPU
406:端末装置,
5441:特徴語抽出ルーチン
5442:共起関係解析ルーチン
5443:グラフ配置ルーチン
5444:グラフ表示ルーチン。

Claims (1)

  1. 記憶装置に格納された全体の単語数がNである文書データと、前記文書データから抽出された部分文書データとから、前記文書データの特徴語を選出して表示する単語選択表示方法であって、
    演算手段が、前記記憶装置に格納された第一の計算モジュールによって、前記文書データに含まれる任意の単語Xの出現頻度Kを求め、前記記憶装置の記憶領域に記録するステップと、
    前記演算手段が、前記部分文書データについて、前記第一の計算モジュールもしくは前記記憶装置に格納された第二の計算モジュールによって、前記部分文書データの全単語数nおよび前記部分文書データに含まれる前記任意の単語Xの出現頻度kを求め、前記記憶領域に記録するステップと、
    前記記憶装置に格納された第三の計算モジュールによって、前記演算手段が、前記記憶領域のデータを参照して前記N、前記n、前記K、および前記kを用い、前記任意の単語Xの重みを、全体でN個の玉の中に赤玉がKあるとき、全体から無作為にn個取り出したときに赤玉がk個以上含まれる確率に対応付け、かつ前記確率が低いほど大きくなるように定めるステップと、
    前記演算手段が、前記重みにより、前記文書データを特徴付ける特徴語を選出するするステップと、
    前記演算手段が、表示手段に、前記特徴語を表示させるステップとを有することを特徴とする単語選択表示方法。
JP2000354407A 2000-11-16 2000-11-16 確率を用いた特徴単語の選択方法 Expired - Fee Related JP3928351B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000354407A JP3928351B2 (ja) 2000-11-16 2000-11-16 確率を用いた特徴単語の選択方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000354407A JP3928351B2 (ja) 2000-11-16 2000-11-16 確率を用いた特徴単語の選択方法

Publications (3)

Publication Number Publication Date
JP2002157273A JP2002157273A (ja) 2002-05-31
JP2002157273A5 JP2002157273A5 (ja) 2004-10-28
JP3928351B2 true JP3928351B2 (ja) 2007-06-13

Family

ID=18826994

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000354407A Expired - Fee Related JP3928351B2 (ja) 2000-11-16 2000-11-16 確率を用いた特徴単語の選択方法

Country Status (1)

Country Link
JP (1) JP3928351B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720783B2 (en) * 2007-03-28 2010-05-18 Palo Alto Research Center Incorporated Method and system for detecting undesired inferences from documents
JP5131565B2 (ja) * 2010-03-04 2013-01-30 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
JP5379749B2 (ja) * 2010-06-14 2013-12-25 日本電信電話株式会社 文書分類装置、文書分類方法、そのプログラムおよび記録媒体
JP5732441B2 (ja) * 2011-10-06 2015-06-10 日本電信電話株式会社 情報推薦方法、装置及びプログラム

Also Published As

Publication number Publication date
JP2002157273A (ja) 2002-05-31

Similar Documents

Publication Publication Date Title
JP3855551B2 (ja) 検索方法及び検索システム
US9519634B2 (en) Systems and methods for determining lexical associations among words in a corpus
US9501475B2 (en) Scalable lookup-driven entity extraction from indexed document collections
US7783629B2 (en) Training a ranking component
US7861149B2 (en) Key phrase navigation map for document navigation
US8266121B2 (en) Identifying related objects using quantum clustering
US7783644B1 (en) Query-independent entity importance in books
US7895205B2 (en) Using core words to extract key phrases from documents
US20090157656A1 (en) Automatic, computer-based similarity calculation system for quantifying the similarity of text expressions
EP1429258A1 (en) DATA PROCESSING METHOD&amp;comma; DATA PROCESSING SYSTEM&amp;comma; AND PROGRAM
US9122680B2 (en) Information processing apparatus, information processing method, and program
US20060123036A1 (en) System and method for identifying relationships between database records
US20090024610A1 (en) Computer aided authoring, electronic document browsing, retrieving, and subscribing and publishing
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
US20070112720A1 (en) Two stage search
JP2005122533A (ja) 質問応答システムおよび質問応答処理方法
US20050138079A1 (en) Processing, browsing and classifying an electronic document
US20040158558A1 (en) Information processor and program for implementing information processor
CN112307190B (zh) 医学文献排序方法、装置、电子设备及存储介质
US20090083621A1 (en) Method and system for abstracting electronic documents
JP3928351B2 (ja) 確率を用いた特徴単語の選択方法
JP3373086B2 (ja) 情報検索装置
JPH064584A (ja) 文章検索装置
JP3081093B2 (ja) 索引作成方法およびその装置と文書検索装置
JP5679400B2 (ja) カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060606

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060829

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061121

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070226

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110316

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110316

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120316

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130316

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130316

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140316

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees