JP4298342B2 - 重要度算出装置 - Google Patents

重要度算出装置 Download PDF

Info

Publication number
JP4298342B2
JP4298342B2 JP2003078271A JP2003078271A JP4298342B2 JP 4298342 B2 JP4298342 B2 JP 4298342B2 JP 2003078271 A JP2003078271 A JP 2003078271A JP 2003078271 A JP2003078271 A JP 2003078271A JP 4298342 B2 JP4298342 B2 JP 4298342B2
Authority
JP
Japan
Prior art keywords
importance
document
word
words
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003078271A
Other languages
English (en)
Other versions
JP2004287781A (ja
Inventor
泰三 亀代
敬 平野
安典 佐久間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Mitsubishi Electric Information Systems Corp
Original Assignee
Mitsubishi Electric Corp
Mitsubishi Electric Information Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp, Mitsubishi Electric Information Systems Corp filed Critical Mitsubishi Electric Corp
Priority to JP2003078271A priority Critical patent/JP4298342B2/ja
Publication of JP2004287781A publication Critical patent/JP2004287781A/ja
Application granted granted Critical
Publication of JP4298342B2 publication Critical patent/JP4298342B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、文書に含まれている単語の重要度を算出する重要度算出装置に関するものである。
【0002】
【従来の技術】
大量の文書をデータベースで管理する場合、文書管理の利便性を高めるため、文書から重要な単語を抽出し、その単語をキーワードとして登録したり、キーワードで分類したりする方法がある。
文書から重要な単語をキーワードとして自動的に抽出するには、文書中の各単語の重要度を計算し、その重要度が大きな単語から順番に任意数だけ抽出する方法がある。
この単語の重要度の算出には、特定の単語が複数の文書内において、それぞれどの程度重要であるかの観点から算出する方法(以下、方法Aという)と、1文書内の他の単語との比較において、どの程度重要であるかの観点から算出する方法(以下、方法Bという)がある。
【0003】
方法Aにおける重要度の算出方法は、TFIDF指標がよく知られている。この方法では、他に出現する文書数が少ない単語ほど、また、1文書内に多く出現する単語ほど重要度が高くなる。
以下の特許文献1では、TFIDF指標の計算処理を改良することにより、ただ一つの文書にしか出現しない単語の出現頻度を低くして使い易くしている。
【0004】
しかし、特許文献1では、重要度を計算する単語自体の出現頻度で重要度を決定するため、単語の出現する文書数が同一の場合、1文書中の出現頻度が少ない単語ほど重要度が低くなる不具合がある。例えば、文書タイトル中の単語など、出現頻度が低いが文書の内容を表すような重要単語の重要度が低くなってしまうことがある。
また、同一頻度の単語は、全て同一の重要度となってしまう不具合もある。例えば、文書中で話題の中心である単語と、話題とあまり関連しない単語が同一出現頻度で、これらの単語が出現する他の文書数が同一の場合、それぞれの単語の重要度が全く同一になるため、文書中の単語の重要度を正しく算出することができなくなる。
【0005】
方法Bにおける重要度の算出方法は、例えば、以下の特許文献2に開示されている。この算出方法は、文書に対して形態素解析や構文解析を実施して、単語毎の出現頻度を算出し、単語の文字に対する重み情報、品詞に対する重み情報、文節に対する重み情報を用いて仮重要度を算出し、その仮重要度を補正するようにしている。
しかし、この算出方法においても、単語の出現頻度を主に使用するため、やはり重要度が出現頻度に左右されてしまうことがある。
【0006】
そこで、従来の重要度算出装置は、単語の出現頻度に左右されずに重要度を算出するため、会話(文書に相当)中の単語と、予め用意した単語(会話中には必ずしも存在しない単語)との関連度を算出して、その関連度の高い話題を出力するようにしている(以下の特許文献3を参照)。
【0007】
【特許文献1】
特開平11−134348号公報(段落番号[0011]から[0014]、図1)
【特許文献2】
特開平10−177575号公報(段落番号[0056]から[0069]、図1)
【特許文献3】
特開平11−7447号公報(段落番号[0009]から[0021]、図2)
【0008】
【発明が解決しようとする課題】
従来の重要度算出装置は以上のように構成されているので、単語間の共起確率を用いて関連度を算出しているが、各単語の出現位置を特に考慮することなく関連度を算出している。そのため、その関連度を参酌しても話題となる単語の関連範囲を特定することができないなどの課題があった。
【0009】
この発明は上記のような課題を解決するためになされたもので、話題となる単語の関連範囲を特定することができる重要度算出装置を得ることを目的とする。
【0010】
【課題を解決するための手段】
この発明に係る重要度算出装置は、形態素解析手段の解析結果から単語を抽出し、単語間の共起確率と位置関係を用いて単語間の関連度を算出し、その関連度のうち所定の閾値を上回る関連度のみを用い、且つ文書の任意の区間毎に当該区間における単語の重要度を算出するようにしたものである。
【0011】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1による重要度算出装置を示す構成図であり、図において、入力部1は文書を入力する入力手段を構成している。具体的には、コンピュータシステムのハードディスクに格納されているファイルを入力するオペレーティングシステムによって実現される。あるいは、電子メールなどの文書を受信する電子メールサーバや、インターネット上のWebページから文書を入力するWebサーバなどによっても実現される。
辞書記憶部2は形態素辞書を記憶しており、不揮発性メモリやハードディスクから構成されている。形態素辞書は各種の形態素の表記と品詞を記憶し、また、品詞間の文法的な接続条件を記憶している。形態素解析部3は辞書記憶部2に記憶されている形態素辞書を参照して、入力部1により入力された文書に対する形態素解析を実施することにより、その文書から単語を抽出する。なお、辞書記憶部2及び形態素解析部3から形態素解析手段が構成されている。
【0012】
共起情報記憶部4は共起情報を記憶しており、不揮発性メモリやハードディスクから構成されている。共起情報は2つの単語が同一の文書に同時に出現する頻度(確率)を示すデータである。共起情報取得部5は形態素解析部3により抽出された形態素から単語(ここでは品詞)を抽出し、抽出した各単語間の共起情報を共起情報記憶部4から取得する。関連度算出部6は共起情報取得部5により取得された単語間の共起情報と位置情報(文書における単語の出現位置に関する情報であって、例えば、単語Aの記述位置と単語Bの記述位置との距離を示す情報)を用いて単語間の関連度を算出する。なお、共起情報記憶部4、共起情報取得部5及び関連度算出部6から関連度算出手段が構成されている。
【0013】
重要度算出部7は関連度算出部6により算出された関連度を用いて文書の任意の区間毎に、当該区間における単語の重要度を算出する重要度算出手段を構成している。出力部8は重要度算出部7により算出された単語の重要度を出力するものであり、出力部8はオペレーティングシステムによるファイルシステムやプリンタやFAXサーバなどによって実現される。
なお、形態素解析部3、共起情報取得部5、関連度算出部6及び重要度算出部7は専用の電子回路を用いて実現してもよいし、コンピュータシステムにおける中央演算装置で動作するプログラムによって実現してもよい。
【0014】
図2及び図3は辞書記憶部2に記憶されている形態素辞書の記憶内容を示す説明図であり、特に図2は各種の形態素の表記と品詞を示している。
また、図3は品詞間の文法的な接続条件を示している。これらの接続条件は、連続する2つの品詞の接続が正しい組合せであることを示すものであって、例えば名詞と助詞の組合せは文法的に正しい組合せであることを意味している。
【0015】
図4は共起情報記憶部4に記憶されている共起情報を示す説明図であり、共起情報は2つの単語が同一の文書に同時に出現する頻度(確率)を示している。図4の例では、例えば、「検索」と「インターネット」が同時に出現する文書の確率は「0.1254」である。
なお、共起情報の作成は、予め大量の学習用テキストに対して形態素解析を実施して、その学習用テキストから名詞である単語を抽出し、下式を用いて、各単語間の共起情報を算出する。
r(w,w)=P(w,w)/P(w)P(w) (1)
ここで、r(w,w)は単語wと単語wの共起情報、P(w,w)は単語wと単語wが共に出現する文書数、P(w)は単語wが単独で出現する文書数、P(w)は単語wが単独で出現する文書数である。
図5はこの発明の実施の形態1による重要度算出装置の処理内容を示すフローチャートである。
【0016】
次に動作について説明する。
まず、入力部1が文書を入力する(ステップST1)。入力文書はコンピュータが読取可能な形式のデータであり、ここでは説明の便宜上、図6と図11に示すテキストファイルを入力するものとする。なお、入力文書は本装置のコンピュータ上に限らず、別のコンピュータ上にある文書をネットワーク経由で入力してもよい。
【0017】
形態素解析部3は、入力部1が図6と図11の文書を入力すると、辞書記憶部2に記憶されている形態素辞書を参照して、図6と図11の文書に対する形態素解析を実施する(ステップST2)。
ここで、形態素解析の動作を詳細に説明する。はじめに、文書の先頭からの文字列と形態素辞書に記憶されている形態素との照合処理を行う。
例えば、図6の文書の先頭からの文字列は、「従来は…」であるので、先頭文字「従」から始まる形態素を形態素辞書において探索する(図2を参照)。そして、「従来(名詞)」とのみ一致するとすれば、「従来(名詞)」を探索結果として取得する。
次に「従来」に続く文字列は、「は好みの…」であるので、文字「は」から始まる形態素を形態素辞書から探索する。そして、「は(助詞)」とのみ一致するとすれば、「は(助詞)」を探索結果として取得する。
【0018】
次に図3に示す文法的な接続条件を参照して、「従来(名詞)」と「は(助詞)」の接続条件をチェックする。図3の接続条件によれば、名詞と助詞の接続を認めているので、「従来」の品詞が「名詞」に確定され、「は」の品詞が「助詞」に確定される。
以下同様に処理を実行して文書中の文字列を形態素に割当てる。図7は図6の文書に対する形態素解析の結果を示し、図12は図11の文書に対する形態素解析の結果を示している。
【0019】
共起情報取得部5は、上記のようにして形態素解析部3が文書から形態素を抽出すると、それらの形態素から名詞を抽出する(ステップST3)。図8は図7の形態素解析結果からの名詞の抽出結果を示し、図13は図12の形態素解析結果からの名詞の抽出結果を示している。
次に共起情報取得部5は、抽出した名詞毎に、他の名詞との共起情報を共起情報記憶部4から取得する(ステップST4)。図8の名詞の抽出結果では27種類の名詞に対して共起情報の取得処理を実施し、図13の名詞の抽出結果では25種類の名詞に対して共起情報の取得処理を実施する。
ここで、図9は図8の名詞「検索」に対する他の名詞との共起情報を示しており、例えば、「検索」と「従来」の共起情報(共起確率)は“0.0001”であることを示している。
また、図14は図13の名詞「検索」に対する他の名詞との共起情報を示している。図14の名詞は、「検索」と関連の深いものが多いため、図9の共起情報と比べて共起情報が高くなっている。
【0020】
関連度算出部6は、共起情報取得部5が共起情報を取得すると、名詞間の共起情報と位置情報を考慮して、名詞間の関連度を算出する(ステップST5)。
即ち、▲1▼共起情報が高い名詞同士は関連性が高い。▲2▼名詞同士の出現位置が近いほど名詞間の関連性が高く、遠くなるにつれて名詞の関連性が低くなる。という条件を満足するように、2つの名詞の関連度を以下の式で定義する。
S(w,w)=r(w,w)×α(D(w,w)) (2)
ここで、w,wは文書内の前からi番目,j番目の名詞を示し、S(w,w)は名詞wと名詞wの関連度を表し、r(w,w)は名詞wと名詞wの共起情報を示している。
また、α(x)はxが単調に増加すると値が単調に減少する関数であり、D(w,w)は名詞wの記述位置と名詞wの記述位置との距離である。
したがって、S(w,w)は共起情報が高いほど大きく、名詞間の出現位置が近いほど大きな値となる。
【0021】
重要度算出部7は、関連度算出部6が名詞間の関連度を算出すると、名詞間の関連度を用いて文書の任意の区間毎に、当該区間における名詞の重要度を算出する(ステップST6)。
即ち、文中の任意の区間における単語の重要度IMPを以下の式で計算する。
【数1】
Figure 0004298342
ただし、Mは文書中の全名詞数、Nは任意の区間中の名詞数である。
【0022】
重要度算出部7は、Nを変えながら単語の重要度IMPを計算し、重要度IMPが最大となる区間を選択する。
上記の式(3)を用いて計算することで関連する名詞が多く、名詞間の距離が小さいほど重要度が高い値となる。
【0023】
なお、名詞の関連範囲の算出は、Sa(w,w)=1であるjの範囲とすることで算出する。
例えば、α(x)=1/(1+log(x)),β=0.005とすると、図8の抽出結果に係る名詞間の関連度の算出結果は図10のようになり、図13の抽出結果に係る名詞間の関連度の算出結果は図15のようになる。
例えば、名詞「検索」の重要度を計算する場合、図10の55番目に位置する「検索」においては、Sa(w,w)=1である名詞は「検索」と「インターネット」の2個であるため、重要度は2/32=0.0625となる。
また、図10の74番目に位置する「検索」に対して同様に計算すると、重要度は2/32=0.0625となる。これらの和をとると0.125となる。
一方、図15からは関連度が高い名詞数は6個となり、重要度は6/40=0.15となる。この結果、図11の文書の方が「検索」という名詞の数は図6の文書と比べて少ないものの、重要度が高くなっていることが分かる。
また、それぞれの関連位置は、図8では40番目〜74番目の間となり、図13では1番目〜32番目の間となる。
【0024】
即ち、従来例のように、指定単語の出現数を使用して重要度を計算すると、頻度の多い図6の文書の方が重要度が高くなるが、本手法を用いることで、より単語に関連する出現頻度が少なくとも重要度が高くなることがわかる。
なお、この実施の形態1では、重要度の算出に式(1)〜式(3)を用いるものについて示したが、これに限るものではなく、他の式を用いてもよい。
また、この実施の形態1では、名詞のみから単語重要度を算出するものについて示したが、これに限るものではなく、動詞や形容詞などを用いてもよい。
【0025】
以上で明らかなように、この実施の形態1によれば、単語間の共起確率と位置関係を考慮して単語間の関連度を算出し、その関連度を用いて単語の重要度を算出するように構成したので、話題となる単語の関連範囲を特定することができる効果を奏する。
また、この実施の形態1によれば、単語間の共起確率と距離の積を単語間の関連度として算出するように構成したので、構成の複雑化を招くことなく、精度よく単語間の関連度を算出することができる効果を奏する。
【0026】
また、この実施の形態1によれば、文書の任意の区間毎に、当該区間における単語の重要度を算出するように構成したので、話題となる単語の関連範囲を容易に把握することができる効果を奏する。
さらに、この実施の形態1によれば、関連度算出部6により算出された関連度のうち、所定の閾値βを上回る関連度のみを用いて単語の重要度を算出するように構成したので、重要度の算出精度を高めることができる効果を奏する。
【0027】
【発明の効果】
以上のように、この発明によれば、関連度算出手段により算出された関連度のうち所定の閾値を上回る関連度のみを用い、且つ文書の任意の区間毎に当該区間における単語の重要度を算出する重要度算出手段を備えたので、重要度の算出精度を高めることができると共に、話題となる単語の関連範囲を容易に把握することができる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による重要度算出装置を示す構成図である。
【図2】 形態素辞書の記憶内容を示す説明図である。
【図3】 形態素辞書の記憶内容を示す説明図である。
【図4】 共起情報を示す説明図である。
【図5】 この発明の実施の形態1による重要度算出装置の処理内容を示すフローチャートである。
【図6】 入力文書を示す説明図である。
【図7】 図6の文書に対する形態素解析結果を示す説明図である。
【図8】 名詞の抽出結果を示す説明図である。
【図9】 名詞間の共起情報を示す説明図である。
【図10】 関連度の算出結果を示す説明図である。
【図11】 入力文書を示す説明図である。
【図12】 図11の文書に対する形態素解析結果を示す説明図である。
【図13】 名詞の抽出結果を示す説明図である。
【図14】 名詞間の共起情報を示す説明図である。
【図15】 関連度の算出結果を示す説明図である。
【符号の説明】
1 入力部(入力手段)、2 辞書記憶部(形態素解析手段)、3 形態素解析部(形態素解析手段)、4 共起情報記憶部(関連度算出手段)、5 共起情報取得部(関連度算出手段)、6 関連度算出部(関連度算出手段)、7 重要度算出部(重要度算出手段)、8 出力部。

Claims (2)

  1. 文書を入力する入力手段と、上記入力手段により入力された文書に対する形態素解析を実施する形態素解析手段と、上記形態素解析手段の解析結果から単語を抽出し、単語間の共起確率と位置関係を用いて単語間の関連度を算出する関連度算出手段と、上記関連度算出手段により算出された関連度のうち所定の閾値を上回る関連度のみを用い、且つ文書の任意の区間毎に当該区間における単語の重要度を算出する重要度算出手段とを備えた重要度算出装置。
  2. 関連度算出手段は、単語間の共起確率と距離の積を用いて単語間の関連度を算出することを特徴とする請求項1記載の重要度算出装置。
JP2003078271A 2003-03-20 2003-03-20 重要度算出装置 Expired - Fee Related JP4298342B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003078271A JP4298342B2 (ja) 2003-03-20 2003-03-20 重要度算出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003078271A JP4298342B2 (ja) 2003-03-20 2003-03-20 重要度算出装置

Publications (2)

Publication Number Publication Date
JP2004287781A JP2004287781A (ja) 2004-10-14
JP4298342B2 true JP4298342B2 (ja) 2009-07-15

Family

ID=33292802

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003078271A Expired - Fee Related JP4298342B2 (ja) 2003-03-20 2003-03-20 重要度算出装置

Country Status (1)

Country Link
JP (1) JP4298342B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7849090B2 (en) * 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
JP5009874B2 (ja) * 2008-07-31 2012-08-22 日本電信電話株式会社 重要度取得装置および方法、ならびに、枠情報作成装置および方法
JP4820888B2 (ja) * 2009-05-13 2011-11-24 デジタル・アドバタイジング・コンソーシアム株式会社 広告支援システム及び広告支援方法
JP5448105B2 (ja) * 2009-12-09 2014-03-19 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索キーワードから文書データを検索する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム
JP6230190B2 (ja) * 2014-01-09 2017-11-15 日本放送協会 重要語抽出装置、及びプログラム

Also Published As

Publication number Publication date
JP2004287781A (ja) 2004-10-14

Similar Documents

Publication Publication Date Title
US8321201B1 (en) Identifying a synonym with N-gram agreement for a query phrase
EP1899835B1 (en) Processing collocation mistakes in documents
US8661012B1 (en) Ensuring that a synonym for a query phrase does not drop information present in the query phrase
KR101201037B1 (ko) 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증
US8812301B2 (en) Linguistically-adapted structural query annotation
US9361362B1 (en) Synonym generation using online decompounding and transitivity
US20120095984A1 (en) Universal Search Engine Interface and Application
JP2005267638A (ja) 改善されたスペルチェックのためのシステムおよび方法
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
Zhang et al. Narrative text classification for automatic key phrase extraction in web document corpora
Dasgupta et al. Unsupervised morphological parsing of Bengali
Bian et al. Cross‐language information access to multilingual collections on the internet
US20120284308A1 (en) Statistical spell checker
JP2002197104A (ja) 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体
US20150006563A1 (en) Transitive Synonym Creation
US7398210B2 (en) System and method for performing analysis on word variants
Vilares et al. Managing misspelled queries in IR applications
US9183297B1 (en) Method and apparatus for generating lexical synonyms for query terms
JP2011253256A (ja) 関連コンテンツ提示装置及びプログラム
JP4298342B2 (ja) 重要度算出装置
Tahmasebi et al. On the applicability of word sense discrimination on 201 years of modern english
JP2003323425A (ja) 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム
JP2004086307A (ja) 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム
Milić-Frayling Text processing and information retrieval
JP2000339342A (ja) 文書検索方法および文書検索装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20081016

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20081016

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20081016

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20081016

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20081120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090120

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090407

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090415

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120424

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees