JP4245364B2 - キーワード抽出装置、プログラム、及び記録媒体 - Google Patents

キーワード抽出装置、プログラム、及び記録媒体 Download PDF

Info

Publication number
JP4245364B2
JP4245364B2 JP2003025613A JP2003025613A JP4245364B2 JP 4245364 B2 JP4245364 B2 JP 4245364B2 JP 2003025613 A JP2003025613 A JP 2003025613A JP 2003025613 A JP2003025613 A JP 2003025613A JP 4245364 B2 JP4245364 B2 JP 4245364B2
Authority
JP
Japan
Prior art keywords
keyword
document
word
specific
specific word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003025613A
Other languages
English (en)
Other versions
JP2004234597A (ja
Inventor
雅子 望主
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2003025613A priority Critical patent/JP4245364B2/ja
Publication of JP2004234597A publication Critical patent/JP2004234597A/ja
Application granted granted Critical
Publication of JP4245364B2 publication Critical patent/JP4245364B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、キーワード抽出装置、プログラム、及び記録媒体、より詳細には、文書中の重要な概念を表すキーワードを抽出するためのキーワード抽出装置、プログラム、及び記録媒体に関する。
【0002】
【従来の技術】
文書から文書の主題を表す情報としてキーワードを自動抽出する技術が古くから研究、開発されてきている。一般的な方法として、文書中で繰り返し出現する語句は文書の内容を表す重要な概念を表現しているという仮定から、文書中に出現した語句の頻度を使う方法がある。(例えば、非特許文献1参照)
しかしながら、この場合、頻度の高くない語はキーワードとして抽出されない問題がある。また頻度の高い語を抽出することにより、一般的な語だけが抽出されてしまうという問題がある。
【0003】
これに対して、キーワードを抽出する対象文書の頻度以外に、文書が格納されているデータベース中の他の文書における語の頻度を用いる方法が開示されている。(例えば、特許文献1参照)
しかしながら、この方法では他の文書についても処理を行なう必要があり、単一の文書あるいは暫時的に文書が登録される場合などでは他文書の頻度を得るタイミングが難しく、処理コストがかかる。
【0004】
また、頻度以外に複数の文書を用いて同一文書に出現したキーワードは関連があるとして検索時の関連語提示として用いる方法が開示されている。(例えば、特許文献2参照)
しかしながら、この方法でもデータベース内の他の文書のキーワードの出現情報を得る必要があり、処理のタイミングやコストの面で問題がある。
【0005】
また、頻度を用いず、文書中の表現を用いる方法として、頻度以外に企業名や団体名でよく使われる文字(例えば、「(株)」など)に着目し、これを含む語句をキーワードとして抽出する方法が開示されている。(例えば、特許文献3参照)
この場合、企業名、団体名などあらかじめ登録された表現にだけ有効であり、また登録の手間が生じる。
【0006】
【非特許文献1】
言語と計算5「情報検索と言語処理」26.p−27,1999,徳
永健伸著,東京大学出版会
【特許文献1】
特開2000−76254号公報
【特許文献2】
特開平5−282367号公報
【特許文献3】
特開平5−120345号公報
【0007】
【発明が解決しようとする課題】
本発明は、上述のごとき実情に鑑みてなされたものであり、文書中の出現頻度情報以外に、文書中の特定の範囲において特定の語に共起するキーワード候補をキーワードとして選択できるようにし、特定単語と関係性の高い単語をキーワードとして抽出できるようにすること、をその目的とする。
また、各キーワード候補に対応づけて点数を付与し、特定の語に共起するキーワード候補に付与した点数が高くなるように加点することにより、特定単語と関係性の高い単語をキーワードとして抽出できるようにすること、をその目的としてなされたものである。
【0008】
【課題を解決するための手段】
請求項1の発明は、ユーザの興味、嗜好に関するプロファイル情報を格納したプロファイルデータベースにアクセス可能なキーワード抽出装置であって、文書中から単語あるいは単語列を、該文書のキーワード候補として抽出するキーワード候補抽出部と、前記プロファイルデータベースのプロファイル情報中に記憶されている語の中から特定の語を抽出する特定単語抽出部と、前記キーワード候補抽出部により抽出されたキーワード候補に対応付けて点数を付与すると共に、前記文書中の特定の範囲において、前記特定単語抽出部により抽出された特定の語に共起する前記キーワード候補に付与した点数が高くなるように加点するキーワード候補評価部とを有し、前記キーワード候補評価部は、前記加点後の点数に基づいて、前記特定の語に共起する前記キーワード候補をキーワードとして抽出することを特徴としたものである。
【0009】
請求項2の発明は、請求項1の発明において、前記特定の範囲を、文書の種別に応じて、特定の単語数又はバイト数により設定可能としたことを特徴としたものである。
【0010】
請求項3の発明は、請求項1又は2の発明におけるキーワード抽出装置としての機能をコンピュータに実行させるためのプログラムである。
【0011】
請求項4の発明は、請求項3の発明におけるプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0023】
【発明の実施の形態】
図1は、本発明の参考例であるキーワード抽出装置の構成例を示す図で、図中、1はキーワード抽出装置で、該キーワード抽出装置1は、キーワード候補抽出部2とキーワード候補評価部6とからなり、キーワード候補抽出部2は、形態素解析部3,単語辞書4,接続表5を有し、キーワード候補評価部6は、特定単語抽出部7を有する。ここで形態素解析部3は必須ではなく、たとえば単語の単位がスペース等によって判別可能な言語においては不要な場合もある。本例では日本語を対象に説明するので、形態素解析部3を有する構成で説明する。形態素解析部3は、表記と品詞を記述した単語辞書4と、品詞間の接続の可否を記述した接続表5とを参照して解析を行なう。形態素解析自体は一般的な構成であり、本発明の主眼ではないためここでの説明は省略する。
【0024】
キーワード候補抽出部2は、形態素解析部3により形態素解析された文書中の語、品詞の並びから、キーワード候補を抽出する。例えば、単語の品詞が、名詞、サ変名詞、固有名詞、形容動詞、辞書には未登録として未登録語と判断された品詞、の一つ以上の連続をキーワード候補として抽出する。この品詞自体は、品詞体系や対象文書によって異なる。ここでは一般的にキーワードを構成しうる前述の品詞で説明する。
【0025】
キーワード候補評価部6は、特定単語抽出部7で抽出された特定の単語を用い、対象文書中において特定の範囲に特定の単語が出現するか否かを調べ、特定単語が出現した場合には、特定範囲に出現しているキーワード候補をキーワードとして決定するか、また、キーワード候補に点数を付与した場合、付与した点数に特定の点数分加点することにより、その点数に基づいてキーワードを決定する。
【0026】
図2は、キーワード候補評価部6と特定単語抽出部7とを有するキーワード抽出装置1における処理の流れについて説明するためのフロー図である。まず、キーワード候補抽出部2で得られたキーワード候補に対して、キーワード候補評価部6では、文書中における出現頻度等を計算し、その出現頻度を点数化してキーワード候補に付与する(ステップS1)。本例では出現頻度を用いて点数を計算しているが他の方法でもよい。また、この時点の点数(初期点数)はすべて0にしておくという方法もある。特定単語抽出部7では、キーワード候補評価部6で点数が付与されたキーワード候補から特定単語を抽出する(ステップS2)。例えば、点数の上位から所定数を特定単語として抽出する。この際、対象文書中に含まれるキーワード候補のうち出現頻度の高いキーワード候補を特定単語として抽出するようにしてもよい。
【0027】
次に、文書先頭から末まで特定範囲ごとに、特定単語抽出部7が抽出した特定単語が当該特定範囲内において出現したかどうかを調べる(ステップS3)。特定単語が出現していれば、同一範囲内に存在するキーワード候補を選択し、選択したキーワード候補の点数に特定点数を加点する(ステップS4)。このとき、特定単語自体も同様に加点するか、あるいは分けて行なうかは対象文書等による。以降の説明では同様に加点している場合を代表例として説明しているが、分けて行なうことも可能である。また、この特定範囲を一文内としてもよい。文書のすべての範囲の処理が終わった後、キーワード候補を点数の高い順に並べ、上位から所定数をキーワードとして抽出あるいは表示する(ステップS5)。ここで、キーワード候補の点数に予め閾値を設定しておいて、閾値以上の点数を有するキーワード候補をキーワードとして抽出するようにしてもよい。尚、上記ステップS4において、特定単語が出現した場合、同一範囲内に存在するキーワード候補を選択し、それらのキーワード候補をキーワードとしてもよい。
【0028】
図2に示す処理フローを以下の文書例に基づいて具体的に説明する。
文書例:
「AA社は、6月15日に新製品であるノートパソコン「PC630」を発表した。AA社の新製品は1年ぶりであり、AA社の状況が改善されたことを示すといえる。AA社のPC630は「PC550」を改良したもの。同スペックながら、画面サイズを拡大し、かつ、軽量にしたモデルである。また、これに対応して、BB社はノートパソコン向けのデータ蓄積ツールを発表した。BB社は6月30日までのキャンペーンを企画している。競合のDD社は、好評のラインナップを増やす方向で、これらに対抗するかまえである。新製品は7月1日の予定。またデータ蓄積ツールについてはDD社独自の規格で開発中である。」
【0029】
上記文書例について形態素解析し、単語分割と品詞付与を行う。
キーワード候補抽出部2は、品詞が名詞、サ変名詞、未登録語、接頭辞、接尾辞、形容動詞がひとつ以上現れる箇所をキーワードの候補として取り出す。キーワード候補評価部6は、文書内のキーワード候補の出現頻度を集計する。上記文書例では以下となる。尚、ここでは頻度を点数そのものとして処理する。
AA社 4回
新製品 3回
発表 2回
BB社 2回
データ蓄積ツール 2回
ノートパソコン 2回
DD社 2回
PC630 2回
PC550 1回
画面サイズ 1回
スペック 1回
モデル 1回
ラインナップ 1回
キャンペーン 1回
製品 1回
対抗 1回
方向 1回
状況 1回
改善 1回
企画 1回
規格 1回
開発中 1回
軽量 1回
対応 1回
【0030】
次に特定単語抽出部7では、キーワード候補評価部6で集計されたキーワード候補と出現頻度(本例では点数そのものとする)からその上位2語のキーワード候補を特定単語として抽出する。その結果、以下が得られる。
特定単語:AA社、新製品
【0031】
次に、キーワード候補抽出部2は、特定単語抽出部7で得られた単語を特定単語とし、対象文書の先頭から1文ずつ、特定単語を含むかどうかを調べる。特定単語があれば、文内のキーワード候補について、含まれる特定単語の種類数(異なり数)に、例えば、係数5を乗算した値を点数として各キーワード候補に加点する。このときの条件式を下記式(1)に示す。尚、加点方法自体は本例に限らず、文書の長さ等によって変更することも可能である。
各キーワード候補の点数=出現頻度+異なり数*係数・・・式(1)
【0032】
以下に特定単語が出現した文と、特定単語の異なり数と、文内に出現したキーワード候補の一例を示す。尚、以下の説明において下線が引かれている単語は特定単語を示す。
出現文:特定単語異なり数:文内出現キーワード候補
第1文:2:AA社、新製品、ノートパソコン、PC630、発表
第2文:2:AA社、新製品
第3文:1:AA社、PC630、PC550
第8文:1:新製品
【0033】
上記式(1)に基づいて、いくつかのキーワード候補について計算した例を下記に示す。尚、キーワード候補:初期点数(出現頻度)+異なり数*係数(本例では5)とする。
AA社:4+5*5=29
新製品:3+5*5=28
ノートパソコン:2+2*5=12
発表:2+2*5=12
PC630:2+3*5=17
PC550:1+1*5=6
【0034】
ここで、上記文書例に含まれる各キーワード候補に対して加点前と加点後の点数比較を行った場合について下記に示す。以下、キーワード候補毎に、加点前の点数(出現頻度のみ)→加点後の点数(上記式(1)による)の順に示す。尚、下線を引いたキーワード候補は加点により点数が高くなったキーワード候補を示す。
AA社(4→29)、新製品(3→28)、発表(2→12)、BB社(2→2)、データ蓄積ツール(2→2)、ノートパソコン(2→12)、DD社(2→2)、PC630(2→17)、PC550(1→6)、画面サイズ(1→1)、スペック(1→1)、モデル(1→1)、ラインナップ(1→1)、キャンペーン(1→1)、製品(1→1)、対抗(1→1)、方向(1→1)、状況(1→1)、改善(1→1)、企画(1→1)、規格(1→1)、開発中(1→1)、軽量(1→1)、対応(1→1)
【0035】
このように各キーワード候補に対して加点を行った結果、上位から順に、AA社(29),新製品(28),PC630(17),ノートパソコン(12),発表(12),PC550(6)をキーワードとして取得することができる。尚、括弧内の数字は加点後の点数とする。
【0036】
キーワード候補評価部6は、上位のキーワードを抽出し、例えば、上記「AA社」「新製品」「ノートパソコン」「発表」「PC630」「PC550」をキーワードとして得ることができる。特に「PC550」「ノートパソコン」「PC630」「発表」など出現頻度からは上位に位置しないキーワード候補についても抽出することができる。具体的には、例えば、単に出現頻度2以上のキーワード候補を抽出しようとした場合、「PC550」は出現頻度1で抽出できないが、上記条件式(1)により加点することで点数6が付与され、「PC550」をキーワードとして抽出することが可能となる。
【0037】
これによると、文書中の特定範囲において特定の語に共起するキーワード候補をキーワードとして抽出することにより、出現頻度が高くなくても特定の語と関連の深い語をキーワードとして抽出することができる。
また、特定の語に共起するキーワード候補に対応付けて点数を付与することにより、出現頻度等の尺度ではキーワードとなりえないが、特定の語と関連の深い語をキーワードとして抽出することができる。
また、特に文書中における出現頻度の高い語を特定単語とすることで、文書主題と関係するが出現頻度の高くない語をキーワードとして抽出することができる。
また、共起する範囲を文の範囲とすることで、特定単語と、同一文で出現(共起)した語とを関連する語とし、キーワードとして抽出することができる。これは文内で共起したということは特定単語と関連する、関係の深い語である可能性が高いためである。
【0038】
また、図1に示したキーワード抽出装置1の別のとして、特定単語抽出部7により対象文書中から、例えばタイトルや、見出し、小見出し等の情報を特定単語として取得し、これを特定単語としてキーワード候補を抽出するようにしてもよい。この場合、タイトルや小見出し等の抽出は公知の技術によって、また構造化文書の場合はそのタグの情報から抽出することができる。これら抽出方法自体は本発明の主眼ではないため、ここでの説明は省略するものとする。また、文書の構成や区切り等の情報から特定単語と共起するとみなす範囲を決定してもよい。この場合、文書中に区切りをあらわす表現(例えば、記号や文書特有の表現)や、構造化文書の場合にはタグの情報によって表現された構成やパラグラフなどの範囲を取得するようにする。
【0039】
図3は、本発明の他の参考例であるキーワード抽出装置の構成例を示す図で、図中、10はキーワード抽出装置で、該キーワード抽出装置10は、キーワード候補抽出部11とキーワード候補評価部15とからなり、キーワード候補抽出部11は、形態素解析部12,単語辞書13,接続表14を有し、キーワード候補評価部15は、特定単語抽出部16,範囲規定データ17を有する。図1に示したキーワード抽出装置1の構成と異なる点は、範囲規定データ17を有する点である。この範囲規定データ17は、特定単語との共起を判定する際、どの範囲を共起対象とするかを規定したものである。この際、文書の構成や構造の区切りを表すタグを範囲規定データ17に格納することで文書構成にもとづく範囲を特定単語との共起で利用することができる。
【0040】
図4は、キーワード候補評価部15と特定単語抽出部16とを有するキーワード抽出装置10における処理の流れについて説明するためのフロー図である。図2に示した処理フローと異なるのは、特定単語抽出部16においてタイトルや、見出し、小見出し等の情報を用いる点と、特定単語との共起の判定の際に、範囲規定データ17に基づいて判定する点、特定範囲として文書の構成,構造,区切りなどを範囲とする点である。
【0041】
図4において、まず、キーワード候補抽出部11で得られたキーワード候補に対して、キーワード候補評価部15では、文書中における出現頻度等を計算し、その出現頻度を点数としてキーワード候補に付与する(ステップS11)。本例では出現頻度を用いて点数を計算しているが他の方法でもよい。また、この時点の点数はすべて0にしておくという方法もある。特定単語抽出部16では、対象文書中からタイトルや、見出し、小見出し等を特定単語として抽出する(ステップS12)。
【0042】
次に、文書先頭から末まで範囲規定データ17で定義された範囲ごとに、特定単語抽出部16が抽出した特定単語が当該範囲内に出現したかどうかを調べる(ステップS13)。特定単語が出現していれば、同一範囲内に存在するキーワード候補を選択し(ステップS14)、選択されたキーワード候補の点数に特定点数を加点する(ステップS15)。このとき、特定範囲を、例えば文書の構成や、構造、区切りなどに基づいて取得してもよい。文書のすべての範囲の処理が終わった後、キーワード候補を点数の高い順に並べ、上位から所定数をキーワードとして抽出あるいは表示する(ステップS16)。尚、上記ステップS14において、特定単語が出現した場合、同一範囲内に存在するキーワード候補を選択し、それらのキーワード候補をキーワードとしてもよい。
【0043】
図5は、範囲規定データ17の一例を示す図である。本例ではhtml文書の形式を例に、<P><HR><DL></DL>があった場合にその部分を目印として前後を別の範囲とすることが規定されている。
【0044】
図4に示した処理フローを以下の文書例に基づいて具体的に説明する。
<HTML>
<HEAD>
<TITLE>ノートパソコン</TITLE>
</HEAD>
<H2>AA社が新製品を発表</H2><br>
<P>
AA社は、6月15日に新製品であるノートパソコン「PC630」を発表した。AA社の新製品は1年ぶりである。AA社のPC630は「PC550」を改良したもの。
<P>
また、これに対応して、BB社はノートパソコン向けのデータ蓄積ツールを発表した。BB社は6月30日までのキャンペーンを企画している。
<P>
競合のDD社は、好評のラインナップを増やす方向で、これらに対抗するかまえである。またデータ蓄積ツールについてはDD社独自の規格で開発中である </BODY>
</HTML>
【0045】
例えば、上記html形式の文書例を形態素解析し、単語分割と品詞付与を行う。キーワード候補抽出部11は、品詞が名詞、サ変名詞、未登録語、接頭辞、接尾辞、形容動詞がひとつ以上現れる箇所をキーワードの候補として取り出す。キーワード候補評価部15は、文書内のキーワード候補の出現頻度を集計する。上記文書例では以下となる。尚、ここでは出現頻度を点数そのものとして処理する。
AA社 4回
新製品 2回
発表 2回
BB社 2回
データ蓄積ツール 2回
ノートパソコン 2回
DD社 2回
PC630 2回
PC550 1回
ラインナップ 1回
キャンペーン 1回
製品 1回
対抗 1回
方向 1回
企画 1回
規格 1回
開発中 1回
対応 1回
【0046】
次に、特定単語抽出部16では、形態素解析結果中から特定のタグが前後の位置する単語を抽出する。この場合は、<title></title>と<h2></h2>で囲まれた部分をタイトルや、小見出しとして抽出し、特定単語とする。本例では「ノートパソコン」「AA社」「新製品」「発表」が得られる。
【0047】
次に、キーワード候補抽出部11は、特定単語抽出部16で得られた単語を特定単語とし、範囲規定データ17で規定された表現を区切りとして範囲を規定する。ここで図5に示した範囲規定データの例に基づいて説明する。
対象文書の<P>で区切られた先頭範囲は「AA社は」から「改良したもの。」までである。この範囲で特定単語を含むかどうかを調べる。特定単語があれば、範囲内のキーワード候補について、前述の式(1)に基づいて、含まれる特定単語の種類数(異なり数)に、例えば3を乗算した値を点数として各キーワードに加点する。加点方法自体は文書の長さ等によって変更することも可能である。
【0048】
以下に特定単語が出現した文と、特定単語の異なり数と、範囲内に出現したキーワード候補を示す。
第1の範囲:4:AA社、新製品、ノートパソコン、PC630、発表
第2の範囲:2:BB社、ノートパソコン、データ蓄積ツール、発表
第3の範囲:0:(該当キーワード候補なし)
【0049】
各キーワード候補に加点を行い、その結果、上位は以下となる。
AA社 4+4*3=16
新製品 2+4*3=14
ノートパソコン 2+6*3=20
発表 2+6*3=20
PC630 2+4*3=14
データ蓄積ツール 2+2*3=8
BB社 2+2*3=8
【0050】
キーワード候補評価部15は、上位のキーワードを抽出し、たとえば、「AA社」「新製品」「ノートパソコン」「発表」「PC630」「データ蓄積ツール」「BB社」をキーワードとして得ることができる。本例では特定単語も同様に加点しているので点数は高くなるが、特定単語の点数を別に設定することも可能である。特にタイトルの「ノートパソコン」「AA社」「新製品」と関連する「PC630」「データ蓄積ツール」「BB社」など、出現頻度からは上位に位置しないキーワード候補についても抽出することができる。また、文書の構成による範囲で共起するか否かを判定しているので、文書内の話題ごとに共起の判定を行なうことができる。
【0051】
これによると、文書中に含まれるタイトルや、見出し、小見出し等の情報に共起するキーワード候補をキーワードとすることで、文書の主題と関連する語をキーワードとして抽出することができる。
また、特定の範囲を文書の構成、区切り等によって決定するため、文書の話題の変化を考慮した範囲の設定が行なえ、より関連する語句を精度よく抽出することができる。
また、範囲を決定する表現などを登録可能とすることで、対象文書に応じた範囲を設定できるため、精度よくキーワード抽出を行なうことができる。
【0052】
図6は、本発明の他の参考例であるキーワード抽出装置の構成例を示す図で、図中、20はキーワード抽出装置で、該キーワード抽出装置20は、キーワード候補抽出部21とキーワード候補評価部23とからなり、キーワード候補抽出部21は、形態素解析部22を有し、キーワード候補評価部23は、検索語取得部24を有する。本例におけるキーワード抽出装置20は、文書検索システム25にアクセス可能とする。この文書検索システム25は、文書データベース25a,文書検索部25b,検索キー入力部25cを有している。本例におけるキーワード抽出装置20は、図1に示したキーワード抽出装置1における特定単語抽出部7が検索語取得部24に代わっている点が異なる。すなわち、本例では特定単語としていたものが、文書検索システム25におけるユーザが入力した検索語となる。
【0053】
図7は、キーワード候補評価部23と検索語取得部24とを有するキーワード抽出装置20における処理の流れについて説明するためのフロー図である。図2に示した処理フローと異なるのは、検索語取得部24によって検索語を取得する点である。本例では検索語を特定単語として、特定範囲内に検索語が出現した場合に同一範囲内のキーワード候補を選択し、点数の加点を行なうものである。
【0054】
図7において、まず、キーワード候補抽出部21で得られたキーワード候補に対して、キーワード候補評価部23では、文書中における出現頻度等を計算し、その出現頻度を点数としてキーワード候補に付与する(ステップS21)。本例では出現頻度を用いて点数を計算しているが他の方法でもよい。また、この時点の点数はすべて0にしておくという方法もある。検索語取得部24では、ユーザの検索語を文書検索システム25から取得する(ステップS22)。
【0055】
次に、文書先頭から末まで特定範囲(文あるいは特定単語数など)ごとに、検索語取得部24が取得した検索語が当該範囲内に出現したかどうかを調べる(ステップS23)。検索語が出現していれば、同一範囲内に存在するキーワード候補を選択し(ステップS24)、選択したキーワード候補の点数に特定点数を加点する(ステップS25)。文書のすべての範囲の処理が終わった後、キーワード候補を点数の高い順に並べ、上位から所定数をキーワードとして抽出あるいは表示する(ステップS26)。尚、上記ステップS24において、検索語が出現した場合、同一範囲内に存在するキーワード候補を選択し、それらのキーワード候補をキーワードとしてもよい。
【0056】
図7に示す処理フローを以下の文書例に基づいて具体的に説明する。
文書例:
「AA社は、6月15日に新製品であるノートパソコン「PC630」を発表した。AA社の新製品は1年ぶりであり、AA社の状況が改善されたことを示すといえる。AA社のPC630は「PC550」を改良したもの。同スペックながら、画面サイズを拡大し、かつ、軽量にしたモデルである。
また、これに対応して、BB社はノートパソコン向けのデータ蓄積ツールを発表した。BB社は6月30日までのキャンペーンを企画している。
競合のDD社は、好評のラインナップを増やす方向で、これらに対抗するかまえである。新製品は7月1日の予定。またデータ蓄積ツールについてはDD社独自の規格で開発中である。」
【0057】
上記文書例を形態素解析し、単語分割と品詞付与を行う。
キーワード候補抽出部21は、品詞が名詞、サ変名詞、未登録語、接頭辞、接尾辞、形容動詞がひとつ以上現れる箇所をキーワードの候補として取り出す。キーワード候補評価部23は、文書内のキーワード候補の出現頻度を集計する。上記文書例では以下となる。尚、ここでは出現頻度を点数そのものとして処理する。
AA社 4回
新製品 3回
発表 2回
BB社 2回
データ蓄積ツール 2回
ノートパソコン 2回
DD社 2回
PC630 2回
PC550 1回
画面サイズ 1回
スペック 1回
モデル 1回
ラインナップ 1回
キャンペーン 1回
製品 1回
対抗 1回
方向 1回
状況 1回
改善 1回
企画 1回
規格 1回
開発中 1回
軽量 1回
対応 1回
【0058】
次に、検索語取得部24では、文書検索システム25でユーザが入力した検索語を取得し、その検索語を特定単語として設定する。例えば、以下の語が検索語として入力されたとする。
検索語:BB社、ノートパソコン
【0059】
次に、キーワード候補評価部23は、検索語取得部24で得られた単語(本例では、BB社、ノートパソコン)を特定単語とし、対象文書の先頭から1文ずつ、特定単語を含むかどうかを調べる。特定単語があれば、文内のキーワード候補について、前述の式(1)に基づいて、含まれる特定単語の種類数(異なり数)に、例えば5を乗算した値を点数として各キーワード候補に加点する。加点方法自体は文書の長さ等によって変更することも可能である。
【0060】
以下に特定単語が出現した文と、特定単語の異なり数と、文内に出現したキーワード候補を示す。
第1文:1:AA社、新製品、ノートパソコン、PC630、発表
第5文:2:BB社、ノートパソコン、データ蓄積ツール、発表
第6文:1:BB社、キャンペーン
【0061】
各キーワード候補に加点を行い、その結果、上位は以下となる。
BB社 2+3*5=17
発表 2+3*5=17
ノートパソコン 2+3*5=17
AA社 4+1*5=9
新製品 3+1*5=8
データ蓄積ツール 2+2*5=12
PC630 2+1*5=7
【0062】
キーワード候補評価部23は、検索語と、特定範囲に出現したキーワード候補とに点数を加点することで、出現頻度が上位のキーワード以外に検索語自体や検索語と関連するキーワードとして、「データ蓄積ツール」「BB社」などを抽出することができる。
【0063】
これによると、検索語を特定単語とし、検索語とともに現れる語句についてキーワードとして抽出することで、検索の場面でユーザが着目している語句や関連する語句をキーワードとして抽出することができる。
【0064】
図8は、本発明の実施形態であるキーワード抽出装置の構成例を示す図で、図中、30はキーワード抽出装置で、該キーワード抽出装置30は、キーワード候補抽出部31とキーワード候補評価部33とからなり、キーワード候補抽出部31は、形態素解析部32を有し、キーワード候補評価部33は、特定単語抽出部34を有する。本例におけるキーワード抽出装置30は、ユーザプロファイル35にアクセス可能とする。図1に示したキーワード抽出装置1と異なるのは、特定単語抽出部34がユーザプロファイル35から特定単語を抽出する点である。
【0065】
図9は、ユーザプロファイル35の一例を示す図である。このユーザプロファイル35にはユーザ名とユーザの興味や業務等に関連する語句が対応づけられて格納されている。本例ではユーザの姓と語句が対応づけられて格納されているが、ユーザ名ではなくID等、ユーザがユニークに判別できる情報であればよい。
【0066】
図10は、キーワード候補評価部33と特定単語抽出部34とを有するキーワード抽出装置30における処理の流れについて説明するためのフロー図である。図2に示した処理フローと異なるのは、特定単語抽出部34がユーザプロファイル35から特定単語を抽出する点である。キーワード抽出を行なうユーザがユーザプロファイル35上に存在すれば、ユーザ名に対応する語句の並びを抽出し、特定単語として設定する。尚、ユーザを特定する、あるいはキーワード抽出装置30を使用するユーザにユーザ名の入力を促す等のユーザ名取得に関する処理は本発明の主眼ではないため、ここでの説明は省略するものとする。
【0067】
図10において、まず、キーワード候補抽出部31で得られたキーワード候補に対して、キーワード候補評価部33では、文書中における出現頻度等を計算し、その出現頻度を点数としてキーワード候補に付与する(ステップS31)。本例では出現頻度を用いて点数を計算しているが他の方法でもよい。また、この時点の点数はすべて0にしておくという方法もある。特定単語抽出部34では、特定単語をユーザプロファイル35から取得する(ステップS32)。
【0068】
次に、文書先頭から末まで特定範囲(文あるいは特定単語数など)ごとに、特定単語抽出部34が抽出した特定単語が当該範囲内に出現したかどうかを調べる(ステップS33)。特定単語が出現していれば、同一範囲内に存在するキーワード候補を選択し(ステップS34)、選択したキーワード候補の点数に特定点数を加点する(ステップS35)。文書のすべての範囲の処理が終わった後、キーワード候補を点数の高い順に並べ、上位から所定数をキーワードとして抽出あるいは表示する(ステップS36)。尚、上記ステップS34において、特定単語が出現した場合、同一範囲内に存在するキーワード候補を選択し、それらのキーワード候補をキーワードとしてもよい。
【0069】
図10に示す処理フローを、図7に示した処理フローの説明に用いた文書と同様の文書例に基づいて具体的に説明する。本例において、キーワード候補の抽出と、キーワード候補の頻度算出までは同じ処理フローとなる。本例では特定単語抽出部34にて特定単語を抽出する際に、キーワード抽出を行なうユーザ名が「山田」であった場合を代表例として説明する。
まず、ユーザ名が「山田」であるデータから対応する語句をユーザプロファイル35から抽出すると、例えば「ノートパソコン」「プリンタ」が得られる。このように抽出された単語を特定単語として以下に設定する。
特定単語:ノートパソコン,プリンタ
【0070】
次に、キーワード候補評価部33は、特定単語抽出部34で得られた単語を特定単語とし、対象文書の先頭から1文ずつ、特定単語を含むかどうかを調べる。特定単語があれば、文内のキーワード候補について、前述の式(1)に基づいて、含まれる特定単語の種類数(異なり数)に、例えば5を乗算した値を点数として各キーワード候補に加点する。加点方法自体は文書の長さ等によって変更することも可能である。
【0071】
以下に特定単語が出現した文と、特定単語の異なり数と、文内に出現したキーワード候補を示す。
第1文:1:AA社、新製品、ノートパソコン、PC630、発表
第5文:1:BB社、ノートパソコン、データ蓄積ツール、発表
【0072】
各キーワード候補に加点を行い、上位は以下となる。
BB社 2+1*5=7
発表 2+2*5=12
ノートパソコン 2+2*5=12
AA社 4+1*5=9
新製品 3+1*5=8
データ蓄積ツール 2+1*5=7
PC630 2+1*5=7
【0073】
キーワード候補評価部33は、プロファイル情報から得られた特定単語と、特定範囲に出現したキーワード候補とに点数を加点することで、出現頻度が上位のキーワード以外にプロファイル中の語と関連する「データ蓄積ツール」などを抽出することができる。
【0074】
本発明によると、キーワード抽出を行なうユーザのプロファイル情報に含まれる単語を特定単語とすることにより、ユーザの興味や、嗜好に合致するキーワードを抽出することができる。
【0075】
ここで、図1に示したキーワード抽出装置1の他の実施形態として、共起を判定する範囲を特定の単語数で規定するようにしてもよい。
【0076】
本実施形態について以下の文書例に基づいて具体的に説明する。
文書例:
・AA社 PC630
画面サイズは15インチ。しかも液晶画面。大容量HDDが50Gを実現。CD−RW/DVDを搭載。AA社の新製品は1年ぶりであり。キャンページを実施中。今なら割安。
・BB社 PC800
AA社と同スペックながら、軽量を実現。これに対応したノートパソコン向けのデータ蓄積ツールも発表した。BB社は6月30日までのキャンペーンを企画中。詳細は以下で。
・DD社 SSS500
長時間バッテリー、最大5.5時間を実現。1.26kgと軽量。デザインは国内アパレルメーカーのZZ社が担当した。女性が持ちたくなるようなデザイン。専用カバー付。
【0077】
上記文書例を形態素解析し、単語分割と品詞付与を行う。
キーワード候補抽出部2は、品詞が名詞、サ変名詞、未登録語、接頭辞、接尾辞、形容動詞がひとつ以上現れる箇所をキーワード候補として取り出す。但し単独のサ変名詞は抽出しないとする。キーワード候補評価部6は、文書内のキーワード候補の出現頻度を集計する。上記文書例では以下となる。括弧内は出現頻度を表す。尚、ここでは出現頻度を点数そのものとして処理する。
AA社(3)、PC630(1)、画面サイズ(1)、液晶画面(1)、大容量HDD(1)、CD−RW/DVD(1)、新製品(1)、キャンペーン(2)、割安(1)、BB社(1)、PC8000(1)、軽量(2)、ノートパソコン(1)、データ蓄積ツール(1)、DD社(1)、SSS500(1)、長時間バッテリー(1)、国内アパレルメーカー(1)、ZZ社(1)、女性(1)、デザイン(2)、専用カバー付(1)
【0078】
本例では検索語あるいはプロファイル情報から特定単語を得たものとして説明する。たとえば「DD社」を特定単語とする。
キーワード候補抽出部2は、特定単語抽出部7で得られた単語を特定単語とし、さらに特定の単語数あるいはバイト数を範囲として特定単語と共起するか否かを判定する。これは、例えば90文字ずつを範囲とする。本例では、AA社、BB社、DD社の情報ごとになる。新聞やWebでの製品紹介などでは限られたスペースに多くの情報をのせるため、1製品ごとに画面上での表示情報を規定してデザインされているケースがあり、これらは一定バイト数ごとのまとまった内容になっていることがある。またプレゼンテーション資料など必ずしも文の終わりを示す句点がない場合があり、こういった場合にも文字数やバイト数による範囲の決定は有効である。
【0079】
上記例では、対象文書の先頭から90文字ずつ、特定単語を含むかどうかを調べる。特定単語があれば、文内のキーワード候補について、前述の式(1)に基づいて、例えば、含まれる特定単語の種類数(異なり数)*5点を元の点数(出現頻度)に乗算する。加点方法自体は文書の長さ等によって変更することも可能である。
【0080】
以下に特定単語が出現した範囲と、特定単語の異なり数と、範囲内に出現したキーワード候補を示す。
出現した範囲:特定単語異なり数:文内出現キーワード候補
第3範囲:1:DD社、軽量、デザイン、国内アパレルメーカー、ZZ社、女性、専用カバー付
【0081】
各キーワード候補に加点を行い、その結果、上位は以下となる。
DD社 : 1+1*5=6
SSS500: 1+1*5=6
長時間バッテリー: 1+1*5=6
国内アパレルメーカー: 1+1*5=6
ZZ社: 1+1*5=6
女性: 1+1*5=6
デザイン: 2+1*5=7
専用カバー付: 1+1*5=6
【0082】
キーワード候補評価部6は、上位のキーワードを抽出し、たとえば、「デザイン」などのキーワードを得ることができる。このように特定単語で指定した「DD社」と関連するキーワードを抽出することができる。
【0083】
本発明によると、特定単語との共起を判定する範囲を、一定文字数やバイト数の範囲で区切ることで、文の形態をなしていない対象や一定バイト数ごとの記述をする対象において特定単語と関連するキーワードを精度よく抽出することができる。
【0084】
以上、本発明のキーワード抽出装置における各機能を中心に各実施形態を説明してきたが、本発明は、キーワード抽出装置における各ステップを実行する方法としても説明したようにキーワード抽出方法としての形態もとることができる。また、この各機能を有するキーワード抽出装置と同様に、コンピュータにキーワード抽出装置として機能させるためのプログラムとしての形態も、また、そのプログラムを記録した記録媒体としての形態も可能である。
【0085】
本発明によるキーワード抽出の機能を実現するためのプログラムやデータを記憶した記録媒体の実施形態について説明する。記録媒体としては、具体的には、CD―ROM(―R/―RW)、光磁気ディスク、DVD―ROM、FD、フラッシュメモリ、メモリカードや、メモリスティック及びその他各種ROMやRAM等が想定でき、これら記録媒体に上述した本発明の各実施形態のシステムの機能をコンピュータに実行させ、キーワード抽出の機能を実現するためのプログラムを記録して流通させることにより、当該機能の実現を容易にする。そしてコンピュータ等の情報処理装置に上記のごとくの記録媒体を装着して情報処理装置によりプログラムを読み出すか、若しくは情報処理装置が備えている記憶媒体に当該プログラムを記憶させておき、必要に応じて読み出すことにより、本発明に関わるキーワード抽出の機能を実行することができる。
【0086】
【発明の効果】
本発明によると、文書中の出現頻度情報以外に、文書中の特定の範囲において特定の語に共起するキーワード候補をキーワードとして選択できるようにし、特定単語と関係性の高い単語をキーワードとして抽出することができる。
また、各キーワード候補に対応づけて点数を付与し、特定の語に共起するキーワード候補に付与した点数が高くなるように加点することにより、特定単語と関係性の高い単語をキーワードとして抽出することができる。
【図面の簡単な説明】
【図1】 本発明の参考例であるキーワード抽出装置の構成例を示す図である。
【図2】 キーワード候補評価部と特定単語抽出部とを有するキーワード抽出装置における処理の流れについて説明するためのフロー図である。
【図3】 本発明の他の参考例であるキーワード抽出装置の構成例を示す図である。
【図4】 キーワード候補評価部と特定単語抽出部とを有するキーワード抽出装置における処理の流れについて説明するためのフロー図である。
【図5】 範囲規定データの一例を示す図である。
【図6】 本発明の他の参考例であるキーワード抽出装置の構成例を示す図である。
【図7】 キーワード候補評価部と検索語取得部とを有するキーワード抽出装置における処理の流れについて説明するためのフロー図である。
【図8】 本発明の実施形態であるキーワード抽出装置の構成例を示す図である。
【図9】 ユーザプロファイルの一例を示す図である。
【図10】 キーワード候補評価部と特定単語抽出部とを有するキーワード抽出装置における処理の流れについて説明するためのフロー図である。
【符号の説明】
1,10,20,30…キーワード抽出装置、2,11,21,31…キーワード候補抽出部、3,12,22,32…形態素解析部、4,13…単語辞書、5,14…接続表、6,15,23,33…キーワード候補評価部、7,16,34…特定単語抽出部、17…範囲規定データ、24…検索語取得部、25…文書検索システム、25a…文書データベース、25b…文書検索部、25c…検索キー入力部、35…ユーザプロファイル。

Claims (4)

  1. ユーザの興味、嗜好に関するプロファイル情報を格納したプロファイルデータベースにアクセス可能なキーワード抽出装置であって、
    文書中から単語あるいは単語列を、該文書のキーワード候補として抽出するキーワード候補抽出部と、
    前記プロファイルデータベースのプロファイル情報中に記憶されている語の中から特定の語を抽出する特定単語抽出部と、
    前記キーワード候補抽出部により抽出されたキーワード候補に対応付けて点数を付与すると共に、前記文書中の特定の範囲において、前記特定単語抽出部により抽出された特定の語に共起する前記キーワード候補に付与した点数が高くなるように加点するキーワード候補評価部とを有し、
    前記キーワード候補評価部は、前記加点後の点数に基づいて、前記特定の語に共起する前記キーワード候補をキーワードとして抽出することを特徴とするキーワード抽出装置。
  2. 前記特定の範囲を、文書の種別に応じて、特定の単語数又はバイト数により設定可能としたことを特徴とする請求項1に記載のキーワード抽出装置。
  3. 請求項1又は2に記載のキーワード抽出装置としての機能をコンピュータに実行させるためのプログラム
  4. 請求項3に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003025613A 2003-02-03 2003-02-03 キーワード抽出装置、プログラム、及び記録媒体 Expired - Fee Related JP4245364B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003025613A JP4245364B2 (ja) 2003-02-03 2003-02-03 キーワード抽出装置、プログラム、及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003025613A JP4245364B2 (ja) 2003-02-03 2003-02-03 キーワード抽出装置、プログラム、及び記録媒体

Publications (2)

Publication Number Publication Date
JP2004234597A JP2004234597A (ja) 2004-08-19
JP4245364B2 true JP4245364B2 (ja) 2009-03-25

Family

ID=32953846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003025613A Expired - Fee Related JP4245364B2 (ja) 2003-02-03 2003-02-03 キーワード抽出装置、プログラム、及び記録媒体

Country Status (1)

Country Link
JP (1) JP4245364B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005259015A (ja) 2004-03-15 2005-09-22 Ricoh Co Ltd 文書開示装置、文書開示システム、プログラム及び記憶媒体
JP4314221B2 (ja) 2005-07-28 2009-08-12 株式会社東芝 構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム
JP2008059099A (ja) * 2006-08-29 2008-03-13 Access Co Ltd 情報表示装置、情報表示プログラム、および情報表示システム
JP4945383B2 (ja) * 2007-09-07 2012-06-06 株式会社日立ハイテクノロジーズ 仕様書内容検査方法および仕様書内容検査システム
JP5247177B2 (ja) * 2008-02-08 2013-07-24 キヤノン株式会社 文書管理装置、文書管理方法およびプログラム
WO2009136426A1 (ja) * 2008-05-08 2009-11-12 三菱電機株式会社 検索クエリ提供装置
WO2010103916A1 (ja) * 2009-03-13 2010-09-16 コニカミノルタホールディングス株式会社 文書の特徴語提示装置及び特徴語の優先度付与プログラム
US8495062B2 (en) * 2009-07-24 2013-07-23 Avaya Inc. System and method for generating search terms

Also Published As

Publication number Publication date
JP2004234597A (ja) 2004-08-19

Similar Documents

Publication Publication Date Title
JP4236057B2 (ja) 新たな複合語を抽出するシステム
JPH11219368A (ja) 情報検索装置及び情報検索方法
US8375033B2 (en) Information retrieval through identification of prominent notions
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
JP2011215950A (ja) キーワード提示装置、方法及びプログラム
Atwan et al. Semantically enhanced pseudo relevance feedback for Arabic information retrieval
JP4245364B2 (ja) キーワード抽出装置、プログラム、及び記録媒体
Kipfer Glossary of lexicographic terms
US20070233462A1 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
Abdelzaher An investigation of corpus contributions to lexicographic challenges over the past ten years
Mańczak-Wohlfeld et al. Anglicisms in the National Corpus of Polish: Assets and limitations of corpus tools
Koleva et al. An automatic part-of-speech tagger for Middle Low German
Bilac et al. Dictionary search based on the target word description
JP5463494B2 (ja) 技術動向情報作成装置
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
Bergsma et al. Predicting the semantic compositionality of prefix verbs
Gilquin Automatic retrieval of syntactic structures: The quest for the Holy Grail
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
JP5019315B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JPWO2009041661A1 (ja) 情報処理装置、及びプログラム
JP2001306561A (ja) 機械翻訳装置及び翻訳処理方法
JP3848014B2 (ja) 文書検索方法および文書検索装置
JP5187187B2 (ja) 体験情報検索システム
JP2008276561A (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
Dash Polysemy and homonymy: a conceptual labyrinth

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081002

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081014

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090106

R150 Certificate of patent or registration of utility model

Ref document number: 4245364

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140116

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees