JP4222811B2 - キーワード抽出装置並びにプログラムおよび記録媒体 - Google Patents
キーワード抽出装置並びにプログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP4222811B2 JP4222811B2 JP2002315397A JP2002315397A JP4222811B2 JP 4222811 B2 JP4222811 B2 JP 4222811B2 JP 2002315397 A JP2002315397 A JP 2002315397A JP 2002315397 A JP2002315397 A JP 2002315397A JP 4222811 B2 JP4222811 B2 JP 4222811B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- word
- candidate
- words
- constituent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、キーワード抽出装置並びにプログラムおよび記録媒体に関し、具体的には、短単位の単語だけではなく、複合名詞や複合名詞句のような長い単位のキーワード抽出に関し、文書検索装置や文書登録装置等に応用して好適である。
【0002】
【従来の技術】
文書中からキーワードを抽出することは、キーワードを検索や分類のために文書の情報として付与したり、文書検索結果の一覧表示で文書の内容を簡潔に表現する補助情報として表示する際に必要となる重要な技術である。
【0003】
通常、文書中からキーワードを抽出するためには、形態素解析技術により、単語分割し品詞付けを行い、そのうちの特定の品詞(特に名詞)の単語についてそのキーワードとするか否かを評価する。
これは、対象分野での専門用語や単語のキーワード性(特許文献1参照)に基づき判定する。また、複合語であれば、それを構成する単語のキーワード性や複合語構成上の役割といった情報を用意し、それらに基づき判定する(非特許文献1参照)。
しかしながら、こうした判定に用いるキーワードに関する情報を事前に辞書等に用意しておくことを前提としているが、これらを設定・保守することは容易ではない。
【0004】
そこで、こうしたキーワードのための情報を必要とせずに、キーワード候補を文字種により判別したり(特許文献2参照)、単語の長さとその使用頻度に基づいてキーワード性を計算する抽出装置が提案されている(特許文献3参照)。
しかしながら、キーワード候補の評価に、特許文献2および特許文献3で行っているような単語の出現頻度を考慮する場合、短単位の単語ベースのキーワードならよいが、複合名詞等をベースにするキーワードの場合は、同一のキーワード候補単語については、出現頻度に反映されるが、同一の構成単語を含んでいる関連単語の場合は、同一視されず、それぞれの出現頻度には反映されない。
【0005】
また、単語の文書内頻度(Tf:TermFrequency)と対象文書データベース中での単語の出現文書数(Df:DocumentFrequency)の逆数(Idf:Inverted DF)の積をキーワード指標とするTf*Idf法が知られている(非特許文献2参照)。
これは、キーワードのための情報を必要としない方法であるが、対象データベースがあらかじめ定まっている必要があり、可能性のあるキーワード候補について事前に統計処理を必要とする問題とともに、出現頻度についても、上述の問題がある。
【0006】
また、上記のキーワードのための事前の情報や統計情報の取得の問題を回避し、また出現頻度に関わる問題を解決するために、特許文献4の「キーワード抽出装置」は、単語の複合度あるいは類似単語を出現頻度に反映した疑似出現頻度を用いて、キーワード候補の評価を改善し、また、単語長から単語複合度、重複文字列の割合から疑似出現頻度を簡易に得る方法である。
【0007】
さらに、特許文献5の「キーワード抽出装置及びキーワード表示装置」は、疑似出現頻度を取得する場合、文書内でキーワード候補同士の組合せ数の計算で、計算量が多くなってしまうのを改善するために、文書内での文字単位の出現頻度により少ない計算量で誤字出現頻度を計算する方法である。
【0008】
【特許文献1】
特開昭62−287337号公報
【非特許文献1】
小川 他「短単位キーワードに基づくテキストデータベース装置」、情報処理学会、データベース研究会90−6, 1992
【特許文献2】
特開平1−028770号公報
【特許文献3】
特開昭63−244259号公報
【非特許文献2】
長尾真、佐藤理史編「岩波講座ソフトウェア科学 15 自然言語処理,岩波書店、1996.4.26, p.411−421
【特許文献4】
特開平8−95982号公報
【特許文献5】
特開平9−311871号公報
【0009】
【発明が解決しようとする課題】
しかしながら、特許文献4の技術は、文字列の重複検査の計算量の問題があり、一方、特許文献5では、文字の出現頻度に基づく処理のため、キーワード候補と無関係な同一の文字が用いられている場合、統計に雑音が多く混入する問題がある。
また、特許文献4や特許文献5では、文字や文字列に意味がある日本語の複合語に効果がある方法であったが、英語などのアルファベットを用いた言語の単語に対しては有効でない。
【0010】
本発明は、上述の実情を考慮してなされたものであって、キーワードのための事前の情報や統計情報の取得の問題を回避し、また出現頻度に関わる問題を単語レベルでの処理により上記の問題を回避するキーワード抽出装置並びにプログラムおよび記録媒体を提供することを目的とする。
【0011】
【課題を解決するための手段】
上記の課題を解決するために、本発明の請求項1のキーワード抽出装置は、電子化された文書を単語に分割して品詞を付与する単語解析部と、キーワードの候補として抽出すべきパターンを記述したキーワード候補抽出規則と、前記単語解析部により解析された解析結果をもとに、前記キーワード候補抽出規則によりキーワード候補を抽出するキーワード候補抽出部と、前記キーワード候補の構成単語に基づいて評価するキーワード候補評価部と、前記キーワード候補評価部が評価した結果に基づいて前記キーワード候補からキーワードを抽出するキーワード抽出部とを備え、
前記キーワード候補評価部は、前記キーワード候補に対し、
(1)このキーワード候補の構成単語数あるいはこの構成単語数に応じた値、
および、
(2)このキーワード候補の構成単語ごとの当該電子化文書内における出現頻度に基づく修正単語頻度、
の双方の重み付き線形和あるいは積の値によって評価する
ことを特徴とする。
【0018】
また、本発明の請求項2は、請求項1に記載のキーワード抽出装置において、前記修正単語頻度は、前記キーワード候補に対し、このキーワード候補の構成単語ごとの頻度数の総和をこのキーワード候補の構成単語数で除した値とすることを特徴とする。
【0019】
また、本発明の請求項3は、請求項1または2に記載のキーワード抽出装置において、前記構成単語数に応じた値は、構成単語数の対数値であることを特徴とする。
【0021】
また、本発明の請求項4は、請求項1乃至3のいずれかに記載のキーワード抽出装置において、前記キーワード抽出部が抽出したキーワードのうち、同一の構成単語を含むキーワード同士を組にして出力するキーワード出力部を備えることを特徴とする。
【0023】
また、本発明の請求項5のプログラムは、コンピュータを用いて、文書データからキーワードを抽出するためのプログラムであって、前記コンピュータを、請求項1乃至4のいずれかに記載のキーワード抽出装置の各部として機能させるためのプログラムである。
また、本発明の請求項6の記録媒体は、請求項5に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0024】
以上の構成により、複合名詞や「の」や「of」で結ばれた複合名詞句のレベルでキーワード抽出を行う場合、キーワード候補を構成する単語(構成単語)に着目することにより、事前にキーワードのための情報を用意したり、統計処理を行うことなくキーワード評価が可能になる。
また、英語のような変化のある単語をその基本形で構成単語を見ることにより、適切な頻度集計ができるので、より適切なキーワード評価が可能になる。
また、構成単語を扱う場合、キーワード評価に影響を与える品詞、あるいは影響を与えない品詞や単語を別途用意することで、内容語を優先したり、「の」や「of」などの機能語を無視することで、より適切なキーワード評価が可能になる。
また、構成単語数の代わりに構成単語数の対数をとってキーワード候補の評価値を計算することによって、構成単語数が多いキーワード候補の過剰な評価を回避することが可能になる。
また、キーワード候補のその構成単語のすべてが、他のキーワード候補の構成単語に含まれている場合には、キーワードとしては抽出しないようにすることによって、キーワード集合の冗長性を排除することが可能になる。
【0025】
【発明の実施の形態】
以下、図面を参照して本発明に係る好適な実施形態を説明する。
図1は、本発明のキーワード抽出装置が適用されるキーワード抽出システムの全体構成を示すブロック図であり、同図に示すように、キーワード抽出システムは、複数の電子化された文書データを保持する文書データベース10と、キーボード、マウス、タッチパネル等により構成されて文書データベース10中の文書名を指定する入力装置20と、入力装置20によって指定された文書名の電子化文書データを文書データベース10から読み込む文書入力装置30と、この読み込まれた文書データからキーワードを抽出する本発明に係るキーワード抽出装置40と、抽出されたキーワードに関する情報をディスプレイやプリンタあるいはネットワークに接続した他の装置へ出力する出力装置50とを含んでいる。
【0026】
<実施形態1>
図2は、本発明のキーワード抽出装置40に係る実施形態の機能構成を示すブロック図であり、キーワード抽出装置40は、単語解析部41、単語辞書42、キーワード候補抽出部43、キーワード候補抽出規則44、キーワード候補評価部45、キーワード抽出部46とから構成される。
【0027】
単語解析部41は、文書データベース10に記憶されたキーワード抽出装置40の入力対象となる文書データを文書入力装置30から渡され、品詞情報や基本形情報をもった単語辞書42を参照し、対象となる文書データの文ごとに単語に分割し、品詞を付与し、また必要に応じて単語の基本形を解析して、単語単位の解析結果を出力する。
この単語解析部41は、従来技術の形態素解析技術によって実現される。
【0028】
例えば、図3に示す日本語文書の第4文(本文の先頭文)を単語解析部41で処理した結果は、図4に示すような単語に分割される。
図4において、「基本形」とは、日本語では、活用しない単語はその単語そのもの、活用する単語はその終止形である。以降の説明では、活用しない単語の基本形は、単語そのものと同じであるから図中では省略している。
また、英語のような変化のある単語の場合は、適切な頻度集計ができないため、その基本形を用いることでより適切な評価が行えるようになる。
例えば、Computersという単語が対象文書中に出てきた場合には、その基本形(Computer)を単語辞書から取り出すようにする。
【0029】
キーワード候補抽出部43は、単語解析部41の結果をもとに、抽出するべきキーワード候補の単語のパターン
(構成)に関する規則(キーワード候補抽出規則44)に従いキーワード候補を抽出する。
キーワード候補抽出規則44は、例えば、図5に示したように、リーフノードが品詞名である書換え規則として、下記の記法のもとで記述してある。
【0030】
X+Y :XとYがこの順序で並んでいる
(X|Y|Z) :XかYかZ
{X}. :Xが省略されるか、Xが1つ存在する
{X}* :Xの0以上の繰り返し
{X}+ :Xの1以上の繰り返し
【0031】
図5に例示した規則では、キーワード候補として次の2種類を定義している。(1)キーワード候補Aは、前/後に接頭辞/接尾辞の付加を許す名詞類の1つ以上の並びあるいはその複合の並びであり、単独の名詞あるいは名詞連続の複合名詞がキーワード候補となる。
(2)キーワード候補Bは、上記のキーワード候補Aの複合名詞が格助詞「の」で連結された並びであり、「の」で連結された名詞句がキーワード候補となる。
【0032】
この図5の規則によれば、図3の第4文からは、図6に示すキーワード候補が抽出される。ここで、抽出された各キーワード候補には、図7に示すように、各キーワード候補を構成する単語と品詞および基本形の情報が付加されている。
【0033】
キーワード候補の抽出方法は、上述のようなキーワード候補抽出規則を使用するものに限定はされず、従来技術によって構成されてもよい。
また、単語解析部41とキーワード候補抽出部43とは、対象文書全体の単語解析結果を得てからキーワード候補を抽出するようにしてもよいし、あるいは、1文ごとに単語解析結果を得て、その文についてのキーワード候補を抽出することを全文の処理が終わるまで繰り返すようにしてもよい。
【0034】
キーワード候補評価部45は、キーワード候補抽出部43により抽出されたキーワード候補について、その構成単語に基づいてキーワード候補の評価を行う。
ここで、キーワード候補中の構成単語に英語のような変化のある単語が含まれている場合は、その単語の基本形に替えて頻度を収集するようにして、適切な頻度集計ができ、より適切なキーワード評価が可能となる。
この評価は、例えば、キーワード候補Kjについて、次のような評価値E(Kj)によって行う。
【0035】
E(Kj)=F(A(WNj),B(Wfj))
ここで、WNj:キーワード候補Kjの構成単語数
Wfj:キーワード候補Kjの修正単語頻度
また、この修正単語頻度Wfjは次のようにして求める。
Wfj=Sfj/WNj
ここで、Sfj:キーワード候補Kjの構成単語ごとの頻度の総和
【0036】
例えば、上記の関数Fは次のいずれとしてもよい。
E(Kj)=a*A(WNj)+b*B(Wfj)
あるいは、
E(Kj)=A(WNj)*B(Wfj)
【0037】
上記の式で、aおよびbは重み係数であり、A(X)およびB(X)はXをパラメータとする関数であり、例えば、上記第1の式で、a=b=1、A(X)=X、B(X)=Xとすると、
E(Kj)=WNj+Wfj
であり、以下の説明では、この評価式を使用することにする。
【0038】
さらに、上記の第1の式で、a=b=1、A(X)=log(X)、B(X)=Xとすると、
E(Kj)=log(WNj)+Wfj
であり、また、上記第2の式で、a=1、A(X)=log(X)、B(X)=Xとすると、
E(Kj)=log(WNj)*Wfj
という評価式が使用できる。
【0039】
図8のフローチャートをもとに、キーワード候補評価部45の処理手順について詳細に説明する。
まず、単語解析部41で解析された単語に対して、単語ごとの頻度を集計した単語表を作成して記憶装置等に格納する(ステップS1)。
単語解析部41で図4のように分割された第4文に関する単語表は、図9に示したようになる。尚、以降で、この表を参照して、キーワード候補の構成単語ごとに頻度を求めるため、単語は辞書順にソートされている方がよい。
【0040】
キーワード候補抽出部43で抽出されたキーワード候補に関する表を作成して記憶装置等に格納する(ステップS2)。
このキーワード候補表は、キーワード候補抽出部43で抽出の際に得られたキーワード候補Kjごとに、単語構成、頻度、構成単語数WNj、構成単語の総頻度Sfj、修正単語頻度Wfjおよびキーワード評価値E(Kj)からなる情報を保持する。
また、キーワード候補は、単語表と同様に重複して現れることもあるので、同一のキーワード候補の重複は取り除き、頻度として計数して、表中に設定する。
さらに、キーワード候補の順序は、本説明では出現順とするが、これに特に限定するものではない。
【0041】
図10は、第4文中のキーワード候補の設定状態を抜き出した図で、単語構成の情報と頻度が設定されている。図中、単語構成に関する欄では、「|」で単語の切れ目、「.」で接辞(接頭辞、接尾辞)の切れ目を表すものとする。
また、図中の第4文のキーワード候補では、「工業製品」が他に1回、「輸出規制」が他に2回出現しているので、頻度が各々2、3となっているが、他の頻度は1になっている。尚、「工業製品」と「輸出規制」は、各々第1文、第2文に現れているので、他のキーワード候補より先行して出ている。
【0042】
以下のステップS3からS9までは、キーワード候補ごとに処理が行われる。
キーワード候補表から順次キーワード候補を取り出し、すべてのキーワード候補の処理が終われば(ステップS3の「なし」)、処理を終了する。
これにより、キーワード候補表のすべての欄が埋まり、すべてのキーワード候補の評価値が得られる。
【0043】
キーワード候補表からキーワード候補を取り出せた場合(ステップS3の「あり」)、対象のキーワード候補の「構成単語数WNj」欄と「構成単語総頻度Sfj」欄を、以降の加算処理のためにゼロクリアする(ステップS4)。
例えば、図11のキーワード候補「工業製品」の「構成単語数WNj」欄と「構成単語総頻度Sfj」欄がゼロに設定されている。
【0044】
次のステップS5からS7までは、対象キーワード候補の構成単語ごとに処理が行われる。
キーワード候補の単語構成に示される構成単語について、順次構成単語Wjiを取り出し、すべての構成単語の処理が終われば(ステップS5の「なし」)、構成単語ごとの処理を終了し、対象キーワード候補の構成単語数と構成単語総頻度が得られるステップS8へ進む。
【0045】
キーワード候補の単語構成に示される構成単語について、構成単語を取り出せた場合(ステップS5の「あり」)、その構成単語Wjiに対する「構成単語数WNj」欄に1を加算する(ステップS6)。
例えば、単語構成の「工業|製品」のうちの「工業」を取り出した場合、構成単語「工業」分として、「構成単語数WNj」欄に1を加算する。
【0046】
単語表を参照して、この構成単語Wjiの単語頻度を得て、「構成単語総頻度Sfj」欄に加算し(ステップS7)、再び、ステップS5に戻る。
例えば、上記の単語構成の「工業|製品」の場合には、構成単語「製品」を取り出し、「構成単語数WNj」欄に1加算し、「製品」の単語頻度「2」を「構成単語総頻度Sfj」欄に加算すると、キーワード候補表の「工業製品」は図12のように設定される。
【0047】
修正単語頻度Wfjを計算し、「修正単語頻度Wfj」欄に設定する(ステップS8)。
この修正単語頻度Wfjは、例えば、「構成単語総頻度Sfj」欄の値を「構成単語数WNj」の値で除した値をとして計算する。
図12のキーワード候補「工業製品」では、Sfjが「4」、WNjが「2」であるから、Wfjは4/2=2となる。
【0048】
最後に、キーワード候補の「評価値E(Kj)」を計算し、「評価値E(Kj)」欄に設定し(ステップS9)、再び、ステップS3に戻り、以降、順次キーワード候補を取り出しながら、全キーワード候補に対して、上記の処理を繰り返す。
このキーワード候補の「評価値E(Kj)」は、例えば、「構成単語数WNj」と「修正単語頻度Wfj」を加算した値として設定する。
【0049】
上述した例のキーワード候補「工業製品」では、WNjが「2」、Wfjが「2」であるから、E(Kj)=2+2=4となるので、「工業製品」に対するキーワード候補表は図13のような設定になる。
さらに、第4文の最後のキーワード候補「日本」の処理が終わった時点でのキーワード候補表は図14のようになり、また、全キーワード候補の処理が終わった時点でのキーワード候補表は図15のようになる。
【0050】
キーワード抽出部46は、キーワード候補評価部45により評価された結果に基づいて、評価値が高いキーワード候補ほどキーワード性が高いという仮定から、次のような基準でキーワード候補の中からキーワードを抽出する。
(1)評価値が上位Nのキーワード候補
(2)評価値がキーワード候補全体の上位M分の一のキーワード候補
(3)評価値がA以上のキーワード候補
【0051】
例えば、上位10位までを抽出基準とすると、図16に示したようなキーワードを抽出できる(図16では、同点があるので11キーワードが抽出される)。
【0052】
図17のフローチャートを用いて、本実施形態1の処理手順を説明する。
まず、利用者あるいは利用アプリケーションが指示したキーワード抽出の対象文書について、品詞情報や基本形情報をもった単語辞書を参照し、対象となる文書の文ごとに単語に分割し、品詞を付与し、また必要に応じて単語の基本形を解析して、単語単位の解析結果を出力する(ステップS11)。
例えば、図3の日本語文書の第4文(本文の先頭文)の単語解析処理した結果は図4のようになる。
【0053】
ステップS11の文書の単語解析処理の結果をもとに、抽出するべきキーワード候補の単語のパターン
(構成)に関する規則(例えば、図5に示すキーワード候補抽出規則)に従ってキーワード候補を抽出する(ステップS12)。
図5の規則によれば、図3の第4文部分からは、図6のキーワード候補が抽出され、抽出された各キーワード候補には、図7のようにこれを構成する単語と品詞および基本形の情報が付加されている。
【0054】
ステップS12のキーワード候補抽出処理により抽出されたキーワード候補について、その構成単語に基づいてキーワード候補の評価を行う(ステップS13)。
全キーワード候補の処理が終わった時点でのキーワードの評価値は図15に示すように設定される。
【0055】
この評価は、例えば、キーワード候補Kjについて、次のような評価値E(Kj)を計算する。
E(Kj)=F(A(WNj),B(Wfj))
ここで、WNj:Kjの構成単語数
Wfj:Kjの修正単語頻度
【0056】
この修正単語頻度Wfjは次のように求める。
Wfj=Sfj/WNj
ここで、Sfj:Kjの構成単語ごとの頻度の総和
【0057】
例えば、これらの計算値から次のいずれかの式で評価値を求める。
E(Kj)=a*A(WNj)+b*B(Wfj)
または
E(Kj)=A(WNj)*B(Wfj)
【0058】
ステップS13のキーワード候補評価処理により評価された結果に基づいてキーワード抽出を行う(ステップS14)。
評価値が高いキーワード候補ほどキーワード性が高いので、いずれかを基準としてキーワードを抽出する。
(1)評価値が上位Nのキーワード候補
(2)評価値がキーワード候補全体の上位M分の一のキーワード候補
(3)評価値がA以上のキーワード候補
例えば、上位10位までをキーワードとして抽出するとすると、図16のようになる(同点があるので11キーワード)。
【0059】
<実施形態2>
上述の実施形態1では、キーワード候補のその構成単語のすべてが、他のキーワード候補の構成単語に含まれている場合であっても、キーワード候補をキーワードとして抽出していた。
本実施形態2では、キーワード候補のその構成単語のすべてが、他のキーワード候補の構成単語に含まれている場合には、キーワードとしては抽出しないようにする。これにより、キーワード集合の冗長性を排除することが可能になる。
【0060】
このために、キーワード抽出部46において、キーワード候補抽出部43で記憶装置等に記憶したキーワード候補表中のキーワード候補について、その構成単語のすべてを含む他のキーワード候補があるか否かを検査し、ある場合は、キーワード候補表において無効の扱いをする。
この処理は、
・構成単語数の少ないキーワード候補から検査する
・自身の構成単語数より構成単語数が少ないキーワード候補は検査しない
等により処理の効率化ができる。
【0061】
本実施形態2のキーワード抽出部46によれば、図15に示したキーワード候補のうち、
・「通常兵器」は、「通常兵器関連」に含まれているので無効とする。
・「規制」は、「輸出規制」に含まれているので無効とする。
・「対象」は、「規制対象」に含まれているので無効とする。
・「国」は、「3カ国」に含まれているので無効とする。
・「共産圏」は、「対共産圏輸出統制委員会」に含まれているので無効とする。
・「輸出」は、「輸出規制」に含まれているので無効とする。
【0062】
これにより、上位10位までをキーワードとして抽出すると、図18に示すような結果になる(11キーワード)。
【0063】
<実施形態3>
上述の実施形態では、キーワード候補評価部45で評価値を計算するために構成単語数を用いていたが、本実施形態3では構成単語数の代わりに構成単語数の対数値を用いて評価値を計算する。
図15のキーワード候補表に対して、eを底とする自然対数として計算して評価値を求めた場合、図19に示すように「評価値2」の欄を追加したキーワード候補表が求められる。ここで、図19は、実施形態2の構成単語が含まれるキーワード候補の排除した場合である。
この図19のキーワード候補表から評価値2の上位10位は、図20に示したようになり、「朝鮮民主主義人民共和国」が上位10位からおちているのが確認できる。
このように、構成単語数の対数をとることにより構成単語数が多いキーワード候補の過剰評価を抑える効果がある。
【0064】
<実施形態4>
上述の実施形態によって抽出されたキーワードを次のようにディスプレイのような表示装置やプリンタのような出力装置へ出力することによって、利用者にわかりやすく出力することができる。
(1)評価値の大きい順に出力する。
例えば、図18または図20のように抽出されたキーワードを順位、評価値およびキーワードを組として図21または図22に示すように出力する。
【0065】
(2)同一の構成単語を含むキーワードを組にして出力する。
この出力形式は多数考えられるが、例えば、図21に示したキーワードを図23に示すように出力する。
これは、上位のキーワードの構成単語をキーとして、同一の構成単語をもつキーワードを評価値の順に並べる。重複して現れる場合は、省略してもよいが、図23では括弧を付けて重複を表している。また、その構成単語を含む他のキーワードがなければ、その構成単語の行は表示しない。
【0066】
<実施形態5>
上述した実施形態では、キーワード候補抽出部43で用いたキーワード候補抽出規則44による2種類のキーワード候補(単独の名詞あるいは名詞連続の複合名詞(キーワード候補A)と、複合名詞が格助詞「の」で連結された並び(キーワード候補B))のうち、キーワード候補Bについて説明しなかった。
【0067】
まず、キーワード候補評価部45において、キーワード候補Bを含んだキーワード候補の評価値に影響を与える構成単語の選定について説明する。
例えば、図6および図7では、キーワード候補Bが
(7)通常兵器の部品
(8)工業製品の輸出規制
として抽出されている。
上述の実施形態のように、「の」を構成単語として含めると、単語解析部41の結果「の」の頻度は13(図9参照)であるから、「通常兵器の部品」の構成単語数は4、総頻度は18となり、修正単語頻度は4.5、従って評価値は8.5になる。
また、「工業製品の輸出規制」の評価値は、5+(2+2+7+7+13)/5=11.2となる。
したがって、キーワード候補の評価値に、「の」による過大評価が生じてしまう。
一方、「の」を構成単語に数えないようにすると、上記の2つキーワード候補と対象文書中の他のキーワード候補Bは、図24のように評価値を与えられ、適切なキーワード評価を行える。
【0068】
したがって、本実施形態5では、キーワード候補中の構成単語の選定のために、次のいずれか一方または双方の処理を加える。
(1)構成単語品詞リストを用意して、特定の品詞の単語だけを構成単語とする。
例えば、「一般名詞」等を含むような構成単語品詞リストを用いることによって、キーワード評価に影響を与える品詞、あるいは影響を与えない品詞を指定できるので、内容語を優先したより適切なキーワード評価が可能になる。
【0069】
(2)非構成単語品詞リストを用意して特定の品詞の単語を構成単語から除く、あるいは、非構成単語リストを用意して特定の単語を構成単語から除く。
上述の場合、「格助詞の」や「接辞(接頭辞、接尾辞)」を含むような非構成単語品詞リストを用いることによって、「の」による過大評価を生じないようにできる。
【0070】
このように構成単語を扱う場合、キーワード評価に影響を与える品詞、あるいは影響を与えない品詞や単語を別途用意することで、内容語を優先したり、「の」や「of」などの機能語を無視することで、より適切なキーワード評価が可能になる。
【0071】
<実施形態6>
さらに、本発明は上述した実施形態のみに限定されたものではない。上述した実施形態のキーワード抽出装置を構成する各機能(単語解析部、キーワード候補抽出部、キーワード候補評価部、キーワード抽出部等)をそれぞれプログラム化し、単語辞書、キーワード抽出規則、構成単語品詞リスト等をデータ化し、あらかじめCD−ROM等の記録媒体に書き込んでおき、コンピュータに搭載したCD−ROMドライブのような媒体駆動装置にこのCD−ROMを装着して、これらのプログラムをコンピュータのメモリあるいは記憶装置に格納し、それを実行することによって、本発明の目的が達成されることは言うまでもない。
この場合、記録媒体から読み出されたプログラム自体が上述した実施形態の機能を実現することになり、そのプログラムおよびそのプログラムを記録した記録媒体も本発明を構成することになる。
【0072】
なお、記録媒体としては半導体媒体(例えば、ROM、不揮発性メモリカード等)、光媒体(例えば、DVD、MO、MD、CD−R等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)等のいずれであってもよい。
【0073】
また、ロードしたプログラムを実行することにより上述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステム等が実際の処理の一部または全部を行い、その処理によって上述した実施形態の機能が実現される場合も含まれる。
【0074】
また、上述したプログラムをサーバコンピュータの磁気ディスク等の記憶装置に格納しておき、インターネット等の通信網で接続された利用者のコンピュータからダウンロード等の形式で頒布する場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。
【0075】
【発明の効果】
以上説明したように本発明によれば、複合名詞や「の」や「of」で結ばれた複合名詞句のレベルでキーワード抽出を行う場合、キーワード候補を構成する単語(構成単語)に着目することにより、事前にキーワードのための情報を用意したり、統計処理を行うことなくキーワード評価が可能になる。
また、英語のような変化のある単語をその基本形で構成単語を見ることにより、適切な頻度集計ができるので、より適切なキーワード評価が可能になる。
また、構成単語を扱う場合、キーワード評価に影響を与える品詞、あるいは影響を与えない品詞や単語を別途用意することで、内容語を優先したり、「の」や「of」などの機能語を無視することで、より適切なキーワード評価が可能になる。
また、構成単語数の代わりに構成単語数の対数をとってキーワード候補の評価値を計算することによって、構成単語数が多いキーワード候補の過剰な評価を回避することが可能になる。
また、キーワード候補のその構成単語のすべてが、他のキーワード候補の構成単語に含まれている場合には、キーワードとしては抽出しないようにすることによって、キーワード集合の冗長性を排除することが可能になる。
【図面の簡単な説明】
【図1】 本発明のキーワード抽出装置が適用されるキーワード抽出システムの全体構成を示すブロック図である。
【図2】 本発明のキーワード抽出装置に係る実施形態1の機能構成を示すブロック図である。
【図3】 キーワード抽出の説明で使用する日本語文書の例である。
【図4】 図3に示す日本語文書の第4文(本文の先頭文)を単語に分割した例である。
【図5】 キーワード候補抽出規則の例である。
【図6】 図5のキーワード候補抽出規則によって、図3の第4文から抽出されたキーワード候補の例である。
【図7】 抽出された各キーワード候補を構成する単語と品詞および基本形の情報を示す例である。
【図8】 キーワード候補評価部の処理手順を示すフローチャートである。
【図9】 図4の文例で単語ごとに頻度を集計した単語表の例である。
【図10】 図4の文例の第4文中のキーワード候補の設定状態を示すキーワード候補表の例である。
【図11】 キーワード候補の「構成単語数WNj」欄と「構成単語総頻度Sfj」欄がゼロに設定されている状態を示す図である。
【図12】 単語構成のうちの構成単語分として、「構成単語数WNj」欄および「構成単語総頻度Sfj」欄に頻度を加算した場合の状態を示す図である。
【図13】 キーワード候補「工業製品」に対するキーワード候補表の設定状態を示す図である。
【図14】 第4文の最後のキーワード候補「日本」の処理が終わった時点でのキーワード候補表の設定状態を示す図である。
【図15】 全キーワード候補の処理が終わった時点でのキーワード候補表の設定状態を示す図である。
【図16】 上位10位までを抽出基準として抽出したキーワードの例を示す図である。
【図17】 実施形態1の処理手順を示すフローチャートである。
【図18】 キーワード候補のその構成単語のすべてが、他のキーワード候補の構成単語に含まれている場合に抽出されるキーワードの例を示す図である。
【図19】 キーワード候補の評価を構成単語数ではなく、構成単語数の対数とした場合のキーワード候補表の設定状態を示す図である。
【図20】 図19のキーワード候補表から上位10位を抽出したキーワードの例を示す図である。
【図21】 図18のように抽出されたキーワードの出力例である。
【図22】 図19のように抽出されたキーワードの出力例である。
【図23】 同一の構成単語を含むキーワードを組にした出力例である。
【図24】 複合名詞が格助詞「の」で連結された並びからなるキーワード候補のキーワード候補表の設定状態を示す図である。
【符号の説明】
10…文書データベース、20…入力装置、30…文書入力装置、40…キーワード抽出装置、41…単語解析部、42…単語辞書、43…キーワード候補抽出部、
44…キーワード候補抽出規則、45…キーワード候補評価部、46…キーワード抽出部、50…出力装置。
Claims (6)
- 電子化された文書を単語に分割して品詞を付与する単語解析部と、キーワードの候補として抽出すべきパターンを記述したキーワード候補抽出規則と、前記単語解析部により解析された解析結果をもとに、前記キーワード候補抽出規則によりキーワード候補を抽出するキーワード候補抽出部と、前記キーワード候補の構成単語に基づいて評価するキーワード候補評価部と、前記キーワード候補評価部が評価した結果に基づいて前記キーワード候補からキーワードを抽出するキーワード抽出部とを備え、
前記キーワード候補評価部は、前記キーワード候補に対し、
(1)このキーワード候補の構成単語数あるいはこの構成単語数に応じた値、
および、
(2)このキーワード候補の構成単語ごとの当該電子化文書内における出現頻度に基づく修正単語頻度、
の双方の重み付き線形和あるいは積の値によって評価する
ことを特徴とするキーワード抽出装置。 - 請求項1に記載のキーワード抽出装置において、前記修正単語頻度は、前記キーワード候補に対し、このキーワード候補の構成単語ごとの頻度数の総和をこのキーワード候補の構成単語数で除した値とすることを特徴とするキーワード抽出装置。
- 請求項1または2に記載のキーワード抽出装置において、前記構成単語数に応じた値は、構成単語数の対数値であることを特徴とする請求項1又は2に記載のキーワード抽出装置。
- 請求項1乃至3のいずれかに記載のキーワード抽出装置において、前記キーワード抽出部が抽出したキーワードのうち、同一の構成単語を含むキーワード同士を組にして出力するキーワード出力部を備えることを特徴とするキーワード抽出装置。
- コンピュータを用いて、文書データからキーワードを抽出するためのプログラムであって、前記コンピュータを、請求項1乃至4のいずれかに記載のキーワード抽出装置の各部として機能させるためのプログラム。
- 請求項5に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002315397A JP4222811B2 (ja) | 2002-10-30 | 2002-10-30 | キーワード抽出装置並びにプログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002315397A JP4222811B2 (ja) | 2002-10-30 | 2002-10-30 | キーワード抽出装置並びにプログラムおよび記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004151926A JP2004151926A (ja) | 2004-05-27 |
JP4222811B2 true JP4222811B2 (ja) | 2009-02-12 |
Family
ID=32459413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002315397A Expired - Fee Related JP4222811B2 (ja) | 2002-10-30 | 2002-10-30 | キーワード抽出装置並びにプログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4222811B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116587A (zh) * | 2011-11-17 | 2013-05-22 | 阿里巴巴集团控股有限公司 | 一种可缺省关键词的挖掘方法、数据搜索方法及设备 |
JP2017004127A (ja) * | 2015-06-05 | 2017-01-05 | 富士通株式会社 | テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8886661B2 (en) | 2006-03-23 | 2014-11-11 | Nec Corporation | Information extraction system, information extraction method, information extraction program, and information service system |
JP4985096B2 (ja) * | 2007-05-22 | 2012-07-25 | 富士ゼロックス株式会社 | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム |
JP4959621B2 (ja) * | 2008-04-04 | 2012-06-27 | 株式会社野村総合研究所 | キーワード抽出システム |
KR101931859B1 (ko) * | 2016-09-29 | 2018-12-21 | (주)시지온 | 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 |
-
2002
- 2002-10-30 JP JP2002315397A patent/JP4222811B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116587A (zh) * | 2011-11-17 | 2013-05-22 | 阿里巴巴集团控股有限公司 | 一种可缺省关键词的挖掘方法、数据搜索方法及设备 |
CN103116587B (zh) * | 2011-11-17 | 2015-09-09 | 阿里巴巴集团控股有限公司 | 一种可缺省关键词的挖掘方法、数据搜索方法及设备 |
JP2017004127A (ja) * | 2015-06-05 | 2017-01-05 | 富士通株式会社 | テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2004151926A (ja) | 2004-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7752032B2 (en) | Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor | |
JP3636941B2 (ja) | 情報検索方法と情報検索装置 | |
US5369577A (en) | Text searching system | |
US5708829A (en) | Text indexing system | |
US5323316A (en) | Morphological analyzer | |
JP3719415B2 (ja) | 情報検索方法、情報検索システム、およびプログラム | |
JP5273735B2 (ja) | テキスト要約方法、その装置およびプログラム | |
JP2009525520A (ja) | 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン | |
Gupta et al. | Text summarization of Hindi documents using rule based approach | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
Antognini et al. | GameWikiSum: a novel large multi-document summarization dataset | |
Gupta et al. | Features selection and weight learning for Punjabi text summarization | |
JP4222811B2 (ja) | キーワード抽出装置並びにプログラムおよび記録媒体 | |
JP4969209B2 (ja) | 検索システム | |
US9009023B2 (en) | Computer-readable medium having sentence dividing program stored thereon, sentence dividing apparatus, and sentence dividing method | |
JPH0944523A (ja) | 関連語提示装置 | |
JP2003263441A (ja) | キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体 | |
Lindemann et al. | Building corpus-based frequency lemma lists | |
JP2007172179A (ja) | 意見抽出装置、意見抽出方法、および意見抽出プログラム | |
Al Oudah et al. | Wajeez: An extractive automatic arabic text summarisation system | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
Steiner et al. | Growing trees from morphs: Towards data-driven morphological parsing | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP4373478B2 (ja) | 文書検索装置及び文書検索方法 | |
JP2001357065A (ja) | 類似文検索方法及び装置並びに類似文検索プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080603 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080718 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081118 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081118 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111128 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111128 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121128 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131128 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |