JP4934115B2

JP4934115B2 - キーワード抽出装置、方法及びプログラム

Info

Publication number: JP4934115B2
Application number: JP2008205896A
Authority: JP
Inventors: 毅司増山
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2008-08-08
Filing date: 2008-08-08
Publication date: 2012-05-16
Anticipated expiration: 2028-08-08
Also published as: JP2010040020A

Description

本発明は、キーワード抽出装置、方法及びプログラムに関する。さらに、詳細には、データベースに蓄積されたデータあるいはインターネットを介して取得されるデータなど、様々な文書データの分類に有効なキーワードの効率的な抽出を可能としたキーワード抽出装置，方法及びプログラムに関する。

パソコンやインターネットの普及、あるいは電子ファイリング技術の発展等に伴い、電子化された大量の文書データを利用可能な環境が整いつつあるが、一方で膨大な情報の中から重要なキーワードを自動的に抽出するシステムの必要性が生じている。

データベースに蓄積された文書データあるいはインターネットを介して取得される文書データなどを分類する手法として、これまでに、様々な手法が提案されている。例えば、文書データに含まれる特徴となる複数のキーワードを選択し、その分布や出現位置などを解析し、この解析結果に基づいて分類を行う手法が広く知られている。

文書データの分類処理を行う際に重要なのが、「分類を行うのに有効な単語」、すなわち、キーワードの選定である。従来から知られるキーワード選定手法を大きく分類すると、以下の（１）〜（３）の３つの手法に分類される。

（１）辞書データを用いるキーワード選定手法
辞書データを用いるキーワード選定手法は、あらかじめ文書データの分類に有効と考えられる単語群を辞書データとして登録し、登録された単語をキーワードとして用いる手法である。この辞書データをキーワードとして利用する手法は、例えば特許文献１、特許文献２に記載されている。

（２）分類対象の文書データに含まれる文書の文法解析によるキーワード選定手法
分類対象の文書データに含まれる文書の文法解析によるキーワード選定手法は、分類対象の文書データに含まれる文書の文法に基づいた形態素解析、あるいは独自の文法ルールによる解析を行い、その結果として抽出される単語をキーワードまたはその候補として用いる手法である。この手法は、例えば特許文献３、特許文献４に記載されている。

（３）分類対象の文書データの総比較によるキーワード選定手法
分類対象の文書データの総比較によるキーワード選定手法は、分類対象とる様々な文書データ各々の総比較を行い、様々な単語の出現頻度やその組み合わせデータを解析し、その解析結果に基づいてキーワードまたはキーワード候補を抽出する手法である。この手法は、例えば特許文献５に記載されている。

上述したように、キーワードの抽出手法としては、様々な手法が既に提案されている。しかし、例えば上述の「（１）辞書データを用いるキーワード選定手法」は、前提となる辞書を作成するのに専門的な知識と時間がかかる上に、作成された辞書は、想定外の分野の文章に関しては十分な効果をあげないという問題がある。例えば特定の専門分野、例えば医療や金融といった専門分野の文書の分類に有効なキーワードが不十分となったり、あるいは、新しく出現してきた単語に対する対応ができないといった問題がある。

また、「（２）分類対象の文書データに含まれる文書の文法解析によるキーワード選定手法」は、文法ルールを定型処理化するのに専門的な知識が必要である上に、想定外の言語や、文法的に成立しない自由形式の文章に対して十分な効果をあげないという問題点がある。

さらに、「（３）分類対象の文書データの総比較によるキーワード選定手法」は、処理対象となる文書データ量が増えると、その比較の処理にかかる時間が指数的に増え、処理効率が低下するという問題があり、また、日本語であれば文書中に頻出する「です」「ます」など、分類に有効な単語以外の語句が抽出されてしまうといという問題点がある。
この問題点を解決しようとするアルゴリズムに、ｔｆ・ｉｄｆ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ − ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ、文章中の特徴的な単語（重要とみなされる単語）を抽出するためのアルゴリズム）がある（後述する）。

特開２００２−２１５６４７号公報特開２００２−１０８８８８号公報特開２００３−３６２６１号公報特開２００２−２４５０６１号公報特開２００１−２２７５２号公報

本発明は、このような状況に鑑みてなされたものであり、上述した従来のキーワード抽
出手法における問題点を解決したキーワード抽出装置、方法及びプログラムを提供することを目的とする。

具体的には、前提となる知識（辞書、文法データ）を使用せず、自由形式（含、多言語）の文章に対応可能であり、高速な処理が可能であって、分類に有効な単語のみを抽出することを可能としたキーワード抽出サーバ及び方法及びプログラムを提供することを目的とする。

（１）入力されたテキストを句読点で分割する分割手段と、
前記分割手段により分割された分割部分から形態素を抽出する形態素抽出手段と、
前記形態素抽出手段により抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出手段と、
前記名詞抽出手段により抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度及び前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしてのスコアを演算する演算手段と、
前記演算の結果である前記スコアに基づいて、前記名詞をキーワードとするか否かを判断する判断手段と、を備えることを特徴とするキーワード抽出装置。

（１）に係る発明によれば、入力されたテキストから名詞を抽出し、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度及び前記テキスト中の文の総数と前記名詞がいくつの（テキスト中の）文に跨って出現したかを示す出現頻度との比を基にキーワードの判断を実行する。

このようにして、（１）に係る発明によれば、前提となる知識（辞書、文法データ）を使用せず、自由形式（多言語を含む）の文章に対応可能であり、高速な処理が可能であって、分類に有効な単語のみを抽出することができる。

すなわち、問題の解明や内容の理解の上で、重要な手掛かりとなる語であって、情報検索において検索の手掛かりとして使用する語として有効なキーワードのみを高速に抽出することが可能となる。

（２）前記演算手段は、前記名詞の文字数または前記名詞の文字数前後の対数演算値、前記名詞の前記テキスト中での出現頻度、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比または当該比前後の数の対数演算値とを乗算演算した値を前記スコアとすることを特徴とする（１）に記載のキーワード抽出装置。

（２）に係る発明によれば、（１）において抽出した名詞について、名詞の文字数または前記名詞の文字数前後の対数演算値、前記名詞の前記テキスト中での出現頻度、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比または当該比前後の数の対数演算値とを乗算演算した値を基にキーワードの判断を実行する。

このようにして、（２）に係る発明によれば、文字数、対数演算、テキスト中での名詞の出現頻度、文の総数及び比の演算という簡易な演算であって演算回数が少ない演算方法に基づいてキーワードが抽出できるので、前提となる知識（辞書、文法データ）を使用せず、自由形式（多言語を含む）の文章に対応可能であり、高速な処理が可能なキーワード抽出サーバを提供することが可能になる。

（３）インターネットにおいて送受信された文字情報を記憶した文字情報データベースと、
前記判断手段によって前記キーワードであると判断された前記名詞の中で最も前記スコアが大きい最大スコア名詞を選択する選択手段と、
前記最大スコア名詞と前記名詞とを前記文字情報データベースにおいて検索し、前記最大スコア名詞の検索件数、前記名詞の検索件数および前記最大スコア名詞および前記名詞の両方が含まれる検索件数とを検索し調査する検索手段と、
前記最大スコア名詞の検索件数、前記名詞の検索件数および前記最大スコア名詞並びに前記名詞の両方が含まれる検索件数に基づいて補正係数を演算する補正係数演算手段と、
前記補正係数と前記演算手段によって演算された前記スコアとに基づいて、補正スコアを演算する補正スコア演算手段とを備え、
前記判断手段は、前記補正スコアに基づいて、前記名詞をキーワードとするか否かを判断することを特徴とする（１）または（２）に記載のキーワード抽出装置。

（３）に係る発明によれば、前記最大スコア名詞と前記名詞とを前記文字情報データベースにおいて検索し、前記最大スコア名詞の検索件数、前記名詞の検索件数及び前記最大スコア名詞及び前記名詞の両方が含まれる検索件数とを検索し、それらの検索件数に基づいて、（１）に係わるキーワード候補となった名詞について補正を実行する。

このようにして、（３）に係る発明によれば、補正係数（スコアＢ）の効果（スコア（スコアＡ）の値が最も大きい最大スコア名詞との関連性が高い場合には、補正係数（スコアＢ）が大きくなり、スコアＡの値が最も大きい最大スコア名詞との関連性が小さい場合には、補正係数（スコアＢ）が小さくなる。）によって、キーワード性が低い語は、補正スコア（スコアＣ）が小さな値となり、キーワードとして判断されないように適切に演算処理されることが可能となる。

（４）前記補正係数演算手段は、前記最大スコア名詞並びに前記名詞の両方が含まれる検索件数を、前記最大スコア名詞の検索件数と前記名詞の検索件数との乗算演算値の平方根で除算演算した値を前記補正スコアとし、
前記判断手段は、前記補正スコアと前記スコアとの乗算演算値に基づいて、前記名詞をキーワードとするか否かを判断することを特徴とする（３）に記載のキーワード抽出装置。

（４）に係る発明によれば、前記最大スコア名詞並びに前記名詞の両方が含まれる検索件数を、前記最大スコア名詞の検索件数と前記名詞の検索件数との乗算演算値の平方根で除算演算した値に基づいて前記名詞をキーワードとするか否かを判断することを実行する。

このようにして、（４）に係る発明によれば、検索件数と検索件数文字数、乗算演算、平方根演算という簡易な演算であって演算回数が少ない演算方法に基づいてキーワードが抽出できるので、前提となる知識（辞書、文法データ）を使用せず、自由形式（多言語を含む）の文章に対応可能であり、高速な処理が可能なキーワード抽出サーバを提供することが可能になる。

（５）入力されたテキストを句読点で分割する分割工程と、
前記分割工程において分割された分割部分の形態素を抽出する形態素抽出工程と、
前記形態素抽出工程において抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出工程と、
前記名詞抽出工程において抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度及び前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしてのスコアを演算する演算工程と、
前記演算の結果である前記スコアに基づいて、前記名詞をキーワードとするか否かを判断する判断工程と、を備えることを特徴とするキーワード抽出方法。

（６）（５）に記載の方法をコンピュータに実行させることを特徴とするプログラム。

このような構成によれば、当該プログラムをコンピュータに実行させることにより、（５）と同様の効果が期待できる。

本発明によれば、前提となる知識（辞書、文法データ）を使用せず、自由形式（多言語を含む）の文章に対応可能であり、高速な処理が可能であって、分類に有効な単語のみを抽出することができる。すなわち、問題の解明や内容の理解の上で、重要な手掛かりとなる語であって、情報検索において検索の手掛かりとして使用する語として有効なキーワードのみを高速に抽出することが可能となる。

以下、本発明の実施形態について図を参照しながら説明する。

［システム全体構成］
図１には、本実施形態に係るキーワード抽出サーバ１０と、ユーザ端末３０とから構成される情報処理システム１を示す。なお、図１においては、情報処理システム１は、キーワード抽出サーバ１０と、ユーザ端末３０とがそれぞれ一つずつで示されているが、これに限られず、それぞれ複数台で構成されていてもよい。

キーワード抽出サーバ１０は、図２に示すように、制御部３００を構成するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３１０（マルチプロセッサ構成ではＣＰＵ３２０等複数のＣＰＵが追加されてもよい）、バスライン２００、通信Ｉ／Ｆ（Ｉ／Ｆ：インタフェース）３３０、メインメモリ３４０、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）３５０、Ｉ／Ｏコントローラ３６０、ハードディスク３７０、光ディスクドライブ３８０及び半導体メモリ３９０を備える。なお、ハードディスク３７０、光ディスクドライブ３８０及び半導体メモリ３９０はまとめて記憶装置４１０と呼ばれる。

制御部３００は、キーワード抽出サーバ１０を統括的に制御する部分であり、ハードディスク３７０に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。

通信Ｉ／Ｆ３３０は、キーワード抽出サーバ１０が、ネットワークを介してユーザ端末３０等の他の装置と情報を送受信する場合のネットワーク・アダプタである。

ＢＩＯＳ３５０は、キーワード抽出サーバ１０の起動時にＣＰＵ３１０が実行するブートプログラムや、キーワード抽出サーバ１０のハードウェアに依存するプログラム等を記録する。

Ｉ／Ｏコントローラ３６０には、ハードディスク３７０、光ディスクドライブ３８０、及び半導体メモリ３９０等の記憶装置４１０を接続することができる。

ハードディスク３７０は、本ハードウェアをキーワード抽出サーバ１０として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するテーブル等を記憶する。なお、キーワード抽出サーバ１０は、外部に別途設けたハードディスク（図示せず）を外部記憶装置として利用することもできる。

光ディスクドライブ３８０としては、例えば、ＤＶＤ−ＲＯＭドライブ、ＣＤ−ＲＯＭドライブ、ＤＶＤ−ＲＡＭドライブ、ＣＤ−ＲＡＭドライブを使用することができる。この場合は各ドライブに対応した光ディスク４００を使用する。光ディスク４００から光ディスクドライブ３８０によりプログラム又はデータを読み取り、Ｉ／Ｏコントローラ３６０を介してメインメモリ３４０又はハードディスク３７０に提供することもできる。

なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、キーワード抽出サーバ１０は、記憶装置４１０、制御部３００等を備えた情報処理装置により構成される。

また、本発明に係るキーワード抽出サーバ１０は、上述のような構成を有することにより、ユーザ端末３０から入力されたテキスト等を形態素解析し、入力されたテキストから名詞を抽出し、抽出された名詞についてキーワードとしてのスコアを演算し、スコアに基づいてキーワードとしてするか否かを判断する機能を有している。

ここで、当該機能を発揮するための構成について、図３に示す機能ブロック図を用いて説明する。キーワード抽出サーバ１０は、分割部１１と、形態素抽出部１２と、名詞抽出部１３と、演算部１４と、判断部１５と、選択部１６と、検索部１７と、補正係数演算部１８と、補正スコア演算部１９と、文字情報データベース（ＤＢ）２０とを備える。

分割部１１は、ユーザ端末３０から直接入力されたテキスト、文字情報データベース２０に既に記憶されているテキスト、放送局（図示せず）において放送された番組の中で発せられた音声情報に基づいて作成された文字情報としてのテキスト、音声情報として入力された情報を音声分析して文字情報化したテキスト、画像情報から作成されたテキスト（ＯＣＲ等含む）等のテキスト（英語、日本語等の言語の種類には限定されない）を句読点等の区切り記号で分割する機能を有する。

形態素抽出部１２は、分割部１１により分割された分割部分について形態素を抽出する。形態素の抽出には形態素解析手法を利用する。例えば、ｔｆ・ｉｄｆ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ − ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ、文章中の特徴的な単語（重要とみなされる単語）を抽出するためのアルゴリズム）の一部のアルゴリズムを利用して文字情報から複数の形態素を抽出する機能を有する。

名詞抽出部１３は、形態素抽出部１２により抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する機能を有する。

判断部１５は、名詞抽出手段により抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度及び前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしてのスコアを演算する機能を有する。

具体的には、名詞ｗに関するスコアＡをスコアＡ（ｗ）とすると

で示され、式中、｜ｗ｜は単語ｗの文字数であり、ｔｆ（ｗ）は単語ｗのテキスト中での出現頻度（テキスト中に何回出現したかを示す）、ｓｆ（ｗ）は単語ｗの文中での出現頻度（いくつの文に跨って出現したかを示す）、Ｎはテキスト中の文の総数を示す。
演算部１４は式（１）に基づいてスコアＡを演算する。

判断部１５は、演算部１４における式（１）演算の結果であるスコアＡに基づいて、名詞ｗをキーワードとするか否かを判断する機能を有する。
判断基準は任意の値に予め設定しておくことが可能である。任意の値は試行錯誤を繰り返しながら決定することが可能である。

ここで抽出するキーワードは、問題の解明や内容を理解する上で、重要な手がかりとなる語である。また、情報検索においては検索の手がかりとして使用する語句となるものである。

選択部１６は、判断部１５によってキーワードであると判断された名詞の中で最もスコアが大きい最大スコア名詞を選択する機能を有する。

検索部１７は、最大スコア名詞と名詞抽出部１３において抽出された名詞とをキーワード抽出サーバ１０のある文字情報データベース（ＤＢ）２０からまたは外部の文字情報ＤＢ（図示せず）において検索し、最大スコア名詞の検索件数、名詞の検索件数及び最大スコア名詞及び名詞の両方が含まれる検索件数とを検索し調査する機能を有する。

補正係数演算部１８は、最大スコア名詞の検索件数、名詞の検索件数及び最大スコア名詞並びに前記名詞の両方が含まれる検索件数に基づいて補正係数を演算する機能を有する。

具体的には、名詞ｗに関する補正係数ＢをスコアＢ（ｗ）とすると

で示され、式中、ＷｍａｘＡはスコアＡが最も大きい名詞を示し、｜ＷｍａｘＡ＆Ｗ｜は｜ＷｍａｘＡ｜と名詞ｗとのＡＮＤ検索（キーワード抽出サーバ１０のある文字情報データベース（ＤＢ）２０からまたは外部の文字情報ＤＢ（図示せず））でのヒット件数を示し、｜ＷｍａｘＡ｜は名詞ＷｍａｘＡの単独検索（キーワード抽出サーバ１０のある文字情報データベース（ＤＢ）２０からまたは外部の文字情報ＤＢ（図示せず））でのヒット件数を示し、｜Ｗ｜は名詞Ｗの単独検索（キーワード抽出サーバ１０のある文字情報データベース（ＤＢ）２０からまたは外部の文字情報ＤＢ（図示せず））でのヒット件数を示す。

補正スコア演算部１９は、補正係数と演算部１４において演算されたスコアとに基づいて、補正スコアを演算する機能を有する。

具体的には、名詞ｗに関するスコアＡをスコアＡ（ｗ）、名詞ｗに関する補正係数ＢをスコアＢ（ｗ）、名詞ｗに関する補正スコアを補正スコアＣ（ｗ）とすると、

で示される。

判断部１５は、補正スコアに基づいて、前記名詞をキーワードとするか否かを判断する。判断基準は任意の値に予め設定しておくことが可能である。任意の値は試行錯誤を繰り返しながら決定することが可能であり、以下に記述する本実施形態では、一例として１０を基準に１０よりも大きいスコアＡを持つ名詞をキーワードと判断することも可能である。

このような構成によれば、本発明に関わるキーワード抽出サーバ１０はユーザ端末３０から入力されたテキスト等を形態素解析し、入力されたテキストから名詞を抽出し、抽出された名詞についてキーワードとしてのスコアを演算し、スコアに基づいてキーワードとしてするか否かを判断する機能を有するばかりではなく、キーワード候補としての名詞について、最大スコア名詞との関係を他の記事とのデータベースでのヒット数（検索によってヒットした件数）による関連性で補正することにより、真にキーワードとするべき名詞を適切に抽出することが可能となった。

すなわち、従来技術の一例であるｔｆ・ｉｄｆと比較した場合に、ｔｆ・ｉｄｆではキーワード性が高い単語であっても、他の記事によく出現すればキーワード候補の名詞としてのスコアが小さくなってしまうというｔｆ・ｉｄｆの欠点を本発明では効率よく補正することができるという有利な効果がある。

また、従来技術の一例であるｔｆ・ｉｄｆと比較した場合に、ｔｆ・ｉｄｆではキーワード性が低くなってしまう名詞であっても、他の記事にあまり出現しなければスコアが大きくなってしまうというｔｆ・ｉｄｆの欠点を本発明では効率よく補正することができるという有利な効果がある。

［処理手順］
ここで、本発明を適用した場合において実現され得る具体的な処理手順について、図４に示すフローチャートを参照して説明する。なお、以下に示す処理手順は、一例であってこれ以外にも実現され得る処理手順は無数に存在する。

ステップＳ１において、キーワード抽出サーバ１０の分割部１１は、ユーザ端末３０から直接入力されたテキスト、文字情報データベース２０に既に記憶されているテキスト、その他外部機器（図示せず）から入力されたテキスト（英語、日本語等の言語の種類には限定されない）を句読点等の区切り記号で分割する。

ステップＳ２において、キーワード抽出サーバ１０の形態素抽出部１２は分割部１１により分割された分割部分から意味をもった最小の音形である形態素を抽出する。

ステップＳ３において、キーワード抽出サーバ１０の名詞抽出部１３は、形態素抽出部１２によって抽出された形態素についてその形態素が名詞であるか否かを判定し、名詞であると判定された形態素を抽出する。

ステップＳ４において、キーワード抽出サーバ１０の演算部１４は、ステップＳ３において抽出された名詞である形態素についてキーワードになり得るかの判断基準を示すスコアＡを演算する。

スコアＡは上述した式（１）に基づいて演算される。

ステップＳ５において、ステップＳ４において演算されたスコアＡが予め定められた値よりも大きい場合には、キーワード抽出サーバ１０の判断部１５は、そのスコアＡの値を示す形態素であるワード（名詞）をキーワードと判断する。一例として、スコアＡの値が１０前後よりも大きい場合に、そのスコアＡの値を示す形態素であるワード（名詞）をキーワードと判断することが可能である。

ステップＳ６において、キーワード抽出サーバ１０の選択部１６は、ステップＳ５において判断されたキーワードの中で最もスコアＡの値が大きい最大スコア名詞を選択する。

ステップＳ７において、キーワード抽出サーバ１０の検索部１７は、ステップＳ６において選択された最大スコア名詞について、文字情報データベース２０において検索を実行し、ヒット件数を最大スコア名詞の検索件数（｜ＷｍａｘＡ｜）とする。また、他のキーワード候補の名詞（Ｗ）について、文字情報データベース２０において検索を実行し、ヒット件数をキーワード候補名詞の検索件数（｜Ｗ｜）とする

さらに、キーワード抽出サーバ１０の検索部１７は、最大スコア名詞及び他のキーワード候補名詞の両方が含まれる情報を文字情報データベース２０において検索し、ヒットする検索件数（｜ＷｍａｘＡ＆Ｗ｜）を求める。

ステップＳ８において、キーワード抽出サーバ１０の補正係数演算部１８は、ステップＳ７において検索された｜ＷｍａｘＡ｜、｜Ｗ｜及び｜ＷｍａｘＡ＆Ｗ｜に基づいてスコアＡの補正係数（スコアＢ（ｗ））を演算する。補正係数（スコアＢ（ｗ））は上述した式（２）に基づいて演算される。

ステップＳ９において、キーワード抽出サーバ１０の補正スコア演算部１９は、ステップＳ８において演算された補正係数（スコアＢ（ｗ））とステップＳ４において演算されたスコアＡ（ｗ）とに基づいて、名詞ｗに関する補正スコアである補正スコアＣ（ｗ）を演算する。

ステップＳ１０において、キーワード抽出サーバ１０の判断部１５は、ステップＳ９において演算された名詞ｗに関する補正スコアＣ（ｗ）が予め定められた値よりも大きい場合には、その補正スコアＣ（ｗ）の値を示すワード（名詞）をキーワードと判断する。一例として、補正スコアＣ（ｗ）の値が１０前後よりも大きい場合に、その補正スコアＣ（ｗ）の値を示すワード（名詞）をキーワードと判断することが可能である。

このような構成によれば、本発明に関わるキーワード抽出サーバ１０はユーザ端末３０から入力されたテキスト等を形態素解析し、入力されたテキストから名詞を抽出し、抽出された名詞についてキーワードとしてのスコアを演算し、スコアに基づいてキーワードとするか否かを判断する機能を有するばかりではなく、キーワード候補としての名詞について、最大スコア名詞との関係を他の記事とのデータベースでのヒット数（検索によってヒットした件数）による関連性で補正することにより、真にキーワードとするべき名詞を適切に抽出することが可能となった。

［キーワードの特定方法］
また、キーワードの特定方法の一例について以下に説明する。例えば、入力されたテキストが図５に示されるように以下の文章の場合に名詞抽出部１３で抽出された名詞「デジカメ」、「カメラ」、「大写し」及び「グニャン」について本実施形態による補正スコアＣ（ｗ）、スコアＡ（ｗ）、スコアＢ（ｗ）及び従来技術の一例であるｔｆ・ｉｄｆスコアについて演算過程を図６に示し、演算結果を図７に示し説明する。

以上の入力されたテキストからキーワード抽出サーバ１０が、キーワード候補として判断した名詞が「デジカメ」、「カメラ」、「大写し」及び「グニャン」である場合について演算過程を示した図６を参照しつつ説明する。

キーワード候補として判断した名詞が「デジカメ」の場合に、スコアＡ（ｗ）を求めようとする場合には、ｌｏｇ（｜デジカメ｜＋１）＊ｔｆ（デジカメ）＊ｌｏｇ（Ｎ／（ｓｆ（デジカメ）＋１））を演算する必要がある（式（１）より）。

式中、｜デジカメ｜は単語デジカメの文字数であるので、上記入力されたテキストから４となり、ｌｏｇ（｜デジカメ｜＋１）はｌｏｇ（５）となる。

また、ｔｆ（デジカメ）は単語デジカメのテキスト中での出現頻度（テキスト中に何回出現したかを示す）ので、上記入力されたテキストから４となり、ｔｆ（デジカメ）は４となる。

さらに、ｓｆ（デジカメ）は単語デジカメの文中での出現頻度（いくつの文に跨って出現したかを示す）を示すので、上記入力されたテキストからｓｆ（デジカメ）は４となる。また、Ｎはテキスト中の文の総数を示すので、上記入力されたテキストからＮは２２となる。

したがって、ｌｏｇ（デジカメ／（ｓｆ（デジカメ）＋１））は、ｌｏｇ（２２／（４＋１））となる。

以上の結果、スコアＡ（デジカメ）の値は１２．０５０２になる。一例として、スコアＡの値が６前後よりも大きい場合に、そのスコアＡの値を示す形態素であるワード（名詞）をキーワードと判断すれば、デジカメは上記入力されたテキストのキーワードとすることができる。

次に、キーワード候補として判断した名詞が「グニャン」の場合に、スコアＡ（ｗ）を求めようとする場合には、デジカメの場合と同様にｌｏｇ（｜グニャン｜＋１）＊ｔｆ（グニャン）＊ｌｏｇ（Ｎ／（ｓｆ（グニャン）＋１））を演算する必要がある（式（１）より）。

式中、｜グニャン｜は単語デジカメの文字数であるので、上記入力されたテキストから４となり、ｌｏｇ（｜グニャン｜＋１）はｌｏｇ（５）となる。

また、ｔｆ（グニャン）は単語デジカメのテキスト中での出現頻度（テキスト中に何回出現したかを示す）ので、上記入力されたテキストから２となり、ｔｆ（グニャン）は２となる。

さらに、ｓｆ（グニャン）は単語デジカメの文中での出現頻度（いくつの文に跨って出現したかを示す）を示すので、上記入力されたテキストからｓｆ（グニャン）は１となる。また、Ｎはテキスト中の文の総数を示すので、上記入力されたテキストからＮは２２となる。

したがって、ｌｏｇ（グニャン／（ｓｆ（グニャン）＋１））は、ｌｏｇ（２２／（１＋１））となる。

以上の結果、スコアＡ（グニャン）の値は１０．０９２８になる。一例として、スコアＡの値が６前後よりも大きい場合に、そのスコアＡの値を示す形態素であるワード（名詞）をキーワードと判断すれば、グニャンは上記入力されたテキストのキーワードとすることができる。

同様に、キーワード候補として判断した名詞が「カメラ」の場合には、スコアＡ（カメラ）の値は６．８８９６になり、キーワード候補として判断した名詞が「大写し」の場合には、スコアＡ（大写し）の値は４．３４６７になる。

一例として、スコアＡの値が６前後よりも大きい場合に、そのスコアＡの値を示す形態素であるワード（名詞）をキーワードと判断すれば、「カメラ」及び「大写し」は上記入力されたテキストのキーワードとはなりにくい。

また、スコアＡだけの場合であっても、「デジカメ」のスコアＡの値が、「グニャン」のスコアＡの値よりも大きくなっており、「デジカメ」が適切なキーワードとして判断されやすくなっている。

次に、名詞「デジカメ」及び名詞「グニャン」の補正係数（スコアＢ）を演算する。

スコアＢ（ｗ）は｜ＷｍａｘＡ＆Ｗ｜と（｜ＷｍａｘＡ｜＊｜Ｗ｜）^１／２との除算演算によって求められる（（式２）より）。

式中、ＷｍａｘＡはスコアＡが最も大きい名詞「デジカメ」を示し、｜ＷｍａｘＡ＆Ｗ｜は「デジカメ」と名詞「デジカメ」または名詞「グニャン」とのＡＮＤ検索（キーワード抽出サーバ１０のある文字情報データベース（ＤＢ）２０からまたは外部の文字情報ＤＢ（図示せず））でのヒット件数を示し、｜ＷｍａｘＡ｜は名詞「デジカメ」の単独検索（キーワード抽出サーバ１０のある文字情報データベース（ＤＢ）２０からまたは外部の文字情報ＤＢ（図示せず））でのヒット件数を示し、｜Ｗ｜は名詞「デジカメ」または名詞「グニャン」の単独検索（キーワード抽出サーバ１０のある文字情報データベース（ＤＢ）２０からまたは外部の文字情報ＤＢ（図示せず））でのヒット件数を示す。

名詞「デジカメ」の場合には、｜ＷｍａｘＡ＆Ｗ｜と（｜ＷｍａｘＡ｜＊｜Ｗ｜）^１／２とは同じ値となるので、スコアＢ（デジカメ）は１となる（図６及び図７参照）。

名詞「グニャン」の場合には、｜ＷｍａｘＡ＆Ｗ｜すなわち｜デジカメ＆グニャン｜が２４件ヒットし、｜ＷｍａｘＡ｜すなわち｜デジカメ｜が１１３，０００，０００件ヒットし、｜Ｗ｜すなわち｜グニャン｜が７２７件ヒットした。

その結果、名詞「グニャン」のスコアＢ（グニャン）は２４／（１１３，０００，０００＊７２７）^１／２となり、おおよそ０．０００１となる（図６および７参照）。

同様に名詞「カメラ」の場合には、｜ＷｍａｘＡ＆Ｗ｜すなわち｜デジカメ＆カメラ｜が４０，８０００，０００件ヒットし、｜ＷｍａｘＡ｜すなわち｜デジカメ｜が１１３，０００，０００件ヒットし、｜Ｗ｜すなわち｜カメラ｜が３１０，０００，０００件ヒットした。

その結果名詞「カメラ」のスコアＢ（カメラ）は４０，８００，０００／（１１３，０００，０００＊３１０，０００，０００）^１／２となり、おおよそ０．２１（０．２１４１）となる（図６及び図７参照）。

同様に名詞「大写し」の場合には、｜ＷｍａｘＡ＆Ｗ｜すなわち｜デジカメ＆大写し｜が３２，８００件ヒットし、｜ＷｍａｘＡ｜すなわち｜デジカメ｜が１１３，０００，０００件ヒットし、｜Ｗ｜すなわち｜大写し｜が３３３，０００件ヒットした。

その結果名詞「大写し」のスコアＢ（カメラ）は３２，８００／（１１３，０００，０００＊３３３，０００）^１／２となり、おおよそ０．００６（０．００５６）となる（図６及び図７参照）。

次に、これらの結果から、補正スコア（スコアＣ）を演算する。

補正スコア（スコアＣ）は式（３）で示されるように、補正係数（スコアＢ）とスコアＡとを乗算演算した値であるので、名詞「デジカメ」の補正スコア（スコアＣ（デジカメ））は、１２．０５０２＊１＝１２．０５０２となり、名詞「カメラ」の補正スコア（スコアＣ（カメラ））は、６．８８９６＊０．２１４１＝１．４７５１となり、名詞「大写し」の補正スコア（スコアＣ（大写し））は、４．３４６７＊０．００５６＝０．０２４３となり、名詞「グニャン」の補正スコア（スコアＣ（グニャン））は、１０．０９２８＊０．０００１＝０．００１となる（図６及び図７参照）。

これらの結果、スコアＡ単独の値でキーワードを判断しようとした場合には、名詞「デジタルカメラ」のスコアＡ（デジタルカメラ）値と名詞「グニャン」のスコアＡ（グニャン）値は大きな値（例えば１０以上）となるので、名詞「デジタルカメラ」と名詞「グニャン」とがキーワードとして判断される可能性があった。

しかし、補正係数（スコアＢ）によれば、名詞「グニャン」のスコアＢ（グニャン）値は、０．０００１と非常に小さくなり、キーワードとしては不適切であることを補正係数（スコアＢ）によって、数字で的確に示すことが可能となった。

この結果、補正スコア（スコアＣ）によって、キーワードとして適切と考えられる名詞「デジカメ」の補正スコア（スコアＣ）値が大きな値（例えば１０以上）となる。したがって、数式と検索による高速な処理が可能となる補正スコア（スコアＣ）によって、分類に有効な名詞（キーワード）のみを容易に抽出することができるキーワード抽出サーバ及び方法及びプログラムを提供することができる。

また、ｔｆ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ）・ｉｄｆ（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）の値を図７に参考として示す。

ｔｆは、あるターム（本実施形態においては、名詞「デジカメ」、「カメラ」、「大写し」、「グニャン」を示す）が文書に高い頻度で出現すればそのタームはその文書を特徴付ける単語と考えられることからｔｆの値は大きくなる（その文書中での出現頻度を示す。）

また、ｉｄｆは、文書の頻度を示す。前述のｔｆが大きければそのタームが重要な意味を持つが、例えば「こと」というような名詞は文書中に比較的に高頻度で出現するが特定の文書を特徴付けることにはならない。したがって、複数の文書におけるそのタームの出現頻度ｄｆ（ＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）の逆数（ｉｄｆ）をとって、ｄｆの値が小さいもの（文書を特徴付けるタームである可能性が高い）ほどｉｄｆが大きくなるようにし、文書を特徴付ける単語を抽出するようにする。

具体的には、下記式（４）で演算される。

で示され、式中、ｔｆ（ｗ）は単語ｗのテキスト中での出現頻度（テキスト中に何回出現したかを示す）、ｄｆ（ｗ）は単語ｗの文書集合中での出現頻度（いくつの文書に出現したかを示す）、Ｎは文書集合に含まれる文書の総数を示す。

ここで、名詞「デジカメ」の場合にはｔｆ（デジカメ）が４となり、ｄｆ（デジカメ）が９７，２００，０００となり、Ｎが１９，２００，０００，０００（Ｗｅｂ文書の総数とみなされる数）となるので、ｔｆ・ｉｄｆ値は２１．１６３８になる。

また、名詞「グニャン」の場合にはｔｆ（グニャン）が２となり、ｄｆ（グニャン）が７２７となり、Ｎが１９，２００，０００，０００（Ｗｅｂ文書の総数とみなされる数））となるので、ｔｆ・ｉｄｆ値は３４．１７８５になる。

同様に、名詞「大写し」の場合にはｔｆ・ｉｄｆ値は１０．５２２４になり、名詞「カメラ」の場合にはｔｆ・ｉｄｆ値は８．５４１９となる。

ここで、「カメラ」と「大写し」とを比較すると、ｔｆ・ｉｄｆでは、「カメラ」のようにキーワード性が高い語であっても、他の記事（文書）によく出現するために、低いスコア（値）になっていることがわかる。

また、ｔｆ・ｉｄｆでは、「大写し」のようにキーワード性が低い語であっても、他の記事（文書）にはあまり出現しないために、高いスコア（値）になっていることがわかる。

しかし、本実施形態では、「カメラ」と「大写し」を比較した場合には、「カメラ」の方が高いスコア（「カメラ」の補正スコア（スコアＣ（カメラ）は８．５４、「大写し」の補正スコア（スコアＣ（大写し）は０．０２）となっていて、キーワード候補が適切に判断されていることが確認される。

さらに、ｔｆ・ｉｄｆでは、「グニャン」のようにキーワード性が低い語であっても、他の記事（文書）にあまり出現しないために、高いスコア（値）になっていることがわかる。

しかし、本実施形態では、補正係数（スコアＢ）の効果（スコアＡの値が最も大きい最大スコア名詞との関連性が高い場合には、補正係数（スコアＢ）が大きくなり、スコアＡの値が最も大きい最大スコア名詞との関連性が小さい場合には、補正係数（スコアＢ）が小さくなる。）によって、「グニャン」のようにキーワード性が低い語は、補正スコア（スコアＣ）が小さな値となって、キーワードとして判断されないように適切に演算処理される。

また、スコアＡだけの場合であっても、「デジカメ」のスコアＡの値が、「グニャン」のスコアＡの値よりも大きくなっており、「デジカメ」が適切なキーワードとして判断されやすくなっている。
［他のキーワードの特定方法］

さらに、他のキーワードの特定方法の一例について以下に説明する。例えば、入力されたテキストが図８に示される文章の場合に名詞抽出部１３で抽出された名詞「地震」、「災害」、「震度」及び「余震」について本実施形態によるスコアＡ（ｗ）、補正係数であるスコアＢ（ｗ）、補正スコアであるスコアＣ（ｗ）について演算し、その演算結果について説明する。

キーワード候補として判断した名詞が「災害」の場合には、スコアＡ（ｗ）は３．５４、補正係数（スコアＢ）は０．２９、補正スコア（スコアＣ）は１．０３となる。

また、キーワード候補として判断した名詞が「地震」の場合には、スコアＡ（ｗ）は７．２４、補正係数（スコアＢ）は１．０、補正スコア（スコアＣ）は７．２４となる。

また、キーワード候補として判断した名詞が「震度」の場合には、スコアＡ（ｗ）は３．５４、補正係数（スコアＢ）は０．２７、補正スコア（スコアＣ）は０．９４となる。

また、キーワード候補として判断した名詞が「余震」の場合には、スコアＡ（ｗ）は４．２８、補正係数（スコアＢ）は０．１５、補正スコア（スコアＣ）は０．６６となる。

以上のキーワード候補とした名詞「地震」、「災害」、「震度」及び「余震」についてスコアＡ（ｗ）を演算すると、「地震」が最も大きな値となる。

「地震」という名詞は、地震が発生した場合など、特別な場合に使用されることが多いため専門性の高い語だと言える。したがって、「地震」はキーワード候補としてふさわしい名詞と考えられる。

補正係数であるスコアＢ（ｗ）は、スコアＡ（ｗ）が最も大きな値を有する名詞に基づいて演算されるので、「地震」という名詞と共起する「災害」、「震度」、「余震」に対して、スコアＢ（ｗ）のスコア値が高くなる。

さらに、補正スコアであるスコアＣ（ｗ）は補正係数であるスコアＢ（ｗ）の演算結果を利用するので（式（３）参照）、「災害」、「震度」、「余震」の補正スコア値は大きな値となり、専門性の高い語からキーワードを適切に抽出することが可能であることが示される。

以上、この例を分析すると、スコアＡの計算により、スコアＡが最も大きい単語が「地震」となる。「地震」という語は、地震が起こったときなど、特別な場合に使われることが多いため、専門性が高い語だといえる。そのため、スコアＢの計算により、地震とよく共起する「災害」、「震度」、「余震」に高いスコアが付く。スコアCの計算では、スコアＢの計算結果を利用するため、「災害」、「震度」、「余震」に高いスコアが付くことがわかる。

[変形例]
新聞記事、雑誌記事、あるいはニュース情報等の情報源からキーワードを抽出したい場合がある。この場合にも、新聞記事、雑誌記事、あるいはニュース情報等の情報をテキスト化しておくことによって、本実施形態によるキーワード抽出サーバ１０においてスコアＡ、スコアＢ、スコアＣを使用した演算によってキーワードを抽出することができる。キーワードはスコアＡ、またはスコアＣの値が高い値から選択することができる。

また、静止画または動画等の画像情報に関連したキーワードを抽出したい場合がある。

この場合には対象となる画像情報のＵＲＬをキーワード抽出サーバ１０が検索し、検索結果の上位の記事情報（タイトル及びスニペットを含む。）をテキストとしてキーワード抽出サーバ１０が取得する。

対象となる画像情報のＵＲＬを紹介している記事の周辺には、関連するワードも出現していることが考えられるためである。

キーワード抽出サーバ１０が検索し、取得した検索結果の上位の記事情報（タイトル及びスニペットを含む。）から、キーワード抽出サーバ１０においてスコアＡ、スコアＢ、スコアＣを使用した演算によって画像情報のキーワードを抽出することができる。キーワードはスコアＡ、またはスコアＣの値が高い値から選択することができる。

また、記事情報に検索インデックスを付与したい場合がある。この場合にも、記事情報をテキスト化しておくことによって、本実施形態によるキーワード抽出サーバ１０においてスコアＡ、スコアＢ、スコアＣを使用した演算によってキーワードを抽出することができる。

この場合、検索インデックスとするキーワードは複数選択することができ、スコアＡ、またはスコアＣの値が高いワードから順番に検索インデックスとすることができる。

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。

なお、本実施形態においては、サーバ１０は、ハードディスク３７０及び光ディスクドライブ３８０を有する構成として説明したが、これに限られず、これらの駆動系を有さない構成、いわゆるゼロスピンドルによる構成であってもよい。このような構成の場合には、ハードディスク３７０に記憶される内容は、大容量の半導体メモリ３９０に記憶される。

本実施形態に係るサーバと、ユーザ端末とから構成される情報処理システムを示す図である。本発明に係るサーバの構成を示すブロック図である。本実施形態に係るサーバの機能的な構成を示す機能ブロック図である。本実施形態に係るサーバによる処理手順についての説明に供するフローチャートである。本実施形態に係る入力テキストの一例を示す図である。本実施形態に係るスコアの演算例を示す図である。本実施形態に係るスコアの演算結果例を示す図である。本実施形態に係る他の入力テキストの一例を示す図である。

符号の説明

１情報処理システム
１０キーワード抽出サーバ
１１分割部
１２形態素抽出部
１３名詞抽出部
１４演算部
１５判断部
１６選択部
１７検索部
１８補正係数演算部
１９補正スコア演算部
２０文字情報データベース（ＤＢ）
３０ユーザ端末

Claims

インターネットにおいて送受信された文字情報を記憶した文字情報データベースと、
インターネットにおいて送受信された文字情報を記憶した前記文字情報データベースと異なる外部データベースと、
前記文字情報データベースから読み出されたテキストを句読点で分割する分割手段と、
前記分割手段により分割された分割部分から形態素を抽出する形態素抽出手段と、
前記形態素抽出手段により抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出手段と、
前記名詞抽出手段により抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度及び前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしての基準スコアを演算する演算手段と、
前記演算の結果である前記基準スコアに基づいて、前記名詞をキーワード候補とするか否かを判断する判断手段と、
前記判断手段によって前記キーワード候補であると判断された前記名詞の中で最も前記基準スコアが大きい最大スコア名詞を選択する選択手段と、
前記最大スコア名詞と前記名詞とを前記外部データベースにおいて検索し、前記最大スコア名詞の検索件数、前記名詞の検索件数及び前記最大スコア名詞と前記名詞との両方が含まれる検索件数を検索し調査する検索手段と、
前記最大スコア名詞の検索件数、前記名詞の検索件数及び前記最大スコア名詞と前記名詞との両方が含まれる検索件数に基づいて補正係数を演算する補正係数演算手段と、
前記補正係数と前記演算手段によって演算された前記基準スコアとに基づいて、補正スコアを演算する補正スコア演算手段とを備え、
前記判断手段は、前記補正スコアと判断基準値とを比較して、前記キーワード候補と判断された前記名詞をキーワードとするか否かを判断することを特徴とするキーワード抽出装置。
前記演算手段は、前記名詞の文字数または前記名詞の文字数前後の対数演算値、前記名詞の前記テキスト中での出現頻度、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比または当該比前後の数の対数演算値とを乗算演算した値を前記基準スコアとすることを特徴とする請求項１に記載のキーワード抽出装置。
前記補正係数演算手段は、前記最大スコア名詞並びに前記名詞の両方が含まれる検索件数を、前記最大スコア名詞の検索件数と前記名詞の検索件数との乗算演算値の平方根で除算演算した値を前記補正スコアとし、
前記判断手段は、前記補正スコアと前記基準スコアとの乗算演算値に基づいて、前記名詞をキーワードとするか否かを判断することを特徴とする請求項１に記載のキーワード抽出装置。
インターネットにおいて送受信された文字情報を記憶した文字情報データベースから読み出されたテキストを句読点で分割する分割工程と、
前記分割工程において分割された分割部分の形態素を抽出する形態素抽出工程と、
前記形態素抽出工程において抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出工程と、
前記名詞抽出工程において抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度及び前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしての基準スコアを演算する演算工程と、
前記演算の結果である前記基準スコアに基づいて、前記名詞をキーワード候補とするか否かを判断する判断工程と、
前記判断工程において前記キーワード候補であると判断された前記名詞の中で最も前記基準スコアが大きい最大スコア名詞を選択する選択工程と、
前記最大スコア名詞と前記名詞とを、インターネットにおいて送受信された文字情報を記憶した前記文字情報データベースと異なる外部データベースにおいて検索し、前記最大スコア名詞の検索件数、前記名詞の検索件数及び前記最大スコア名詞と前記名詞との両方が含まれる検索件数を検索し調査する検索工程と、
前記最大スコア名詞の検索件数、前記名詞の検索件数及び前記最大スコア名詞と前記名詞との両方が含まれる検索件数に基づいて補正係数を演算する補正係数演算工程と、
前記補正係数と前記演算工程において演算された前記基準スコアとに基づいて、補正スコアを演算する補正スコア演算工程とを備え、
前記判断工程では、前記補正スコアに基づいて、前記名詞をキーワードとするか否かを判断することを特徴とするキーワード抽出方法。
請求項４に記載の方法をコンピュータに実行させることを特徴とするプログラム。