JP2017117021A

JP2017117021A - キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム

Info

Publication number: JP2017117021A
Application number: JP2015249124A
Authority: JP
Inventors: 啓一副島; Keiichi Soejima
Original assignee: Faber & Tech Co Inc; Faber & Technology; Faber & Technology Co Inc
Current assignee: Faber & Tech Co Inc; Faber & Technology; Faber & Technology Co Inc
Priority date: 2015-12-21
Filing date: 2015-12-21
Publication date: 2017-06-29
Anticipated expiration: 2035-12-21
Also published as: JP6653169B2

Abstract

【課題】利用者が知りたい情報に応じたキーワードを抽出することができるキーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、プログラムを提供することを目的とする。【解決手段】検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索部と、検索された複数のコンテンツの中から所定のドメインのコンテンツを除去する第１ノイズ除去部と、所定のドメインのコンテンツが除去された複数のコンテンツの中から１つのコンテンツを逐次選択し、選択したコンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を選択したコンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部と、メインコンテンツ抽出部によって抽出されたメインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出部と、を備える。【選択図】図２

Description

本発明は、キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラムに関する。

近年のインターネットの急速な普及に伴い、Ｗｅｂ（ウェブ）サイトで提供されているサービスを利用して、情報を調べたり、ウェブサイトで販売されている商品を購入したりしる利用者が増えている。
このような場合に、利用者は、知りたい情報に関するキーワード（以下、検索キーワードという）を検索エンジンに入力して、利用したいサービスを提供しているウェブサイトを検索する。そして、利用者は、検索された結果、表示部上に表示されるウェブサイトのうち、例えば上位に表示されたウェブサイトから逐次アクセスして、そのサイトを閲覧する。

検索エンジンは、例えば検索キーワードとウェブサイトのソースコードの記述とを照らし合わせて、検索キーワードとウェブサイトのソースコードの記述との適合度によって、検索結果として表示されるウェブサイトを選択する。

このため、近年、ウェブサイトの運営者の間では、ウェブサイトにどのような記述を行えば、検索結果の上位に表示されるようになるかを知りたいという需要が存在する。
このような需要に応じて、ウェブサイトのコンテンツを構築するためのキーワードを抽出するキーワード抽出システムが提案されている。キーワード抽出システムでは、ウェブサイトを構成するウェブページ毎に、あらかじめ検索キーワードを決めておく。キーワード抽出システムでは、検索エンジンにおける検索履歴を検索キーワード毎に取得する。キーワード抽出システムでは、取得した検索履歴の多い順に検索キーワードを選択する。このように、キーワード抽出システムでは、検索エンジンの検索回数が多いキーワードを、コンテンツを構築するためのキーワードとして選択する（例えば、特許文献１参照）。

特開２００６−１４６４４６号公報

しかしながら、検索結果の上位に表示されるには、検索キーワードをｍｅｔａ（メタ）タグやコンテンツ内に記述するだけでは不足であり、検索キーワードと適合しやすい記述をコンテンツに含んでいる必要がある。
このため、特許文献１に記載の技術では、検索回数の多いキーワードをコンテンツが含んでいるだけであり、利用者が得たい情報が含まれているとは限らない。従って、検索回数の多いキーワードを含んでいても、検索結果の上位に表示されない場合もあった。

本発明は上記の点に鑑みてなされたものであり、利用者が知りたい情報に応じたキーワードを抽出することができるキーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラムを提供することを目的とする。

（１）上記目的を達成するため、本発明の一態様に係るキーワード抽出装置は、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索部と、前記検索部によって検索された前記複数のコンテンツの中から、キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する第１ノイズ除去部と、前記第１ノイズ除去部によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部と、前記メインコンテンツ抽出部によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出部と、を備える。

（２）また、本発明の一態様に係るキーワード抽出装置は、前記メインコンテンツ抽出部によって抽出された前記メインコンテンツの情報から、所定のタグによって記述されている情報を除去することで、前記キーワードの抽出において意味を成していない不要な記述を除去する第２ノイズ除去部、をさらに備え、前記キーワード抽出部は、前記第２ノイズ除去部によって前記所定のタグによって記述されている情報が除去された後の前記メインコンテンツのテキストからキーワードを抽出するようにしてもよい。

（３）上記目的を達成するため、本発明の一態様に係るキーワード抽出装置は、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索部と、前記検索部によって検索された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツから所定のタグによって記述されている情報を除去することで、キーワードの抽出において意味を成していない不要な記述を除去する第２ノイズ除去部と、前記第２ノイズ除去部によって前記所定のタグによって記述されている情報が除去された前記コンテンツのテキストから複数のキーワードを抽出するキーワード抽出部と、を備える。

（４）また、本発明の一態様に係るキーワード抽出装置は、前記検索部と前記キーワード抽出部との間に第１ノイズ除去部、をさらに備え、前記第１ノイズ除去部は、前記検索部によって検索された前記複数のコンテンツの中から、前記キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去するようにしてもよい。

（５）また、本発明の一態様に係るキーワード抽出装置は、前記第２ノイズ除去部によって前記コンテンツから所定のタグによって記述されている情報が除去されたコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部、をさらに備えるようにしてもよい。
（６）また、本発明の一態様に係るキーワード抽出装置は、前記第１ノイズ除去部によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部、をさらに備えるようにしてもよい。

（７）また、本発明の一態様に係るキーワード抽出装置において、前記検索部は、前記検索キーワードに基づいて、コンテンツを検索するドメインを限定して前記コンテンツを検索し、前記キーワード抽出部は、前記限定したドメインのコンテンツのテキストから複数のキーワードを抽出し、抽出した結果に基づいてキーワードリストを生成するようにしてもよい。

（８）また、本発明の一態様に係るキーワード抽出装置において、前記検索部は、前記検索キーワードに基づいて、予め定められている少なくとも２つのドメインの異なるコンテンツを検索し、前記キーワード抽出部は、前記異なるドメインのコンテンツのテキストそれぞれから複数のキーワードをそれぞれ抽出し、前記異なるドメインのコンテンツのテキストそれぞれから抽出したキーワードを比較し、比較した結果に基づいてキーワードリストを生成するようにしてもよい。

（９）また、本発明の一態様に係るキーワード抽出装置において、前記検索部は、前記検索キーワードに基づいて、コンテンツを検索し、前記キーワード抽出部が前記コンテンツのテキストから抽出した複数のキーワードに基づいて検索して評価対象のサイトの検索結果の順位を検索し、前記キーワード抽出部は、前記コンテンツのテキストから複数のキーワードを抽出し、抽出した前記複数のキーワードが前記評価対象のサイトのコンテンツで使用されているか否かを判別した結果と、前記検索部が検索した前記評価対象のサイトの検索順位に基づいてキーワードリストを生成するようにしてもよい。

（１０）また、本発明の一態様に係るキーワード抽出装置は、前記メインコンテンツ抽出部が抽出した前記メインコンテンツから少なくとも１つの文章を抽出する文章抽出部と、前記検索部によって前記文章に基づいて検索された順位を取得する検索順位取得部と、前記検索順位取得部が取得した順位に基づいて、前記文章が抽出された評価を行う対象のウェブページに対して評価を行う評価結果生成部と、をさらに備えるようにしてもよい。

（１１）また、本発明の一態様に係るキーワード抽出装置は、前記検索部が検索した結果から、検索キーワードに基づく予測言葉を取得するサジェスト取得部と、前記サジェスト取得部によって取得された複数の前記予測言葉のうち１つを選択し、前記選択した予測言葉を前記検索部によって検索した結果から、前記メインコンテンツ抽出部によって抽出されたメインコンテンツを用いて、前記選択した予測言葉の検索順位を取得する検索順位取得部と、前記検索順位取得部が取得した順位に基づいて、評価を行う対象のウェブページに対して評価を行う評価結果生成部と、をさらに備えるようにしてもよい。

（１２）上記目的を達成するため、本発明の一態様に係るコンテンツ生成システムは、（１）から（１１）のいずれか１つに記載のキーワード抽出装置と、前記キーワード抽出装置が抽出した前記複数のキーワードを用いて、所定のコンテンツを生成するコンテンツ生成装置と、を備える。

（１３）上記目的を達成するため、本発明の一態様に係るキーワード抽出方法は、検索部が、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、第１ノイズ除去部が、前記検索手順によって検索された前記複数のコンテンツの中から、キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する第１ノイズ除去手順と、メインコンテンツ抽出部が、前記第１ノイズ除去手順によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出手順と、キーワード抽出部が、前記メインコンテンツ抽出手順によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、を含む。

（１４）上記目的を達成するため、本発明の一態様に係るキーワード抽出方法は、検索部が、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、第２ノイズ除去部が、前記検索手順によって検索された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツから所定のタグによって記述されている情報を除去することで、キーワードの抽出において意味を成していない不要な記述を除去する第２ノイズ除去手順と、キーワード抽出部が、前記第２ノイズ除去手順によって前記所定のタグによって記述されている情報が除去された前記コンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、を含む。

（１５）上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、前記検索手順によって検索された前記複数のコンテンツの中から、キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する第１ノイズ除去手順と、前記第１ノイズ除去手順によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出手順と、前記メインコンテンツ抽出手順によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、を実行させる。

（１６）上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、前記検索手順によって検索された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツから所定のタグによって記述されている情報を除去することで、キーワードの抽出において意味を成していない不要な記述を除去する第２ノイズ除去手順と、前記第２ノイズ除去手順によって前記所定のタグによって記述されている情報が除去された前記コンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、を実行させる。

本発明によれば、利用者が知りたい情報に応じたキーワードを抽出することができる。

第１実施形態に係るキーワード抽出装置の操作画面を示す図である。第１実施形態に係るキーワード抽出装置の概略構成図である。第１実施形態に係るドメインＤＢに格納されている情報の一例を示す図である。ウェブページの構成の一例を示す図である。第１実施形態に係るキーワード抽出装置の処理のフローチャートである。ウェブページのソースコードの例を示す図である。第１実施形態に係る自ウェブページとリンク先のウェブページの構成例を示す図である。第１実施形態に係るメインコンテンツの抽出処理の手順のフローチャートである。第１実施形態に係るキーワード抽出部の構成を示すブロック図である。第１実施形態に係るキーワードリスト出力部が出力するキーワードリストの例を示す図である。第１実施形態に係るキーワードの抽出処理のフローチャートである。第１実施形態の変形例に係るキーワード抽出装置の概略構成図である。第１実施形態の変形例に係るタグＤＢに格納されている情報の一例を示す図である。第１実施形態の変形例に係るキーワード抽出装置の処理のフローチャートである。第１実施形態の変形例に係る無意味言葉の除去処理のフローチャートである。第２実施形態に係る本実施形態に係るキーワード抽出装置の概略構成図である。第２実施形態に係るタグＤＢに格納されている情報の一例を示す図である。第２実施形態に係るキーワード抽出装置の処理のフローチャートである。第２実施形態の第１変形例に係るキーワード抽出装置の概略構成図である。第２実施形態の第１変形例に係るキーワード抽出装置の処理のフローチャートである。第２実施形態の第２変形例に係るキーワード抽出装置の概略構成図である。第２実施形態の第２変形例に係るドメインＤＢに格納されているドメインの一例を示す図である。第２実施形態の第２変形例に係るキーワード抽出装置による操作画面の例を示す図である。第２実施形態の第２変形例に係る第７の抽出方法による重要キーワード抽出装置によるキーワードの検索結果の比較例を示す図である。第２実施形態の第２変形例に係る第８の抽出方法が選択された場合のキーワード抽出装置による操作画面の例を示す図である。第２実施形態の第２変形例に係る第８の抽出方法における処理のフローチャートである。第２実施形態の第２変形例に係る第９の抽出方法が選択された場合のキーワード抽出装置による評価結果の例を示す図である。第３本実施形態に係るキーワード抽出装置の概略構成図である。第３実施形態に係るキーワード抽出装置が行う評価処理のフローチャートである。第３実施形態に係る評価結果の例を示す図である。第４本実施形態に係るキーワード抽出装置の概略構成図である。第４実施形態に係るキーワード抽出装置が行う評価処理のフローチャートである。第４実施形態に係る評価結果の例を示す図である。第５実施形態に係るコンテンツ生成システムを示す構成図である。

［本発明の概要］
まず、本発明の概要を説明する。
本発明では、ウェブサイトに関する検索キーワードを、検索エンジンによって検索する。なお、検索キーワードとは、ウェブページの閲覧者が、検索エンジンに入力すると想定されるキーワードである。そして、本発明では、検索されたウェブページのうち上位から所定の個数のウェブページを選択する。そして、本発明では、選択した所定の個数ウェブページ（コンテンツともいう）それぞれからノイズを除去する。そして、本発明では、ノイズを除去したコンテンツに含まれるテキストを解析して、キーワードを抽出する。なお、キーワードとは、検索キーワードを用いて検索エンジンで検索した結果、検索結果の上位に表示されたウェブページに含まれているキーワードである。なお、各処理については、後述する。

以下、図面を用いて本発明の実施形態について詳細に説明する。なお、本発明は係る実施形態に限定されず、その技術思想の範囲内で種々の変更が可能である。

［第１実施形態］
図１は、本実施形態に係るキーワード抽出装置１の操作画面ｇ１０１を示す図である。
図１において、四角ｇ１１１は、検索キーワードの入力欄であり、四角ｇ１１２は、検索キーワードに基づいてキーワードの抽出を開始するボタンの画像であり、四角ｇ１１３は、検索キーワードに基づいて、キーワード抽出装置１によって抽出されたキーワードのリストが表示される欄である。

＜キーワード抽出装置１の構成＞
図２は、本実施形態に係るキーワード抽出装置１の概略構成図である。
図２に示すように、キーワード抽出装置１は、キーワード入力部１１、検索部１２、ドメインＤＢ１３、第１ノイズ除去部１４、メインコンテンツ抽出部１５、キーワード抽出部１８、およびキーワードリスト出力部１９を備える。また、キーワード抽出装置１は、ネットワーク２に接続されている。ネットワーク２は、例えばインターネットである。

キーワード入力部１１は、例えばキーボード、マウス、タブレット等である。キーワード入力部１１は、利用者によって入力された検索キーワードを検索部１２に出力する。

検索部１２は、キーワード入力部１１が出力した検索キーワードを取得し、取得した検索キーワードに適したウェブページを、検索エンジンを用いて検索する。検索部１２は、検索によって得られたウェブページのうち、上位から所定の個数のウェブページを選択する。なお、所定の個数とは、例えば２０個である。検索部１２は、選択した所定の個数のウェブページを示す情報を第１ノイズ除去部１４に出力する。なお、検索結果には、各ウェブページのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ；ユニフォームリソースロケータ）アドレスが含まれている。

ドメインＤＢ１３には、キーワードを抽出する上で不要なウェッブサイトのドメインが格納されている。ここで、不要なドメインとは、ウェブページの一部をまとめたサイト等のコンテンツとして意味をなしていないウェッブサイトのドメインである。

第１ノイズ除去部１４は、検索部１２が出力した所定の個数のウェブページを示す情報を用いて、所定の個数のウェブページからドメインＤＢ１３に格納されているドメインのウェブページを除去して、除去したウェブページを示す情報をメインコンテンツ抽出部１５に出力する。ウェブページを示す情報には、ウェブページのソースコードが含まれている。また、ウェブページの情報には、ヘッダー、サイドバー、メインコンテンツ、フッター等が含まれている。なお、所定の個数のウェブページに、ドメインＤＢ１３に格納されているドメインのウェブページが無い場合、第１ノイズ除去部１４は、所定の個数のウェブページを示す情報をメインコンテンツ抽出部１５に出力する。

メインコンテンツ抽出部１５は、第１ノイズ除去部１４が出力した所定の個数のウェブページを示す情報を用いて、所定の個数のウェブページの中から１つのウェブページの情報を逐次選択し、選択したウェブページの情報の中からメインコンテンツを抽出する。なお、メインコンテンツの抽出方法については、後述する。メインコンテンツ抽出部１５は、抽出したメインコンテンツを、ウェブページ毎にキーワード抽出部１８に出力する。

キーワード抽出部１８は、メインコンテンツ抽出部１５が出力したメインコンテンツから複数のキーワードを抽出する。キーワード抽出部１８は、抽出した複数のキーワードに対して、後述するようにソート（ｓｏｒｔ）処理を行い、ソート処理を行ったキーワードリストをキーワードリスト出力部１９に出力する。なお、キーワードの抽出方法、ソート処理については、後述する。

キーワードリスト出力部１９は、例えばＷｅｂ上での情報提供部、表示装置、プリンタ装置、通信装置のうち少なくとも１つである。キーワードリスト出力部１９は、キーワード抽出部１８が出力したキーワードリストを、例えばＷｅｂ上で提供する。

次に、ドメインＤＢ１３に格納されている情報の一例を説明する。
図３は、本実施形態に係るドメインＤＢ１３に格納されている情報の一例を示す図である。図３に示すように、ドメインＤＢ１３には、少なくとも１つのドメインが格納されている。なお、ドメインＤＢ１３に格納されるドメインは、ネットワーク２を介して更新されるようにしてもよい。なお、利用者がキーワードを入力するときに、キーワードを抽出する上で不要なウェッブサイトのドメインを入力するようにしてもよい。そして、キーワード抽出装置１は、入力されたドメインを、一時的にドメインＤＢに格納して、キーワードを抽出するようにしてもよい。

次に、ウェブページｇ２０１の構成の一例を説明する。
図４は、ウェブページｇ２０１の構成の一例を示す図である。図４に示す例は、２カラムで、右にメニューがある例である。図４に示す例のウェブページｇ２０１は、ヘッダーｇ２２１、サイドバーｇ２２２、およびメインコンテンツｇ２２３を含んで構成されている。

＜キーワード抽出装置１の処理手順＞
次に、キーワード抽出装置１の処理手順について説明する。図５は、本実施形態に係るキーワード抽出装置１の処理のフローチャートである。
（ステップＳ１）キーワード入力部１１は、利用者によって入力された検索キーワードを取得する。
（ステップＳ２）検索部１２は、キーワード入力部１１が出力した検索キーワードに適したウェブページを、検索エンジンを用いて検索して、検索によって得られたウェブページのうち、上位から所定の個数のウェブページを選択する。
（ステップＳ３）検索部１２は、選択した所定の個数のウェブページそれぞれのソースコードを取得する。

（ステップＳ４）第１ノイズ除去部１４は、検索部１２が出力した所定の個数のウェブページの情報を用いて、所定の個数のウェブページからドメインＤＢ１３に格納されているドメインのウェブページを除去する。
（ステップＳ５）メインコンテンツ抽出部１５は、第１ノイズ除去部１４が出力したウェブページの情報の中から１つのウェブページの情報を逐次選択し、選択したウェブページの情報からメインコンテンツを抽出する。

（ステップＳ７）キーワード抽出部１８は、メインコンテンツ抽出部１５が出力したメインコンテンツから複数のキーワードを抽出する。
以上で、キーワード抽出装置１の処理を終了する。

＜メインコンテンツの抽出方法＞
次に、メインコンテンツの抽出方法について説明する。
図６は、ウェブページのソースコードの例を示す図である。なお、図６に示したソースコードは、ウェブページのソースコードのうちの一部である。また、図６に示したソースコードは、ウェブページを構成とソースコードとの関係を説明するための例であって、実際のウェブページのソースコードとは一致しない場合がある。
なお、本実施形態におけるウェブページのメインコンテンツとは、キーワードを抽出する上で必要な部分であり、例えば、タイトル、記事、質問内容、図や写真の説明、質問に対する返答等である、一方、本実施形態における不用部分とは、例えば、広告、メニュー等である。

図６の符号ｇ２５１に示すように、ソースコードは、複数のタグを用いて記述されている。そして、ソースコードは、ウェブサイトのタイトル等が記述されているヘッダ情報ｇ２６１、ウェブサイトやウェブページのタイトルや説明が記述されているヘッダーｇ２６２、メインコンテンツｇ２６３、ウェブサイト内のリンク先や他のウェブサイトへのリンク先などが記述されているメニューｇ２６４を含んでいる。

図７は、本実施形態に係る自ウェブページとリンク先のウェブページの構成例を示す図である。なお、自ウェブページとは、図５のステップＳ２の検索結果のうちの１つのウェブページである。
符号ｇ３０１が示すウェブページの構成は、自ウェブページの構成例であり、２カラムの構成であって、ウェブページの上にヘッダーｇ３１１が配置され、左にメインコンテンツｇ３１３が配置され、右にメニューｇ３１２が配置されている。

符号ｇ３２１が示すウェブページの構成は、自ウェブページに記述されている第１のリンク先のウェブページの構成例であり、２カラムの構成であって、ウェブページの上にヘッダーｇ３３１が配置され、左にメインコンテンツｇ３３３が配置され、右にメニューｇ３３２が配置されている。
符号ｇ３４１が示すウェブページの構成は、自ウェブページに記述されている第２のリンク先のウェブページの構成例であり、３カラムの構成であって、ウェブページの上にヘッダーｇ３５１が配置され、左に第１のメニューｇ３５２が配置され、真ん中にメインコンテンツｇ３５３が配置され、右に第２のメニューｇ３５４が配置されている。

図７において、符号ｇ３２１が示すウェブページは、自ウェブページと同じウェブサイト内のウェブページの１つである。また、符号ｇ３２１が示すウェブページは、自ウェブページと異なるウェブサイト内のウェブページの１つである。
自ウェブページと同じウェブサイト内のウェブページのＵＲＬアドレスは、ドメイン、ホームページに割り振られたアドレス等が等しい場合が多い。一方、自ウェブページと異なるウェブサイト内のウェブページのＵＲＬアドレスは、ドメイン、ホームページに割り振られたアドレス等が異なる場合が多い。

ここで、自ウェブページのＵＲＬアドレスと、自ウェブページと同じウェブサイト内のウェブページのＵＲＬアドレスとの距離を、第１のレーベンシュタイン距離とする。また、自ウェブページのＵＲＬアドレスと、自ウェブページと異なるウェブサイト内のウェブページのＵＲＬアドレスとの距離を、第２のレーベンシュタイン距離とする。この場合、第１のレーベンシュタイン距離は、第２のレーベンシュタイン距離より小さな値が得られる、すなわちレーベンシュタイン距離が近い。一方、第２のレーベンシュタイン距離は、第１のレーベンシュタイン距離より大きな値であり、すなわちレーベンシュタイン距離が遠い。

レーベンシュタイン距離が近い２つのウェブサイトそれぞれのソースコードを比較した場合、ヘッダーｇ３１１とヘッダーｇ３３１との記述が一致または類似し、メニューｇ３１２とメニューｇ３３２との記述が一致または類似していることが多い。すなわち、ソースコードが一致または類似している領域は、ヘッダーおよびメニュー（サイドバー）であると見なすことができる。そして、自ウェブページのソースコードから、ヘッダーｇ３１１とメニューｇ３１２それぞれの記述を除去したものは、メインコンテンツｇ３１３の記述である。このように、メインコンテンツ抽出部１５は、自ウェブページのソースコードから、ヘッダーｇ３１１とメニューｇ３１２それぞれの記述を除去することでメインコンテンツｇ３１３の記述を抽出する。なお、メインコンテンツ抽出部１５は、周知の文書間の類似度を推定する類似度推定法を用いて、ソースコードが一致しているか否か、または類似しているか否かを判定する。

また、レーベンシュタイン距離が遠い２つのウェブサイトそれぞれのソースコードを比較した場合、ヘッダーｇ３１１とヘッダーｇ３５１との記述がヘッダーｇ３１１とヘッダーｇ３５１との記述より類似していない場合が多い。また、メニューｇ３１２と第１のメニューｇ３５２との記述が、メニューｇ３１２とメニューｇ３３２との記述より類似していず、メニューｇ３１２と第２のメニューｇ３５４との記述が、メニューｇ３１２とメニューｇ３３２との記述より類似していない場合が多い。この結果、ソースコードが類似している領域がないため、レーベンシュタイン距離が遠い２つのウェブサイトそれぞれのソースコードを比較しても、自ウェブページのヘッダーｇ３１１やメニューｇ３１２（サイドバー）の記述を特定できない。このように、レーベンシュタイン距離が遠い２つのウェブサイトそれぞれのソースコードを比較しても、メインコンテンツｇ３１３の記述を抽出できない。

また、特定のウェブページにのみ出現する部分は、メインコンテンツである傾向が高い。一方、不要部分は、複数のウェブページにわたって出現する傾向がある。例えば、ニュースサイトの記事の場合、当該ウェブページに他のニュースのリンク先が記載されている場合があり、他のニュースのウェブページと、当該ウェブページとの構成（図３参照）が似ている場合が多い。他のニュースのウェブページと当該ウェブページとには、例えば、図３のサイドバーｇ２２２にリンク先の情報、広告等が記載されている。このように、本実施形態では、複数のウェブページを比較し、比較した結果、共通している部分を不要部分と見なし、他のウェブページに出現しない部分をメインコンテンツであると見なす。そして、本実施形態では、検索されたウェブページの中から１つを選択し、選択したウェブページに記載されているリンク先を比較に用いるウェブページとする。また、本実施形態では、ウェブページ同士の比較に、例えばレーベンシュタイン距離を用いている。

このため、本実施形態では、メインコンテンツ抽出部１５が、自ウェブページのＵＲＬアドレスとレーベンシュタイン距離が近い自ウェブページ内に記述されているリンク先のウェブページのＵＲＬアドレスを少なくとも１つ抽出する。そして、メインコンテンツ抽出部１５が、自ウェブページのソースコードと、レーベンシュタイン距離が近いリンク先のウェブページのソースコードを取得し、取得したソースコードの類似性に基づいて、不要なエリアの記述を除去することでメインコンテンツを抽出する。

次に、メインコンテンツ抽出部１５が、図５のステップＳ５で行うメインコンテンツの抽出処理の手順の一例を説明する。
図８は、本実施形態に係るメインコンテンツの抽出処理の手順のフローチャートである。

（ステップＳ１０１）メインコンテンツ抽出部１５は、第１ノイズ除去部１４が出力した所定の個数のウェブページの情報の中から、１つの未処理のウェブページの情報を逐次選択して、ステップＳ１０２〜Ｓ１０６の処理を行う。
（ステップＳ１０２）メインコンテンツ抽出部１５は、選択したウェブページのソースコードを取得する、続けて、メインコンテンツ抽出部１５は、選択したウェブページの内に含まれているリンクを示す情報を抽出する。なお、リンクを示す情報とは、ウェブページのソースコードに含まれる＜ａｈｒｅｆ＝”…”＞、＜ｂａｓｅｈｒｅｆ＝”…”＞、＜ｌｉｎｋｒｅｌ＝”…” ｈｒｅｆ＝”…”＞、＜ｌｉｎｋｈｒｅｆ＝”…”＞等のタグで記述されている情報である。なお、本実施形態では、リンクを示す情報がタグで記述されている例を説明したが、記述はこれに限られずリンクを示すものであればよい。

（ステップＳ１０３）メインコンテンツ抽出部１５は、ステップＳ１０２で抽出された複数のリンク先のＵＲＬアドレスの中から１つを逐次選択する。メインコンテンツ抽出部１５は、ステップＳ１０１で選択したウェブページのＵＲＬアドレスと、リンクを示すタグに記述されているＵＲＬアドレスとのレーベンシュタイン距離を逐次計算する。
（ステップＳ１０４）メインコンテンツ抽出部１５は、計算した結果、レーベンシュタイン距離が近い少なくとも１つのリンク先のウェブサイトのソースコードを取得する。なお、メインコンテンツ抽出部１５は、レーベンシュタイン距離が近い順に複数のリンク先を選択するようにしてもよい。

（ステップＳ１０５）メインコンテンツ抽出部１５は、ステップＳ１０１で選択したウェブページと、テップＳ１０４で取得したリンク先のウェブページそれぞれのソースコードを比較する。
（ステップＳ１０６）メインコンテンツ抽出部１５は、ステップＳ１０５で比較した結果、ソースコードが近い記述を除去することでメインコンテンツを抽出する（例えば、参考文献１参照）。

（ステップＳ１０７）メインコンテンツ抽出部１５は、第１ノイズ除去部１４が出力したウェブページの情報について、全てのウェブページについてステップＳ１０２〜Ｓ１０６の処理が終了した場合、抽出したメインコンテンツの記述を、ウェブページ毎にキーワード抽出部１８に出力する。
以上で、メインコンテンツの抽出処理を終了する。

参考文献１；吉田光男、山本幹雄、教師情報を必要としないニュースページ群からのコンテンツ自動抽出、日本データベース学会論文誌 8(1) 29-34 2009.

＜キーワードの抽出＞
次に、キーワードの抽出について説明する。
図９は、本実施形態に係るキーワード抽出部１８の構成を示すブロック図である。図９に示すように、キーワード抽出部１８は、形態素解析部１８１、用語抽出部１８２、およびキーワードリスト生成部１８３を備える。

形態素解析部１８１は、メインコンテンツ抽出部１５が出力したメインコンテンツの中のテキスト情報をウェブページ毎に取得する。形態素解析部１８１は、テキスト情報に対して周知の手法を用いて形態素解析を行う。テキストが日本語の場合、形態素解析部１８１は、例えば「ＣｈａＳｅｎ（茶筌）」、「茶まめ」、「ＭｅＣａｂ（和布蕪）」等のソフトウェアを用いて形態素解析を行う。解析した解析結果には、文字列、文字列の品詞の種類、品詞の活用の種類、文字列の原形、読み等が含まれている。形態素解析部１８１は、解析した解析結果を用語抽出部１８２に出力する。

用語抽出部１８２は、形態素解析部１８１が出力した解析結果を用いて、語の並びと品詞情報に基づいて複合語を組み立てる。用語抽出部１８２は、例えば名詞が連続して出現している場合、連続している名詞を統合して複合語にする。用語抽出部１８２は、名詞または、複数の名詞を含む複合語を抽出する。用語抽出部１８２は、複合語を構成する最小単位の名詞（以下、単名詞ともいう）または名詞それぞれが、検索部１２によって選択された所定の個数のウェブページに横断的に出現した回数に基づいて、例えばＩＤＦ（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）法を用いて重要度ｉｄｆを算出する。
また、用語抽出部１８２は、検索部１２によって選択された所定の個数全てのウェブページそれぞれのテキスト情報中の名詞の出願回数または複合語の出現回数を算出する。
用語抽出部１８２は、抽出した名詞または複合語それぞれに、算出した重要度と出現回数とを対応付けてキーワードリスト生成部１８３に出力する。

キーワードリスト生成部１８３は、用語抽出部１８２が出力した、重要度と出現回数とが対応付けている名詞または複合語を取得する。キーワードリスト生成部１８３は、名詞または複合語毎に重要度と出現回数を乗算して、乗算した値が大きい順に名詞または複合語を並べて、キーワードリストを生成する。キーワードリスト生成部１８３は、生成したキーワードリストをキーワードリスト出力部１９に出力する。
なお、用語抽出部１８２、およびキーワードリスト生成部１８３は、プログラミング言語Ｐｅｒｌのモジュールである、例えば「ＴｅｒｍＥｘｔｒａｃｔ」を含んで構成されていてもよい。

上述したように、本実施形態では、検索キーワードを、検索エンジンを用いて検索した上位から所定の個数のウェブページの中から１つのウェブページを１つ逐次選択する。そして、本実施形態では、選択された自ウェブページのソースコードに記述されているリンク先のソースコードと、自ウェブページのソースコードとを比較して、比較した結果に基づいて不要なエリアの記述を除去することでメインコンテンツを抽出する。このように、本実施形態では、ノイズ成分が除去されたメインコンテンツのテキストを用いて、例えば名詞と複合語とを抽出することで、キーワードを精度よく抽出することができる。なお、抽出する言葉は、名詞と複合語に限られず、例えば形容詞や副詞を含んでいてもよい。

＜キーワードリストの例＞
ここで、キーワードリスト出力部１９が出力するキーワードリストの例を説明する。
図１０は、本実施形態に係るキーワードリスト出力部１９が出力するキーワードリストの例を示す図である。図１０に示すように、キーワードリストには、入力したキーワード（符号ｇ３６１に示す領域）、出現回数（符号ｇ３６２に示す領域）、出現回数に重要度を乗算した値（符号ｇ３６３に示す領域）、キーワード（符号ｇ３６４に示す領域）が対応付けられている。
キーワードリスト出力部１９は、例えば図１０に示すように、キーワード抽出部１８が出力した出現回数に重要度をキーワード毎に乗算し、乗算した値が大きい順にキーワードのソートを行う。
この結果、図１０に示すように、キーワードの表示順番は、検索されたウェブページ内の出現回数に重要度を乗算した値が大きい順番である。このため、“足先しびれ冷たい”を入力したときに抽出されるキーワードは、出現回数が例えば１５位であっても重要度が大きいため、リストの３番目に表示される。

なお、キーワードリスト出力部１９が出力するキーワードリストは、少なくともキーワードが含まれていればよく、出現回数、重要度は含まれていなくてもよい。
また、表示順番は、図１０に示した例に限られず、出願回数が多い順番、重要度の値が大きい順番、他の統計的な手法に基づく順番等であってもよい。

次に、キーワード抽出部１８が、図５のステップＳ７で行うキーワードの抽出処理について説明する。
図１１は、本実施形態に係るキーワードの抽出処理のフローチャートである。
（ステップＳ２０１）形態素解析部１８１は、メインコンテンツ抽出部１５が出力したテキスト情報に対して周知の手法を用いて形態素解析を行う。
（ステップＳ２０２）用語抽出部１８２は、形態素解析部１８１が出力した解析結果を用いて、語の並びと品詞情報に基づいて複合語を組み立てる。

（ステップＳ２０３）用語抽出部１８２は、名詞と、複数の名詞を含む複合語とを抽出する。
（ステップＳ２０４）用語抽出部１８２は、例えばＩＤＦ法を用いて、名詞および複合語それぞれの重要度を算出する。

（ステップＳ２０５）用語抽出部１８２は、入力された全てのウェブページそれぞれのテキスト情報中の、名詞および複合語の出現回数を算出する。続けて、用語抽出部１８２は、ステップＳ２０３で抽出された名詞または複合語それぞれに、算出された出現回数とステップＳ２０４で算出された重要度とを対応付けて、キーワードリスト生成部１８３に出力する。

（ステップＳ２０６）キーワードリスト生成部１８３は、用語抽出部１８２が出力した名詞または複合語毎に重要度と出現回数を乗算して、名詞または複合語に対して乗算した値が大きい順にソートを行い、キーワードリストを生成する。キーワードリスト生成部１８３は、生成したキーワードリストをキーワードリスト出力部１９に出力する。
以上で、キーワードの抽出処理を終了する。

＜キーワードリストの利用例＞
このように抽出されたキーワードリストの利用例を説明する。
例えば、Ａ社が、商品Ｂのウェブページを開設する場合、通常、Ｂ商品に対する説明をウェブページに記載する。しかしながら、このような記載では、実際にＢ商品について興味がある利用者が知りたい情報を網羅しているとは限らない。このようなウェブページ、すなわちコンテンツを作成した場合、検索エンジンによってウェブページの記載内容が評価された結果、検索結果の上位に表示されない場合も少なくない。
このため、ウェブページ制作者が、例えばマインドマップ等を用いて、Ｂ商品に関する利用者が検索に用いると想定される検索キーワードを抽出する。そして、抽出された検索キーワードをキーワード抽出装置１に入力して、キーワードリストを得る。
ウェブページ制作者は、キーワードリストに載っているキーワードを用いてＢ商品のウェブページを制作する。これにより、ウェブページ制作者は、Ｂ商品について、利用者が知りたい情報を多く含んだウェブページを制作することができる。このような利用者にとって知りたい情報を多く含んでいるウェブページは、検索エンジンによってウェブページの記載内容が評価された結果、検索結果の上位に表示され、かつ利用者の知りたい多くの情報が含まれているため、利用者の滞在時間が長くなり、商品の購買につながる効果が得られる。

なお、上述した例では、商品に関するウェブページを説明したが、これに限られない。パンフレット、カタログ、取扱説明書等を、キーワードリストを用いて制作することで、利用者が知りたい情報を多く含んだ内容することができる。

次に、例えばトレンドの調査者が、コンビニエンスストアで販売されているスイーツのトレンドを知りたい場合を例に説明する。
検索エンジンに“コンビニ”、“スイーツ”の検索キーワードを入力して検索した場合、２０１５年５月２８日現在、約１８０万件の検索結果が得られる。調査者がこれらを全て読むことは困難であり、いくつかの検索された結果のウェブページ全体を読んだだけでは、トレンドが掴みにくい。
一方、キーワード抽出装置１に“コンビニ”、“スイーツ”の検索キーワードを入力することで、キーワード抽出装置１が、インターネットの利用者によって話題にされているコンビニエンスストアのスイーツに関するキーワードリストを生成することができる。これにより、本実施形態では、生成されたキーワードリストを、トレンドの調査者が見ることでトレンドを知ることもできる。また、キーワードリストを定期的（例えば月に１回）にキーワード抽出装置１によって生成させることで、トレンドの調査者は、キーワードの変化、すなわちトレンドの変化を知ることもできる。

なお、本実施形態では、検索部１２が検索結果から上位から所定の個数のウェブページを選択する例を説明したが、これに限られない。例えば、検索した結果から所定の個数のウェブページを選択し、第１ノイズ除去部１４によって不要なドメインを除去した後のウェブページの個数が、所望の個数（例えば１０以上）に満たない場合、検索部１２は、第１ノイズ除去部１４によって除去された後のウェブページの個数が、所望の個数以上になる個数を選択するようにしてもよい。

また、本実施形態では、メインコンテンツ抽出部１５が、自ウェブページとリンク先の距離の近さを、レーベンシュタイン距離を算出する例を説明したが、これに限られない。メインコンテンツ抽出部１５は、例えば、３−ｇｒａｍ（ｎ−ｇｒａｍ）法を用いて、ウェブページとリンク先の距離の近さを算出するようにしてもよい。

以上のように、本実施形態のキーワード抽出装置１は、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツ（例えば２０個）を検索する検索部１２と、検索部によって検索された複数のコンテンツの中から、前記キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する第１ノイズ除去部１４と、第１ノイズ除去部によって所定のドメインのコンテンツが除去された複数のコンテンツの中から１つのコンテンツを逐次選択し、選択したコンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択したコンテンツの情報とを比較して類似している情報を、選択したコンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部１５と、メインコンテンツ抽出部によって抽出されたメインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出部１８と、を備える。
なお、所定のドメインは、キーワードの抽出においてコンテンツとして意味を成していないドメインである。

この構成によって、本実施形態では、まず、所定のドメインのウェブページを除去することで、キーワードを抽出する上で、コンテンツとして意味をなしていない不要なウェブページを検索結果から除去する。本実施形態では、不要なウェブページを除去した後に、検索キーワードを用いて検索された複数のウェブページそれぞれから、自ウェブページ内のリンク先のソースコードとの類似度に基づいて、不要なエリア（例えば、ヘッダー、フッター、メニュー等）の記述を除去する。この結果、本実施形態では、不要なウェブページを削除したウェブページからのみメインコンテンツを精度良く抽出できる。この結果、本実施形態によれば、検索キーワード、すなわち利用者が知りたい情報に応じたキーワードを抽出することができる。

［第１の実施形態の変形例］
次に、第１の実施形態の変形例を説明する。
キーワード抽出装置１が、さらにタグＤＢ１６と第２ノイズ除去部１７を備える例を説明する。

＜キーワード抽出装置１Ａの構成＞
図１２は、本実施形態の変形例に係るキーワード抽出装置１Ａの概略構成図である。なお、キーワード抽出装置１と同じ機能を有する機能部については、同じ符号を用いて、説明を省略する。
図１２に示すように、キーワード抽出装置１Ａは、キーワード入力部１１、検索部１２、ドメインＤＢ１３、第１ノイズ除去部１４、メインコンテンツ抽出部１５、タグＤＢ１６、第２ノイズ除去部１７、キーワード抽出部１８、およびキーワードリスト出力部１９を備える。

メインコンテンツ抽出部１５は、第１ノイズ除去部１４が出力したウェブページの情報の中から１つのウェブページの情報を逐次選択し、選択したウェブページの情報からメインコンテンツを抽出する。メインコンテンツ抽出部１５は、抽出したメインコンテンツの記述を、ウェブページ毎に第２ノイズ除去部１７に出力する。

タグＤＢ１６には、ウェブページのメインコンテンツの中から、不要な用語（以下、無意味言葉という）を含む項目を削除するために使用されるタグが格納されている。なお、タグＤＢ１６に格納されるタグは、ネットワーク２を介して更新されるようにしてもよい。

第２ノイズ除去部１７は、メインコンテンツ抽出部１５が出力したメインコンテンツの中から、タグＤＢ１６を参照して無意味言葉を除去する。これにより、第２ノイズ除去部１７は、ウェブページのメインコンテンツから無意味言葉のノイズを、ウェブページ毎に除去する。第２ノイズ除去部１７は、無意味言葉を除去したメインコンテンツを、キーワード抽出部１８に出力する。なお、無意味言葉の除去方法については、後述する。なお、本実施形態では、タグを用いて無意味言葉等を除去する例を説明するが、これに限られず、他の手法を用いて無意味言葉等を除去するようにしてもよい。この場合、タグＤＢ１６は、無意味言葉等を除去するために用いる情報が記憶されていてもよい。

キーワード抽出部１８は、第２ノイズ除去部１７が出力したメインコンテンツから複数のキーワードを抽出する。キーワード抽出部１８は、抽出した複数のキーワードに対して、後述するようにソート（ｓｏｒｔ）処理を行い、ソート処理を行ったキーワードリストをキーワードリスト出力部１９に出力する。なお、キーワードの抽出方法、ソート処理については、後述する。

次に、タグＤＢ１６に格納されている情報の一例を説明する。
図１３は、本実施形態の変形例に係るタグＤＢ１６に格納されている情報の一例を示す図である。図１３に示すように、タグＤＢ１６には、少なくとも１つのタグが格納されている。例えば、＜ｃｌａｓｓ＞の中で用いられる“＜ｈ１＞〜＜／ｈ１＞”等は見出しを表すタグである。また、“＜ｄｉｖｃｌａｓｓ＝“ｕｓｒＩｎｆｏ”＞〜＜／ｄｉｖ＞”は、掲示板等のウェブページにおけるユーザーを識別するための識別子情報を表すタグである。このような不要な項目を表すタグは、キーワード抽出装置１Ａの設計者によって予め設定されている。

＜キーワード抽出装置１Ａの処理手順＞
次に、キーワード抽出装置１Ａの処理手順について説明する。図１４は、本実施形態の変形例に係るキーワード抽出装置１Ａの処理のフローチャートである。なお、キーワード抽出装置１と同じ処理には同じ符号を用いて、説明を省略する。

（ステップＳ１〜Ｓ５）キーワード抽出装置１Ａは、ステップＳ１〜Ｓ５の処理を行い、ステップＳ６の処理に進める。
（ステップＳ６）第２ノイズ除去部１７は、メインコンテンツ抽出部１５が出力したメインコンテンツの中から、タグＤＢ１６を参照して無意味言葉を除去する。
（ステップＳ７）キーワード抽出部１８は、第２ノイズ除去部１７が出力したメインコンテンツから複数のキーワードを抽出する。

＜無意味言葉の除去処理＞
次に、第２ノイズ除去部１７が、図１４のステップＳ６で行う無意味言葉の除去処理について説明する。
図１５は、本実施形態の変形例に係る無意味言葉の除去処理のフローチャートである。

（ステップＳ３０１）第２ノイズ除去部１７は、メインコンテンツ抽出部１５が出力したウェブページ毎のメインコンテンツの中から、１つの未処理のウェブページのメインコンテンツを逐次選択して、ステップＳ３０２〜Ｓ３０３の処理を行う。
（ステップＳ３０２）第２ノイズ除去部１７は、ステップＳ３０１で選択したウェブページのメインコンテンツのソースコードの中から、タグＤＢ１６を参照して無意味言葉に対応するタグの記述を除去することで、無意味言葉を除去する。ここで、タグの記述とは、開始のタグから、終了のタグで囲まれた記述である。

（ステップＳ３０３）第２ノイズ除去部１７は、ステップＳ３０２で除去されたメインコンテンツの記述から、残りのタグ情報を除去する。なお、残りのタグ情報とは、例えば文字サイズの指定、文字の色の指定、改行等を示すタグである。

（ステップＳ３０４）第２ノイズ除去部１７は、メインコンテンツ抽出部１５が出力したウェブページ毎のメインコンテンツについて、全てのウェブページについてステップＳ３０２〜Ｓ３０３の処理が終了した場合、無意味言葉を除去したメインコンテンツのテキスト情報を、ウェブページ毎にキーワード抽出部１８に出力する。
以上で、メインコンテンツの抽出処理を終了する。

＜除去される無意味言葉の項目の例＞
ここで、無意味言葉として除去される項目の例を説明する。
まず、質問に対して回答を書き込める質疑のウェブページを例に説明する。このような質疑のウェブページには、質問、回答に加えて、例えば閲覧数、回答数、回答に対するお礼、解答者の識別情報、回答した日時、一番良い回答をした人を示す情報等が含まれている。
キーワードを抽出する上で有効なコンテンツは、例えば、質問のテキストと、回答のテキストである。このため、質疑のウェブページにおいて、閲覧数、回答数、回答に対するお礼、解答者の識別情報、回答した日時、一番良い回答をした人を示す情報等が無意味言葉である。これらの項目は、所定のｃｌａｓｓ名のタグや、所定のｃｌａｓｓのタグの中の項目タグ（例えば＜ｈ２＞〜＜／ｈ２＞）等によって記述されている。

また、例えばウェブ上にある辞書ページでは、概略、本文、目次、用語の種類に関する説明、内容が不十分であることを示す記述、参考文献、文献リスト関連項目等が含まれている。
キーワードを抽出する上で有効なコンテンツは、例えば、概略のテキストと、本文のテキストである。このため、辞書ページにおいて、目次、用語の種類に関する説明、内容が不十分であることを示す記述、参考文献、文献リスト関連項目等が無意味言葉である。

これらの無意味言葉に対応する項目が記述されているタグを、例えばキーワード抽出装置１Ａの製造者が予めソースコードを解析して抽出して、抽出したタグをタグＤＢ１６に格納しておく。

以上のように、本実施形態のキーワード抽出装置１Ａにおいて、メインコンテンツ抽出部１５によって抽出されたメインコンテンツの情報から、所定のタグによって記述されている情報を除去することで、キーワードの抽出において意味を成していない不要な記述を除去する第２ノイズ除去部１７、をさらに備え、キーワード抽出部１８は、第２ノイズ除去部によって所定のタグによって記述されている情報が除去された後のメインコンテンツのテキストからキーワードを抽出する。
なお、所定のタグによって記述されている情報は、キーワードの抽出において意味を成していない不要な用語である。

この構成によって、本実施形態では、メインコンテンツから所定のタグによって記述されている情報を除去することで、無意味言葉を除去することができる。この結果、本実施形態では、無意味言葉を除去した後のメインコンテンツからキーワードを精度良く抽出することができる。
なお、例えば不要と想定される単語をデータベースに登録しておき、不要と想定される単語をメインコンテンツから除去する場合、コンテンツの中から有効な言葉も除去してしまう場合があった。一方、本実施形態のように、タグによって記述されている情報を除去することで、精度良く無意味言葉を除去することができる。

［第２実施形態］
第１実施形態では、キーワード抽出装置１（または、１Ａ）が、第１ノイズ除去部１４とメインコンテンツ抽出部１５を備える例を説明したが、第２実施形態では、第１ノイズ除去部１４とメインコンテンツ抽出部１５を備えず、第２ノイズ除去部を備える例を説明する。なお、本実施形態において、第２ノイズ除去部によって除去されるノイズは、タグに基づく無意味言葉と不要な記述である。

＜キーワード抽出装置１Ｂの構成＞
図１６は、本実施形態に係る本実施形態に係るキーワード抽出装置１Ｂの概略構成図である。
図１６に示すように、キーワード抽出装置１Ｂは、キーワード入力部１１、検索部１２Ｂ、タグＤＢ１６Ｂ、第２ノイズ除去部１７Ｂ、キーワード抽出部１８、およびキーワードリスト出力部１９を備える。また、キーワード抽出装置１Ｂは、ネットワーク２に接続されている。なお、キーワード抽出装置１または１Ａと同じ機能を有する機能部については、同じ符号を用いて、説明を省略する。

キーワード入力部１１は、例えばキーボード、マウス、タブレット等である。キーワード入力部１１は、利用者によって入力された検索キーワードを検索部１２Ｂに出力する。

検索部１２Ｂは、キーワード入力部１１が出力した検索キーワードに適したウェブページを、検索エンジンを用いて検索して、検索によって得られたウェブページのうち、例えば上位から所定の個数のウェブページを選択する。検索部１２Ｂは、選択した所定の個数のウェブページを示す情報を第２ノイズ除去部１７Ｂに出力する。

タグＤＢ１６Ｂには、ウェブページのメインコンテンツの中から、不要な用語（無意味言葉）の項目を削除するために使用されるタグと、不要な記述を削除するために使用されるタグが格納されている。図１７は、本実施形態に係るタグＤＢ１６Ｂに格納されている情報の一例を示す図である。図１７に示すように、タグＤＢ１６Ｂには、少なくとも１つのタグが格納されている。例えば、＜ｃｌａｓｓ＞の中で用いられる“＜ｈ１＞〜＜／ｈ１＞”等は見出しを表すタグである。また、“＜ｄｉｖｃｌａｓｓ＝“ｕｓｒＩｎｆｏ”＞〜＜／ｄｉｖ＞”は、掲示板等のウェブページにおけるユーザーを識別するための識別子情報を表すタグである。

また、“＜ｍｅｔａ＞”タグは、文書（ウェブページ）に関するメタ情報を表すタグであり、“＜ｄｉｖｉｄ＝“ｈｅａｄｅｒ”＞〜＜／ｄｉｖ＞”タグは、ヘッダ情報を表すタグである。また、“＜ｓｃｒｉｐｔｔｙｐｅ＞〜＜／ｓｃｒｏｐｔ＞”タグは、スクリプトの記述のタグであり、“＜ｌｉｎｋｈｒｅｆ＝“”＞”タグと“＜ａｈｒｅｆ＝“”＞”タグは、リンク先を示すタグである。これらは、ウェブページにおいて、コンテンツとして意味をなしていない不要な記述である。不要な記述を削除するために使用されるタグは、他に広告を表すタグ、ボタンを示すタグ、フッターを表すタグ、注意書きを表すタグ等である。このような不要な項目や記述を表すタグは、キーワード抽出装置１Ｂの設計者によって予め設定されている。なお、タグＤＢ１６Ｂに格納されるタグは、ネットワーク２を介して更新されるようにしてもよい。

第２ノイズ除去部１７Ｂは、検索部１２Ｂが出力した所定の個数のウェブページの情報（ソースコード）の中から、タグＤＢ１６Ｂを参照して無意味言葉と不要な記述を、ウェブページ毎に除去する。第２ノイズ除去部１７Ｂは、無意味言葉を除去したコンテンツを、キーワード抽出部１８に出力する。

キーワード抽出部１８は、第２ノイズ除去部１７Ｂが出力したメインコンテンツから複数のキーワードを抽出する。キーワード抽出部１８は、抽出した複数のキーワードに対して、後述するようにソート処理を行い、ソート処理を行ったキーワードリストをキーワードリスト出力部１９に出力する。

＜キーワード抽出装置１Ｂの処理手順＞
次に、キーワード抽出装置１Ｂの処理手順について説明する。図１８は、本実施形態に係るキーワード抽出装置１Ｂの処理のフローチャートである。なお、キーワード抽出装置１（または１Ａ）と同じ処理には、同じ符号を用いて説明を省略する。

（ステップＳ１〜Ｓ３）キーワード抽出装置１Ｂは、ステップＳ１〜Ｓ３の処理を行い、ステップＳ１５の処理に進める。

（ステップＳ１５）第２ノイズ除去部１７Ｂは、検索部１２Ｂが出力した所定の個数のウェブページの情報の中から、タグＤＢ１６Ｂを参照して無意味言葉と不要な記述を、ウェブページ毎に除去する。続けて、第２ノイズ除去部１７Ｂは、ステップＳ７に処理を進める。

なお、上述した例では、第２ノイズ除去部１７Ｂが、無意味言葉と不要な記述をウェブページのソースコードから除去する例を説明したが、これに限られない。第２ノイズ除去部１７Ｂは、無意味言葉に対応する項目のタグ、および不要な記述に対応するタグのうち、少なくとも１つを除去するようにしてもよい。

上述したように、本実施形態では、検索キーワードを、検索エンジンを用いて検索した上位から所定の個数のウェブページの中から１つのウェブページを逐次選択する。そして、本実施形態では、選択したウェブページのソースコードから、無意味言葉に対応する項目の記述のタグと不要な記述のタグと除去することでキーワードの抽出に必要なコンテンツを抽出する。これにより、本実施形態では、検索キーワードを用いて検索された複数のウェブページの中から、ノイズである無意味言葉と不要な記述を除去したコンテンツを得ることができる。このように、本実施形態では、ノイズ成分が除去されたテキストを用いて名詞と複合語とを抽出することで、キーワードを精度よく抽出することができる。

以上のように、本実施形態のキーワード抽出装置１Ｂは、検索キーワードに基づいてメインコンテンツを含む複数（所定の個数、例えば２０個）のコンテンツ（例えば、ウェブページ）を検索する検索部１２Ｂと、検索部によって検索された複数のコンテンツの中から１つのコンテンツを逐次選択し、選択したコンテンツから所定のタグによって記述されている情報を除去することで、キーワードの抽出において意味を成していない不要な記述を除去する第２ノイズ除去部１７Ｂと、第２ノイズ除去部によって所定のタグによって記述されている情報が除去されたコンテンツのテキストからキーワードを抽出するキーワード抽出部１８と、を備える。

この構成によって、本実施形態では、メインコンテンツから所定のタグによって記述されている情報を除去することで、無意味言葉および不要な記述の少なくとも１つを除去することができる。この結果、本実施形態では、無意味言葉または不要な記述を除去した後のコンテンツからキーワードを精度良く抽出することができる。
なお、例えば不要と想定される単語をデータベースに登録しておき、不要と想定される単語をコンテンツから除去する場合、コンテンツの中から有効な言葉も除去してしまう場合があった。一方、本実施形態のように、タグによって記述されている情報を除去することで、精度良く無意味言葉を除去することができる。

［第２の実施形態の第１変形例］
次に、キーワード抽出装置１Ｂが、さらにドメインＤＢ１３および第１ノイズ除去部１４を備える例を説明する。

＜キーワード抽出装置１Ｃの構成＞
図１９は、本実施形態の第１変形例に係るキーワード抽出装置１Ｃの概略構成図である。なお、キーワード抽出装置１、１Ａ、または１Ｂと同じ機能を有する機能部については、同じ符号を用いて、説明を省略する。
図１９に示すように、キーワード抽出装置１Ｃは、キーワード入力部１１、検索部１２、ドメインＤＢ１３、第１ノイズ除去部１４、タグＤＢ１６Ｂ、第２ノイズ除去部１７Ｂ、キーワード抽出部１８、およびキーワードリスト出力部１９を備える。なお、キーワード抽出装置１Ｃは、例えば第２ノイズ除去部１７Ｂとキーワード抽出部１８との間に、メインコンテンツ抽出部１５（図２参照）を備えていてもよい。

第１ノイズ除去部１４は、検索部１２が出力した所定の個数のウェブページを示す情報を取得する。第１ノイズ除去部１４は、取得した所定の個数のウェブページを示す情報を用いて、所定の個数のウェブページからドメインＤＢ１３に格納されているドメインのウェブページを除去して、除去したウェブページを示す情報を第２ノイズ除去部１７Ｂに出力する。なお、所定の個数のウェブページに、ドメインＤＢ１３に格納されているドメインのウェブページが無い場合、第１ノイズ除去部１４は、所定の個数のウェブページを示す情報を第２ノイズ除去部１７Ｂに出力する。

第２ノイズ除去部１７Ｂは、第１ノイズ除去部１４が出力した複数のウェブページの情報（ソースコード）から、タグＤＢ１６Ｂを参照して無意味言葉と不要な記述とを削除する。第２ノイズ除去部１７Ｂは、無意味言葉と不要な記述を除去したコンテンツを、キーワード抽出部１８に出力する。

＜キーワード抽出装置１Ｃの処理手順＞
次に、キーワード抽出装置１Ｃの処理手順について説明する。図２０は、本実施形態の第１変形例に係るキーワード抽出装置１Ｃの処理のフローチャートである。なお、キーワード抽出装置１、１Ａ、または１Ｂと同じ処理には同じ符号を用いて、説明を省略する。

（ステップＳ１〜Ｓ３）キーワード抽出装置１Ｃは、ステップＳ１〜Ｓ３の処理を行い、ステップＳ４の処理に進める。
（ステップＳ４）第１ノイズ除去部１４は、検索部１２が出力した所定の個数のウェブページの情報を用いて、所定の個数のウェブページから、ドメインＤＢ１３に格納されているドメインのウェブページを除去する。
（ステップＳ１５）第２ノイズ除去部１７Ｂは、第１ノイズ除去部１４が出力した複数のウェブページの情報（ソースコード）から、タグＤＢ１６Ｂを参照して無意味言葉と不要な記述とを削除する。

以上のように、本実施形態のキーワード抽出装置１Ｃにおいて、検索部１２とキーワード抽出部１８との間に第１ノイズ除去部１４、をさらに備え、第１ノイズ除去部は、検索部によって検索された複数のコンテンツ（例えば、ウェブページ）の中から、キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する。

この構成によって、本実施形態では、所定のドメインのウェブページを除去することで、キーワードを抽出する上で、コンテンツとして意味をなしていない不要なウェブページを検索結果から除去することができる。この結果、本実施形態では、不要なウェブページを削除したウェブページからのみメインコンテンツを精度良く抽出できる。

［第２の実施形態の第２変形例］
次に、キーワード抽出装置１Ｂの変形例を説明する。本変形例では、検索部が、キーワード入力部１１が出力した検索キーワードを予め定められているドメインのウェブページを、検索エンジンを用いて検索する。

＜キーワード抽出装置１Ｄの構成＞
図２１は、本実施形態の第２変形例に係るキーワード抽出装置１Ｄの概略構成図である。
図２１に示すように、キーワード抽出装置１Ｄは、キーワード入力部１１Ｄ、検索部１２Ｄ、ドメインＤＢ１３Ｄ、タグＤＢ１６Ｂ、第２ノイズ除去部１７Ｂ、キーワード抽出部１８Ｄ、およびキーワードリスト出力部１９を備える。なお、キーワード抽出装置１、１Ａ、１Ｂ、または１Ｃと同じ機能を有する機能部については、同じ符号を用いて、説明を省略する。なお、キーワード抽出装置１Ｄは、例えば検索部１２Ｄと第２ノイズ除去部１７Ｂとの間に第１ノイズ除去部１４を備えていてもよく、例えば第１ノイズ除去部１４とキーワード抽出部１８Ｄの間にメインコンテンツ抽出部１５を備えていてもよい。

キーワード入力部１１Ｄは、利用者が入力した検索キーワード、探索対象のドメインを取得し、取得した検索キーワード、探索対象のドメインを示す情報を検索部１２Ｄに出力する。なお、探索対象のドメインについては、第８の抽出方法で説明する。

ドメインＤＢ１３Ｄには、キーワードを抽出するウェッブサイトのドメインが格納されている。なお、キーワードを抽出するウェッブサイトのドメインとは、例えば利用者が質問を公開し、回答を募って疑問を解消する仕組みを提供するウェブサイトのドメインである。以下の説明では、このようなサイトをＱ＆Ａサイトという。Ｑ＆Ａサイトは、一例として、Ｙａｈｏｏ！（登録商標）知恵袋（登録商標）、教えて！ｇｏｏ（登録商標）、発言小町（登録商標）、ＯＫＷａｖｅ（登録商標）等である。

検索部１２Ｄは、キーワード入力部１１Ｄが出力した検索キーワードを、ドメインＤＢ１３Ｄに格納されているドメインに対して検索エンジンを用いて検索する。検索部１２Ｄは、検索によって得られたウェブページのうち、例えば上位から所定の個数のウェブページを選択し、選択した所定の個数のウェブページを示す情報を第２ノイズ除去部１７Ｂに出力する。

キーワード抽出部１８Ｄは、複数の検索結果を比較する重要キーワードの抽出方法が選択された場合、抽出された重要キーワードを比較し、比較した結果に基づいてキーワードリストを生成する。キーワード抽出部１８Ｄは、生成したキーワードリストをキーワードリスト出力部１９に出力する。

次に、ドメインＤＢ１３Ｄに格納されているドメインの一例を説明する。
図２２は、本実施形態の第２変形例に係るドメインＤＢ１３Ｄに格納されているドメインの一例を示す図である。図２２に示すように、ドメインＤＢ１３Ｄには、Ｑ＆Ａサイト名と、Ｑ＆Ａサイトのドメインの情報とが対応付けられて格納されている。

＜キーワード抽出装置１Ｄによる操作手順の例、操作画面の例＞
次に、キーワード抽出装置１Ｄによる操作手順の例、操作画面の例を説明する。
図２３は、本実施形態の第２変形例に係るキーワード抽出装置１Ｄによる操作画面の例を示す図である。
図２３に示す例において、符号ｇ４００が示す領域の画像は、重要キーワードの抽出方法を選択する領域の画像である。キーワードの抽出方法を選択する領域の画像ｇ４００には、抽出方法を選択する「抽出ツール」ボタンの画像ｇ４０１、第１の抽出方法を選択する「共起語の抽出」ボタンの画像ｇ４０２、第２の抽出方法を選択する「共起語の抽出Ｑ＆Ａサイト１」ボタンの画像ｇ４０３が含まれている。さらに、画像ｇ４００には、第３の抽出方法を選択する「共起語の抽出Ｑ＆Ａサイト２」ボタンの画像ｇ４０４、第４の抽出方法を選択する「共起語の抽出Ｑ＆Ａサイト３」ボタンの画像ｇ４０５、第５の抽出方法を選択する「共起語の抽出Ｑ＆Ａサイト４」ボタンの画像ｇ４０６が含まれている。さらに、画像ｇ４００には、第６の抽出方法を選択する「共起語の抽出（総合）」ボタンの画像ｇ４０７、第７の抽出方法を選択する「共起語の抽出（比較）」ボタンの画像ｇ４０８、第８の抽出方法を選択する「共起語の抽出（サイト内探索）」ボタンの画像ｇ４０９、第９の抽出方法を選択する「ページ内の過不足キーワード」ボタンの画像ｇ４１０が含まれている。なお、共起語とは、ある単語が文章中で使用される場合に、その文章中で高い頻度で使用されるある単語とは別の単語であり、本発明における抽出されるキーワードである。なお、第１の抽出方法〜第９の抽出方法の処理については、後述する。

図２３において、符号ｇ４２０が示す領域の画像は、検索キーワードの入力領域の画像である。なお、図２３は、第２の抽出方法が選択された場合の例を示している。検索キーワードの入力領域の画像ｇ４２０には、検索キーワードの入力スペースの画像ｇ４２１、検索ボタンの画像ｇ４２２、ウェブページの所定の個数の選択する画像ｇ４２３が含まれている。
また、図２３において、符号ｇ４３０が示す領域の画像は、抽出された結果を示す画像である。なお、抽出された結果を示す画像ｇ４３０は、抽出された結果の一部の画像であり、スクロールボタン（画像ｇ４３１）を用いて、利用者が検索結果をスクロールすることで残りの検索結果が表示される。

ここで、第１の抽出方法〜第９の抽出方法の概略について説明する。
第１の抽出方法では、検索キーワードを検索エンジンに入力して検索を行い、検索結果の上位から所定の個数の検索結果のサイトを選択する。そして、第１の抽出方法では、選択されたサイトから重要キーワード（共起語）を抽出する。
第２の抽出方法では、Ｑ＆Ａサイト１に対して検索キーワードの検索行って重要キーワードを抽出する。
第３の抽出方法では、Ｑ＆Ａサイト２に対して検索キーワードの検索行って重要キーワードを抽出する。
第４の抽出方法では、Ｑ＆Ａサイト３に対して検索キーワードの検索行って重要キーワードを抽出する。
第５の抽出方法では、Ｑ＆Ａサイト４に対して検索キーワードの検索行って重要キーワードを抽出する。

第６の抽出方法では、Ｑ＆Ａサイト１〜Ｑ＆Ａサイト４全てに対して検索キーワードの検索行って重要キーワードを抽出する。
第７の抽出方法では、Ｑ＆Ａサイト１〜Ｑ＆Ａサイト４全てに対して検索キーワードの検索行って重要キーワードを抽出し、さらに第１の抽出方法で重要キーワードを抽出する。そして、第７の抽出方法では、Ｑ＆Ａサイト１〜Ｑ＆Ａサイト４全てを検索して抽出した重要キーワードと、第１の抽出方法で抽出した重要キーワードとを比較する。
第８の抽出方法では、第１の抽出方法で重要キーワードを抽出し、抽出した重要キーワードが評価するサイト（以下、評価サイトという）に含まれているか否か、含まれている場合は重要キーワードの使用頻度に基づいて評価を行う。
第９の抽出方法では、評価サイトからキーワードを抽出し、さらに第１の抽出方法で重要キーワードを抽出する。そして、第９の抽出方法では、評価するサイトに不足している重要キーワード、過剰なキーワードを抽出して評価する。

まず、第１の抽出方法の処理について説明する。
ドメインＤＢ１３Ｄには、少なくとも、Ｑ＆Ａサイト１〜Ｑ＆Ａサイト４に対応付けられたドメイン１１〜ドメイン１４、検索エンジンのアドレス（ドメイン）が格納されているとする。
第１の抽出方法が選択された場合、検索部１２Ｄは、ドメインＤＢ１３Ｄに格納されている検索エンジンのアドレスの検索エンジンを用いて、入力された検索キーワードを検索する。続けて、検索部１２Ｄは、検索した結果から不用なドメインを除去した後、例えば上位２０個のウェブページを選択する。続けて、第２ノイズ除去部１７Ｂは、無意味言葉等を示すタグを除去する。続けて、キーワード抽出部１８Ｄは、無意味言葉等が除去された上位２０個のウェブページの情報から、キーワードを抽出し、抽出したキーワードの出現回数、重要度等を算出する。続けて、キーワードリスト出力部１９は、抽出したキーワードを例えば図１０のようなリスト形式で出力する。

次に、第２の抽出方法〜第５の抽出方法の処理について説明する。
第２の抽出方法が選択された場合、検索部１２Ｄは、ドメインＤＢ１３Ｄに格納されているＱ＆Ａサイト１に対応付けられているドメイン１１を選択し、選択したドメイン１１を用いて入力された検索キーワードを検索する。
同様に、第ｎ（ｎは３〜５）の抽出方法が選択された場合、検索部１２Ｄは、ドメインＤＢ１３Ｄに格納されているＱ＆Ａサイトｎに対応付けられているドメイン１（ｎ）を選択し、選択したドメイン１（ｎ）を用いて入力された検索キーワードを検索する。
続けて、検索部１２Ｄは、検索した結果から、例えば上位２０個のウェブページを選択する。続けて、第２ノイズ除去部１７Ｂは、無意味言葉等を示すタグを除去する。なお、第２ノイズ除去部１７Ｂが除去した後のウェブページの情報には、少なくともＱ＆Ａサイトの質問部分のテキストが含まれ、回等部分のテキストが含まれていてもよい。続けて、キーワード抽出部１８Ｄは、無意味言葉等が除去された上位２０個のウェブページの情報から、キーワードを抽出し、抽出したキーワードの出現回数、重要度等を算出する。続けて、キーワードリスト出力部１９は、抽出したキーワードを例えば図１０のようなリスト形式で出力する。すなわち、第２の抽出方法〜第５の抽出方法と第１の抽出方法との差異は、第１の抽出方法の検索対象のウェブページが限られていないが、第２の抽出方法〜第５の抽出方法の検索対象のウェブページがＱ＆Ａサイトに限られている点である。

次に、第６の抽出方法の処理について説明する。
第６の抽出方法が選択された場合、検索部１２Ｄは、ドメインＤＢ１３Ｄに格納されているＱ＆Ａサイト１〜Ｑ＆Ａサイト４に対応付けられているドメイン１１〜ドメイン１４全てを選択し、選択したドメイン１１〜ドメイン１４全てを用いて入力された検索キーワードを検索する。続けて、検索部１２Ｄは、ドメイン１１〜ドメイン１４を検索した結果それぞれから、上位から所定の個数のウェブページを選択する。続けて、第２ノイズ除去部１７Ｂは、無意味言葉等を示すタグを除去する。続けて、キーワード抽出部１８Ｄは、無意味言葉等が除去された上位のウェブページの情報から、キーワードを抽出し、抽出したキーワードの出現回数、重要度等を算出する。続けて、キーワードリスト出力部１９は、抽出したキーワードを例えば図１０のようなリスト形式で出力する。

以上のように、本実施形態の第２変形例に係るキーワード抽出装置１Ｄにおいて、検索部１２Ｄは、検索キーワードに基づいて、コンテンツを検索するドメインを限定（例えば、Ｑ＆Ａサイトに限定）してコンテンツを検索し、キーワード抽出部は、限定したドメインのコンテンツのテキストから複数のキーワードを抽出し、抽出した結果に基づいてキーワードリストを生成する。

この構成によって、本実施形態によれば、Ｑ＆Ａサイトで用いられている検索キーワードに対応するキーワード（共起語）を抽出することができる。

次に、第７の抽出方法について説明する。
第７の抽出方法が選択された場合、検索部１２Ｄは、ドメインＤＢ１３Ｄに格納されているＱ＆Ａサイト１〜Ｑ＆Ａサイト４に対応付けられているドメイン１１〜ドメイン１４全てを選択し、選択したドメイン１１〜ドメイン１４全てを用いて入力された検索キーワードを検索する。さらに、検索部１２Ｄは、検索エンジンを用いて入力された検索キーワードを検索し、ドメイン１１〜ドメイン１４全てを検索した結果と、検索エンジンを用いて検索した結果とを第２ノイズ除去部１７Ｂに出力する。続けて、第２ノイズ除去部１７Ｂは、無意味言葉等を示すタグを除去する。続けて、キーワード抽出部１８Ｄは、無意味言葉等が除去された上位のウェブページの情報それぞれから、キーワードを抽出し、抽出したキーワードの出現回数、重要度等を算出する。
この場合、キーワード抽出部１８Ｄは、図２４に示すように、ドメイン１１〜ドメイン１４全てを検索した結果（画像ｇ３８０）と、検索エンジンを用いて検索した結果（画像ｇ３７０）とを比較し、比較した結果に基づいてキーワードリストを生成する。

図２４は、本実施形態の第２変形例に係る第７の抽出方法によるキーワード抽出装置１Ｄによるキーワードの検索結果の比較例を示す図である。
図２４に示すように、各検索結果には、出現回数の画像（ｇ３７２、ｇ３８２）、出現回数に重要度を乗算した値の画像（ｇ３７３、ｇ３８３）、抽出された重要キーワードの画像（ｇ３７４、ｇ３８４）が含まれている。
また、図２４に示すように、ドメイン１１〜ドメイン１４全てを検索した結果（画像ｇ３８０）と、検索エンジンを用いて検索した結果（画像ｇ３７０）の重要キーワードが異なる場合、異なっている重要キーワードの表示方法を変えるようにしてもよい。キーワード抽出部１８Ｄは、例えば、文字の色、文字の太さ、フォントの種類、文字に色つきマーカーを合成する等を行うようにしてもよい。図２４に示す例において、符号ｇ３８５に示すキーワードは、Ｑ＆Ａサイトの出現頻度が高いが検索エンジンで検索した上位サイトであまり用いられていないキーワードのうち、検索順位が例えば６１位以下であることを示している。また、符号ｇ３８６に示すキーワードは、Ｑ＆Ａサイトの出現頻度が高いが検索エンジンで検索した上位サイトであまり用いられていないキーワードのうち、検索順位が例えば３１位から６０位であることを示している。

なお、本実施形態では、第７の抽出方法において、ドメイン１１〜ドメイン１４全てを検索した結果と、検索エンジンを用いて検索した結果を比較する例を説明したが、これに限られない。キーワード抽出部１８Ｄは、例えばドメイン１１とドメイン１２で検索された結果を比較してキーワードリストを生成するようにしてもよい。

以上のように、第２の抽出方法〜第７の抽出方法によれば、Ｑ＆Ａサイトからキーワードを抽出するようにした。この意味合いは、検索エンジンを用いる人が、知りたい情報が何であるかが、Ｑ＆Ａサイトの、特に質問欄に含まれている可能性が高い。このため、Ｑ＆Ａサイトの質問欄に含まれているキーワードは、情報を知りたい人が、検索エンジンを使って検索するときに、検索キーワードとして入力する可能性が高い。従って、Ｑ＆Ａサイトに含まれる重要なキーワードである共起語を、例えば自社のサイトに用いていれば、情報を知りたい人が、検索エンジンを使って検索したときに上位の検索結果として表示される可能性を高めることができる。

以上のように、本実施形態の第２変形例に係るキーワード抽出装置１Ｄにおいて、検索部１２Ｄは、検索キーワードに基づいて予め定められている少なくとも２つのドメイン（例えば、Ｑ＆Ａサイト１〜４、検索エンジンのうちの少なくとも２つ）の異なるコンテンツを検索し、キーワード抽出部１８Ｄは、異なるドメインのコンテンツのテキストそれぞれから複数のキーワードをそれぞれ抽出し、異なるドメインのコンテンツのテキストそれぞれから抽出したキーワードを比較し、比較した結果に基づいてキーワードリストを生成する。

この構成によって、本実施形態によれば、Ｑ＆Ａサイトで用いられている検索キーワードに対応する抽出されたキーワード（共起語）と、検索エンジンによって抽出されたキーワード（共起語）とを比較することができる。
例えば、Ｑ＆Ａサイトの質問から抽出されたキーワード（共起語）は、利用者が最も知りたいキーワードが含まれている可能性が高い。一方、検索エンジンで検索されたウェブページから抽出されたキーワード（共起語）には、コンテンツに使用される頻度が高くても、利用者が最も知りたい情報のキーワードではない場合もあり得る。このため、これらのキーワード（共起語）を比較し、利用者が最も知りたいと思われるキーワード（共起語）を含むコンテンツを作成することで、利用者が知りたい情報を提供することが可能になる。

次に、第８の抽出方法について説明する。
第８の抽出方法では、入力した検索キーワードで検索した場合、検索結果の上位のサイトに含まれているキーワードが、評価対象のサイト（例えば自社のサイト）に過不足無く書かれているか判定する。

第８の抽出方法における操作画面について説明する。
図２５は、本実施形態の第２変形例に係る第８の抽出方法が選択された場合のキーワード抽出装置１Ｄによる操作画面の例を示す図である。なお、図２５は、検索キーワードの入力領域の画像ｇ４２０Ａと、探索結果の画像ｇ４４０を抜き出して示した図である。
図２５に示すように、検索キーワードの入力領域の画像ｇ４２０Ａには、検索キーワード入力欄の画像ｇ４２１、検索ボタンの画像ｇ４２２、所定の個数を選択する画像ｇ４２３、探索対象のドメイン入力欄の画像ｇ４２４が含まれている。

また、探索結果の画像ｇ４４０には、検索キーワードを示す画像ｇ４４１、探索ドメインを示す画像ｇ４４２、出現回数の画像ｇ４４３、出現回数に重要度を乗算した値の画像ｇ４４４、抽出された重要キーワード（共起語）の画像ｇ４４５が含まれている。さらに、探索結果の画像ｇ４４０には、重要キーワードが使用されている評価サイト内のウェブページにおける重要キーワードの順位を示す画像ｇ４４６、重要キーワードが使用されている評価サイト内のウェブページのアドレスを示す画像ｇ４４７が含まれている。
なお、ドメイン内のウェブページ内に重要キーワードが含まれていない（使用されていない）場合は、順位を例えば５０位以上とし画像ｇ４３６に“５０＋”と表示し、画像ｇ４４７に空欄を表示させるようにしてもよい。

次に、第８の抽出方法の処理手順について説明する。
図２６は、本実施形態の第２変形例に係る第８の抽出方法における処理のフローチャートである。

（ステップＳ４０１）利用者は、第８の抽出方法を選択し、検索キーワードを検索キーワード入力欄（画像ｇ４２１）に入力し、さらに評価対象のドメインを、ドメイン入力欄（画像ｇ４２４）に入力する。続けて、キーワード入力部１１Ｄは、入力された検索キーワードと、評価対象のドメインとを取得する。なお、評価対象のドメインとは、抽出された重要キーワード（共起語）が含まれているウェブページを探索するためのドメインであり、例えば評価したい自社のサイトのドメインである。

（ステップＳ２）検索部１２Ｄは、検索エンジンを用いて検索キーワードを検索する。なお、検索方法は、第２の抽出方法〜第５の抽出方法で説明したＱ＆Ａサイトであってもよい。

続けて、検索部１２Ｄは、ステップＳ３を行う。続けて、第２ノイズ除去部１７Ｂは、ステップＳ１５の処理を行う。続けて、キーワード抽出部１８Ｄは、ステップＳ７の処理を行う。
（ステップＳ４０２）キーワード抽出部１８Ｄは、抽出された重要キーワード（共起語）を逐次選択する。
（ステップＳ４０３）キーワード抽出部１８Ｄは、選択した重要キーワードが入力されたドメインのウェブページに含まれているか否かを判別する。キーワード抽出部１８Ｄは、選択したキーワードが入力されたドメインのウェブページに含まれていると判別した場合（ステップＳ４０３；ＹＥＳ）、ステップＳ４０４の処理に進む。キーワード抽出部１８Ｄは、選択したキーワードが入力されたドメインのウェブページに含まれていないと判別した場合（ステップＳ４０３；ＮＯ）、ステップＳ４０２の処理に戻る。

（ステップＳ４０５）キーワード抽出部１８Ｄは、ステップＳ４０２で選択したキーワードが含まれているウェブページのアドレスを取得する。
（ステップＳ４０５）キーワード抽出部１８Ｄは、ステップＳ６で抽出された全ての重要キーワードの選択が終了したか否かを判別する。キーワード抽出部１８Ｄは、全ての重要キーワードの選択が終了したと判別した場合（ステップＳ４０５；ＹＥＳ）、ステップＳ４０６の処理に進み、全ての重要キーワードの選択が終了していないと判別した場合（ステップＳ４０５；ＮＯ）、ステップＳ４０２の処理に戻る。

（ステップＳ４０６）キーワード抽出部１８Ｄは、重要キーワードにアドレスを対応付けてキーワードリストを生成する。
以上で、第８の抽出方法の処理を終了する。

以上のように、第８の抽出方法によれば、情報を知りたい人が検索時に入力すると想定される検索キーワードを用いて検索エンジンで検索した場合、検索結果の上位のサイトに含まれているキーワードが、評価対象のサイト（例えば自社のサイト）にも使用されているか否かを判定することができる。

次に、第９の抽出方法について説明する。
第９の抽出方法では、まず、第１の抽出方法によって重要キーワードを抽出する。さらに、評価したいサイトのドメインまたはウェブページのアドレスの情報（以下、評価サイトの情報という）において出現頻度（使用頻度）が高いキーワードを抽出する。そして、第９の抽出方法では、抽出された重要キーワードと、抽出したい評価サイトにおけるキーワードとを比較し、評価サイトに不足している重要キーワードを抽出する。

図２７は、本実施形態の第２変形例に係る第９の抽出方法が選択された場合のキーワード抽出装置による評価結果の例を示す図である。
図２７に示すように、評価結果の画像ｇ４５０には、検索キーワードを示す画像ｇ４５１、評価サイトの情報を示す画像ｇ４５２、評価サイトから抽出されたキーワードを示す画像ｇ４５３、検索エンジンによって検索された上位サイトから抽出された重要キーワードを示す画像ｇ４５４、過不足キーワードを示す画像ｇ４５５が含まれている。
評価サイトから抽出されたキーワードを示す画像ｇ４５３において、キーワード（画像ｇ４５３３）は出現回数（画像ｇ４５３１）に重要度を乗算した値（画像ｇ４５３２）が大きい順に表示される。また、上位サイトから抽出された重要キーワードを示す画像ｇ４５４には、出現回数の画像ｇ４５４１、出現回数に重要度を乗算した値の画像ｇ４５４２、重要キーワード（共起語）の画像ｇ４５４３が含まれている。

過不足キーワードを示す画像ｇ４５５には、例えば、不足１（評価サイトに追加した方がよい重要キーワード；評価サイトでの頻度が低いキーワード）のリストの画像ｇ４５５１、不足２（評価サイトに追加した方がよい重要キーワード；評価サイトで使用されていないキーワード）のリストの画像ｇ４５５２が含まれている。さらに、過不足キーワードを示す画像ｇ４５５には、過剰１（評価サイトでは頻度が高いが、上位サイトでは頻度が低いキーワード）のリストの画像ｇ４５５３、過剰２（上位サイトでは使用されていないが評価サイトで頻度の高いキーワード）のリストの画像ｇ４５５４が含まれている。なお、不足しているキーワードは、検索エンジンによって上位のサイトから抽出された共起語であるため、商品やサービスの情報について購買者や商品の利用者が知りたい情報である。一方、過剰なキーワードは、購買者や商品の利用者にとっては、過剰な情報である可能性がある。

ここで、不足キーワードの検出方法、過剰キーワードの検出方法の一例を説明する。
キーワード抽出部１８Ｄは、上位サイトから抽出された重要キーワードのうち１つを順次選択する。そして、キーワード抽出部１８Ｄは、選択した重要キーワードと、評価サイトから抽出されたキーワードとを順次比較することで、不足しているキーワードを検出する。
また、キーワード抽出部１８Ｄは、評価サイトから抽出されたキーワードのうち１つを順次選択する。そして、キーワード抽出部１８Ｄは、選択したキーワードと、上位サイトから抽出された重要キーワードとを順次比較することで、過剰なキーワードを検出する。

次に、第９の抽出方法の使用例について説明する。
サイトの運営者は、例えば評価サイトとして自社のサイトのアドレスを入力する。そして、評価結果を用いて、自社のサイトに不足しているキーワードを知ることで、自社のサイトを改善することができる。
なお、図２７に示した評価結果は一例であり、これに限られず、評価サイトと上位サイトを比較した結果に基づく情報であればよい。

上述したように、本実施形態の第２変形例においては、利用者はキーワード（共起語）を検索する場合に、検索したいウェブページのドメインを選択することができる。これにより、利用者は、例えば、各抽出方法によってキーワードを抽出させ、得られた抽出結果を比較することができる。また、上述したように、本実施形態の第２変形例では、複数のＱ＆Ａサイトを検索してキーワードを抽出するため、各Ｑ＆Ａサイトで話題となった文章から、バランスよくキーワード（共起語）を抽出することができる。

なお、検索部１２Ｄは、Ｑ＆Ａサイトの質問から検索キーワードに対応するキーワード（共起語）を抽出するようにしてもよい。この場合、キーワード抽出装置１Ｄは、メインコンテンツ抽出部１５を備え、メインコンテンツ抽出部１５が抽出したメインコンテンツから質問のテキストを抽出する。

以上のように、本実施形態の第２変形例に係るキーワード抽出装置１Ｄにおいて、検索部１２Ｄは、検索キーワードに基づいて、検索エンジンを用いてコンテンツを検索し、キーワード抽出部１８Ｄがコンテンツのテキストから抽出した複数のキーワードに基づいて検索して評価対象のサイトの検索結果の順位を検索し、キーワード抽出部は、コンテンツのテキストから複数のキーワードを抽出し、抽出した複数のキーワードが前記評価対象のサイトのコンテンツで使用されているか否かを判別した結果と、検索部が検索した評価対象のサイトの検索順位に基づいてキーワードリストを生成する。

この構成によって、本実施形態によれば、検索エンジンによって抽出されたキーワード（共起語）が、評価サイトに含まれているか否か、検索エンジンで検索した場合の順位を提供することができる。

［第３実施形態］
本実施形態では、ウェブページの品質を評価することができるキーワード抽出装置１Ｅについて説明する。
本実施形態のキーワード抽出装置１Ｅは、入力されたウェブページのメインコンテンツを抽出し、抽出したメインコンテンツから予め定められている個数の文章を抽出する。そして、キーワード抽出装置１Ｅは、抽出した文章を検索エンジンで検索し、検索した結果に基づいて、ウェブページを評価する。

＜キーワード抽出装置１Ｅの構成＞
図２８は、本実施形態に係るキーワード抽出装置１Ｅの概略構成図である。なお、キーワード抽出装置１、１Ａ、１Ｂ、１Ｃ、または１Ｄと同じ機能を有する機能部については、同じ符号を用いて、説明を省略する。
図２８に示すように、キーワード抽出装置１Ｅは、キーワード入力部１１Ｅ、検索部１２Ｅ、メインコンテンツ抽出部１５、タグＤＢ１６、第２ノイズ除去部１７Ｅ、文章抽出部２０、検索順位取得部２１、評価結果生成部２２、および評価結果出力部２３を備える。

キーワード入力部１１Ｅは、利用者によって入力されたウェブページのアドレスを示す情報を取得し、取得したウェブページのアドレスを示す情報を検索部１２Ｅと検索順位取得部２１に出力する。

検索部１２Ｅは、キーワード入力部１１Ｅが出力したウェブページのアドレスを検索エンジンに入力し、ウェブページを検索する。検索部１２Ｅは、検索したウェブページのソースコードを取得し、取得したソースコードをメインコンテンツ抽出部１５に出力する。
また、検索部１２Ｅは、文章抽出部２０が出力した文章を取得し、取得した文書のうち１つを順次選択する。検索部１２Ｅは、選択した文章を、順次、検索エンジンに入力して検索する。なお、検索結果には、ソースコードが含まれている。そして、検索部１２Ｅは、選択した文章と検索結果をメインコンテンツ抽出部１５に順次出力する。

第２ノイズ除去部１７Ｅは、メインコンテンツ抽出部１５が出力したメインコンテンツの中から、タグＤＢ１６を参照して無意味言葉等を除去する。第２ノイズ除去部１７Ｅは、無意味言葉等を除去したメインコンテンツを、文章抽出部２０に出力する。なお、無意味言葉には、検索に用いた文章に関連した広告が含まれる。第２ノイズ除去部１７Ｅは、無意味言葉等を除去したメインコンテンツと、選択された文章とを、検索順位取得部２１に順次出力する。

文章抽出部２０は、第２ノイズ除去部１７Ｅが出力したメインコンテンツから予め定められた個数の文章（テキスト）を抽出する。なお、予め定められた個数は、１つ以上であればよく、固定された値であってもよく、メインコンテンツの総文字数に応じて設定される個数であってもよい。文章抽出部２０は、抽出した文章を検索部１２Ｅに出力する。なお、文章抽出部２０は、抽出した文章が、所定の文字数以上の場合、文書の頭から所定の文字数を抜き出して、１つの文章として扱うようにしてもよい。

検索順位取得部２１は、第２ノイズ除去部１７Ｅが出力した選択された文章と、無意味言葉等が除去された検索結果におけるメインコンテンツを順次取得する。また、検索順位取得部２１は、キーワード入力部１１Ｅが出力したウェブページのアドレスを示す情報を取得する。検索順位取得部２１は、取得したメインコンテンツとウェブページのアドレスを用いて、検索結果におけるウェブページの順位を取得し、取得した順位を選択された文章と対応付けて順次、評価結果生成部２２に出力する。

評価結果生成部２２は、検索順位取得部２１が出力した順位に配点し、各文章に対する評価を行う。評価結果生成部２２は、各文章の配点を合計し、合計点に応じて評価結果を生成し、生成した評価結果を評価結果出力部２３に出力する。なお、順位に対する配点、評価結果については、後述する。

評価結果出力部２３は、例えばＷｅｂ上での情報提供部、表示装置、プリンタ装置、通信装置のうち少なくとも１つである。評価結果出力部２３は、評価結果生成部２２が出力した評価結果を、例えばＷｅｂ上で提供する。

＜評価処理の手順＞
次に、キーワード抽出装置１Ｅが行う評価処理の手順について説明する。
図２９は、本実施形態に係るキーワード抽出装置１Ｅが行う評価処理のフローチャートである。
（ステップＳ５０１）キーワード入力部１１Ｅは、利用者によって入力されたウェブページのアドレスを示す情報を取得する。
（ステップＳ５０２）検索部１２Ｅは、ウェブページのソースコードを取得する。
続けて、メインコンテンツ抽出部１５は、ステップＳ５の処理を行い、処理終了後、ステップＳ５０３に処理を進める。

（ステップＳ５０３）文章抽出部２０は、第２ノイズ除去部１７Ｅが出力したメインコンテンツから予め定められた個数の文章（テキスト）を抽出する。
（ステップＳ５０４）検索部１２Ｅは、文章抽出部２０が出力した文章を取得し、取得した文書のうち１つを順次選択する。続けて、検索部１２Ｅは、選択した文章を、順次、検索エンジンに入力して検索する。続けて、メインコンテンツ抽出部１５は、検索部１２Ｅが出力した検索結果からメインコンテンツを抽出する。続けて、第２ノイズ除去部１７Ｅは、メインコンテンツ抽出部１５が出力したメインコンテンツから広告を含む無意味言葉を除去する。

（ステップＳ５０５）検索順位取得部２１は、第２ノイズ除去部１７Ｅが出力した選択された文章と、無意味言葉が除去された検索結果におけるメインコンテンツを順次取得する。続けて、検索順位取得部２１は、検索結果におけるウェブページの順位を取得する。
（ステップＳ５０６）評価結果生成部２２は、検索順位取得部２１が出力した順位に対して配点し、各文章に対する評価を行う。続けて、評価結果生成部２２は、各文章の配点を合計し、合計点に応じて評価結果を生成する。続けて、評価結果出力部２３は、評価結果生成部２２が出力した評価結果を出力する。
以上で、評価処理を終了する。

＜配点、評価結果の例＞
次に、配点、評価結果の例について説明する。
図３０は、本実施形態に係る評価結果の例を示す図である。図３０に示す例は、２つのウェブページに対する評価結果の例である。図３０に示すように、出力される判定結果には、ウェブページのアドレス、総合点、取得文章＋順位、アドバイス、評価日が含まれている。

まず、配点について説明する。
一般的に、検索エンジンの利用者は、検索結果の１位から検索内容を閲覧していく。例えば、検索結果が１位の検索結果を閲覧し、そこで知りたい情報が得られた場合、他の検索結果を閲覧しない場合が少なくない。そして、検索エンジンの利用者は、検索結果が２０位以下の検索結果を閲覧しない場合が少なくない。したがって、検索結果が上位であるほど、検索に用いられた文章は、他のウェブページに対して優位であると言える。また、順位が低い場合、検索に用いられた文章は、他のウェブページにも使用されていることを意味しているため、他のウェブページに対する優位性が低いと言える。

評価結果生成部２２は、５個の文章を選択した場合、文章毎に２０点（＝１００／５）を割り当てる。そして、評価結果生成部２２は、上述した利用により、例えば、１位に２０点、２位に１６点、３位に１２点、・・・、２０位以下に０点を割り当てる。
評価結果生成部２２は、５つの文章の配点の総合点が１００点の場合、判定結果として「◎」または「ＶｅｒｙＧｏｏｄ」であると判別し、総合点が１００点未満である場合、判定結果として「×」または「ＮｏＧｏｏｄ」であると判定する。
なお、上述した配点、判定は一例であり、これに限られない。

図３０の符号ｇ５０１で囲んだ評価結果は、ウェブページ「http://www.abcdef.html」に対する評価結果である。抽出された５つの文章が、文章１〜文章５である。それぞれの文章を検索エンジンに入力して検索した結果、それぞれの順位が３位、１位、１位、２０位以上、１位である。そして、総合点が７２点であり、判定「×」である。また、アドバイスは、「コピーされているか、書き直しを強くオススメます。」である。

図３０の符号ｇ５０２で囲んだ評価結果は、ウェブページ「http://www.abcdfg.html」に対する評価結果である。符号ｇ５０２で囲んだ評価結果は、メインコンテンツから１０個の文章を抽出して評価した結果の例である。このウェブページから抜き出した例では、抽出した１０個の文章のうち１位が２個、２０位以内が８個であり、総合点が２０点である。そして、アドバイスは、「コピーされているか、書き直しを強くオススメます。」である。
なお、アドバイスの文面は、総合点に対応付けて、評価結果生成部２２に予め記憶させておくようにしてもよい。

なお、図２８に示した例において、キーワード抽出装置１Ｅは、タブＤＢ１６、第２ノイズ除去部１７Ｅを備えていなくてもよい。この場合、メインコンテンツ抽出部１５は、抽出したメインコンテンツを文章抽出部２０に出力し、検索結果のメインコンテンツを検索順位取得部２１に出力するようにしてもよい。

以上のように、本実施形態に係るキーワード抽出装置１Ｅにおいて、メインコンテンツ抽出部１５が抽出したメインコンテンツから少なくとも１つの文章を抽出する文章抽出部２０と、検索部１２Ｅによって文章に基づいて検索された順位を取得する検索順位取得部２１と、検索順位取得部が取得した順位に基づいて、文章が抽出された評価を行う対象のウェブページに対して評価を行う評価結果生成部２２と、をさらに備える。

この構成によって、本実施形態によれば、評価を行いたいウェブページからメインコンテンツを抽出し、抽出されたメインコンテンツから少なくとも１つの文章を抽出する。そして、本実施形態では、抽出された文章を、検索エンジンを用いて検索を行い、検索に用いられた文書が含まれているウェブサイトの順位に基づいて、ウェブページの評価を行う。これにより、本実施形態によれば、ウェブページの運用者は、ウェブページのアドレスをキーワード抽出装置１Ｅに入力するだけで、自社のウェブページの品質の評価結果を得ることができる。

［第４実施形態］
本実施形態では、検索エンジンが有するサジェスト機能を用いてキーワードの抽出、評価を行う例を説明する。
まず、サジェスト機能について説明する。
サジェスト機能とは、検索エンジンを用いて単語を検索するときに、検索エンジンの利用者が検索する可能性が高い言葉を検索エンジンが提案する機能である。例えば、検索エンジンに「格安ＳＩＭ」と入力すると、「格安ｓｉｍ」、「格安ｓｉｍ比較」、「格安ｓｉｍテザリング」等の候補が提案される。このように、提案される言葉は、検索エンジンの利用者によって検索された回数が多い、すなわち利用者が知りたい情報である場合が多い。
本実施形態では、検索ワードに対して提案される単語を収集し、収集した単語が評価サイト（例えば自社のサイト）に含まれている頻度に応じて、評価サイトを評価する。

＜キーワード抽出装置１Ｆの構成＞
図３１は、本実施形態に係るキーワード抽出装置１Ｆの概略構成図である。
図３１に示すように、キーワード抽出装置１Ｆは、キーワード入力部１１Ｆ、検索部１２Ｆ、メインコンテンツ抽出部１５、サジェスト取得部２４、検索順位取得部２１Ｆ、評価結果生成部２２Ｆ、および評価結果出力部２３を備える。また、キーワード抽出装置１Ｆは、ネットワーク２に接続されている。なお、キーワード抽出装置１、１Ａ、１Ｂ、１Ｃ、１Ｄ、１Ｅ、または１Ｆと同じ機能を有する機能部については、同じ符号を用いて、説明を省略する。また、キーワード抽出装置１Ｆは、メインコンテンツ抽出部１５と検索順位取得部２１Ｆとの間に、第２ノイズ除去部１７（または１７Ｂ、１７Ｅ）、タグＤＢ１６を備えていてもよい。

キーワード入力部１１Ｆは、利用者によって入力された検索キーワードを取得し、取得した検索キーワードを検索部１２Ｆに出力する。また、キーワード入力部１１Ｆは、利用者によって入力された評価サイトの情報を取得し、取得した評価サイトの情報を検索順位取得部２１Ｆに出力する。

検索部１２Ｆは、キーワード入力部１１Ｆが出力した検索キーワードを検索エンジンに入力し、検索キーワードを入力したときに提案される言葉（以下、予測言葉）をサジェスト取得部２４に出力する。なお、予測言葉には、少なくとも検索キーワードが含まれ、例えば検索キーワードと他の単語との組み合わせ、検索キーワードを含む複合語等である。
また、検索部１２Ｆは、サジェスト取得部２４が出力した予測言葉のうちから１つを選択し、選択した予測言葉を検索エンジンに入力して検索する。そして、検索部１２Ｆは、検索結果を順次、メインコンテンツ抽出部１５に出力する。

サジェスト取得部２４は、検索部１２Ｆが出力した予測言葉を取得し、取得した予測言葉を検索部１２Ｆと評価結果生成部２２Ｆに出力する。
メインコンテンツ抽出部１５は、検索部１２Ｆが予測言葉を用いて検索した結果のソースコードからメインコンテンツを抽出し、抽出したメインコンテンツを検索順位取得部２１Ｆに出力する。

検索順位取得部２１Ｆは、メインコンテンツ抽出部１５が出力したメインコンテンツと、キーワード入力部１１Ｆが出力した評価サイトの情報を取得する。検索順位取得部２１Ｆは、検索結果における評価サイトの順位を取得し、取得した順位を予測言葉と対応付けて順次、評価結果生成部２２Ｆに出力する。

評価結果生成部２２Ｆは、検索順位取得部２１Ｆが出力した順位と予測言葉を用いて、各予測言葉に対する評価を行う。評価結果生成部２２Ｆは、評価結果に基づいて評価結果を生成し、生成した評価結果を評価結果出力部２３に出力する。または、評価結果生成部２２Ｆは、サジェスト取得部２４が出力した予測言葉を用いて評価結果を生成し、生成した評価結果を評価結果出力部２３に出力する。なお、評価結果については、後述する。

＜評価処理の手順＞
次に、キーワード抽出装置１Ｆが行う評価処理の手順について説明する。
図３２は、本実施形態に係るキーワード抽出装置１Ｆが行う評価処理のフローチャートである。
（ステップＳ６０１）キーワード入力部１１Ｆは、利用者によって入力された検索キーワードと、評価サイトの情報を取得する。
（ステップＳ６０２）検索部１２Ｆは、キーワード入力部１１Ｆが出力した検索キーワードを検索エンジンに入力する。続けて、サジェスト取得部２４は、提案された予測言葉を取得する。なお、取得する予測言葉の個数は、提示される全てであってもよく、または、予め定められた個数であってもよい。

（ステップＳ６０３）検索部１２Ｆ、検索順位取得部２１Ｆ、評価結果生成部２２Ｆは、ステップＳ６０４〜ステップＳ６０６の処理を、予測言葉毎に行う。
（ステップＳ６０４）検索部１２Ｆは、サジェスト取得部２４が出力した予測言葉のうちから１つを選択し、選択した予測言葉を検索エンジンに入力して検索する。

（ステップＳ６０５）検索順位取得部２１Ｆは、検索部１２Ｆが出力した検索結果において、キーワード入力部１１Ｆが出力した評価サイトの順位を取得する。
（ステップＳ６０６）評価結果生成部２２Ｆは、検索順位取得部２１Ｆが出力した順位と予測言葉を用いて、各予測言葉に対する判定を行う。評価結果生成部２２Ｆは、例えば、順位が１位〜１０位の場合に「独占」であると評価し、順位が１１位以下である場合に「未発掘」であると判定するようにしてもよい。

（ステップＳ６０７）検索部１２Ｆ、検索順位取得部２１Ｆ、評価結果生成部２２Ｆは、ステップＳ６０２で取得した予測言葉に対して、ステップＳ６０４〜ステップＳ６０６の処理が終了したとき、ステップＳ６０８の処理に進める。
（ステップＳ６０７）評価結果生成部２２Ｆは、評価結果に基づいて評価結果を生成する。続けて、評価結果出力部２３は、評価結果生成部２２Ｆが出力した評価結果を、例えばＷｅｂ上で提供する。
以上で、評価処理を終了する。

＜評価結果の例＞
次に、評価結果の例について説明する。
図３３は、本実施形態に係る評価結果の例を示す図である。
図３３に示すように、評価結果を示す画像ｇ６００には、検索キーワードの画像ｇ６０１、評価サイトを示す画像ｇ６０２、検索結果と評価結果を示す画像ｇ６０３が含まれている。
検索結果と評価結果を示す画像ｇ６０３には、予測言葉を示す画像ｇ６０３１、判定結果を示す画像ｇ６０３２、順位を示す画像ｇ６０３３が含まれている。
判定結果を示す画像ｇ６０３２に示すように、予測言葉（画像ｇ６０３１）を検索エンジンに入力して検索した順位に応じて、「独占」、「共存」、「未発掘」、「改善」等のアドバイスが示される。なお、図３３に示した判定結果は一例であり、評価結果生成部２２Ｆは、例えば１位〜１０位、１１位〜２０位等、１０位毎に判定結果のラベルを付与するようにしてもよい。また、評価結果生成部２２Ｆは、「独占」、「共存」、「未発掘」、「改善」の各単語を色分けしたり、順位の文字を色分けしたり、各単語または文字にマーカーを付与したり、単語または文字の種類を異なるようにしてもよい。

評価サイトの運用者は、このような評価結果を用いて、予測言葉を用いて検索した場合にも評価サイトが上位に検索されるように、例えば自社のサイトを構築する。これにより、自社のサイトへのアクセス数が向上する効果が得られる。

なお、図３２、図３３に示した例では、予測言葉を検索エンジンで検索して、評価サイトの順位も求める例を説明したが、これに限られない。キーワード抽出装置１Ｆは、検索キーワードに応じた予測言葉を取得し、取得した予測言葉を評価結果として出力するようにしてもよい。

以上のように、本実施形態に係るキーワード抽出装置１Ｆにおいて、検索部１２Ｆが検索した結果から、検索キーワードに基づく予測言葉を取得するサジェスト取得部２４と、サジェスト取得部によって取得された複数の予測言葉のうち１つを選択し、選択した予測言葉を検索部によって検索した結果から、メインコンテンツ抽出部１５によって抽出されたメインコンテンツを用いて、選択した予測言葉の検索順位を取得する検索順位取得部２１Ｆと、検索順位取得部が取得した順位に基づいて、評価を行う対象のウェブページに対して評価を行う評価結果生成部２２Ｆと、をさらに備える。

この構成によって、本実施形態によれば、検索エンジンを用いて検索する利用者が入力する頻度が高いと思われる予測言葉を用いて検索した場合に、評価対象の評価サイトの順位に基づいて、評価サイトの品質を評価する。これにより、本実施形態によれば、例えば、自社サイトの運用者が評価のために入力した検索キーワードだけではなく、利用者によって使用されている検索キーワードも用いて、自社サイトの評価を行うことができる。

［第５実施形態］
本実施形態では、キーワード抽出装置１、１Ａ〜１Ｆのうち、いずれか１つに、コンテンツ生成装置３が接続されている例を説明する。
図３４は、本実施形態に係るコンテンツ生成システム５を示す構成図である。
図３４に示すように、コンテンツ生成システム５は、キーワード抽出装置（１、１Ａ〜１Ｆのうちの、いずれか１つ）、およびコンテンツ生成装置３を備える。また、コンテンツ生成システム５は、ネットワーク２に接続されている。
なお、以下の例では、キーワード抽出装置１Ａを例に説明する。

キーワード抽出装置１Ａのキーワードリスト出力部１９は、通信装置である。
キーワード抽出装置１Ａは、入力された検索キーワードに基づいて複数のキーワードを抽出し、抽出したキーワードをソート処理したキーワードリストの情報を、コンテンツ生成装置３に出力する。

コンテンツ生成装置３は、コンテンツ雛形記憶部３１、コンテンツ生成部３２、およびコンテンツ出力部３３を備える。
コンテンツ雛形記憶部３１は、コンテンツの雛形を記憶する。なお、コンテンツの雛形とは、ウェブページの雛形、カタログの雛形、パンフレットの雛形、取扱説明書の雛形等であり、例えば商品毎に雛形が記憶されている。

コンテンツ生成部３２は、抽出された複数のキーワードと、コンテンツ雛形記憶部３１に記憶されているコンテンツの雛形とを用いてコンテンツを生成し、生成したコンテンツをコンテンツ出力部３３に出力する。ここで、コンテンツとは、ウェブページ、カタログ、パンフレット、取扱説明書等である。

コンテンツ出力部３３は、例えばＷｅｂ上での情報提供部、表示装置、プリンタ装置、通信装置のうち少なくとも１つである。コンテンツ出力部３３は、コンテンツ生成部３２が出力したコンテンツを例えばＷｅｂ上で提供する。

なお、本実施形態では、コンテンツの雛形と抽出された複数のキーワードを用いてコンテンツを生成する例を説明したが、これに限られない。コンテンツ生成装置３は、キーワード抽出装置（１、１Ａ、１Ｂ、１Ｃ、１Ｄのうちの、いずれか１つ）によって抽出された複数のキーワードを用いて、周知の文章を自動生成するプログラム等によってコンテンツを生成するようにしてもよい。この場合、１つの文章に用いるキーワードの個数を予め設定しておくようにしてもよい。また、キーワードそれぞれについて、コンテンツ内で使用する回数を、例えば重要度や出願回数に基づいて設定しておくようにしてもよい。

以上のように、本実施形態のコンテンツ生成システム５は、キーワード抽出装置（１、１Ａ〜１Ｆのうちの、いずれか１つ）と、キーワード抽出装置が抽出した複数のキーワードを用いて、所定のコンテンツを生成するコンテンツ生成装置３と、を備える。

この構成によって、本実施形態では、キーワード抽出装置（１、１Ａ〜１Ｆのうちの、いずれか１つ）によって抽出された複数のキーワードを用いて、コンテンツを生成することができる。この結果、本実施形態によれば、利用者が知りたい情報を用いたコンテンツを提供することができる。

なお、上述した第１実施形態、第２実施形態において、キーワード抽出装置（１、１Ａ〜１Ｆのうちの、いずれか１つ）は、検索キーワードに応じたウェブページをネットワーク２から検索する例を説明したが、これに限られない。例えば、キーワード抽出装置（１、１Ａ〜１Ｆのうちの、いずれか１つ）に接続されているサーバ（不図示）から検索キーワードに応じたウェブページを検索するようにしてもよい。この場合、サーバには、検索キーワードに対応した複数のウェブページに関する情報が格納されている。
また、上述した第１実施形態〜第４実施形態において、ドメインＤＢ１３（または１３Ｄ）、タブＤＢ１６（または１６Ｂ）は、ネットワーク２上にあってもよい。

また、上述した実施形態におけるキーワード抽出装置（１、１Ａ、１Ｂ、１Ｃ、１Ｄ、１Ｅ、１Ｆのうちの、いずれか１つ）またはコンテンツ生成装置３の一部または全てをコンピュータで実現するようにしてもよい。その場合、これらの装置が備える機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、認識データ伝送装置に内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

１、１Ａ、１Ｂ、１Ｃ、１Ｄ、１Ｅ、１Ｆ…キーワード抽出装置、２…ネットワーク、３…コンテンツ生成装置、５…コンテンツ生成システム、１１、１１Ｄ、１１Ｅ、１１Ｆ…キーワード入力部、１２、１２Ｂ、１２Ｄ、１２Ｅ、１２Ｆ…検索部、１３、１３Ｄ…ドメインＤＢ、１４…第１ノイズ除去部、１５…メインコンテンツ抽出部、１６、１６Ｂ…タグＤＢ、１７、１７Ｂ、１７Ｅ…第２ノイズ除去部、１８、１８Ｄ…キーワード抽出部、１９…キーワードリスト出力部、１８１…形態素解析部、１８２…用語抽出部、１８３…キーワードリスト生成部、２０…文章抽出部、２１、２１Ｆ…検索順位取得部、２２、２２Ｆ…評価結果生成部、２３…評価結果出力部、２４…サジェスト取得部、３１…コンテンツ雛形記憶部、３２…コンテンツ生成部、３３…コンテンツ出力部

Claims

検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索部と、
前記検索部によって検索された前記複数のコンテンツの中から、キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する第１ノイズ除去部と、
前記第１ノイズ除去部によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部と、
前記メインコンテンツ抽出部によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出部と、
を備えるキーワード抽出装置。
前記メインコンテンツ抽出部によって抽出された前記メインコンテンツの情報から、所定のタグによって記述されている情報を除去することで、前記キーワードの抽出において意味を成していない不要な記述を除去する第２ノイズ除去部、をさらに備え、
前記キーワード抽出部は、
前記第２ノイズ除去部によって前記所定のタグによって記述されている情報が除去された後の前記メインコンテンツのテキストからキーワードを抽出する、
請求項１に記載のキーワード抽出装置。
検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索部と、
前記検索部によって検索された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツから所定のタグによって記述されている情報を除去することで、キーワードの抽出において意味を成していない不要な記述を除去する第２ノイズ除去部と、
前記第２ノイズ除去部によって前記所定のタグによって記述されている情報が除去された前記コンテンツのテキストから複数のキーワードを抽出するキーワード抽出部と、
を備えるキーワード抽出装置。
前記検索部と前記キーワード抽出部との間に第１ノイズ除去部、をさらに備え、
前記第１ノイズ除去部は、
前記検索部によって検索された前記複数のコンテンツの中から、前記キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する、
請求項３に記載のキーワード抽出装置。
前記第２ノイズ除去部によって前記コンテンツから所定のタグによって記述されている情報が除去されたコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部、
をさらに備える請求項３に記載のキーワード抽出装置。
前記第１ノイズ除去部によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部、
をさらに備える請求項４に記載のキーワード抽出装置。
前記検索部は、前記検索キーワードに基づいて、コンテンツを検索するドメインを限定して前記コンテンツを検索し、
前記キーワード抽出部は、前記限定したドメインのコンテンツのテキストから複数のキーワードを抽出し、抽出した結果に基づいてキーワードリストを生成する、請求項１から請求項６のいずれか１項に記載のキーワード抽出装置。
前記検索部は、前記検索キーワードに基づいて、予め定められている少なくとも２つのドメインの異なるコンテンツを検索し、
前記キーワード抽出部は、前記異なるドメインのコンテンツのテキストそれぞれから複数のキーワードをそれぞれ抽出し、前記異なるドメインのコンテンツのテキストそれぞれから抽出したキーワードを比較し、比較した結果に基づいてキーワードリストを生成する、請求項１から請求項６のいずれか１項に記載のキーワード抽出装置。
前記検索部は、前記検索キーワードに基づいて、コンテンツを検索し、前記キーワード抽出部が前記コンテンツのテキストから抽出した複数のキーワードに基づいて検索して評価対象のサイトの検索結果の順位を検索し、
前記キーワード抽出部は、前記コンテンツのテキストから複数のキーワードを抽出し、抽出した前記複数のキーワードが前記評価対象のサイトのコンテンツで使用されているか否かを判別した結果と、前記検索部が検索した前記評価対象のサイトの検索順位に基づいてキーワードリストを生成する、請求項１から請求項６のいずれか１項に記載のキーワード抽出装置。
前記メインコンテンツ抽出部が抽出した前記メインコンテンツから少なくとも１つの文章を抽出する文章抽出部と、
前記検索部によって前記文章に基づいて検索された順位を取得する検索順位取得部と、
前記検索順位取得部が取得した順位に基づいて、前記文章が抽出された評価を行う対象のウェブページに対して評価を行う評価結果生成部と、
をさらに備える請求項１、請求項２、請求項５、請求項６のいずれか１項に記載のキーワード抽出装置。
前記検索部が検索した結果から、検索キーワードに基づく予測言葉を取得するサジェスト取得部と、
前記サジェスト取得部によって取得された複数の前記予測言葉のうち１つを選択し、前記選択した予測言葉を前記検索部によって検索した結果から、前記メインコンテンツ抽出部によって抽出されたメインコンテンツを用いて、前記選択した予測言葉の検索順位を取得する検索順位取得部と、
前記検索順位取得部が取得した順位に基づいて、評価を行う対象のウェブページに対して評価を行う評価結果生成部と、
をさらに備える請求項１、請求項２、請求項５、請求項６のいずれか１項に記載のキーワード抽出装置。
請求項１から請求項１０のいずれか１項に記載のキーワード抽出装置と、
前記キーワード抽出装置が抽出した前記複数のキーワードを用いて、所定のコンテンツを生成するコンテンツ生成装置と、
を備えるコンテンツ生成システム。
検索部が、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、
第１ノイズ除去部が、前記検索手順によって検索された前記複数のコンテンツの中から、キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する第１ノイズ除去手順と、
メインコンテンツ抽出部が、前記第１ノイズ除去手順によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出手順と、
キーワード抽出部が、前記メインコンテンツ抽出手順によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、
を含むキーワード抽出方法。
検索部が、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、
第２ノイズ除去部が、前記検索手順によって検索された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツから所定のタグによって記述されている情報を除去することで、キーワードの抽出において意味を成していない不要な記述を除去する第２ノイズ除去手順と、
キーワード抽出部が、前記第２ノイズ除去手順によって前記所定のタグによって記述されている情報が除去された前記コンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、
を含むキーワード抽出方法。
コンピュータに、
検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、
前記検索手順によって検索された前記複数のコンテンツの中から、キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する第１ノイズ除去手順と、
前記第１ノイズ除去手順によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出手順と、
前記メインコンテンツ抽出手順によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、
を実行させるプログラム。
コンピュータに、
検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、
前記検索手順によって検索された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツから所定のタグによって記述されている情報を除去することで、キーワードの抽出において意味を成していない不要な記述を除去する第２ノイズ除去手順と、
前記第２ノイズ除去手順によって前記所定のタグによって記述されている情報が除去された前記コンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、
を実行させるプログラム。