JP2017117021A - キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム - Google Patents

キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム Download PDF

Info

Publication number
JP2017117021A
JP2017117021A JP2015249124A JP2015249124A JP2017117021A JP 2017117021 A JP2017117021 A JP 2017117021A JP 2015249124 A JP2015249124 A JP 2015249124A JP 2015249124 A JP2015249124 A JP 2015249124A JP 2017117021 A JP2017117021 A JP 2017117021A
Authority
JP
Japan
Prior art keywords
keyword
search
unit
content
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015249124A
Other languages
English (en)
Other versions
JP6653169B2 (ja
Inventor
啓一 副島
Keiichi Soejima
啓一 副島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faber & Tech Co Inc
Faber & Technology
Faber & Technology Co Inc
Original Assignee
Faber & Tech Co Inc
Faber & Technology
Faber & Technology Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Faber & Tech Co Inc, Faber & Technology, Faber & Technology Co Inc filed Critical Faber & Tech Co Inc
Priority to JP2015249124A priority Critical patent/JP6653169B2/ja
Publication of JP2017117021A publication Critical patent/JP2017117021A/ja
Application granted granted Critical
Publication of JP6653169B2 publication Critical patent/JP6653169B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】利用者が知りたい情報に応じたキーワードを抽出することができるキーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、プログラムを提供することを目的とする。【解決手段】検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索部と、検索された複数のコンテンツの中から所定のドメインのコンテンツを除去する第1ノイズ除去部と、所定のドメインのコンテンツが除去された複数のコンテンツの中から1つのコンテンツを逐次選択し、選択したコンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を選択したコンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部と、メインコンテンツ抽出部によって抽出されたメインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出部と、を備える。【選択図】図2

Description

本発明は、キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラムに関する。
近年のインターネットの急速な普及に伴い、Web(ウェブ)サイトで提供されているサービスを利用して、情報を調べたり、ウェブサイトで販売されている商品を購入したりしる利用者が増えている。
このような場合に、利用者は、知りたい情報に関するキーワード(以下、検索キーワードという)を検索エンジンに入力して、利用したいサービスを提供しているウェブサイトを検索する。そして、利用者は、検索された結果、表示部上に表示されるウェブサイトのうち、例えば上位に表示されたウェブサイトから逐次アクセスして、そのサイトを閲覧する。
検索エンジンは、例えば検索キーワードとウェブサイトのソースコードの記述とを照らし合わせて、検索キーワードとウェブサイトのソースコードの記述との適合度によって、検索結果として表示されるウェブサイトを選択する。
このため、近年、ウェブサイトの運営者の間では、ウェブサイトにどのような記述を行えば、検索結果の上位に表示されるようになるかを知りたいという需要が存在する。
このような需要に応じて、ウェブサイトのコンテンツを構築するためのキーワードを抽出するキーワード抽出システムが提案されている。キーワード抽出システムでは、ウェブサイトを構成するウェブページ毎に、あらかじめ検索キーワードを決めておく。キーワード抽出システムでは、検索エンジンにおける検索履歴を検索キーワード毎に取得する。キーワード抽出システムでは、取得した検索履歴の多い順に検索キーワードを選択する。このように、キーワード抽出システムでは、検索エンジンの検索回数が多いキーワードを、コンテンツを構築するためのキーワードとして選択する(例えば、特許文献1参照)。
特開2006−146446号公報
しかしながら、検索結果の上位に表示されるには、検索キーワードをmeta(メタ)タグやコンテンツ内に記述するだけでは不足であり、検索キーワードと適合しやすい記述をコンテンツに含んでいる必要がある。
このため、特許文献1に記載の技術では、検索回数の多いキーワードをコンテンツが含んでいるだけであり、利用者が得たい情報が含まれているとは限らない。従って、検索回数の多いキーワードを含んでいても、検索結果の上位に表示されない場合もあった。
本発明は上記の点に鑑みてなされたものであり、利用者が知りたい情報に応じたキーワードを抽出することができるキーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラムを提供することを目的とする。
(1)上記目的を達成するため、本発明の一態様に係るキーワード抽出装置は、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索部と、前記検索部によって検索された前記複数のコンテンツの中から、キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する第1ノイズ除去部と、前記第1ノイズ除去部によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部と、前記メインコンテンツ抽出部によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出部と、を備える。
(2)また、本発明の一態様に係るキーワード抽出装置は、前記メインコンテンツ抽出部によって抽出された前記メインコンテンツの情報から、所定のタグによって記述されている情報を除去することで、前記キーワードの抽出において意味を成していない不要な記述を除去する第2ノイズ除去部、をさらに備え、前記キーワード抽出部は、前記第2ノイズ除去部によって前記所定のタグによって記述されている情報が除去された後の前記メインコンテンツのテキストからキーワードを抽出するようにしてもよい。
(3)上記目的を達成するため、本発明の一態様に係るキーワード抽出装置は、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索部と、前記検索部によって検索された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツから所定のタグによって記述されている情報を除去することで、キーワードの抽出において意味を成していない不要な記述を除去する第2ノイズ除去部と、前記第2ノイズ除去部によって前記所定のタグによって記述されている情報が除去された前記コンテンツのテキストから複数のキーワードを抽出するキーワード抽出部と、を備える。
(4)また、本発明の一態様に係るキーワード抽出装置は、前記検索部と前記キーワード抽出部との間に第1ノイズ除去部、をさらに備え、前記第1ノイズ除去部は、前記検索部によって検索された前記複数のコンテンツの中から、前記キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去するようにしてもよい。
(5)また、本発明の一態様に係るキーワード抽出装置は、前記第2ノイズ除去部によって前記コンテンツから所定のタグによって記述されている情報が除去されたコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部、をさらに備えるようにしてもよい。
(6)また、本発明の一態様に係るキーワード抽出装置は、前記第1ノイズ除去部によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部、をさらに備えるようにしてもよい。
(7)また、本発明の一態様に係るキーワード抽出装置において、前記検索部は、前記検索キーワードに基づいて、コンテンツを検索するドメインを限定して前記コンテンツを検索し、前記キーワード抽出部は、前記限定したドメインのコンテンツのテキストから複数のキーワードを抽出し、抽出した結果に基づいてキーワードリストを生成するようにしてもよい。
(8)また、本発明の一態様に係るキーワード抽出装置において、前記検索部は、前記検索キーワードに基づいて、予め定められている少なくとも2つのドメインの異なるコンテンツを検索し、前記キーワード抽出部は、前記異なるドメインのコンテンツのテキストそれぞれから複数のキーワードをそれぞれ抽出し、前記異なるドメインのコンテンツのテキストそれぞれから抽出したキーワードを比較し、比較した結果に基づいてキーワードリストを生成するようにしてもよい。
(9)また、本発明の一態様に係るキーワード抽出装置において、前記検索部は、前記検索キーワードに基づいて、コンテンツを検索し、前記キーワード抽出部が前記コンテンツのテキストから抽出した複数のキーワードに基づいて検索して評価対象のサイトの検索結果の順位を検索し、前記キーワード抽出部は、前記コンテンツのテキストから複数のキーワードを抽出し、抽出した前記複数のキーワードが前記評価対象のサイトのコンテンツで使用されているか否かを判別した結果と、前記検索部が検索した前記評価対象のサイトの検索順位に基づいてキーワードリストを生成するようにしてもよい。
(10)また、本発明の一態様に係るキーワード抽出装置は、前記メインコンテンツ抽出部が抽出した前記メインコンテンツから少なくとも1つの文章を抽出する文章抽出部と、前記検索部によって前記文章に基づいて検索された順位を取得する検索順位取得部と、前記検索順位取得部が取得した順位に基づいて、前記文章が抽出された評価を行う対象のウェブページに対して評価を行う評価結果生成部と、をさらに備えるようにしてもよい。
(11)また、本発明の一態様に係るキーワード抽出装置は、前記検索部が検索した結果から、検索キーワードに基づく予測言葉を取得するサジェスト取得部と、前記サジェスト取得部によって取得された複数の前記予測言葉のうち1つを選択し、前記選択した予測言葉を前記検索部によって検索した結果から、前記メインコンテンツ抽出部によって抽出されたメインコンテンツを用いて、前記選択した予測言葉の検索順位を取得する検索順位取得部と、前記検索順位取得部が取得した順位に基づいて、評価を行う対象のウェブページに対して評価を行う評価結果生成部と、をさらに備えるようにしてもよい。
(12)上記目的を達成するため、本発明の一態様に係るコンテンツ生成システムは、(1)から(11)のいずれか1つに記載のキーワード抽出装置と、前記キーワード抽出装置が抽出した前記複数のキーワードを用いて、所定のコンテンツを生成するコンテンツ生成装置と、を備える。
(13)上記目的を達成するため、本発明の一態様に係るキーワード抽出方法は、検索部が、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、第1ノイズ除去部が、前記検索手順によって検索された前記複数のコンテンツの中から、キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する第1ノイズ除去手順と、メインコンテンツ抽出部が、前記第1ノイズ除去手順によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出手順と、キーワード抽出部が、前記メインコンテンツ抽出手順によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、を含む。
(14)上記目的を達成するため、本発明の一態様に係るキーワード抽出方法は、検索部が、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、第2ノイズ除去部が、前記検索手順によって検索された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツから所定のタグによって記述されている情報を除去することで、キーワードの抽出において意味を成していない不要な記述を除去する第2ノイズ除去手順と、キーワード抽出部が、前記第2ノイズ除去手順によって前記所定のタグによって記述されている情報が除去された前記コンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、を含む。
(15)上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、前記検索手順によって検索された前記複数のコンテンツの中から、キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する第1ノイズ除去手順と、前記第1ノイズ除去手順によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出手順と、前記メインコンテンツ抽出手順によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、を実行させる。
(16)上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、前記検索手順によって検索された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツから所定のタグによって記述されている情報を除去することで、キーワードの抽出において意味を成していない不要な記述を除去する第2ノイズ除去手順と、前記第2ノイズ除去手順によって前記所定のタグによって記述されている情報が除去された前記コンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、を実行させる。
本発明によれば、利用者が知りたい情報に応じたキーワードを抽出することができる。
第1実施形態に係るキーワード抽出装置の操作画面を示す図である。 第1実施形態に係るキーワード抽出装置の概略構成図である。 第1実施形態に係るドメインDBに格納されている情報の一例を示す図である。 ウェブページの構成の一例を示す図である。 第1実施形態に係るキーワード抽出装置の処理のフローチャートである。 ウェブページのソースコードの例を示す図である。 第1実施形態に係る自ウェブページとリンク先のウェブページの構成例を示す図である。 第1実施形態に係るメインコンテンツの抽出処理の手順のフローチャートである。 第1実施形態に係るキーワード抽出部の構成を示すブロック図である。 第1実施形態に係るキーワードリスト出力部が出力するキーワードリストの例を示す図である。 第1実施形態に係るキーワードの抽出処理のフローチャートである。 第1実施形態の変形例に係るキーワード抽出装置の概略構成図である。 第1実施形態の変形例に係るタグDBに格納されている情報の一例を示す図である。 第1実施形態の変形例に係るキーワード抽出装置の処理のフローチャートである。 第1実施形態の変形例に係る無意味言葉の除去処理のフローチャートである。 第2実施形態に係る本実施形態に係るキーワード抽出装置の概略構成図である。 第2実施形態に係るタグDBに格納されている情報の一例を示す図である。 第2実施形態に係るキーワード抽出装置の処理のフローチャートである。 第2実施形態の第1変形例に係るキーワード抽出装置の概略構成図である。 第2実施形態の第1変形例に係るキーワード抽出装置の処理のフローチャートである。 第2実施形態の第2変形例に係るキーワード抽出装置の概略構成図である。 第2実施形態の第2変形例に係るドメインDBに格納されているドメインの一例を示す図である。 第2実施形態の第2変形例に係るキーワード抽出装置による操作画面の例を示す図である。 第2実施形態の第2変形例に係る第7の抽出方法による重要キーワード抽出装置によるキーワードの検索結果の比較例を示す図である。 第2実施形態の第2変形例に係る第8の抽出方法が選択された場合のキーワード抽出装置による操作画面の例を示す図である。 第2実施形態の第2変形例に係る第8の抽出方法における処理のフローチャートである。 第2実施形態の第2変形例に係る第9の抽出方法が選択された場合のキーワード抽出装置による評価結果の例を示す図である。 第3本実施形態に係るキーワード抽出装置の概略構成図である。 第3実施形態に係るキーワード抽出装置が行う評価処理のフローチャートである。 第3実施形態に係る評価結果の例を示す図である。 第4本実施形態に係るキーワード抽出装置の概略構成図である。 第4実施形態に係るキーワード抽出装置が行う評価処理のフローチャートである。 第4実施形態に係る評価結果の例を示す図である。 第5実施形態に係るコンテンツ生成システムを示す構成図である。
[本発明の概要]
まず、本発明の概要を説明する。
本発明では、ウェブサイトに関する検索キーワードを、検索エンジンによって検索する。なお、検索キーワードとは、ウェブページの閲覧者が、検索エンジンに入力すると想定されるキーワードである。そして、本発明では、検索されたウェブページのうち上位から所定の個数のウェブページを選択する。そして、本発明では、選択した所定の個数ウェブページ(コンテンツともいう)それぞれからノイズを除去する。そして、本発明では、ノイズを除去したコンテンツに含まれるテキストを解析して、キーワードを抽出する。なお、キーワードとは、検索キーワードを用いて検索エンジンで検索した結果、検索結果の上位に表示されたウェブページに含まれているキーワードである。なお、各処理については、後述する。
以下、図面を用いて本発明の実施形態について詳細に説明する。なお、本発明は係る実施形態に限定されず、その技術思想の範囲内で種々の変更が可能である。
[第1実施形態]
図1は、本実施形態に係るキーワード抽出装置1の操作画面g101を示す図である。
図1において、四角g111は、検索キーワードの入力欄であり、四角g112は、検索キーワードに基づいてキーワードの抽出を開始するボタンの画像であり、四角g113は、検索キーワードに基づいて、キーワード抽出装置1によって抽出されたキーワードのリストが表示される欄である。
<キーワード抽出装置1の構成>
図2は、本実施形態に係るキーワード抽出装置1の概略構成図である。
図2に示すように、キーワード抽出装置1は、キーワード入力部11、検索部12、ドメインDB13、第1ノイズ除去部14、メインコンテンツ抽出部15、キーワード抽出部18、およびキーワードリスト出力部19を備える。また、キーワード抽出装置1は、ネットワーク2に接続されている。ネットワーク2は、例えばインターネットである。
キーワード入力部11は、例えばキーボード、マウス、タブレット等である。キーワード入力部11は、利用者によって入力された検索キーワードを検索部12に出力する。
検索部12は、キーワード入力部11が出力した検索キーワードを取得し、取得した検索キーワードに適したウェブページを、検索エンジンを用いて検索する。検索部12は、検索によって得られたウェブページのうち、上位から所定の個数のウェブページを選択する。なお、所定の個数とは、例えば20個である。検索部12は、選択した所定の個数のウェブページを示す情報を第1ノイズ除去部14に出力する。なお、検索結果には、各ウェブページのURL(Uniform Resource Locator;ユニフォームリソースロケータ)アドレスが含まれている。
ドメインDB13には、キーワードを抽出する上で不要なウェッブサイトのドメインが格納されている。ここで、不要なドメインとは、ウェブページの一部をまとめたサイト等のコンテンツとして意味をなしていないウェッブサイトのドメインである。
第1ノイズ除去部14は、検索部12が出力した所定の個数のウェブページを示す情報を用いて、所定の個数のウェブページからドメインDB13に格納されているドメインのウェブページを除去して、除去したウェブページを示す情報をメインコンテンツ抽出部15に出力する。ウェブページを示す情報には、ウェブページのソースコードが含まれている。また、ウェブページの情報には、ヘッダー、サイドバー、メインコンテンツ、フッター等が含まれている。なお、所定の個数のウェブページに、ドメインDB13に格納されているドメインのウェブページが無い場合、第1ノイズ除去部14は、所定の個数のウェブページを示す情報をメインコンテンツ抽出部15に出力する。
メインコンテンツ抽出部15は、第1ノイズ除去部14が出力した所定の個数のウェブページを示す情報を用いて、所定の個数のウェブページの中から1つのウェブページの情報を逐次選択し、選択したウェブページの情報の中からメインコンテンツを抽出する。なお、メインコンテンツの抽出方法については、後述する。メインコンテンツ抽出部15は、抽出したメインコンテンツを、ウェブページ毎にキーワード抽出部18に出力する。
キーワード抽出部18は、メインコンテンツ抽出部15が出力したメインコンテンツから複数のキーワードを抽出する。キーワード抽出部18は、抽出した複数のキーワードに対して、後述するようにソート(sort)処理を行い、ソート処理を行ったキーワードリストをキーワードリスト出力部19に出力する。なお、キーワードの抽出方法、ソート処理については、後述する。
キーワードリスト出力部19は、例えばWeb上での情報提供部、表示装置、プリンタ装置、通信装置のうち少なくとも1つである。キーワードリスト出力部19は、キーワード抽出部18が出力したキーワードリストを、例えばWeb上で提供する。
次に、ドメインDB13に格納されている情報の一例を説明する。
図3は、本実施形態に係るドメインDB13に格納されている情報の一例を示す図である。図3に示すように、ドメインDB13には、少なくとも1つのドメインが格納されている。なお、ドメインDB13に格納されるドメインは、ネットワーク2を介して更新されるようにしてもよい。なお、利用者がキーワードを入力するときに、キーワードを抽出する上で不要なウェッブサイトのドメインを入力するようにしてもよい。そして、キーワード抽出装置1は、入力されたドメインを、一時的にドメインDBに格納して、キーワードを抽出するようにしてもよい。
次に、ウェブページg201の構成の一例を説明する。
図4は、ウェブページg201の構成の一例を示す図である。図4に示す例は、2カラムで、右にメニューがある例である。図4に示す例のウェブページg201は、ヘッダーg221、サイドバーg222、およびメインコンテンツg223を含んで構成されている。
<キーワード抽出装置1の処理手順>
次に、キーワード抽出装置1の処理手順について説明する。図5は、本実施形態に係るキーワード抽出装置1の処理のフローチャートである。
(ステップS1)キーワード入力部11は、利用者によって入力された検索キーワードを取得する。
(ステップS2)検索部12は、キーワード入力部11が出力した検索キーワードに適したウェブページを、検索エンジンを用いて検索して、検索によって得られたウェブページのうち、上位から所定の個数のウェブページを選択する。
(ステップS3)検索部12は、選択した所定の個数のウェブページそれぞれのソースコードを取得する。
(ステップS4)第1ノイズ除去部14は、検索部12が出力した所定の個数のウェブページの情報を用いて、所定の個数のウェブページからドメインDB13に格納されているドメインのウェブページを除去する。
(ステップS5)メインコンテンツ抽出部15は、第1ノイズ除去部14が出力したウェブページの情報の中から1つのウェブページの情報を逐次選択し、選択したウェブページの情報からメインコンテンツを抽出する。
(ステップS7)キーワード抽出部18は、メインコンテンツ抽出部15が出力したメインコンテンツから複数のキーワードを抽出する。
以上で、キーワード抽出装置1の処理を終了する。
<メインコンテンツの抽出方法>
次に、メインコンテンツの抽出方法について説明する。
図6は、ウェブページのソースコードの例を示す図である。なお、図6に示したソースコードは、ウェブページのソースコードのうちの一部である。また、図6に示したソースコードは、ウェブページを構成とソースコードとの関係を説明するための例であって、実際のウェブページのソースコードとは一致しない場合がある。
なお、本実施形態におけるウェブページのメインコンテンツとは、キーワードを抽出する上で必要な部分であり、例えば、タイトル、記事、質問内容、図や写真の説明、質問に対する返答等である、一方、本実施形態における不用部分とは、例えば、広告、メニュー等である。
図6の符号g251に示すように、ソースコードは、複数のタグを用いて記述されている。そして、ソースコードは、ウェブサイトのタイトル等が記述されているヘッダ情報g261、ウェブサイトやウェブページのタイトルや説明が記述されているヘッダーg262、メインコンテンツg263、ウェブサイト内のリンク先や他のウェブサイトへのリンク先などが記述されているメニューg264を含んでいる。
図7は、本実施形態に係る自ウェブページとリンク先のウェブページの構成例を示す図である。なお、自ウェブページとは、図5のステップS2の検索結果のうちの1つのウェブページである。
符号g301が示すウェブページの構成は、自ウェブページの構成例であり、2カラムの構成であって、ウェブページの上にヘッダーg311が配置され、左にメインコンテンツg313が配置され、右にメニューg312が配置されている。
符号g321が示すウェブページの構成は、自ウェブページに記述されている第1のリンク先のウェブページの構成例であり、2カラムの構成であって、ウェブページの上にヘッダーg331が配置され、左にメインコンテンツg333が配置され、右にメニューg332が配置されている。
符号g341が示すウェブページの構成は、自ウェブページに記述されている第2のリンク先のウェブページの構成例であり、3カラムの構成であって、ウェブページの上にヘッダーg351が配置され、左に第1のメニューg352が配置され、真ん中にメインコンテンツg353が配置され、右に第2のメニューg354が配置されている。
図7において、符号g321が示すウェブページは、自ウェブページと同じウェブサイト内のウェブページの1つである。また、符号g321が示すウェブページは、自ウェブページと異なるウェブサイト内のウェブページの1つである。
自ウェブページと同じウェブサイト内のウェブページのURLアドレスは、ドメイン、ホームページに割り振られたアドレス等が等しい場合が多い。一方、自ウェブページと異なるウェブサイト内のウェブページのURLアドレスは、ドメイン、ホームページに割り振られたアドレス等が異なる場合が多い。
ここで、自ウェブページのURLアドレスと、自ウェブページと同じウェブサイト内のウェブページのURLアドレスとの距離を、第1のレーベンシュタイン距離とする。また、自ウェブページのURLアドレスと、自ウェブページと異なるウェブサイト内のウェブページのURLアドレスとの距離を、第2のレーベンシュタイン距離とする。この場合、第1のレーベンシュタイン距離は、第2のレーベンシュタイン距離より小さな値が得られる、すなわちレーベンシュタイン距離が近い。一方、第2のレーベンシュタイン距離は、第1のレーベンシュタイン距離より大きな値であり、すなわちレーベンシュタイン距離が遠い。
レーベンシュタイン距離が近い2つのウェブサイトそれぞれのソースコードを比較した場合、ヘッダーg311とヘッダーg331との記述が一致または類似し、メニューg312とメニューg332との記述が一致または類似していることが多い。すなわち、ソースコードが一致または類似している領域は、ヘッダーおよびメニュー(サイドバー)であると見なすことができる。そして、自ウェブページのソースコードから、ヘッダーg311とメニューg312それぞれの記述を除去したものは、メインコンテンツg313の記述である。このように、メインコンテンツ抽出部15は、自ウェブページのソースコードから、ヘッダーg311とメニューg312それぞれの記述を除去することでメインコンテンツg313の記述を抽出する。なお、メインコンテンツ抽出部15は、周知の文書間の類似度を推定する類似度推定法を用いて、ソースコードが一致しているか否か、または類似しているか否かを判定する。
また、レーベンシュタイン距離が遠い2つのウェブサイトそれぞれのソースコードを比較した場合、ヘッダーg311とヘッダーg351との記述がヘッダーg311とヘッダーg351との記述より類似していない場合が多い。また、メニューg312と第1のメニューg352との記述が、メニューg312とメニューg332との記述より類似していず、メニューg312と第2のメニューg354との記述が、メニューg312とメニューg332との記述より類似していない場合が多い。この結果、ソースコードが類似している領域がないため、レーベンシュタイン距離が遠い2つのウェブサイトそれぞれのソースコードを比較しても、自ウェブページのヘッダーg311やメニューg312(サイドバー)の記述を特定できない。このように、レーベンシュタイン距離が遠い2つのウェブサイトそれぞれのソースコードを比較しても、メインコンテンツg313の記述を抽出できない。
また、特定のウェブページにのみ出現する部分は、メインコンテンツである傾向が高い。一方、不要部分は、複数のウェブページにわたって出現する傾向がある。例えば、ニュースサイトの記事の場合、当該ウェブページに他のニュースのリンク先が記載されている場合があり、他のニュースのウェブページと、当該ウェブページとの構成(図3参照)が似ている場合が多い。他のニュースのウェブページと当該ウェブページとには、例えば、図3のサイドバーg222にリンク先の情報、広告等が記載されている。このように、本実施形態では、複数のウェブページを比較し、比較した結果、共通している部分を不要部分と見なし、他のウェブページに出現しない部分をメインコンテンツであると見なす。そして、本実施形態では、検索されたウェブページの中から1つを選択し、選択したウェブページに記載されているリンク先を比較に用いるウェブページとする。また、本実施形態では、ウェブページ同士の比較に、例えばレーベンシュタイン距離を用いている。
このため、本実施形態では、メインコンテンツ抽出部15が、自ウェブページのURLアドレスとレーベンシュタイン距離が近い自ウェブページ内に記述されているリンク先のウェブページのURLアドレスを少なくとも1つ抽出する。そして、メインコンテンツ抽出部15が、自ウェブページのソースコードと、レーベンシュタイン距離が近いリンク先のウェブページのソースコードを取得し、取得したソースコードの類似性に基づいて、不要なエリアの記述を除去することでメインコンテンツを抽出する。
次に、メインコンテンツ抽出部15が、図5のステップS5で行うメインコンテンツの抽出処理の手順の一例を説明する。
図8は、本実施形態に係るメインコンテンツの抽出処理の手順のフローチャートである。
(ステップS101)メインコンテンツ抽出部15は、第1ノイズ除去部14が出力した所定の個数のウェブページの情報の中から、1つの未処理のウェブページの情報を逐次選択して、ステップS102〜S106の処理を行う。
(ステップS102)メインコンテンツ抽出部15は、選択したウェブページのソースコードを取得する、続けて、メインコンテンツ抽出部15は、選択したウェブページの内に含まれているリンクを示す情報を抽出する。なお、リンクを示す情報とは、ウェブページのソースコードに含まれる<a href=”…”>、<base href=”…”>、<link rel=”…” href=”…”>、<link href=”…”>等のタグで記述されている情報である。なお、本実施形態では、リンクを示す情報がタグで記述されている例を説明したが、記述はこれに限られずリンクを示すものであればよい。
(ステップS103)メインコンテンツ抽出部15は、ステップS102で抽出された複数のリンク先のURLアドレスの中から1つを逐次選択する。メインコンテンツ抽出部15は、ステップS101で選択したウェブページのURLアドレスと、リンクを示すタグに記述されているURLアドレスとのレーベンシュタイン距離を逐次計算する。
(ステップS104)メインコンテンツ抽出部15は、計算した結果、レーベンシュタイン距離が近い少なくとも1つのリンク先のウェブサイトのソースコードを取得する。なお、メインコンテンツ抽出部15は、レーベンシュタイン距離が近い順に複数のリンク先を選択するようにしてもよい。
(ステップS105)メインコンテンツ抽出部15は、ステップS101で選択したウェブページと、テップS104で取得したリンク先のウェブページそれぞれのソースコードを比較する。
(ステップS106)メインコンテンツ抽出部15は、ステップS105で比較した結果、ソースコードが近い記述を除去することでメインコンテンツを抽出する(例えば、参考文献1参照)。
(ステップS107)メインコンテンツ抽出部15は、第1ノイズ除去部14が出力したウェブページの情報について、全てのウェブページについてステップS102〜S106の処理が終了した場合、抽出したメインコンテンツの記述を、ウェブページ毎にキーワード抽出部18に出力する。
以上で、メインコンテンツの抽出処理を終了する。
参考文献1;吉田光男、山本幹雄、教師情報を必要としないニュースページ群からのコンテンツ自動抽出、日本データベース学会論文誌 8(1) 29-34 2009.
<キーワードの抽出>
次に、キーワードの抽出について説明する。
図9は、本実施形態に係るキーワード抽出部18の構成を示すブロック図である。図9に示すように、キーワード抽出部18は、形態素解析部181、用語抽出部182、およびキーワードリスト生成部183を備える。
形態素解析部181は、メインコンテンツ抽出部15が出力したメインコンテンツの中のテキスト情報をウェブページ毎に取得する。形態素解析部181は、テキスト情報に対して周知の手法を用いて形態素解析を行う。テキストが日本語の場合、形態素解析部181は、例えば「ChaSen(茶筌)」、「茶まめ」、「MeCab(和布蕪)」等のソフトウェアを用いて形態素解析を行う。解析した解析結果には、文字列、文字列の品詞の種類、品詞の活用の種類、文字列の原形、読み等が含まれている。形態素解析部181は、解析した解析結果を用語抽出部182に出力する。
用語抽出部182は、形態素解析部181が出力した解析結果を用いて、語の並びと品詞情報に基づいて複合語を組み立てる。用語抽出部182は、例えば名詞が連続して出現している場合、連続している名詞を統合して複合語にする。用語抽出部182は、名詞または、複数の名詞を含む複合語を抽出する。用語抽出部182は、複合語を構成する最小単位の名詞(以下、単名詞ともいう)または名詞それぞれが、検索部12によって選択された所定の個数のウェブページに横断的に出現した回数に基づいて、例えばIDF(Inverse Document Frequency)法を用いて重要度idfを算出する。
また、用語抽出部182は、検索部12によって選択された所定の個数全てのウェブページそれぞれのテキスト情報中の名詞の出願回数または複合語の出現回数を算出する。
用語抽出部182は、抽出した名詞または複合語それぞれに、算出した重要度と出現回数とを対応付けてキーワードリスト生成部183に出力する。
キーワードリスト生成部183は、用語抽出部182が出力した、重要度と出現回数とが対応付けている名詞または複合語を取得する。キーワードリスト生成部183は、名詞または複合語毎に重要度と出現回数を乗算して、乗算した値が大きい順に名詞または複合語を並べて、キーワードリストを生成する。キーワードリスト生成部183は、生成したキーワードリストをキーワードリスト出力部19に出力する。
なお、用語抽出部182、およびキーワードリスト生成部183は、プログラミング言語Perlのモジュールである、例えば「TermExtract」を含んで構成されていてもよい。
上述したように、本実施形態では、検索キーワードを、検索エンジンを用いて検索した上位から所定の個数のウェブページの中から1つのウェブページを1つ逐次選択する。そして、本実施形態では、選択された自ウェブページのソースコードに記述されているリンク先のソースコードと、自ウェブページのソースコードとを比較して、比較した結果に基づいて不要なエリアの記述を除去することでメインコンテンツを抽出する。このように、本実施形態では、ノイズ成分が除去されたメインコンテンツのテキストを用いて、例えば名詞と複合語とを抽出することで、キーワードを精度よく抽出することができる。なお、抽出する言葉は、名詞と複合語に限られず、例えば形容詞や副詞を含んでいてもよい。
<キーワードリストの例>
ここで、キーワードリスト出力部19が出力するキーワードリストの例を説明する。
図10は、本実施形態に係るキーワードリスト出力部19が出力するキーワードリストの例を示す図である。図10に示すように、キーワードリストには、入力したキーワード(符号g361に示す領域)、出現回数(符号g362に示す領域)、出現回数に重要度を乗算した値(符号g363に示す領域)、キーワード(符号g364に示す領域)が対応付けられている。
キーワードリスト出力部19は、例えば図10に示すように、キーワード抽出部18が出力した出現回数に重要度をキーワード毎に乗算し、乗算した値が大きい順にキーワードのソートを行う。
この結果、図10に示すように、キーワードの表示順番は、検索されたウェブページ内の出現回数に重要度を乗算した値が大きい順番である。このため、“足先 しびれ 冷たい”を入力したときに抽出されるキーワードは、出現回数が例えば15位であっても重要度が大きいため、リストの3番目に表示される。
なお、キーワードリスト出力部19が出力するキーワードリストは、少なくともキーワードが含まれていればよく、出現回数、重要度は含まれていなくてもよい。
また、表示順番は、図10に示した例に限られず、出願回数が多い順番、重要度の値が大きい順番、他の統計的な手法に基づく順番等であってもよい。
次に、キーワード抽出部18が、図5のステップS7で行うキーワードの抽出処理について説明する。
図11は、本実施形態に係るキーワードの抽出処理のフローチャートである。
(ステップS201)形態素解析部181は、メインコンテンツ抽出部15が出力したテキスト情報に対して周知の手法を用いて形態素解析を行う。
(ステップS202)用語抽出部182は、形態素解析部181が出力した解析結果を用いて、語の並びと品詞情報に基づいて複合語を組み立てる。
(ステップS203)用語抽出部182は、名詞と、複数の名詞を含む複合語とを抽出する。
(ステップS204)用語抽出部182は、例えばIDF法を用いて、名詞および複合語それぞれの重要度を算出する。
(ステップS205)用語抽出部182は、入力された全てのウェブページそれぞれのテキスト情報中の、名詞および複合語の出現回数を算出する。続けて、用語抽出部182は、ステップS203で抽出された名詞または複合語それぞれに、算出された出現回数とステップS204で算出された重要度とを対応付けて、キーワードリスト生成部183に出力する。
(ステップS206)キーワードリスト生成部183は、用語抽出部182が出力した名詞または複合語毎に重要度と出現回数を乗算して、名詞または複合語に対して乗算した値が大きい順にソートを行い、キーワードリストを生成する。キーワードリスト生成部183は、生成したキーワードリストをキーワードリスト出力部19に出力する。
以上で、キーワードの抽出処理を終了する。
<キーワードリストの利用例>
このように抽出されたキーワードリストの利用例を説明する。
例えば、A社が、商品Bのウェブページを開設する場合、通常、B商品に対する説明をウェブページに記載する。しかしながら、このような記載では、実際にB商品について興味がある利用者が知りたい情報を網羅しているとは限らない。このようなウェブページ、すなわちコンテンツを作成した場合、検索エンジンによってウェブページの記載内容が評価された結果、検索結果の上位に表示されない場合も少なくない。
このため、ウェブページ制作者が、例えばマインドマップ等を用いて、B商品に関する利用者が検索に用いると想定される検索キーワードを抽出する。そして、抽出された検索キーワードをキーワード抽出装置1に入力して、キーワードリストを得る。
ウェブページ制作者は、キーワードリストに載っているキーワードを用いてB商品のウェブページを制作する。これにより、ウェブページ制作者は、B商品について、利用者が知りたい情報を多く含んだウェブページを制作することができる。このような利用者にとって知りたい情報を多く含んでいるウェブページは、検索エンジンによってウェブページの記載内容が評価された結果、検索結果の上位に表示され、かつ利用者の知りたい多くの情報が含まれているため、利用者の滞在時間が長くなり、商品の購買につながる効果が得られる。
なお、上述した例では、商品に関するウェブページを説明したが、これに限られない。パンフレット、カタログ、取扱説明書等を、キーワードリストを用いて制作することで、利用者が知りたい情報を多く含んだ内容することができる。
次に、例えばトレンドの調査者が、コンビニエンスストアで販売されているスイーツのトレンドを知りたい場合を例に説明する。
検索エンジンに“コンビニ”、“スイーツ”の検索キーワードを入力して検索した場合、2015年5月28日現在、約180万件の検索結果が得られる。調査者がこれらを全て読むことは困難であり、いくつかの検索された結果のウェブページ全体を読んだだけでは、トレンドが掴みにくい。
一方、キーワード抽出装置1に“コンビニ”、“スイーツ”の検索キーワードを入力することで、キーワード抽出装置1が、インターネットの利用者によって話題にされているコンビニエンスストアのスイーツに関するキーワードリストを生成することができる。これにより、本実施形態では、生成されたキーワードリストを、トレンドの調査者が見ることでトレンドを知ることもできる。また、キーワードリストを定期的(例えば月に1回)にキーワード抽出装置1によって生成させることで、トレンドの調査者は、キーワードの変化、すなわちトレンドの変化を知ることもできる。
なお、本実施形態では、検索部12が検索結果から上位から所定の個数のウェブページを選択する例を説明したが、これに限られない。例えば、検索した結果から所定の個数のウェブページを選択し、第1ノイズ除去部14によって不要なドメインを除去した後のウェブページの個数が、所望の個数(例えば10以上)に満たない場合、検索部12は、第1ノイズ除去部14によって除去された後のウェブページの個数が、所望の個数以上になる個数を選択するようにしてもよい。
また、本実施形態では、メインコンテンツ抽出部15が、自ウェブページとリンク先の距離の近さを、レーベンシュタイン距離を算出する例を説明したが、これに限られない。メインコンテンツ抽出部15は、例えば、3−gram(n−gram)法を用いて、ウェブページとリンク先の距離の近さを算出するようにしてもよい。
以上のように、本実施形態のキーワード抽出装置1は、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツ(例えば20個)を検索する検索部12と、検索部によって検索された複数のコンテンツの中から、前記キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する第1ノイズ除去部14と、第1ノイズ除去部によって所定のドメインのコンテンツが除去された複数のコンテンツの中から1つのコンテンツを逐次選択し、選択したコンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択したコンテンツの情報とを比較して類似している情報を、選択したコンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部15と、メインコンテンツ抽出部によって抽出されたメインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出部18と、を備える。
なお、所定のドメインは、キーワードの抽出においてコンテンツとして意味を成していないドメインである。
この構成によって、本実施形態では、まず、所定のドメインのウェブページを除去することで、キーワードを抽出する上で、コンテンツとして意味をなしていない不要なウェブページを検索結果から除去する。本実施形態では、不要なウェブページを除去した後に、検索キーワードを用いて検索された複数のウェブページそれぞれから、自ウェブページ内のリンク先のソースコードとの類似度に基づいて、不要なエリア(例えば、ヘッダー、フッター、メニュー等)の記述を除去する。この結果、本実施形態では、不要なウェブページを削除したウェブページからのみメインコンテンツを精度良く抽出できる。この結果、本実施形態によれば、検索キーワード、すなわち利用者が知りたい情報に応じたキーワードを抽出することができる。
[第1の実施形態の変形例]
次に、第1の実施形態の変形例を説明する。
キーワード抽出装置1が、さらにタグDB16と第2ノイズ除去部17を備える例を説明する。
<キーワード抽出装置1Aの構成>
図12は、本実施形態の変形例に係るキーワード抽出装置1Aの概略構成図である。なお、キーワード抽出装置1と同じ機能を有する機能部については、同じ符号を用いて、説明を省略する。
図12に示すように、キーワード抽出装置1Aは、キーワード入力部11、検索部12、ドメインDB13、第1ノイズ除去部14、メインコンテンツ抽出部15、タグDB16、第2ノイズ除去部17、キーワード抽出部18、およびキーワードリスト出力部19を備える。
メインコンテンツ抽出部15は、第1ノイズ除去部14が出力したウェブページの情報の中から1つのウェブページの情報を逐次選択し、選択したウェブページの情報からメインコンテンツを抽出する。メインコンテンツ抽出部15は、抽出したメインコンテンツの記述を、ウェブページ毎に第2ノイズ除去部17に出力する。
タグDB16には、ウェブページのメインコンテンツの中から、不要な用語(以下、無意味言葉という)を含む項目を削除するために使用されるタグが格納されている。なお、タグDB16に格納されるタグは、ネットワーク2を介して更新されるようにしてもよい。
第2ノイズ除去部17は、メインコンテンツ抽出部15が出力したメインコンテンツの中から、タグDB16を参照して無意味言葉を除去する。これにより、第2ノイズ除去部17は、ウェブページのメインコンテンツから無意味言葉のノイズを、ウェブページ毎に除去する。第2ノイズ除去部17は、無意味言葉を除去したメインコンテンツを、キーワード抽出部18に出力する。なお、無意味言葉の除去方法については、後述する。なお、本実施形態では、タグを用いて無意味言葉等を除去する例を説明するが、これに限られず、他の手法を用いて無意味言葉等を除去するようにしてもよい。この場合、タグDB16は、無意味言葉等を除去するために用いる情報が記憶されていてもよい。
キーワード抽出部18は、第2ノイズ除去部17が出力したメインコンテンツから複数のキーワードを抽出する。キーワード抽出部18は、抽出した複数のキーワードに対して、後述するようにソート(sort)処理を行い、ソート処理を行ったキーワードリストをキーワードリスト出力部19に出力する。なお、キーワードの抽出方法、ソート処理については、後述する。
次に、タグDB16に格納されている情報の一例を説明する。
図13は、本実施形態の変形例に係るタグDB16に格納されている情報の一例を示す図である。図13に示すように、タグDB16には、少なくとも1つのタグが格納されている。例えば、<class>の中で用いられる“<h1>〜</h1>”等は見出しを表すタグである。また、“<div class=“usrInfo”>〜</div>”は、掲示板等のウェブページにおけるユーザーを識別するための識別子情報を表すタグである。このような不要な項目を表すタグは、キーワード抽出装置1Aの設計者によって予め設定されている。
<キーワード抽出装置1Aの処理手順>
次に、キーワード抽出装置1Aの処理手順について説明する。図14は、本実施形態の変形例に係るキーワード抽出装置1Aの処理のフローチャートである。なお、キーワード抽出装置1と同じ処理には同じ符号を用いて、説明を省略する。
(ステップS1〜S5)キーワード抽出装置1Aは、ステップS1〜S5の処理を行い、ステップS6の処理に進める。
(ステップS6)第2ノイズ除去部17は、メインコンテンツ抽出部15が出力したメインコンテンツの中から、タグDB16を参照して無意味言葉を除去する。
(ステップS7)キーワード抽出部18は、第2ノイズ除去部17が出力したメインコンテンツから複数のキーワードを抽出する。
<無意味言葉の除去処理>
次に、第2ノイズ除去部17が、図14のステップS6で行う無意味言葉の除去処理について説明する。
図15は、本実施形態の変形例に係る無意味言葉の除去処理のフローチャートである。
(ステップS301)第2ノイズ除去部17は、メインコンテンツ抽出部15が出力したウェブページ毎のメインコンテンツの中から、1つの未処理のウェブページのメインコンテンツを逐次選択して、ステップS302〜S303の処理を行う。
(ステップS302)第2ノイズ除去部17は、ステップS301で選択したウェブページのメインコンテンツのソースコードの中から、タグDB16を参照して無意味言葉に対応するタグの記述を除去することで、無意味言葉を除去する。ここで、タグの記述とは、開始のタグから、終了のタグで囲まれた記述である。
(ステップS303)第2ノイズ除去部17は、ステップS302で除去されたメインコンテンツの記述から、残りのタグ情報を除去する。なお、残りのタグ情報とは、例えば文字サイズの指定、文字の色の指定、改行等を示すタグである。
(ステップS304)第2ノイズ除去部17は、メインコンテンツ抽出部15が出力したウェブページ毎のメインコンテンツについて、全てのウェブページについてステップS302〜S303の処理が終了した場合、無意味言葉を除去したメインコンテンツのテキスト情報を、ウェブページ毎にキーワード抽出部18に出力する。
以上で、メインコンテンツの抽出処理を終了する。
<除去される無意味言葉の項目の例>
ここで、無意味言葉として除去される項目の例を説明する。
まず、質問に対して回答を書き込める質疑のウェブページを例に説明する。このような質疑のウェブページには、質問、回答に加えて、例えば閲覧数、回答数、回答に対するお礼、解答者の識別情報、回答した日時、一番良い回答をした人を示す情報等が含まれている。
キーワードを抽出する上で有効なコンテンツは、例えば、質問のテキストと、回答のテキストである。このため、質疑のウェブページにおいて、閲覧数、回答数、回答に対するお礼、解答者の識別情報、回答した日時、一番良い回答をした人を示す情報等が無意味言葉である。これらの項目は、所定のclass名のタグや、所定のclassのタグの中の項目タグ(例えば<h2>〜</h2>)等によって記述されている。
また、例えばウェブ上にある辞書ページでは、概略、本文、目次、用語の種類に関する説明、内容が不十分であることを示す記述、参考文献、文献リスト関連項目等が含まれている。
キーワードを抽出する上で有効なコンテンツは、例えば、概略のテキストと、本文のテキストである。このため、辞書ページにおいて、目次、用語の種類に関する説明、内容が不十分であることを示す記述、参考文献、文献リスト関連項目等が無意味言葉である。
これらの無意味言葉に対応する項目が記述されているタグを、例えばキーワード抽出装置1Aの製造者が予めソースコードを解析して抽出して、抽出したタグをタグDB16に格納しておく。
以上のように、本実施形態のキーワード抽出装置1Aにおいて、メインコンテンツ抽出部15によって抽出されたメインコンテンツの情報から、所定のタグによって記述されている情報を除去することで、キーワードの抽出において意味を成していない不要な記述を除去する第2ノイズ除去部17、をさらに備え、キーワード抽出部18は、第2ノイズ除去部によって所定のタグによって記述されている情報が除去された後のメインコンテンツのテキストからキーワードを抽出する。
なお、所定のタグによって記述されている情報は、キーワードの抽出において意味を成していない不要な用語である。
この構成によって、本実施形態では、メインコンテンツから所定のタグによって記述されている情報を除去することで、無意味言葉を除去することができる。この結果、本実施形態では、無意味言葉を除去した後のメインコンテンツからキーワードを精度良く抽出することができる。
なお、例えば不要と想定される単語をデータベースに登録しておき、不要と想定される単語をメインコンテンツから除去する場合、コンテンツの中から有効な言葉も除去してしまう場合があった。一方、本実施形態のように、タグによって記述されている情報を除去することで、精度良く無意味言葉を除去することができる。
[第2実施形態]
第1実施形態では、キーワード抽出装置1(または、1A)が、第1ノイズ除去部14とメインコンテンツ抽出部15を備える例を説明したが、第2実施形態では、第1ノイズ除去部14とメインコンテンツ抽出部15を備えず、第2ノイズ除去部を備える例を説明する。なお、本実施形態において、第2ノイズ除去部によって除去されるノイズは、タグに基づく無意味言葉と不要な記述である。
<キーワード抽出装置1Bの構成>
図16は、本実施形態に係る本実施形態に係るキーワード抽出装置1Bの概略構成図である。
図16に示すように、キーワード抽出装置1Bは、キーワード入力部11、検索部12B、タグDB16B、第2ノイズ除去部17B、キーワード抽出部18、およびキーワードリスト出力部19を備える。また、キーワード抽出装置1Bは、ネットワーク2に接続されている。なお、キーワード抽出装置1または1Aと同じ機能を有する機能部については、同じ符号を用いて、説明を省略する。
キーワード入力部11は、例えばキーボード、マウス、タブレット等である。キーワード入力部11は、利用者によって入力された検索キーワードを検索部12Bに出力する。
検索部12Bは、キーワード入力部11が出力した検索キーワードに適したウェブページを、検索エンジンを用いて検索して、検索によって得られたウェブページのうち、例えば上位から所定の個数のウェブページを選択する。検索部12Bは、選択した所定の個数のウェブページを示す情報を第2ノイズ除去部17Bに出力する。
タグDB16Bには、ウェブページのメインコンテンツの中から、不要な用語(無意味言葉)の項目を削除するために使用されるタグと、不要な記述を削除するために使用されるタグが格納されている。図17は、本実施形態に係るタグDB16Bに格納されている情報の一例を示す図である。図17に示すように、タグDB16Bには、少なくとも1つのタグが格納されている。例えば、<class>の中で用いられる“<h1>〜</h1>”等は見出しを表すタグである。また、“<div class=“usrInfo”>〜</div>”は、掲示板等のウェブページにおけるユーザーを識別するための識別子情報を表すタグである。
また、“<meta>”タグは、文書(ウェブページ)に関するメタ情報を表すタグであり、“<div id=“header”>〜</div>”タグは、ヘッダ情報を表すタグである。また、“<script type>〜</scropt>”タグは、スクリプトの記述のタグであり、“<link href=“”>”タグと“<a href=“”>”タグは、リンク先を示すタグである。これらは、ウェブページにおいて、コンテンツとして意味をなしていない不要な記述である。不要な記述を削除するために使用されるタグは、他に広告を表すタグ、ボタンを示すタグ、フッターを表すタグ、注意書きを表すタグ等である。このような不要な項目や記述を表すタグは、キーワード抽出装置1Bの設計者によって予め設定されている。なお、タグDB16Bに格納されるタグは、ネットワーク2を介して更新されるようにしてもよい。
第2ノイズ除去部17Bは、検索部12Bが出力した所定の個数のウェブページの情報(ソースコード)の中から、タグDB16Bを参照して無意味言葉と不要な記述を、ウェブページ毎に除去する。第2ノイズ除去部17Bは、無意味言葉を除去したコンテンツを、キーワード抽出部18に出力する。
キーワード抽出部18は、第2ノイズ除去部17Bが出力したメインコンテンツから複数のキーワードを抽出する。キーワード抽出部18は、抽出した複数のキーワードに対して、後述するようにソート処理を行い、ソート処理を行ったキーワードリストをキーワードリスト出力部19に出力する。
<キーワード抽出装置1Bの処理手順>
次に、キーワード抽出装置1Bの処理手順について説明する。図18は、本実施形態に係るキーワード抽出装置1Bの処理のフローチャートである。なお、キーワード抽出装置1(または1A)と同じ処理には、同じ符号を用いて説明を省略する。
(ステップS1〜S3)キーワード抽出装置1Bは、ステップS1〜S3の処理を行い、ステップS15の処理に進める。
(ステップS15)第2ノイズ除去部17Bは、検索部12Bが出力した所定の個数のウェブページの情報の中から、タグDB16Bを参照して無意味言葉と不要な記述を、ウェブページ毎に除去する。続けて、第2ノイズ除去部17Bは、ステップS7に処理を進める。
なお、上述した例では、第2ノイズ除去部17Bが、無意味言葉と不要な記述をウェブページのソースコードから除去する例を説明したが、これに限られない。第2ノイズ除去部17Bは、無意味言葉に対応する項目のタグ、および不要な記述に対応するタグのうち、少なくとも1つを除去するようにしてもよい。
上述したように、本実施形態では、検索キーワードを、検索エンジンを用いて検索した上位から所定の個数のウェブページの中から1つのウェブページを逐次選択する。そして、本実施形態では、選択したウェブページのソースコードから、無意味言葉に対応する項目の記述のタグと不要な記述のタグと除去することでキーワードの抽出に必要なコンテンツを抽出する。これにより、本実施形態では、検索キーワードを用いて検索された複数のウェブページの中から、ノイズである無意味言葉と不要な記述を除去したコンテンツを得ることができる。このように、本実施形態では、ノイズ成分が除去されたテキストを用いて名詞と複合語とを抽出することで、キーワードを精度よく抽出することができる。
以上のように、本実施形態のキーワード抽出装置1Bは、検索キーワードに基づいてメインコンテンツを含む複数(所定の個数、例えば20個)のコンテンツ(例えば、ウェブページ)を検索する検索部12Bと、検索部によって検索された複数のコンテンツの中から1つのコンテンツを逐次選択し、選択したコンテンツから所定のタグによって記述されている情報を除去することで、キーワードの抽出において意味を成していない不要な記述を除去する第2ノイズ除去部17Bと、第2ノイズ除去部によって所定のタグによって記述されている情報が除去されたコンテンツのテキストからキーワードを抽出するキーワード抽出部18と、を備える。
この構成によって、本実施形態では、メインコンテンツから所定のタグによって記述されている情報を除去することで、無意味言葉および不要な記述の少なくとも1つを除去することができる。この結果、本実施形態では、無意味言葉または不要な記述を除去した後のコンテンツからキーワードを精度良く抽出することができる。
なお、例えば不要と想定される単語をデータベースに登録しておき、不要と想定される単語をコンテンツから除去する場合、コンテンツの中から有効な言葉も除去してしまう場合があった。一方、本実施形態のように、タグによって記述されている情報を除去することで、精度良く無意味言葉を除去することができる。
[第2の実施形態の第1変形例]
次に、キーワード抽出装置1Bが、さらにドメインDB13および第1ノイズ除去部14を備える例を説明する。
<キーワード抽出装置1Cの構成>
図19は、本実施形態の第1変形例に係るキーワード抽出装置1Cの概略構成図である。なお、キーワード抽出装置1、1A、または1Bと同じ機能を有する機能部については、同じ符号を用いて、説明を省略する。
図19に示すように、キーワード抽出装置1Cは、キーワード入力部11、検索部12、ドメインDB13、第1ノイズ除去部14、タグDB16B、第2ノイズ除去部17B、キーワード抽出部18、およびキーワードリスト出力部19を備える。なお、キーワード抽出装置1Cは、例えば第2ノイズ除去部17Bとキーワード抽出部18との間に、メインコンテンツ抽出部15(図2参照)を備えていてもよい。
第1ノイズ除去部14は、検索部12が出力した所定の個数のウェブページを示す情報を取得する。第1ノイズ除去部14は、取得した所定の個数のウェブページを示す情報を用いて、所定の個数のウェブページからドメインDB13に格納されているドメインのウェブページを除去して、除去したウェブページを示す情報を第2ノイズ除去部17Bに出力する。なお、所定の個数のウェブページに、ドメインDB13に格納されているドメインのウェブページが無い場合、第1ノイズ除去部14は、所定の個数のウェブページを示す情報を第2ノイズ除去部17Bに出力する。
第2ノイズ除去部17Bは、第1ノイズ除去部14が出力した複数のウェブページの情報(ソースコード)から、タグDB16Bを参照して無意味言葉と不要な記述とを削除する。第2ノイズ除去部17Bは、無意味言葉と不要な記述を除去したコンテンツを、キーワード抽出部18に出力する。
<キーワード抽出装置1Cの処理手順>
次に、キーワード抽出装置1Cの処理手順について説明する。図20は、本実施形態の第1変形例に係るキーワード抽出装置1Cの処理のフローチャートである。なお、キーワード抽出装置1、1A、または1Bと同じ処理には同じ符号を用いて、説明を省略する。
(ステップS1〜S3)キーワード抽出装置1Cは、ステップS1〜S3の処理を行い、ステップS4の処理に進める。
(ステップS4)第1ノイズ除去部14は、検索部12が出力した所定の個数のウェブページの情報を用いて、所定の個数のウェブページから、ドメインDB13に格納されているドメインのウェブページを除去する。
(ステップS15)第2ノイズ除去部17Bは、第1ノイズ除去部14が出力した複数のウェブページの情報(ソースコード)から、タグDB16Bを参照して無意味言葉と不要な記述とを削除する。
以上のように、本実施形態のキーワード抽出装置1Cにおいて、検索部12とキーワード抽出部18との間に第1ノイズ除去部14、をさらに備え、第1ノイズ除去部は、検索部によって検索された複数のコンテンツ(例えば、ウェブページ)の中から、キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する。
この構成によって、本実施形態では、所定のドメインのウェブページを除去することで、キーワードを抽出する上で、コンテンツとして意味をなしていない不要なウェブページを検索結果から除去することができる。この結果、本実施形態では、不要なウェブページを削除したウェブページからのみメインコンテンツを精度良く抽出できる。
[第2の実施形態の第2変形例]
次に、キーワード抽出装置1Bの変形例を説明する。本変形例では、検索部が、キーワード入力部11が出力した検索キーワードを予め定められているドメインのウェブページを、検索エンジンを用いて検索する。
<キーワード抽出装置1Dの構成>
図21は、本実施形態の第2変形例に係るキーワード抽出装置1Dの概略構成図である。
図21に示すように、キーワード抽出装置1Dは、キーワード入力部11D、検索部12D、ドメインDB13D、タグDB16B、第2ノイズ除去部17B、キーワード抽出部18D、およびキーワードリスト出力部19を備える。なお、キーワード抽出装置1、1A、1B、または1Cと同じ機能を有する機能部については、同じ符号を用いて、説明を省略する。なお、キーワード抽出装置1Dは、例えば検索部12Dと第2ノイズ除去部17Bとの間に第1ノイズ除去部14を備えていてもよく、例えば第1ノイズ除去部14とキーワード抽出部18Dの間にメインコンテンツ抽出部15を備えていてもよい。
キーワード入力部11Dは、利用者が入力した検索キーワード、探索対象のドメインを取得し、取得した検索キーワード、探索対象のドメインを示す情報を検索部12Dに出力する。なお、探索対象のドメインについては、第8の抽出方法で説明する。
ドメインDB13Dには、キーワードを抽出するウェッブサイトのドメインが格納されている。なお、キーワードを抽出するウェッブサイトのドメインとは、例えば利用者が質問を公開し、回答を募って疑問を解消する仕組みを提供するウェブサイトのドメインである。以下の説明では、このようなサイトをQ&Aサイトという。Q&Aサイトは、一例として、Yahoo!(登録商標)知恵袋(登録商標)、教えて!goo(登録商標)、発言小町(登録商標)、OKWave(登録商標)等である。
検索部12Dは、キーワード入力部11Dが出力した検索キーワードを、ドメインDB13Dに格納されているドメインに対して検索エンジンを用いて検索する。検索部12Dは、検索によって得られたウェブページのうち、例えば上位から所定の個数のウェブページを選択し、選択した所定の個数のウェブページを示す情報を第2ノイズ除去部17Bに出力する。
キーワード抽出部18Dは、複数の検索結果を比較する重要キーワードの抽出方法が選択された場合、抽出された重要キーワードを比較し、比較した結果に基づいてキーワードリストを生成する。キーワード抽出部18Dは、生成したキーワードリストをキーワードリスト出力部19に出力する。
次に、ドメインDB13Dに格納されているドメインの一例を説明する。
図22は、本実施形態の第2変形例に係るドメインDB13Dに格納されているドメインの一例を示す図である。図22に示すように、ドメインDB13Dには、Q&Aサイト名と、Q&Aサイトのドメインの情報とが対応付けられて格納されている。
<キーワード抽出装置1Dによる操作手順の例、操作画面の例>
次に、キーワード抽出装置1Dによる操作手順の例、操作画面の例を説明する。
図23は、本実施形態の第2変形例に係るキーワード抽出装置1Dによる操作画面の例を示す図である。
図23に示す例において、符号g400が示す領域の画像は、重要キーワードの抽出方法を選択する領域の画像である。キーワードの抽出方法を選択する領域の画像g400には、抽出方法を選択する「抽出ツール」ボタンの画像g401、第1の抽出方法を選択する「共起語の抽出」ボタンの画像g402、第2の抽出方法を選択する「共起語の抽出 Q&Aサイト1」ボタンの画像g403が含まれている。さらに、画像g400には、第3の抽出方法を選択する「共起語の抽出 Q&Aサイト2」ボタンの画像g404、第4の抽出方法を選択する「共起語の抽出 Q&Aサイト3」ボタンの画像g405、第5の抽出方法を選択する「共起語の抽出 Q&Aサイト4」ボタンの画像g406が含まれている。さらに、画像g400には、第6の抽出方法を選択する「共起語の抽出(総合)」ボタンの画像g407、第7の抽出方法を選択する「共起語の抽出(比較)」ボタンの画像g408、第8の抽出方法を選択する「共起語の抽出(サイト内探索)」ボタンの画像g409、第9の抽出方法を選択する「ページ内の過不足キーワード」ボタンの画像g410が含まれている。なお、共起語とは、ある単語が文章中で使用される場合に、その文章中で高い頻度で使用されるある単語とは別の単語であり、本発明における抽出されるキーワードである。なお、第1の抽出方法〜第9の抽出方法の処理については、後述する。
図23において、符号g420が示す領域の画像は、検索キーワードの入力領域の画像である。なお、図23は、第2の抽出方法が選択された場合の例を示している。検索キーワードの入力領域の画像g420には、検索キーワードの入力スペースの画像g421、検索ボタンの画像g422、ウェブページの所定の個数の選択する画像g423が含まれている。
また、図23において、符号g430が示す領域の画像は、抽出された結果を示す画像である。なお、抽出された結果を示す画像g430は、抽出された結果の一部の画像であり、スクロールボタン(画像g431)を用いて、利用者が検索結果をスクロールすることで残りの検索結果が表示される。
ここで、第1の抽出方法〜第9の抽出方法の概略について説明する。
第1の抽出方法では、検索キーワードを検索エンジンに入力して検索を行い、検索結果の上位から所定の個数の検索結果のサイトを選択する。そして、第1の抽出方法では、選択されたサイトから重要キーワード(共起語)を抽出する。
第2の抽出方法では、Q&Aサイト1に対して検索キーワードの検索行って重要キーワードを抽出する。
第3の抽出方法では、Q&Aサイト2に対して検索キーワードの検索行って重要キーワードを抽出する。
第4の抽出方法では、Q&Aサイト3に対して検索キーワードの検索行って重要キーワードを抽出する。
第5の抽出方法では、Q&Aサイト4に対して検索キーワードの検索行って重要キーワードを抽出する。
第6の抽出方法では、Q&Aサイト1〜Q&Aサイト4全てに対して検索キーワードの検索行って重要キーワードを抽出する。
第7の抽出方法では、Q&Aサイト1〜Q&Aサイト4全てに対して検索キーワードの検索行って重要キーワードを抽出し、さらに第1の抽出方法で重要キーワードを抽出する。そして、第7の抽出方法では、Q&Aサイト1〜Q&Aサイト4全てを検索して抽出した重要キーワードと、第1の抽出方法で抽出した重要キーワードとを比較する。
第8の抽出方法では、第1の抽出方法で重要キーワードを抽出し、抽出した重要キーワードが評価するサイト(以下、評価サイトという)に含まれているか否か、含まれている場合は重要キーワードの使用頻度に基づいて評価を行う。
第9の抽出方法では、評価サイトからキーワードを抽出し、さらに第1の抽出方法で重要キーワードを抽出する。そして、第9の抽出方法では、評価するサイトに不足している重要キーワード、過剰なキーワードを抽出して評価する。
まず、第1の抽出方法の処理について説明する。
ドメインDB13Dには、少なくとも、Q&Aサイト1〜Q&Aサイト4に対応付けられたドメイン11〜ドメイン14、検索エンジンのアドレス(ドメイン)が格納されているとする。
第1の抽出方法が選択された場合、検索部12Dは、ドメインDB13Dに格納されている検索エンジンのアドレスの検索エンジンを用いて、入力された検索キーワードを検索する。続けて、検索部12Dは、検索した結果から不用なドメインを除去した後、例えば上位20個のウェブページを選択する。続けて、第2ノイズ除去部17Bは、無意味言葉等を示すタグを除去する。続けて、キーワード抽出部18Dは、無意味言葉等が除去された上位20個のウェブページの情報から、キーワードを抽出し、抽出したキーワードの出現回数、重要度等を算出する。続けて、キーワードリスト出力部19は、抽出したキーワードを例えば図10のようなリスト形式で出力する。
次に、第2の抽出方法〜第5の抽出方法の処理について説明する。
第2の抽出方法が選択された場合、検索部12Dは、ドメインDB13Dに格納されているQ&Aサイト1に対応付けられているドメイン11を選択し、選択したドメイン11を用いて入力された検索キーワードを検索する。
同様に、第n(nは3〜5)の抽出方法が選択された場合、検索部12Dは、ドメインDB13Dに格納されているQ&Aサイトnに対応付けられているドメイン1(n)を選択し、選択したドメイン1(n)を用いて入力された検索キーワードを検索する。
続けて、検索部12Dは、検索した結果から、例えば上位20個のウェブページを選択する。続けて、第2ノイズ除去部17Bは、無意味言葉等を示すタグを除去する。なお、第2ノイズ除去部17Bが除去した後のウェブページの情報には、少なくともQ&Aサイトの質問部分のテキストが含まれ、回等部分のテキストが含まれていてもよい。続けて、キーワード抽出部18Dは、無意味言葉等が除去された上位20個のウェブページの情報から、キーワードを抽出し、抽出したキーワードの出現回数、重要度等を算出する。続けて、キーワードリスト出力部19は、抽出したキーワードを例えば図10のようなリスト形式で出力する。すなわち、第2の抽出方法〜第5の抽出方法と第1の抽出方法との差異は、第1の抽出方法の検索対象のウェブページが限られていないが、第2の抽出方法〜第5の抽出方法の検索対象のウェブページがQ&Aサイトに限られている点である。
次に、第6の抽出方法の処理について説明する。
第6の抽出方法が選択された場合、検索部12Dは、ドメインDB13Dに格納されているQ&Aサイト1〜Q&Aサイト4に対応付けられているドメイン11〜ドメイン14全てを選択し、選択したドメイン11〜ドメイン14全てを用いて入力された検索キーワードを検索する。続けて、検索部12Dは、ドメイン11〜ドメイン14を検索した結果それぞれから、上位から所定の個数のウェブページを選択する。続けて、第2ノイズ除去部17Bは、無意味言葉等を示すタグを除去する。続けて、キーワード抽出部18Dは、無意味言葉等が除去された上位のウェブページの情報から、キーワードを抽出し、抽出したキーワードの出現回数、重要度等を算出する。続けて、キーワードリスト出力部19は、抽出したキーワードを例えば図10のようなリスト形式で出力する。
以上のように、本実施形態の第2変形例に係るキーワード抽出装置1Dにおいて、検索部12Dは、検索キーワードに基づいて、コンテンツを検索するドメインを限定(例えば、Q&Aサイトに限定)してコンテンツを検索し、キーワード抽出部は、限定したドメインのコンテンツのテキストから複数のキーワードを抽出し、抽出した結果に基づいてキーワードリストを生成する。
この構成によって、本実施形態によれば、Q&Aサイトで用いられている検索キーワードに対応するキーワード(共起語)を抽出することができる。
次に、第7の抽出方法について説明する。
第7の抽出方法が選択された場合、検索部12Dは、ドメインDB13Dに格納されているQ&Aサイト1〜Q&Aサイト4に対応付けられているドメイン11〜ドメイン14全てを選択し、選択したドメイン11〜ドメイン14全てを用いて入力された検索キーワードを検索する。さらに、検索部12Dは、検索エンジンを用いて入力された検索キーワードを検索し、ドメイン11〜ドメイン14全てを検索した結果と、検索エンジンを用いて検索した結果とを第2ノイズ除去部17Bに出力する。続けて、第2ノイズ除去部17Bは、無意味言葉等を示すタグを除去する。続けて、キーワード抽出部18Dは、無意味言葉等が除去された上位のウェブページの情報それぞれから、キーワードを抽出し、抽出したキーワードの出現回数、重要度等を算出する。
この場合、キーワード抽出部18Dは、図24に示すように、ドメイン11〜ドメイン14全てを検索した結果(画像g380)と、検索エンジンを用いて検索した結果(画像g370)とを比較し、比較した結果に基づいてキーワードリストを生成する。
図24は、本実施形態の第2変形例に係る第7の抽出方法によるキーワード抽出装置1Dによるキーワードの検索結果の比較例を示す図である。
図24に示すように、各検索結果には、出現回数の画像(g372、g382)、出現回数に重要度を乗算した値の画像(g373、g383)、抽出された重要キーワードの画像(g374、g384)が含まれている。
また、図24に示すように、ドメイン11〜ドメイン14全てを検索した結果(画像g380)と、検索エンジンを用いて検索した結果(画像g370)の重要キーワードが異なる場合、異なっている重要キーワードの表示方法を変えるようにしてもよい。キーワード抽出部18Dは、例えば、文字の色、文字の太さ、フォントの種類、文字に色つきマーカーを合成する等を行うようにしてもよい。図24に示す例において、符号g385に示すキーワードは、Q&Aサイトの出現頻度が高いが検索エンジンで検索した上位サイトであまり用いられていないキーワードのうち、検索順位が例えば61位以下であることを示している。また、符号g386に示すキーワードは、Q&Aサイトの出現頻度が高いが検索エンジンで検索した上位サイトであまり用いられていないキーワードのうち、検索順位が例えば31位から60位であることを示している。
なお、本実施形態では、第7の抽出方法において、ドメイン11〜ドメイン14全てを検索した結果と、検索エンジンを用いて検索した結果を比較する例を説明したが、これに限られない。キーワード抽出部18Dは、例えばドメイン11とドメイン12で検索された結果を比較してキーワードリストを生成するようにしてもよい。
以上のように、第2の抽出方法〜第7の抽出方法によれば、Q&Aサイトからキーワードを抽出するようにした。この意味合いは、検索エンジンを用いる人が、知りたい情報が何であるかが、Q&Aサイトの、特に質問欄に含まれている可能性が高い。このため、Q&Aサイトの質問欄に含まれているキーワードは、情報を知りたい人が、検索エンジンを使って検索するときに、検索キーワードとして入力する可能性が高い。従って、Q&Aサイトに含まれる重要なキーワードである共起語を、例えば自社のサイトに用いていれば、情報を知りたい人が、検索エンジンを使って検索したときに上位の検索結果として表示される可能性を高めることができる。
以上のように、本実施形態の第2変形例に係るキーワード抽出装置1Dにおいて、検索部12Dは、検索キーワードに基づいて予め定められている少なくとも2つのドメイン(例えば、Q&Aサイト1〜4、検索エンジンのうちの少なくとも2つ)の異なるコンテンツを検索し、キーワード抽出部18Dは、異なるドメインのコンテンツのテキストそれぞれから複数のキーワードをそれぞれ抽出し、異なるドメインのコンテンツのテキストそれぞれから抽出したキーワードを比較し、比較した結果に基づいてキーワードリストを生成する。
この構成によって、本実施形態によれば、Q&Aサイトで用いられている検索キーワードに対応する抽出されたキーワード(共起語)と、検索エンジンによって抽出されたキーワード(共起語)とを比較することができる。
例えば、Q&Aサイトの質問から抽出されたキーワード(共起語)は、利用者が最も知りたいキーワードが含まれている可能性が高い。一方、検索エンジンで検索されたウェブページから抽出されたキーワード(共起語)には、コンテンツに使用される頻度が高くても、利用者が最も知りたい情報のキーワードではない場合もあり得る。このため、これらのキーワード(共起語)を比較し、利用者が最も知りたいと思われるキーワード(共起語)を含むコンテンツを作成することで、利用者が知りたい情報を提供することが可能になる。
次に、第8の抽出方法について説明する。
第8の抽出方法では、入力した検索キーワードで検索した場合、検索結果の上位のサイトに含まれているキーワードが、評価対象のサイト(例えば自社のサイト)に過不足無く書かれているか判定する。
第8の抽出方法における操作画面について説明する。
図25は、本実施形態の第2変形例に係る第8の抽出方法が選択された場合のキーワード抽出装置1Dによる操作画面の例を示す図である。なお、図25は、検索キーワードの入力領域の画像g420Aと、探索結果の画像g440を抜き出して示した図である。
図25に示すように、検索キーワードの入力領域の画像g420Aには、検索キーワード入力欄の画像g421、検索ボタンの画像g422、所定の個数を選択する画像g423、探索対象のドメイン入力欄の画像g424が含まれている。
また、探索結果の画像g440には、検索キーワードを示す画像g441、探索ドメインを示す画像g442、出現回数の画像g443、出現回数に重要度を乗算した値の画像g444、抽出された重要キーワード(共起語)の画像g445が含まれている。さらに、探索結果の画像g440には、重要キーワードが使用されている評価サイト内のウェブページにおける重要キーワードの順位を示す画像g446、重要キーワードが使用されている評価サイト内のウェブページのアドレスを示す画像g447が含まれている。
なお、ドメイン内のウェブページ内に重要キーワードが含まれていない(使用されていない)場合は、順位を例えば50位以上とし画像g436に“50+”と表示し、画像g447に空欄を表示させるようにしてもよい。
次に、第8の抽出方法の処理手順について説明する。
図26は、本実施形態の第2変形例に係る第8の抽出方法における処理のフローチャートである。
(ステップS401)利用者は、第8の抽出方法を選択し、検索キーワードを検索キーワード入力欄(画像g421)に入力し、さらに評価対象のドメインを、ドメイン入力欄(画像g424)に入力する。続けて、キーワード入力部11Dは、入力された検索キーワードと、評価対象のドメインとを取得する。なお、評価対象のドメインとは、抽出された重要キーワード(共起語)が含まれているウェブページを探索するためのドメインであり、例えば評価したい自社のサイトのドメインである。
(ステップS2)検索部12Dは、検索エンジンを用いて検索キーワードを検索する。なお、検索方法は、第2の抽出方法〜第5の抽出方法で説明したQ&Aサイトであってもよい。
続けて、検索部12Dは、ステップS3を行う。続けて、第2ノイズ除去部17Bは、ステップS15の処理を行う。続けて、キーワード抽出部18Dは、ステップS7の処理を行う。
(ステップS402)キーワード抽出部18Dは、抽出された重要キーワード(共起語)を逐次選択する。
(ステップS403)キーワード抽出部18Dは、選択した重要キーワードが入力されたドメインのウェブページに含まれているか否かを判別する。キーワード抽出部18Dは、選択したキーワードが入力されたドメインのウェブページに含まれていると判別した場合(ステップS403;YES)、ステップS404の処理に進む。キーワード抽出部18Dは、選択したキーワードが入力されたドメインのウェブページに含まれていないと判別した場合(ステップS403;NO)、ステップS402の処理に戻る。
(ステップS405)キーワード抽出部18Dは、ステップS402で選択したキーワードが含まれているウェブページのアドレスを取得する。
(ステップS405)キーワード抽出部18Dは、ステップS6で抽出された全ての重要キーワードの選択が終了したか否かを判別する。キーワード抽出部18Dは、全ての重要キーワードの選択が終了したと判別した場合(ステップS405;YES)、ステップS406の処理に進み、全ての重要キーワードの選択が終了していないと判別した場合(ステップS405;NO)、ステップS402の処理に戻る。
(ステップS406)キーワード抽出部18Dは、重要キーワードにアドレスを対応付けてキーワードリストを生成する。
以上で、第8の抽出方法の処理を終了する。
以上のように、第8の抽出方法によれば、情報を知りたい人が検索時に入力すると想定される検索キーワードを用いて検索エンジンで検索した場合、検索結果の上位のサイトに含まれているキーワードが、評価対象のサイト(例えば自社のサイト)にも使用されているか否かを判定することができる。
次に、第9の抽出方法について説明する。
第9の抽出方法では、まず、第1の抽出方法によって重要キーワードを抽出する。さらに、評価したいサイトのドメインまたはウェブページのアドレスの情報(以下、評価サイトの情報という)において出現頻度(使用頻度)が高いキーワードを抽出する。そして、第9の抽出方法では、抽出された重要キーワードと、抽出したい評価サイトにおけるキーワードとを比較し、評価サイトに不足している重要キーワードを抽出する。
図27は、本実施形態の第2変形例に係る第9の抽出方法が選択された場合のキーワード抽出装置による評価結果の例を示す図である。
図27に示すように、評価結果の画像g450には、検索キーワードを示す画像g451、評価サイトの情報を示す画像g452、評価サイトから抽出されたキーワードを示す画像g453、検索エンジンによって検索された上位サイトから抽出された重要キーワードを示す画像g454、過不足キーワードを示す画像g455が含まれている。
評価サイトから抽出されたキーワードを示す画像g453において、キーワード(画像g4533)は出現回数(画像g4531)に重要度を乗算した値(画像g4532)が大きい順に表示される。また、上位サイトから抽出された重要キーワードを示す画像g454には、出現回数の画像g4541、出現回数に重要度を乗算した値の画像g4542、重要キーワード(共起語)の画像g4543が含まれている。
過不足キーワードを示す画像g455には、例えば、不足1(評価サイトに追加した方がよい重要キーワード;評価サイトでの頻度が低いキーワード)のリストの画像g4551、不足2(評価サイトに追加した方がよい重要キーワード;評価サイトで使用されていないキーワード)のリストの画像g4552が含まれている。さらに、過不足キーワードを示す画像g455には、過剰1(評価サイトでは頻度が高いが、上位サイトでは頻度が低いキーワード)のリストの画像g4553、過剰2(上位サイトでは使用されていないが評価サイトで頻度の高いキーワード)のリストの画像g4554が含まれている。なお、不足しているキーワードは、検索エンジンによって上位のサイトから抽出された共起語であるため、商品やサービスの情報について購買者や商品の利用者が知りたい情報である。一方、過剰なキーワードは、購買者や商品の利用者にとっては、過剰な情報である可能性がある。
ここで、不足キーワードの検出方法、過剰キーワードの検出方法の一例を説明する。
キーワード抽出部18Dは、上位サイトから抽出された重要キーワードのうち1つを順次選択する。そして、キーワード抽出部18Dは、選択した重要キーワードと、評価サイトから抽出されたキーワードとを順次比較することで、不足しているキーワードを検出する。
また、キーワード抽出部18Dは、評価サイトから抽出されたキーワードのうち1つを順次選択する。そして、キーワード抽出部18Dは、選択したキーワードと、上位サイトから抽出された重要キーワードとを順次比較することで、過剰なキーワードを検出する。
次に、第9の抽出方法の使用例について説明する。
サイトの運営者は、例えば評価サイトとして自社のサイトのアドレスを入力する。そして、評価結果を用いて、自社のサイトに不足しているキーワードを知ることで、自社のサイトを改善することができる。
なお、図27に示した評価結果は一例であり、これに限られず、評価サイトと上位サイトを比較した結果に基づく情報であればよい。
上述したように、本実施形態の第2変形例においては、利用者はキーワード(共起語)を検索する場合に、検索したいウェブページのドメインを選択することができる。これにより、利用者は、例えば、各抽出方法によってキーワードを抽出させ、得られた抽出結果を比較することができる。また、上述したように、本実施形態の第2変形例では、複数のQ&Aサイトを検索してキーワードを抽出するため、各Q&Aサイトで話題となった文章から、バランスよくキーワード(共起語)を抽出することができる。
なお、検索部12Dは、Q&Aサイトの質問から検索キーワードに対応するキーワード(共起語)を抽出するようにしてもよい。この場合、キーワード抽出装置1Dは、メインコンテンツ抽出部15を備え、メインコンテンツ抽出部15が抽出したメインコンテンツから質問のテキストを抽出する。
以上のように、本実施形態の第2変形例に係るキーワード抽出装置1Dにおいて、検索部12Dは、検索キーワードに基づいて、検索エンジンを用いてコンテンツを検索し、キーワード抽出部18Dがコンテンツのテキストから抽出した複数のキーワードに基づいて検索して評価対象のサイトの検索結果の順位を検索し、キーワード抽出部は、コンテンツのテキストから複数のキーワードを抽出し、抽出した複数のキーワードが前記評価対象のサイトのコンテンツで使用されているか否かを判別した結果と、検索部が検索した評価対象のサイトの検索順位に基づいてキーワードリストを生成する。
この構成によって、本実施形態によれば、検索エンジンによって抽出されたキーワード(共起語)が、評価サイトに含まれているか否か、検索エンジンで検索した場合の順位を提供することができる。
[第3実施形態]
本実施形態では、ウェブページの品質を評価することができるキーワード抽出装置1Eについて説明する。
本実施形態のキーワード抽出装置1Eは、入力されたウェブページのメインコンテンツを抽出し、抽出したメインコンテンツから予め定められている個数の文章を抽出する。そして、キーワード抽出装置1Eは、抽出した文章を検索エンジンで検索し、検索した結果に基づいて、ウェブページを評価する。
<キーワード抽出装置1Eの構成>
図28は、本実施形態に係るキーワード抽出装置1Eの概略構成図である。なお、キーワード抽出装置1、1A、1B、1C、または1Dと同じ機能を有する機能部については、同じ符号を用いて、説明を省略する。
図28に示すように、キーワード抽出装置1Eは、キーワード入力部11E、検索部12E、メインコンテンツ抽出部15、タグDB16、第2ノイズ除去部17E、文章抽出部20、検索順位取得部21、評価結果生成部22、および評価結果出力部23を備える。
キーワード入力部11Eは、利用者によって入力されたウェブページのアドレスを示す情報を取得し、取得したウェブページのアドレスを示す情報を検索部12Eと検索順位取得部21に出力する。
検索部12Eは、キーワード入力部11Eが出力したウェブページのアドレスを検索エンジンに入力し、ウェブページを検索する。検索部12Eは、検索したウェブページのソースコードを取得し、取得したソースコードをメインコンテンツ抽出部15に出力する。
また、検索部12Eは、文章抽出部20が出力した文章を取得し、取得した文書のうち1つを順次選択する。検索部12Eは、選択した文章を、順次、検索エンジンに入力して検索する。なお、検索結果には、ソースコードが含まれている。そして、検索部12Eは、選択した文章と検索結果をメインコンテンツ抽出部15に順次出力する。
第2ノイズ除去部17Eは、メインコンテンツ抽出部15が出力したメインコンテンツの中から、タグDB16を参照して無意味言葉等を除去する。第2ノイズ除去部17Eは、無意味言葉等を除去したメインコンテンツを、文章抽出部20に出力する。なお、無意味言葉には、検索に用いた文章に関連した広告が含まれる。第2ノイズ除去部17Eは、無意味言葉等を除去したメインコンテンツと、選択された文章とを、検索順位取得部21に順次出力する。
文章抽出部20は、第2ノイズ除去部17Eが出力したメインコンテンツから予め定められた個数の文章(テキスト)を抽出する。なお、予め定められた個数は、1つ以上であればよく、固定された値であってもよく、メインコンテンツの総文字数に応じて設定される個数であってもよい。文章抽出部20は、抽出した文章を検索部12Eに出力する。なお、文章抽出部20は、抽出した文章が、所定の文字数以上の場合、文書の頭から所定の文字数を抜き出して、1つの文章として扱うようにしてもよい。
検索順位取得部21は、第2ノイズ除去部17Eが出力した選択された文章と、無意味言葉等が除去された検索結果におけるメインコンテンツを順次取得する。また、検索順位取得部21は、キーワード入力部11Eが出力したウェブページのアドレスを示す情報を取得する。検索順位取得部21は、取得したメインコンテンツとウェブページのアドレスを用いて、検索結果におけるウェブページの順位を取得し、取得した順位を選択された文章と対応付けて順次、評価結果生成部22に出力する。
評価結果生成部22は、検索順位取得部21が出力した順位に配点し、各文章に対する評価を行う。評価結果生成部22は、各文章の配点を合計し、合計点に応じて評価結果を生成し、生成した評価結果を評価結果出力部23に出力する。なお、順位に対する配点、評価結果については、後述する。
評価結果出力部23は、例えばWeb上での情報提供部、表示装置、プリンタ装置、通信装置のうち少なくとも1つである。評価結果出力部23は、評価結果生成部22が出力した評価結果を、例えばWeb上で提供する。
<評価処理の手順>
次に、キーワード抽出装置1Eが行う評価処理の手順について説明する。
図29は、本実施形態に係るキーワード抽出装置1Eが行う評価処理のフローチャートである。
(ステップS501)キーワード入力部11Eは、利用者によって入力されたウェブページのアドレスを示す情報を取得する。
(ステップS502)検索部12Eは、ウェブページのソースコードを取得する。
続けて、メインコンテンツ抽出部15は、ステップS5の処理を行い、処理終了後、ステップS503に処理を進める。
(ステップS503)文章抽出部20は、第2ノイズ除去部17Eが出力したメインコンテンツから予め定められた個数の文章(テキスト)を抽出する。
(ステップS504)検索部12Eは、文章抽出部20が出力した文章を取得し、取得した文書のうち1つを順次選択する。続けて、検索部12Eは、選択した文章を、順次、検索エンジンに入力して検索する。続けて、メインコンテンツ抽出部15は、検索部12Eが出力した検索結果からメインコンテンツを抽出する。続けて、第2ノイズ除去部17Eは、メインコンテンツ抽出部15が出力したメインコンテンツから広告を含む無意味言葉を除去する。
(ステップS505)検索順位取得部21は、第2ノイズ除去部17Eが出力した選択された文章と、無意味言葉が除去された検索結果におけるメインコンテンツを順次取得する。続けて、検索順位取得部21は、検索結果におけるウェブページの順位を取得する。
(ステップS506)評価結果生成部22は、検索順位取得部21が出力した順位に対して配点し、各文章に対する評価を行う。続けて、評価結果生成部22は、各文章の配点を合計し、合計点に応じて評価結果を生成する。続けて、評価結果出力部23は、評価結果生成部22が出力した評価結果を出力する。
以上で、評価処理を終了する。
<配点、評価結果の例>
次に、配点、評価結果の例について説明する。
図30は、本実施形態に係る評価結果の例を示す図である。図30に示す例は、2つのウェブページに対する評価結果の例である。図30に示すように、出力される判定結果には、ウェブページのアドレス、総合点、取得文章+順位、アドバイス、評価日が含まれている。
まず、配点について説明する。
一般的に、検索エンジンの利用者は、検索結果の1位から検索内容を閲覧していく。例えば、検索結果が1位の検索結果を閲覧し、そこで知りたい情報が得られた場合、他の検索結果を閲覧しない場合が少なくない。そして、検索エンジンの利用者は、検索結果が20位以下の検索結果を閲覧しない場合が少なくない。したがって、検索結果が上位であるほど、検索に用いられた文章は、他のウェブページに対して優位であると言える。また、順位が低い場合、検索に用いられた文章は、他のウェブページにも使用されていることを意味しているため、他のウェブページに対する優位性が低いと言える。
評価結果生成部22は、5個の文章を選択した場合、文章毎に20点(=100/5)を割り当てる。そして、評価結果生成部22は、上述した利用により、例えば、1位に20点、2位に16点、3位に12点、・・・、20位以下に0点を割り当てる。
評価結果生成部22は、5つの文章の配点の総合点が100点の場合、判定結果として「◎」または「Very Good」であると判別し、総合点が100点未満である場合、判定結果として「×」または「No Good」であると判定する。
なお、上述した配点、判定は一例であり、これに限られない。
図30の符号g501で囲んだ評価結果は、ウェブページ「http://www.abcdef.html」に対する評価結果である。抽出された5つの文章が、文章1〜文章5である。それぞれの文章を検索エンジンに入力して検索した結果、それぞれの順位が3位、1位、1位、20位以上、1位である。そして、総合点が72点であり、判定「×」である。また、アドバイスは、「コピーされているか、書き直しを強くオススメます。」である。
図30の符号g502で囲んだ評価結果は、ウェブページ「http://www.abcdfg.html」に対する評価結果である。符号g502で囲んだ評価結果は、メインコンテンツから10個の文章を抽出して評価した結果の例である。このウェブページから抜き出した例では、抽出した10個の文章のうち1位が2個、20位以内が8個であり、総合点が20点である。そして、アドバイスは、「コピーされているか、書き直しを強くオススメます。」である。
なお、アドバイスの文面は、総合点に対応付けて、評価結果生成部22に予め記憶させておくようにしてもよい。
なお、図28に示した例において、キーワード抽出装置1Eは、タブDB16、第2ノイズ除去部17Eを備えていなくてもよい。この場合、メインコンテンツ抽出部15は、抽出したメインコンテンツを文章抽出部20に出力し、検索結果のメインコンテンツを検索順位取得部21に出力するようにしてもよい。
以上のように、本実施形態に係るキーワード抽出装置1Eにおいて、メインコンテンツ抽出部15が抽出したメインコンテンツから少なくとも1つの文章を抽出する文章抽出部20と、検索部12Eによって文章に基づいて検索された順位を取得する検索順位取得部21と、検索順位取得部が取得した順位に基づいて、文章が抽出された評価を行う対象のウェブページに対して評価を行う評価結果生成部22と、をさらに備える。
この構成によって、本実施形態によれば、評価を行いたいウェブページからメインコンテンツを抽出し、抽出されたメインコンテンツから少なくとも1つの文章を抽出する。そして、本実施形態では、抽出された文章を、検索エンジンを用いて検索を行い、検索に用いられた文書が含まれているウェブサイトの順位に基づいて、ウェブページの評価を行う。これにより、本実施形態によれば、ウェブページの運用者は、ウェブページのアドレスをキーワード抽出装置1Eに入力するだけで、自社のウェブページの品質の評価結果を得ることができる。
[第4実施形態]
本実施形態では、検索エンジンが有するサジェスト機能を用いてキーワードの抽出、評価を行う例を説明する。
まず、サジェスト機能について説明する。
サジェスト機能とは、検索エンジンを用いて単語を検索するときに、検索エンジンの利用者が検索する可能性が高い言葉を検索エンジンが提案する機能である。例えば、検索エンジンに「格安SIM」と入力すると、「格安sim」、「格安sim 比較」、「格安sim テザリング」等の候補が提案される。このように、提案される言葉は、検索エンジンの利用者によって検索された回数が多い、すなわち利用者が知りたい情報である場合が多い。
本実施形態では、検索ワードに対して提案される単語を収集し、収集した単語が評価サイト(例えば自社のサイト)に含まれている頻度に応じて、評価サイトを評価する。
<キーワード抽出装置1Fの構成>
図31は、本実施形態に係るキーワード抽出装置1Fの概略構成図である。
図31に示すように、キーワード抽出装置1Fは、キーワード入力部11F、検索部12F、メインコンテンツ抽出部15、サジェスト取得部24、検索順位取得部21F、評価結果生成部22F、および評価結果出力部23を備える。また、キーワード抽出装置1Fは、ネットワーク2に接続されている。なお、キーワード抽出装置1、1A、1B、1C、1D、1E、または1Fと同じ機能を有する機能部については、同じ符号を用いて、説明を省略する。また、キーワード抽出装置1Fは、メインコンテンツ抽出部15と検索順位取得部21Fとの間に、第2ノイズ除去部17(または17B、17E)、タグDB16を備えていてもよい。
キーワード入力部11Fは、利用者によって入力された検索キーワードを取得し、取得した検索キーワードを検索部12Fに出力する。また、キーワード入力部11Fは、利用者によって入力された評価サイトの情報を取得し、取得した評価サイトの情報を検索順位取得部21Fに出力する。
検索部12Fは、キーワード入力部11Fが出力した検索キーワードを検索エンジンに入力し、検索キーワードを入力したときに提案される言葉(以下、予測言葉)をサジェスト取得部24に出力する。なお、予測言葉には、少なくとも検索キーワードが含まれ、例えば検索キーワードと他の単語との組み合わせ、検索キーワードを含む複合語等である。
また、検索部12Fは、サジェスト取得部24が出力した予測言葉のうちから1つを選択し、選択した予測言葉を検索エンジンに入力して検索する。そして、検索部12Fは、検索結果を順次、メインコンテンツ抽出部15に出力する。
サジェスト取得部24は、検索部12Fが出力した予測言葉を取得し、取得した予測言葉を検索部12Fと評価結果生成部22Fに出力する。
メインコンテンツ抽出部15は、検索部12Fが予測言葉を用いて検索した結果のソースコードからメインコンテンツを抽出し、抽出したメインコンテンツを検索順位取得部21Fに出力する。
検索順位取得部21Fは、メインコンテンツ抽出部15が出力したメインコンテンツと、キーワード入力部11Fが出力した評価サイトの情報を取得する。検索順位取得部21Fは、検索結果における評価サイトの順位を取得し、取得した順位を予測言葉と対応付けて順次、評価結果生成部22Fに出力する。
評価結果生成部22Fは、検索順位取得部21Fが出力した順位と予測言葉を用いて、各予測言葉に対する評価を行う。評価結果生成部22Fは、評価結果に基づいて評価結果を生成し、生成した評価結果を評価結果出力部23に出力する。または、評価結果生成部22Fは、サジェスト取得部24が出力した予測言葉を用いて評価結果を生成し、生成した評価結果を評価結果出力部23に出力する。なお、評価結果については、後述する。
<評価処理の手順>
次に、キーワード抽出装置1Fが行う評価処理の手順について説明する。
図32は、本実施形態に係るキーワード抽出装置1Fが行う評価処理のフローチャートである。
(ステップS601)キーワード入力部11Fは、利用者によって入力された検索キーワードと、評価サイトの情報を取得する。
(ステップS602)検索部12Fは、キーワード入力部11Fが出力した検索キーワードを検索エンジンに入力する。続けて、サジェスト取得部24は、提案された予測言葉を取得する。なお、取得する予測言葉の個数は、提示される全てであってもよく、または、予め定められた個数であってもよい。
(ステップS603)検索部12F、検索順位取得部21F、評価結果生成部22Fは、ステップS604〜ステップS606の処理を、予測言葉毎に行う。
(ステップS604)検索部12Fは、サジェスト取得部24が出力した予測言葉のうちから1つを選択し、選択した予測言葉を検索エンジンに入力して検索する。
(ステップS605)検索順位取得部21Fは、検索部12Fが出力した検索結果において、キーワード入力部11Fが出力した評価サイトの順位を取得する。
(ステップS606)評価結果生成部22Fは、検索順位取得部21Fが出力した順位と予測言葉を用いて、各予測言葉に対する判定を行う。評価結果生成部22Fは、例えば、順位が1位〜10位の場合に「独占」であると評価し、順位が11位以下である場合に「未発掘」であると判定するようにしてもよい。
(ステップS607)検索部12F、検索順位取得部21F、評価結果生成部22Fは、ステップS602で取得した予測言葉に対して、ステップS604〜ステップS606の処理が終了したとき、ステップS608の処理に進める。
(ステップS607)評価結果生成部22Fは、評価結果に基づいて評価結果を生成する。続けて、評価結果出力部23は、評価結果生成部22Fが出力した評価結果を、例えばWeb上で提供する。
以上で、評価処理を終了する。
<評価結果の例>
次に、評価結果の例について説明する。
図33は、本実施形態に係る評価結果の例を示す図である。
図33に示すように、評価結果を示す画像g600には、検索キーワードの画像g601、評価サイトを示す画像g602、検索結果と評価結果を示す画像g603が含まれている。
検索結果と評価結果を示す画像g603には、予測言葉を示す画像g6031、判定結果を示す画像g6032、順位を示す画像g6033が含まれている。
判定結果を示す画像g6032に示すように、予測言葉(画像g6031)を検索エンジンに入力して検索した順位に応じて、「独占」、「共存」、「未発掘」、「改善」等のアドバイスが示される。なお、図33に示した判定結果は一例であり、評価結果生成部22Fは、例えば1位〜10位、11位〜20位等、10位毎に判定結果のラベルを付与するようにしてもよい。また、評価結果生成部22Fは、「独占」、「共存」、「未発掘」、「改善」の各単語を色分けしたり、順位の文字を色分けしたり、各単語または文字にマーカーを付与したり、単語または文字の種類を異なるようにしてもよい。
評価サイトの運用者は、このような評価結果を用いて、予測言葉を用いて検索した場合にも評価サイトが上位に検索されるように、例えば自社のサイトを構築する。これにより、自社のサイトへのアクセス数が向上する効果が得られる。
なお、図32、図33に示した例では、予測言葉を検索エンジンで検索して、評価サイトの順位も求める例を説明したが、これに限られない。キーワード抽出装置1Fは、検索キーワードに応じた予測言葉を取得し、取得した予測言葉を評価結果として出力するようにしてもよい。
以上のように、本実施形態に係るキーワード抽出装置1Fにおいて、検索部12Fが検索した結果から、検索キーワードに基づく予測言葉を取得するサジェスト取得部24と、サジェスト取得部によって取得された複数の予測言葉のうち1つを選択し、選択した予測言葉を検索部によって検索した結果から、メインコンテンツ抽出部15によって抽出されたメインコンテンツを用いて、選択した予測言葉の検索順位を取得する検索順位取得部21Fと、検索順位取得部が取得した順位に基づいて、評価を行う対象のウェブページに対して評価を行う評価結果生成部22Fと、をさらに備える。
この構成によって、本実施形態によれば、検索エンジンを用いて検索する利用者が入力する頻度が高いと思われる予測言葉を用いて検索した場合に、評価対象の評価サイトの順位に基づいて、評価サイトの品質を評価する。これにより、本実施形態によれば、例えば、自社サイトの運用者が評価のために入力した検索キーワードだけではなく、利用者によって使用されている検索キーワードも用いて、自社サイトの評価を行うことができる。
[第5実施形態]
本実施形態では、キーワード抽出装置1、1A〜1Fのうち、いずれか1つに、コンテンツ生成装置3が接続されている例を説明する。
図34は、本実施形態に係るコンテンツ生成システム5を示す構成図である。
図34に示すように、コンテンツ生成システム5は、キーワード抽出装置(1、1A〜1Fのうちの、いずれか1つ)、およびコンテンツ生成装置3を備える。また、コンテンツ生成システム5は、ネットワーク2に接続されている。
なお、以下の例では、キーワード抽出装置1Aを例に説明する。
キーワード抽出装置1Aのキーワードリスト出力部19は、通信装置である。
キーワード抽出装置1Aは、入力された検索キーワードに基づいて複数のキーワードを抽出し、抽出したキーワードをソート処理したキーワードリストの情報を、コンテンツ生成装置3に出力する。
コンテンツ生成装置3は、コンテンツ雛形記憶部31、コンテンツ生成部32、およびコンテンツ出力部33を備える。
コンテンツ雛形記憶部31は、コンテンツの雛形を記憶する。なお、コンテンツの雛形とは、ウェブページの雛形、カタログの雛形、パンフレットの雛形、取扱説明書の雛形等であり、例えば商品毎に雛形が記憶されている。
コンテンツ生成部32は、抽出された複数のキーワードと、コンテンツ雛形記憶部31に記憶されているコンテンツの雛形とを用いてコンテンツを生成し、生成したコンテンツをコンテンツ出力部33に出力する。ここで、コンテンツとは、ウェブページ、カタログ、パンフレット、取扱説明書等である。
コンテンツ出力部33は、例えばWeb上での情報提供部、表示装置、プリンタ装置、通信装置のうち少なくとも1つである。コンテンツ出力部33は、コンテンツ生成部32が出力したコンテンツを例えばWeb上で提供する。
なお、本実施形態では、コンテンツの雛形と抽出された複数のキーワードを用いてコンテンツを生成する例を説明したが、これに限られない。コンテンツ生成装置3は、キーワード抽出装置(1、1A、1B、1C、1Dのうちの、いずれか1つ)によって抽出された複数のキーワードを用いて、周知の文章を自動生成するプログラム等によってコンテンツを生成するようにしてもよい。この場合、1つの文章に用いるキーワードの個数を予め設定しておくようにしてもよい。また、キーワードそれぞれについて、コンテンツ内で使用する回数を、例えば重要度や出願回数に基づいて設定しておくようにしてもよい。
以上のように、本実施形態のコンテンツ生成システム5は、キーワード抽出装置(1、1A〜1Fのうちの、いずれか1つ)と、キーワード抽出装置が抽出した複数のキーワードを用いて、所定のコンテンツを生成するコンテンツ生成装置3と、を備える。
この構成によって、本実施形態では、キーワード抽出装置(1、1A〜1Fのうちの、いずれか1つ)によって抽出された複数のキーワードを用いて、コンテンツを生成することができる。この結果、本実施形態によれば、利用者が知りたい情報を用いたコンテンツを提供することができる。
なお、上述した第1実施形態、第2実施形態において、キーワード抽出装置(1、1A〜1Fのうちの、いずれか1つ)は、検索キーワードに応じたウェブページをネットワーク2から検索する例を説明したが、これに限られない。例えば、キーワード抽出装置(1、1A〜1Fのうちの、いずれか1つ)に接続されているサーバ(不図示)から検索キーワードに応じたウェブページを検索するようにしてもよい。この場合、サーバには、検索キーワードに対応した複数のウェブページに関する情報が格納されている。
また、上述した第1実施形態〜第4実施形態において、ドメインDB13(または13D)、タブDB16(または16B)は、ネットワーク2上にあってもよい。
また、上述した実施形態におけるキーワード抽出装置(1、1A、1B、1C、1D、1E、1Fのうちの、いずれか1つ)またはコンテンツ生成装置3の一部または全てをコンピュータで実現するようにしてもよい。その場合、これらの装置が備える機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、認識データ伝送装置に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
1、1A、1B、1C、1D、1E、1F…キーワード抽出装置、2…ネットワーク、3…コンテンツ生成装置、5…コンテンツ生成システム、11、11D、11E、11F…キーワード入力部、12、12B、12D、12E、12F…検索部、13、13D…ドメインDB、14…第1ノイズ除去部、15…メインコンテンツ抽出部、16、16B…タグDB、17、17B、17E…第2ノイズ除去部、18、18D…キーワード抽出部、19…キーワードリスト出力部、181…形態素解析部、182…用語抽出部、183…キーワードリスト生成部、20…文章抽出部、21、21F…検索順位取得部、22、22F…評価結果生成部、23…評価結果出力部、24…サジェスト取得部、31…コンテンツ雛形記憶部、32…コンテンツ生成部、33…コンテンツ出力部

Claims (16)

  1. 検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索部と、
    前記検索部によって検索された前記複数のコンテンツの中から、キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する第1ノイズ除去部と、
    前記第1ノイズ除去部によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部と、
    前記メインコンテンツ抽出部によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出部と、
    を備えるキーワード抽出装置。
  2. 前記メインコンテンツ抽出部によって抽出された前記メインコンテンツの情報から、所定のタグによって記述されている情報を除去することで、前記キーワードの抽出において意味を成していない不要な記述を除去する第2ノイズ除去部、をさらに備え、
    前記キーワード抽出部は、
    前記第2ノイズ除去部によって前記所定のタグによって記述されている情報が除去された後の前記メインコンテンツのテキストからキーワードを抽出する、
    請求項1に記載のキーワード抽出装置。
  3. 検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索部と、
    前記検索部によって検索された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツから所定のタグによって記述されている情報を除去することで、キーワードの抽出において意味を成していない不要な記述を除去する第2ノイズ除去部と、
    前記第2ノイズ除去部によって前記所定のタグによって記述されている情報が除去された前記コンテンツのテキストから複数のキーワードを抽出するキーワード抽出部と、
    を備えるキーワード抽出装置。
  4. 前記検索部と前記キーワード抽出部との間に第1ノイズ除去部、をさらに備え、
    前記第1ノイズ除去部は、
    前記検索部によって検索された前記複数のコンテンツの中から、前記キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する、
    請求項3に記載のキーワード抽出装置。
  5. 前記第2ノイズ除去部によって前記コンテンツから所定のタグによって記述されている情報が除去されたコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部、
    をさらに備える請求項3に記載のキーワード抽出装置。
  6. 前記第1ノイズ除去部によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部、
    をさらに備える請求項4に記載のキーワード抽出装置。
  7. 前記検索部は、前記検索キーワードに基づいて、コンテンツを検索するドメインを限定して前記コンテンツを検索し、
    前記キーワード抽出部は、前記限定したドメインのコンテンツのテキストから複数のキーワードを抽出し、抽出した結果に基づいてキーワードリストを生成する、請求項1から請求項6のいずれか1項に記載のキーワード抽出装置。
  8. 前記検索部は、前記検索キーワードに基づいて、予め定められている少なくとも2つのドメインの異なるコンテンツを検索し、
    前記キーワード抽出部は、前記異なるドメインのコンテンツのテキストそれぞれから複数のキーワードをそれぞれ抽出し、前記異なるドメインのコンテンツのテキストそれぞれから抽出したキーワードを比較し、比較した結果に基づいてキーワードリストを生成する、請求項1から請求項6のいずれか1項に記載のキーワード抽出装置。
  9. 前記検索部は、前記検索キーワードに基づいて、コンテンツを検索し、前記キーワード抽出部が前記コンテンツのテキストから抽出した複数のキーワードに基づいて検索して評価対象のサイトの検索結果の順位を検索し、
    前記キーワード抽出部は、前記コンテンツのテキストから複数のキーワードを抽出し、抽出した前記複数のキーワードが前記評価対象のサイトのコンテンツで使用されているか否かを判別した結果と、前記検索部が検索した前記評価対象のサイトの検索順位に基づいてキーワードリストを生成する、請求項1から請求項6のいずれか1項に記載のキーワード抽出装置。
  10. 前記メインコンテンツ抽出部が抽出した前記メインコンテンツから少なくとも1つの文章を抽出する文章抽出部と、
    前記検索部によって前記文章に基づいて検索された順位を取得する検索順位取得部と、
    前記検索順位取得部が取得した順位に基づいて、前記文章が抽出された評価を行う対象のウェブページに対して評価を行う評価結果生成部と、
    をさらに備える請求項1、請求項2、請求項5、請求項6のいずれか1項に記載のキーワード抽出装置。
  11. 前記検索部が検索した結果から、検索キーワードに基づく予測言葉を取得するサジェスト取得部と、
    前記サジェスト取得部によって取得された複数の前記予測言葉のうち1つを選択し、前記選択した予測言葉を前記検索部によって検索した結果から、前記メインコンテンツ抽出部によって抽出されたメインコンテンツを用いて、前記選択した予測言葉の検索順位を取得する検索順位取得部と、
    前記検索順位取得部が取得した順位に基づいて、評価を行う対象のウェブページに対して評価を行う評価結果生成部と、
    をさらに備える請求項1、請求項2、請求項5、請求項6のいずれか1項に記載のキーワード抽出装置。
  12. 請求項1から請求項10のいずれか1項に記載のキーワード抽出装置と、
    前記キーワード抽出装置が抽出した前記複数のキーワードを用いて、所定のコンテンツを生成するコンテンツ生成装置と、
    を備えるコンテンツ生成システム。
  13. 検索部が、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、
    第1ノイズ除去部が、前記検索手順によって検索された前記複数のコンテンツの中から、キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する第1ノイズ除去手順と、
    メインコンテンツ抽出部が、前記第1ノイズ除去手順によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出手順と、
    キーワード抽出部が、前記メインコンテンツ抽出手順によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、
    を含むキーワード抽出方法。
  14. 検索部が、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、
    第2ノイズ除去部が、前記検索手順によって検索された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツから所定のタグによって記述されている情報を除去することで、キーワードの抽出において意味を成していない不要な記述を除去する第2ノイズ除去手順と、
    キーワード抽出部が、前記第2ノイズ除去手順によって前記所定のタグによって記述されている情報が除去された前記コンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、
    を含むキーワード抽出方法。
  15. コンピュータに、
    検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、
    前記検索手順によって検索された前記複数のコンテンツの中から、キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する第1ノイズ除去手順と、
    前記第1ノイズ除去手順によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出手順と、
    前記メインコンテンツ抽出手順によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、
    を実行させるプログラム。
  16. コンピュータに、
    検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、
    前記検索手順によって検索された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツから所定のタグによって記述されている情報を除去することで、キーワードの抽出において意味を成していない不要な記述を除去する第2ノイズ除去手順と、
    前記第2ノイズ除去手順によって前記所定のタグによって記述されている情報が除去された前記コンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、
    を実行させるプログラム。
JP2015249124A 2015-12-21 2015-12-21 キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム Active JP6653169B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015249124A JP6653169B2 (ja) 2015-12-21 2015-12-21 キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015249124A JP6653169B2 (ja) 2015-12-21 2015-12-21 キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2017117021A true JP2017117021A (ja) 2017-06-29
JP6653169B2 JP6653169B2 (ja) 2020-02-26

Family

ID=59234522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015249124A Active JP6653169B2 (ja) 2015-12-21 2015-12-21 キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6653169B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670176A (zh) * 2018-12-19 2019-04-23 武汉瓯越网视有限公司 一种关键词抽取方法、装置、电子设备及存储介质
CN112491649A (zh) * 2020-11-17 2021-03-12 中国平安财产保险股份有限公司 接口联调测试方法、装置、电子设备及存储介质
WO2021241253A1 (ja) * 2020-05-27 2021-12-02 オムロン株式会社 文字入力補助装置、文字入力補助方法、および、文字入力補助プログラム
JP7479023B1 (ja) 2023-07-14 2024-05-08 株式会社コンテンシャル コンテンツの生成方法、そのプログラムおよび情報処理装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670176A (zh) * 2018-12-19 2019-04-23 武汉瓯越网视有限公司 一种关键词抽取方法、装置、电子设备及存储介质
WO2021241253A1 (ja) * 2020-05-27 2021-12-02 オムロン株式会社 文字入力補助装置、文字入力補助方法、および、文字入力補助プログラム
JP7355238B2 (ja) 2020-05-27 2023-10-03 オムロン株式会社 文字入力補助装置、文字入力補助方法、および、文字入力補助プログラム
CN112491649A (zh) * 2020-11-17 2021-03-12 中国平安财产保险股份有限公司 接口联调测试方法、装置、电子设备及存储介质
JP7479023B1 (ja) 2023-07-14 2024-05-08 株式会社コンテンシャル コンテンツの生成方法、そのプログラムおよび情報処理装置

Also Published As

Publication number Publication date
JP6653169B2 (ja) 2020-02-26

Similar Documents

Publication Publication Date Title
US9323827B2 (en) Identifying key terms related to similar passages
US8001135B2 (en) Search support apparatus, computer program product, and search support system
JP5431727B2 (ja) 関連性判定方法、情報収集方法、オブジェクト組織化方法及び検索システム
US20080059897A1 (en) Method and system of social networking through a cloud
US20120102014A1 (en) Matching and Recommending Relevant Videos and Media to Individual Search Engine Results
CN102054024B (zh) 信息处理设备、信息提取方法、程序和信息处理系统
WO2011080899A1 (ja) 情報推薦方法
JP6529133B2 (ja) 複数地域でのトピックの評価を分析する装置、プログラム及び方法
US20160299951A1 (en) Processing a search query and retrieving targeted records from a networked database system
Strzelecki et al. Direct answers in Google search results
JP2011103075A (ja) 抜粋文抽出方法
JP5151368B2 (ja) 情報処理装置および情報処理プログラム
JP6653169B2 (ja) キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム
JP2002007450A (ja) 検索支援システム
Oliveira et al. From 10 Blue Links Pages to Feature-Full Search Engine Results Pages-Analysis of the Temporal Evolution of SERP Features
JP5508131B2 (ja) 共有読書データ検索装置、及び方法
JP7188879B2 (ja) 提供装置、提供方法及び提供プログラム
Kolli et al. A Novel Nlp and Machine Learning Based Text Extraction Approach from Online News Feed
JP2020091539A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2007034464A (ja) 広告コンテンツ提示システム、広告コンテンツ提示プログラム
JP2008112310A (ja) 検索装置、情報検索システム、検索方法、検索プログラム、及び記録媒体
Arase et al. Mobile search assistance from HCI aspect
KR101308821B1 (ko) 검색엔진용 키워드 추출 시스템 및 추출 방법
JP2007052693A (ja) Webページ情報表示装置,処理方法およびプログラム
JP4119413B2 (ja) 知識情報収集システム、知識検索システム及び知識情報収集方法

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20160119

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20180209

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180912

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191015

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200127

R150 Certificate of patent or registration of utility model

Ref document number: 6653169

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250