JP2017117021A - キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム - Google Patents
キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム Download PDFInfo
- Publication number
- JP2017117021A JP2017117021A JP2015249124A JP2015249124A JP2017117021A JP 2017117021 A JP2017117021 A JP 2017117021A JP 2015249124 A JP2015249124 A JP 2015249124A JP 2015249124 A JP2015249124 A JP 2015249124A JP 2017117021 A JP2017117021 A JP 2017117021A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- search
- unit
- content
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 411
- 238000011156 evaluation Methods 0.000 claims description 136
- 238000000034 method Methods 0.000 claims description 118
- 239000000284 extract Substances 0.000 claims description 60
- 230000008569 process Effects 0.000 description 44
- 230000004048 modification Effects 0.000 description 36
- 238000012986 modification Methods 0.000 description 36
- 238000010586 diagram Methods 0.000 description 33
- 150000001875 compounds Chemical class 0.000 description 20
- 230000006870 function Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 19
- 238000004458 analytical method Methods 0.000 description 15
- 238000012854 evaluation process Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000007812 deficiency Effects 0.000 description 5
- 235000009508 confectionery Nutrition 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 101100447481 Fusarium sp g430 gene Proteins 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 101100447482 Fusarium sp g431 gene Proteins 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 231100000862 numbness Toxicity 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
このような場合に、利用者は、知りたい情報に関するキーワード(以下、検索キーワードという)を検索エンジンに入力して、利用したいサービスを提供しているウェブサイトを検索する。そして、利用者は、検索された結果、表示部上に表示されるウェブサイトのうち、例えば上位に表示されたウェブサイトから逐次アクセスして、そのサイトを閲覧する。
このような需要に応じて、ウェブサイトのコンテンツを構築するためのキーワードを抽出するキーワード抽出システムが提案されている。キーワード抽出システムでは、ウェブサイトを構成するウェブページ毎に、あらかじめ検索キーワードを決めておく。キーワード抽出システムでは、検索エンジンにおける検索履歴を検索キーワード毎に取得する。キーワード抽出システムでは、取得した検索履歴の多い順に検索キーワードを選択する。このように、キーワード抽出システムでは、検索エンジンの検索回数が多いキーワードを、コンテンツを構築するためのキーワードとして選択する(例えば、特許文献1参照)。
このため、特許文献1に記載の技術では、検索回数の多いキーワードをコンテンツが含んでいるだけであり、利用者が得たい情報が含まれているとは限らない。従って、検索回数の多いキーワードを含んでいても、検索結果の上位に表示されない場合もあった。
(6)また、本発明の一態様に係るキーワード抽出装置は、前記第1ノイズ除去部によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部、をさらに備えるようにしてもよい。
まず、本発明の概要を説明する。
本発明では、ウェブサイトに関する検索キーワードを、検索エンジンによって検索する。なお、検索キーワードとは、ウェブページの閲覧者が、検索エンジンに入力すると想定されるキーワードである。そして、本発明では、検索されたウェブページのうち上位から所定の個数のウェブページを選択する。そして、本発明では、選択した所定の個数ウェブページ(コンテンツともいう)それぞれからノイズを除去する。そして、本発明では、ノイズを除去したコンテンツに含まれるテキストを解析して、キーワードを抽出する。なお、キーワードとは、検索キーワードを用いて検索エンジンで検索した結果、検索結果の上位に表示されたウェブページに含まれているキーワードである。なお、各処理については、後述する。
図1は、本実施形態に係るキーワード抽出装置1の操作画面g101を示す図である。
図1において、四角g111は、検索キーワードの入力欄であり、四角g112は、検索キーワードに基づいてキーワードの抽出を開始するボタンの画像であり、四角g113は、検索キーワードに基づいて、キーワード抽出装置1によって抽出されたキーワードのリストが表示される欄である。
図2は、本実施形態に係るキーワード抽出装置1の概略構成図である。
図2に示すように、キーワード抽出装置1は、キーワード入力部11、検索部12、ドメインDB13、第1ノイズ除去部14、メインコンテンツ抽出部15、キーワード抽出部18、およびキーワードリスト出力部19を備える。また、キーワード抽出装置1は、ネットワーク2に接続されている。ネットワーク2は、例えばインターネットである。
図3は、本実施形態に係るドメインDB13に格納されている情報の一例を示す図である。図3に示すように、ドメインDB13には、少なくとも1つのドメインが格納されている。なお、ドメインDB13に格納されるドメインは、ネットワーク2を介して更新されるようにしてもよい。なお、利用者がキーワードを入力するときに、キーワードを抽出する上で不要なウェッブサイトのドメインを入力するようにしてもよい。そして、キーワード抽出装置1は、入力されたドメインを、一時的にドメインDBに格納して、キーワードを抽出するようにしてもよい。
図4は、ウェブページg201の構成の一例を示す図である。図4に示す例は、2カラムで、右にメニューがある例である。図4に示す例のウェブページg201は、ヘッダーg221、サイドバーg222、およびメインコンテンツg223を含んで構成されている。
次に、キーワード抽出装置1の処理手順について説明する。図5は、本実施形態に係るキーワード抽出装置1の処理のフローチャートである。
(ステップS1)キーワード入力部11は、利用者によって入力された検索キーワードを取得する。
(ステップS2)検索部12は、キーワード入力部11が出力した検索キーワードに適したウェブページを、検索エンジンを用いて検索して、検索によって得られたウェブページのうち、上位から所定の個数のウェブページを選択する。
(ステップS3)検索部12は、選択した所定の個数のウェブページそれぞれのソースコードを取得する。
(ステップS5)メインコンテンツ抽出部15は、第1ノイズ除去部14が出力したウェブページの情報の中から1つのウェブページの情報を逐次選択し、選択したウェブページの情報からメインコンテンツを抽出する。
以上で、キーワード抽出装置1の処理を終了する。
次に、メインコンテンツの抽出方法について説明する。
図6は、ウェブページのソースコードの例を示す図である。なお、図6に示したソースコードは、ウェブページのソースコードのうちの一部である。また、図6に示したソースコードは、ウェブページを構成とソースコードとの関係を説明するための例であって、実際のウェブページのソースコードとは一致しない場合がある。
なお、本実施形態におけるウェブページのメインコンテンツとは、キーワードを抽出する上で必要な部分であり、例えば、タイトル、記事、質問内容、図や写真の説明、質問に対する返答等である、一方、本実施形態における不用部分とは、例えば、広告、メニュー等である。
符号g301が示すウェブページの構成は、自ウェブページの構成例であり、2カラムの構成であって、ウェブページの上にヘッダーg311が配置され、左にメインコンテンツg313が配置され、右にメニューg312が配置されている。
符号g341が示すウェブページの構成は、自ウェブページに記述されている第2のリンク先のウェブページの構成例であり、3カラムの構成であって、ウェブページの上にヘッダーg351が配置され、左に第1のメニューg352が配置され、真ん中にメインコンテンツg353が配置され、右に第2のメニューg354が配置されている。
自ウェブページと同じウェブサイト内のウェブページのURLアドレスは、ドメイン、ホームページに割り振られたアドレス等が等しい場合が多い。一方、自ウェブページと異なるウェブサイト内のウェブページのURLアドレスは、ドメイン、ホームページに割り振られたアドレス等が異なる場合が多い。
図8は、本実施形態に係るメインコンテンツの抽出処理の手順のフローチャートである。
(ステップS102)メインコンテンツ抽出部15は、選択したウェブページのソースコードを取得する、続けて、メインコンテンツ抽出部15は、選択したウェブページの内に含まれているリンクを示す情報を抽出する。なお、リンクを示す情報とは、ウェブページのソースコードに含まれる<a href=”…”>、<base href=”…”>、<link rel=”…” href=”…”>、<link href=”…”>等のタグで記述されている情報である。なお、本実施形態では、リンクを示す情報がタグで記述されている例を説明したが、記述はこれに限られずリンクを示すものであればよい。
(ステップS104)メインコンテンツ抽出部15は、計算した結果、レーベンシュタイン距離が近い少なくとも1つのリンク先のウェブサイトのソースコードを取得する。なお、メインコンテンツ抽出部15は、レーベンシュタイン距離が近い順に複数のリンク先を選択するようにしてもよい。
(ステップS106)メインコンテンツ抽出部15は、ステップS105で比較した結果、ソースコードが近い記述を除去することでメインコンテンツを抽出する(例えば、参考文献1参照)。
以上で、メインコンテンツの抽出処理を終了する。
次に、キーワードの抽出について説明する。
図9は、本実施形態に係るキーワード抽出部18の構成を示すブロック図である。図9に示すように、キーワード抽出部18は、形態素解析部181、用語抽出部182、およびキーワードリスト生成部183を備える。
また、用語抽出部182は、検索部12によって選択された所定の個数全てのウェブページそれぞれのテキスト情報中の名詞の出願回数または複合語の出現回数を算出する。
用語抽出部182は、抽出した名詞または複合語それぞれに、算出した重要度と出現回数とを対応付けてキーワードリスト生成部183に出力する。
なお、用語抽出部182、およびキーワードリスト生成部183は、プログラミング言語Perlのモジュールである、例えば「TermExtract」を含んで構成されていてもよい。
ここで、キーワードリスト出力部19が出力するキーワードリストの例を説明する。
図10は、本実施形態に係るキーワードリスト出力部19が出力するキーワードリストの例を示す図である。図10に示すように、キーワードリストには、入力したキーワード(符号g361に示す領域)、出現回数(符号g362に示す領域)、出現回数に重要度を乗算した値(符号g363に示す領域)、キーワード(符号g364に示す領域)が対応付けられている。
キーワードリスト出力部19は、例えば図10に示すように、キーワード抽出部18が出力した出現回数に重要度をキーワード毎に乗算し、乗算した値が大きい順にキーワードのソートを行う。
この結果、図10に示すように、キーワードの表示順番は、検索されたウェブページ内の出現回数に重要度を乗算した値が大きい順番である。このため、“足先 しびれ 冷たい”を入力したときに抽出されるキーワードは、出現回数が例えば15位であっても重要度が大きいため、リストの3番目に表示される。
また、表示順番は、図10に示した例に限られず、出願回数が多い順番、重要度の値が大きい順番、他の統計的な手法に基づく順番等であってもよい。
図11は、本実施形態に係るキーワードの抽出処理のフローチャートである。
(ステップS201)形態素解析部181は、メインコンテンツ抽出部15が出力したテキスト情報に対して周知の手法を用いて形態素解析を行う。
(ステップS202)用語抽出部182は、形態素解析部181が出力した解析結果を用いて、語の並びと品詞情報に基づいて複合語を組み立てる。
(ステップS204)用語抽出部182は、例えばIDF法を用いて、名詞および複合語それぞれの重要度を算出する。
以上で、キーワードの抽出処理を終了する。
このように抽出されたキーワードリストの利用例を説明する。
例えば、A社が、商品Bのウェブページを開設する場合、通常、B商品に対する説明をウェブページに記載する。しかしながら、このような記載では、実際にB商品について興味がある利用者が知りたい情報を網羅しているとは限らない。このようなウェブページ、すなわちコンテンツを作成した場合、検索エンジンによってウェブページの記載内容が評価された結果、検索結果の上位に表示されない場合も少なくない。
このため、ウェブページ制作者が、例えばマインドマップ等を用いて、B商品に関する利用者が検索に用いると想定される検索キーワードを抽出する。そして、抽出された検索キーワードをキーワード抽出装置1に入力して、キーワードリストを得る。
ウェブページ制作者は、キーワードリストに載っているキーワードを用いてB商品のウェブページを制作する。これにより、ウェブページ制作者は、B商品について、利用者が知りたい情報を多く含んだウェブページを制作することができる。このような利用者にとって知りたい情報を多く含んでいるウェブページは、検索エンジンによってウェブページの記載内容が評価された結果、検索結果の上位に表示され、かつ利用者の知りたい多くの情報が含まれているため、利用者の滞在時間が長くなり、商品の購買につながる効果が得られる。
検索エンジンに“コンビニ”、“スイーツ”の検索キーワードを入力して検索した場合、2015年5月28日現在、約180万件の検索結果が得られる。調査者がこれらを全て読むことは困難であり、いくつかの検索された結果のウェブページ全体を読んだだけでは、トレンドが掴みにくい。
一方、キーワード抽出装置1に“コンビニ”、“スイーツ”の検索キーワードを入力することで、キーワード抽出装置1が、インターネットの利用者によって話題にされているコンビニエンスストアのスイーツに関するキーワードリストを生成することができる。これにより、本実施形態では、生成されたキーワードリストを、トレンドの調査者が見ることでトレンドを知ることもできる。また、キーワードリストを定期的(例えば月に1回)にキーワード抽出装置1によって生成させることで、トレンドの調査者は、キーワードの変化、すなわちトレンドの変化を知ることもできる。
なお、所定のドメインは、キーワードの抽出においてコンテンツとして意味を成していないドメインである。
次に、第1の実施形態の変形例を説明する。
キーワード抽出装置1が、さらにタグDB16と第2ノイズ除去部17を備える例を説明する。
図12は、本実施形態の変形例に係るキーワード抽出装置1Aの概略構成図である。なお、キーワード抽出装置1と同じ機能を有する機能部については、同じ符号を用いて、説明を省略する。
図12に示すように、キーワード抽出装置1Aは、キーワード入力部11、検索部12、ドメインDB13、第1ノイズ除去部14、メインコンテンツ抽出部15、タグDB16、第2ノイズ除去部17、キーワード抽出部18、およびキーワードリスト出力部19を備える。
図13は、本実施形態の変形例に係るタグDB16に格納されている情報の一例を示す図である。図13に示すように、タグDB16には、少なくとも1つのタグが格納されている。例えば、<class>の中で用いられる“<h1>〜</h1>”等は見出しを表すタグである。また、“<div class=“usrInfo”>〜</div>”は、掲示板等のウェブページにおけるユーザーを識別するための識別子情報を表すタグである。このような不要な項目を表すタグは、キーワード抽出装置1Aの設計者によって予め設定されている。
次に、キーワード抽出装置1Aの処理手順について説明する。図14は、本実施形態の変形例に係るキーワード抽出装置1Aの処理のフローチャートである。なお、キーワード抽出装置1と同じ処理には同じ符号を用いて、説明を省略する。
(ステップS6)第2ノイズ除去部17は、メインコンテンツ抽出部15が出力したメインコンテンツの中から、タグDB16を参照して無意味言葉を除去する。
(ステップS7)キーワード抽出部18は、第2ノイズ除去部17が出力したメインコンテンツから複数のキーワードを抽出する。
次に、第2ノイズ除去部17が、図14のステップS6で行う無意味言葉の除去処理について説明する。
図15は、本実施形態の変形例に係る無意味言葉の除去処理のフローチャートである。
(ステップS302)第2ノイズ除去部17は、ステップS301で選択したウェブページのメインコンテンツのソースコードの中から、タグDB16を参照して無意味言葉に対応するタグの記述を除去することで、無意味言葉を除去する。ここで、タグの記述とは、開始のタグから、終了のタグで囲まれた記述である。
以上で、メインコンテンツの抽出処理を終了する。
ここで、無意味言葉として除去される項目の例を説明する。
まず、質問に対して回答を書き込める質疑のウェブページを例に説明する。このような質疑のウェブページには、質問、回答に加えて、例えば閲覧数、回答数、回答に対するお礼、解答者の識別情報、回答した日時、一番良い回答をした人を示す情報等が含まれている。
キーワードを抽出する上で有効なコンテンツは、例えば、質問のテキストと、回答のテキストである。このため、質疑のウェブページにおいて、閲覧数、回答数、回答に対するお礼、解答者の識別情報、回答した日時、一番良い回答をした人を示す情報等が無意味言葉である。これらの項目は、所定のclass名のタグや、所定のclassのタグの中の項目タグ(例えば<h2>〜</h2>)等によって記述されている。
キーワードを抽出する上で有効なコンテンツは、例えば、概略のテキストと、本文のテキストである。このため、辞書ページにおいて、目次、用語の種類に関する説明、内容が不十分であることを示す記述、参考文献、文献リスト関連項目等が無意味言葉である。
なお、所定のタグによって記述されている情報は、キーワードの抽出において意味を成していない不要な用語である。
なお、例えば不要と想定される単語をデータベースに登録しておき、不要と想定される単語をメインコンテンツから除去する場合、コンテンツの中から有効な言葉も除去してしまう場合があった。一方、本実施形態のように、タグによって記述されている情報を除去することで、精度良く無意味言葉を除去することができる。
第1実施形態では、キーワード抽出装置1(または、1A)が、第1ノイズ除去部14とメインコンテンツ抽出部15を備える例を説明したが、第2実施形態では、第1ノイズ除去部14とメインコンテンツ抽出部15を備えず、第2ノイズ除去部を備える例を説明する。なお、本実施形態において、第2ノイズ除去部によって除去されるノイズは、タグに基づく無意味言葉と不要な記述である。
図16は、本実施形態に係る本実施形態に係るキーワード抽出装置1Bの概略構成図である。
図16に示すように、キーワード抽出装置1Bは、キーワード入力部11、検索部12B、タグDB16B、第2ノイズ除去部17B、キーワード抽出部18、およびキーワードリスト出力部19を備える。また、キーワード抽出装置1Bは、ネットワーク2に接続されている。なお、キーワード抽出装置1または1Aと同じ機能を有する機能部については、同じ符号を用いて、説明を省略する。
次に、キーワード抽出装置1Bの処理手順について説明する。図18は、本実施形態に係るキーワード抽出装置1Bの処理のフローチャートである。なお、キーワード抽出装置1(または1A)と同じ処理には、同じ符号を用いて説明を省略する。
なお、例えば不要と想定される単語をデータベースに登録しておき、不要と想定される単語をコンテンツから除去する場合、コンテンツの中から有効な言葉も除去してしまう場合があった。一方、本実施形態のように、タグによって記述されている情報を除去することで、精度良く無意味言葉を除去することができる。
次に、キーワード抽出装置1Bが、さらにドメインDB13および第1ノイズ除去部14を備える例を説明する。
図19は、本実施形態の第1変形例に係るキーワード抽出装置1Cの概略構成図である。なお、キーワード抽出装置1、1A、または1Bと同じ機能を有する機能部については、同じ符号を用いて、説明を省略する。
図19に示すように、キーワード抽出装置1Cは、キーワード入力部11、検索部12、ドメインDB13、第1ノイズ除去部14、タグDB16B、第2ノイズ除去部17B、キーワード抽出部18、およびキーワードリスト出力部19を備える。なお、キーワード抽出装置1Cは、例えば第2ノイズ除去部17Bとキーワード抽出部18との間に、メインコンテンツ抽出部15(図2参照)を備えていてもよい。
次に、キーワード抽出装置1Cの処理手順について説明する。図20は、本実施形態の第1変形例に係るキーワード抽出装置1Cの処理のフローチャートである。なお、キーワード抽出装置1、1A、または1Bと同じ処理には同じ符号を用いて、説明を省略する。
(ステップS4)第1ノイズ除去部14は、検索部12が出力した所定の個数のウェブページの情報を用いて、所定の個数のウェブページから、ドメインDB13に格納されているドメインのウェブページを除去する。
(ステップS15)第2ノイズ除去部17Bは、第1ノイズ除去部14が出力した複数のウェブページの情報(ソースコード)から、タグDB16Bを参照して無意味言葉と不要な記述とを削除する。
次に、キーワード抽出装置1Bの変形例を説明する。本変形例では、検索部が、キーワード入力部11が出力した検索キーワードを予め定められているドメインのウェブページを、検索エンジンを用いて検索する。
図21は、本実施形態の第2変形例に係るキーワード抽出装置1Dの概略構成図である。
図21に示すように、キーワード抽出装置1Dは、キーワード入力部11D、検索部12D、ドメインDB13D、タグDB16B、第2ノイズ除去部17B、キーワード抽出部18D、およびキーワードリスト出力部19を備える。なお、キーワード抽出装置1、1A、1B、または1Cと同じ機能を有する機能部については、同じ符号を用いて、説明を省略する。なお、キーワード抽出装置1Dは、例えば検索部12Dと第2ノイズ除去部17Bとの間に第1ノイズ除去部14を備えていてもよく、例えば第1ノイズ除去部14とキーワード抽出部18Dの間にメインコンテンツ抽出部15を備えていてもよい。
図22は、本実施形態の第2変形例に係るドメインDB13Dに格納されているドメインの一例を示す図である。図22に示すように、ドメインDB13Dには、Q&Aサイト名と、Q&Aサイトのドメインの情報とが対応付けられて格納されている。
次に、キーワード抽出装置1Dによる操作手順の例、操作画面の例を説明する。
図23は、本実施形態の第2変形例に係るキーワード抽出装置1Dによる操作画面の例を示す図である。
図23に示す例において、符号g400が示す領域の画像は、重要キーワードの抽出方法を選択する領域の画像である。キーワードの抽出方法を選択する領域の画像g400には、抽出方法を選択する「抽出ツール」ボタンの画像g401、第1の抽出方法を選択する「共起語の抽出」ボタンの画像g402、第2の抽出方法を選択する「共起語の抽出 Q&Aサイト1」ボタンの画像g403が含まれている。さらに、画像g400には、第3の抽出方法を選択する「共起語の抽出 Q&Aサイト2」ボタンの画像g404、第4の抽出方法を選択する「共起語の抽出 Q&Aサイト3」ボタンの画像g405、第5の抽出方法を選択する「共起語の抽出 Q&Aサイト4」ボタンの画像g406が含まれている。さらに、画像g400には、第6の抽出方法を選択する「共起語の抽出(総合)」ボタンの画像g407、第7の抽出方法を選択する「共起語の抽出(比較)」ボタンの画像g408、第8の抽出方法を選択する「共起語の抽出(サイト内探索)」ボタンの画像g409、第9の抽出方法を選択する「ページ内の過不足キーワード」ボタンの画像g410が含まれている。なお、共起語とは、ある単語が文章中で使用される場合に、その文章中で高い頻度で使用されるある単語とは別の単語であり、本発明における抽出されるキーワードである。なお、第1の抽出方法〜第9の抽出方法の処理については、後述する。
また、図23において、符号g430が示す領域の画像は、抽出された結果を示す画像である。なお、抽出された結果を示す画像g430は、抽出された結果の一部の画像であり、スクロールボタン(画像g431)を用いて、利用者が検索結果をスクロールすることで残りの検索結果が表示される。
第1の抽出方法では、検索キーワードを検索エンジンに入力して検索を行い、検索結果の上位から所定の個数の検索結果のサイトを選択する。そして、第1の抽出方法では、選択されたサイトから重要キーワード(共起語)を抽出する。
第2の抽出方法では、Q&Aサイト1に対して検索キーワードの検索行って重要キーワードを抽出する。
第3の抽出方法では、Q&Aサイト2に対して検索キーワードの検索行って重要キーワードを抽出する。
第4の抽出方法では、Q&Aサイト3に対して検索キーワードの検索行って重要キーワードを抽出する。
第5の抽出方法では、Q&Aサイト4に対して検索キーワードの検索行って重要キーワードを抽出する。
第7の抽出方法では、Q&Aサイト1〜Q&Aサイト4全てに対して検索キーワードの検索行って重要キーワードを抽出し、さらに第1の抽出方法で重要キーワードを抽出する。そして、第7の抽出方法では、Q&Aサイト1〜Q&Aサイト4全てを検索して抽出した重要キーワードと、第1の抽出方法で抽出した重要キーワードとを比較する。
第8の抽出方法では、第1の抽出方法で重要キーワードを抽出し、抽出した重要キーワードが評価するサイト(以下、評価サイトという)に含まれているか否か、含まれている場合は重要キーワードの使用頻度に基づいて評価を行う。
第9の抽出方法では、評価サイトからキーワードを抽出し、さらに第1の抽出方法で重要キーワードを抽出する。そして、第9の抽出方法では、評価するサイトに不足している重要キーワード、過剰なキーワードを抽出して評価する。
ドメインDB13Dには、少なくとも、Q&Aサイト1〜Q&Aサイト4に対応付けられたドメイン11〜ドメイン14、検索エンジンのアドレス(ドメイン)が格納されているとする。
第1の抽出方法が選択された場合、検索部12Dは、ドメインDB13Dに格納されている検索エンジンのアドレスの検索エンジンを用いて、入力された検索キーワードを検索する。続けて、検索部12Dは、検索した結果から不用なドメインを除去した後、例えば上位20個のウェブページを選択する。続けて、第2ノイズ除去部17Bは、無意味言葉等を示すタグを除去する。続けて、キーワード抽出部18Dは、無意味言葉等が除去された上位20個のウェブページの情報から、キーワードを抽出し、抽出したキーワードの出現回数、重要度等を算出する。続けて、キーワードリスト出力部19は、抽出したキーワードを例えば図10のようなリスト形式で出力する。
第2の抽出方法が選択された場合、検索部12Dは、ドメインDB13Dに格納されているQ&Aサイト1に対応付けられているドメイン11を選択し、選択したドメイン11を用いて入力された検索キーワードを検索する。
同様に、第n(nは3〜5)の抽出方法が選択された場合、検索部12Dは、ドメインDB13Dに格納されているQ&Aサイトnに対応付けられているドメイン1(n)を選択し、選択したドメイン1(n)を用いて入力された検索キーワードを検索する。
続けて、検索部12Dは、検索した結果から、例えば上位20個のウェブページを選択する。続けて、第2ノイズ除去部17Bは、無意味言葉等を示すタグを除去する。なお、第2ノイズ除去部17Bが除去した後のウェブページの情報には、少なくともQ&Aサイトの質問部分のテキストが含まれ、回等部分のテキストが含まれていてもよい。続けて、キーワード抽出部18Dは、無意味言葉等が除去された上位20個のウェブページの情報から、キーワードを抽出し、抽出したキーワードの出現回数、重要度等を算出する。続けて、キーワードリスト出力部19は、抽出したキーワードを例えば図10のようなリスト形式で出力する。すなわち、第2の抽出方法〜第5の抽出方法と第1の抽出方法との差異は、第1の抽出方法の検索対象のウェブページが限られていないが、第2の抽出方法〜第5の抽出方法の検索対象のウェブページがQ&Aサイトに限られている点である。
第6の抽出方法が選択された場合、検索部12Dは、ドメインDB13Dに格納されているQ&Aサイト1〜Q&Aサイト4に対応付けられているドメイン11〜ドメイン14全てを選択し、選択したドメイン11〜ドメイン14全てを用いて入力された検索キーワードを検索する。続けて、検索部12Dは、ドメイン11〜ドメイン14を検索した結果それぞれから、上位から所定の個数のウェブページを選択する。続けて、第2ノイズ除去部17Bは、無意味言葉等を示すタグを除去する。続けて、キーワード抽出部18Dは、無意味言葉等が除去された上位のウェブページの情報から、キーワードを抽出し、抽出したキーワードの出現回数、重要度等を算出する。続けて、キーワードリスト出力部19は、抽出したキーワードを例えば図10のようなリスト形式で出力する。
第7の抽出方法が選択された場合、検索部12Dは、ドメインDB13Dに格納されているQ&Aサイト1〜Q&Aサイト4に対応付けられているドメイン11〜ドメイン14全てを選択し、選択したドメイン11〜ドメイン14全てを用いて入力された検索キーワードを検索する。さらに、検索部12Dは、検索エンジンを用いて入力された検索キーワードを検索し、ドメイン11〜ドメイン14全てを検索した結果と、検索エンジンを用いて検索した結果とを第2ノイズ除去部17Bに出力する。続けて、第2ノイズ除去部17Bは、無意味言葉等を示すタグを除去する。続けて、キーワード抽出部18Dは、無意味言葉等が除去された上位のウェブページの情報それぞれから、キーワードを抽出し、抽出したキーワードの出現回数、重要度等を算出する。
この場合、キーワード抽出部18Dは、図24に示すように、ドメイン11〜ドメイン14全てを検索した結果(画像g380)と、検索エンジンを用いて検索した結果(画像g370)とを比較し、比較した結果に基づいてキーワードリストを生成する。
図24に示すように、各検索結果には、出現回数の画像(g372、g382)、出現回数に重要度を乗算した値の画像(g373、g383)、抽出された重要キーワードの画像(g374、g384)が含まれている。
また、図24に示すように、ドメイン11〜ドメイン14全てを検索した結果(画像g380)と、検索エンジンを用いて検索した結果(画像g370)の重要キーワードが異なる場合、異なっている重要キーワードの表示方法を変えるようにしてもよい。キーワード抽出部18Dは、例えば、文字の色、文字の太さ、フォントの種類、文字に色つきマーカーを合成する等を行うようにしてもよい。図24に示す例において、符号g385に示すキーワードは、Q&Aサイトの出現頻度が高いが検索エンジンで検索した上位サイトであまり用いられていないキーワードのうち、検索順位が例えば61位以下であることを示している。また、符号g386に示すキーワードは、Q&Aサイトの出現頻度が高いが検索エンジンで検索した上位サイトであまり用いられていないキーワードのうち、検索順位が例えば31位から60位であることを示している。
例えば、Q&Aサイトの質問から抽出されたキーワード(共起語)は、利用者が最も知りたいキーワードが含まれている可能性が高い。一方、検索エンジンで検索されたウェブページから抽出されたキーワード(共起語)には、コンテンツに使用される頻度が高くても、利用者が最も知りたい情報のキーワードではない場合もあり得る。このため、これらのキーワード(共起語)を比較し、利用者が最も知りたいと思われるキーワード(共起語)を含むコンテンツを作成することで、利用者が知りたい情報を提供することが可能になる。
第8の抽出方法では、入力した検索キーワードで検索した場合、検索結果の上位のサイトに含まれているキーワードが、評価対象のサイト(例えば自社のサイト)に過不足無く書かれているか判定する。
図25は、本実施形態の第2変形例に係る第8の抽出方法が選択された場合のキーワード抽出装置1Dによる操作画面の例を示す図である。なお、図25は、検索キーワードの入力領域の画像g420Aと、探索結果の画像g440を抜き出して示した図である。
図25に示すように、検索キーワードの入力領域の画像g420Aには、検索キーワード入力欄の画像g421、検索ボタンの画像g422、所定の個数を選択する画像g423、探索対象のドメイン入力欄の画像g424が含まれている。
なお、ドメイン内のウェブページ内に重要キーワードが含まれていない(使用されていない)場合は、順位を例えば50位以上とし画像g436に“50+”と表示し、画像g447に空欄を表示させるようにしてもよい。
図26は、本実施形態の第2変形例に係る第8の抽出方法における処理のフローチャートである。
(ステップS402)キーワード抽出部18Dは、抽出された重要キーワード(共起語)を逐次選択する。
(ステップS403)キーワード抽出部18Dは、選択した重要キーワードが入力されたドメインのウェブページに含まれているか否かを判別する。キーワード抽出部18Dは、選択したキーワードが入力されたドメインのウェブページに含まれていると判別した場合(ステップS403;YES)、ステップS404の処理に進む。キーワード抽出部18Dは、選択したキーワードが入力されたドメインのウェブページに含まれていないと判別した場合(ステップS403;NO)、ステップS402の処理に戻る。
(ステップS405)キーワード抽出部18Dは、ステップS6で抽出された全ての重要キーワードの選択が終了したか否かを判別する。キーワード抽出部18Dは、全ての重要キーワードの選択が終了したと判別した場合(ステップS405;YES)、ステップS406の処理に進み、全ての重要キーワードの選択が終了していないと判別した場合(ステップS405;NO)、ステップS402の処理に戻る。
以上で、第8の抽出方法の処理を終了する。
第9の抽出方法では、まず、第1の抽出方法によって重要キーワードを抽出する。さらに、評価したいサイトのドメインまたはウェブページのアドレスの情報(以下、評価サイトの情報という)において出現頻度(使用頻度)が高いキーワードを抽出する。そして、第9の抽出方法では、抽出された重要キーワードと、抽出したい評価サイトにおけるキーワードとを比較し、評価サイトに不足している重要キーワードを抽出する。
図27に示すように、評価結果の画像g450には、検索キーワードを示す画像g451、評価サイトの情報を示す画像g452、評価サイトから抽出されたキーワードを示す画像g453、検索エンジンによって検索された上位サイトから抽出された重要キーワードを示す画像g454、過不足キーワードを示す画像g455が含まれている。
評価サイトから抽出されたキーワードを示す画像g453において、キーワード(画像g4533)は出現回数(画像g4531)に重要度を乗算した値(画像g4532)が大きい順に表示される。また、上位サイトから抽出された重要キーワードを示す画像g454には、出現回数の画像g4541、出現回数に重要度を乗算した値の画像g4542、重要キーワード(共起語)の画像g4543が含まれている。
キーワード抽出部18Dは、上位サイトから抽出された重要キーワードのうち1つを順次選択する。そして、キーワード抽出部18Dは、選択した重要キーワードと、評価サイトから抽出されたキーワードとを順次比較することで、不足しているキーワードを検出する。
また、キーワード抽出部18Dは、評価サイトから抽出されたキーワードのうち1つを順次選択する。そして、キーワード抽出部18Dは、選択したキーワードと、上位サイトから抽出された重要キーワードとを順次比較することで、過剰なキーワードを検出する。
サイトの運営者は、例えば評価サイトとして自社のサイトのアドレスを入力する。そして、評価結果を用いて、自社のサイトに不足しているキーワードを知ることで、自社のサイトを改善することができる。
なお、図27に示した評価結果は一例であり、これに限られず、評価サイトと上位サイトを比較した結果に基づく情報であればよい。
本実施形態では、ウェブページの品質を評価することができるキーワード抽出装置1Eについて説明する。
本実施形態のキーワード抽出装置1Eは、入力されたウェブページのメインコンテンツを抽出し、抽出したメインコンテンツから予め定められている個数の文章を抽出する。そして、キーワード抽出装置1Eは、抽出した文章を検索エンジンで検索し、検索した結果に基づいて、ウェブページを評価する。
図28は、本実施形態に係るキーワード抽出装置1Eの概略構成図である。なお、キーワード抽出装置1、1A、1B、1C、または1Dと同じ機能を有する機能部については、同じ符号を用いて、説明を省略する。
図28に示すように、キーワード抽出装置1Eは、キーワード入力部11E、検索部12E、メインコンテンツ抽出部15、タグDB16、第2ノイズ除去部17E、文章抽出部20、検索順位取得部21、評価結果生成部22、および評価結果出力部23を備える。
また、検索部12Eは、文章抽出部20が出力した文章を取得し、取得した文書のうち1つを順次選択する。検索部12Eは、選択した文章を、順次、検索エンジンに入力して検索する。なお、検索結果には、ソースコードが含まれている。そして、検索部12Eは、選択した文章と検索結果をメインコンテンツ抽出部15に順次出力する。
次に、キーワード抽出装置1Eが行う評価処理の手順について説明する。
図29は、本実施形態に係るキーワード抽出装置1Eが行う評価処理のフローチャートである。
(ステップS501)キーワード入力部11Eは、利用者によって入力されたウェブページのアドレスを示す情報を取得する。
(ステップS502)検索部12Eは、ウェブページのソースコードを取得する。
続けて、メインコンテンツ抽出部15は、ステップS5の処理を行い、処理終了後、ステップS503に処理を進める。
(ステップS504)検索部12Eは、文章抽出部20が出力した文章を取得し、取得した文書のうち1つを順次選択する。続けて、検索部12Eは、選択した文章を、順次、検索エンジンに入力して検索する。続けて、メインコンテンツ抽出部15は、検索部12Eが出力した検索結果からメインコンテンツを抽出する。続けて、第2ノイズ除去部17Eは、メインコンテンツ抽出部15が出力したメインコンテンツから広告を含む無意味言葉を除去する。
(ステップS506)評価結果生成部22は、検索順位取得部21が出力した順位に対して配点し、各文章に対する評価を行う。続けて、評価結果生成部22は、各文章の配点を合計し、合計点に応じて評価結果を生成する。続けて、評価結果出力部23は、評価結果生成部22が出力した評価結果を出力する。
以上で、評価処理を終了する。
次に、配点、評価結果の例について説明する。
図30は、本実施形態に係る評価結果の例を示す図である。図30に示す例は、2つのウェブページに対する評価結果の例である。図30に示すように、出力される判定結果には、ウェブページのアドレス、総合点、取得文章+順位、アドバイス、評価日が含まれている。
一般的に、検索エンジンの利用者は、検索結果の1位から検索内容を閲覧していく。例えば、検索結果が1位の検索結果を閲覧し、そこで知りたい情報が得られた場合、他の検索結果を閲覧しない場合が少なくない。そして、検索エンジンの利用者は、検索結果が20位以下の検索結果を閲覧しない場合が少なくない。したがって、検索結果が上位であるほど、検索に用いられた文章は、他のウェブページに対して優位であると言える。また、順位が低い場合、検索に用いられた文章は、他のウェブページにも使用されていることを意味しているため、他のウェブページに対する優位性が低いと言える。
評価結果生成部22は、5つの文章の配点の総合点が100点の場合、判定結果として「◎」または「Very Good」であると判別し、総合点が100点未満である場合、判定結果として「×」または「No Good」であると判定する。
なお、上述した配点、判定は一例であり、これに限られない。
なお、アドバイスの文面は、総合点に対応付けて、評価結果生成部22に予め記憶させておくようにしてもよい。
本実施形態では、検索エンジンが有するサジェスト機能を用いてキーワードの抽出、評価を行う例を説明する。
まず、サジェスト機能について説明する。
サジェスト機能とは、検索エンジンを用いて単語を検索するときに、検索エンジンの利用者が検索する可能性が高い言葉を検索エンジンが提案する機能である。例えば、検索エンジンに「格安SIM」と入力すると、「格安sim」、「格安sim 比較」、「格安sim テザリング」等の候補が提案される。このように、提案される言葉は、検索エンジンの利用者によって検索された回数が多い、すなわち利用者が知りたい情報である場合が多い。
本実施形態では、検索ワードに対して提案される単語を収集し、収集した単語が評価サイト(例えば自社のサイト)に含まれている頻度に応じて、評価サイトを評価する。
図31は、本実施形態に係るキーワード抽出装置1Fの概略構成図である。
図31に示すように、キーワード抽出装置1Fは、キーワード入力部11F、検索部12F、メインコンテンツ抽出部15、サジェスト取得部24、検索順位取得部21F、評価結果生成部22F、および評価結果出力部23を備える。また、キーワード抽出装置1Fは、ネットワーク2に接続されている。なお、キーワード抽出装置1、1A、1B、1C、1D、1E、または1Fと同じ機能を有する機能部については、同じ符号を用いて、説明を省略する。また、キーワード抽出装置1Fは、メインコンテンツ抽出部15と検索順位取得部21Fとの間に、第2ノイズ除去部17(または17B、17E)、タグDB16を備えていてもよい。
また、検索部12Fは、サジェスト取得部24が出力した予測言葉のうちから1つを選択し、選択した予測言葉を検索エンジンに入力して検索する。そして、検索部12Fは、検索結果を順次、メインコンテンツ抽出部15に出力する。
メインコンテンツ抽出部15は、検索部12Fが予測言葉を用いて検索した結果のソースコードからメインコンテンツを抽出し、抽出したメインコンテンツを検索順位取得部21Fに出力する。
次に、キーワード抽出装置1Fが行う評価処理の手順について説明する。
図32は、本実施形態に係るキーワード抽出装置1Fが行う評価処理のフローチャートである。
(ステップS601)キーワード入力部11Fは、利用者によって入力された検索キーワードと、評価サイトの情報を取得する。
(ステップS602)検索部12Fは、キーワード入力部11Fが出力した検索キーワードを検索エンジンに入力する。続けて、サジェスト取得部24は、提案された予測言葉を取得する。なお、取得する予測言葉の個数は、提示される全てであってもよく、または、予め定められた個数であってもよい。
(ステップS604)検索部12Fは、サジェスト取得部24が出力した予測言葉のうちから1つを選択し、選択した予測言葉を検索エンジンに入力して検索する。
(ステップS606)評価結果生成部22Fは、検索順位取得部21Fが出力した順位と予測言葉を用いて、各予測言葉に対する判定を行う。評価結果生成部22Fは、例えば、順位が1位〜10位の場合に「独占」であると評価し、順位が11位以下である場合に「未発掘」であると判定するようにしてもよい。
(ステップS607)評価結果生成部22Fは、評価結果に基づいて評価結果を生成する。続けて、評価結果出力部23は、評価結果生成部22Fが出力した評価結果を、例えばWeb上で提供する。
以上で、評価処理を終了する。
次に、評価結果の例について説明する。
図33は、本実施形態に係る評価結果の例を示す図である。
図33に示すように、評価結果を示す画像g600には、検索キーワードの画像g601、評価サイトを示す画像g602、検索結果と評価結果を示す画像g603が含まれている。
検索結果と評価結果を示す画像g603には、予測言葉を示す画像g6031、判定結果を示す画像g6032、順位を示す画像g6033が含まれている。
判定結果を示す画像g6032に示すように、予測言葉(画像g6031)を検索エンジンに入力して検索した順位に応じて、「独占」、「共存」、「未発掘」、「改善」等のアドバイスが示される。なお、図33に示した判定結果は一例であり、評価結果生成部22Fは、例えば1位〜10位、11位〜20位等、10位毎に判定結果のラベルを付与するようにしてもよい。また、評価結果生成部22Fは、「独占」、「共存」、「未発掘」、「改善」の各単語を色分けしたり、順位の文字を色分けしたり、各単語または文字にマーカーを付与したり、単語または文字の種類を異なるようにしてもよい。
本実施形態では、キーワード抽出装置1、1A〜1Fのうち、いずれか1つに、コンテンツ生成装置3が接続されている例を説明する。
図34は、本実施形態に係るコンテンツ生成システム5を示す構成図である。
図34に示すように、コンテンツ生成システム5は、キーワード抽出装置(1、1A〜1Fのうちの、いずれか1つ)、およびコンテンツ生成装置3を備える。また、コンテンツ生成システム5は、ネットワーク2に接続されている。
なお、以下の例では、キーワード抽出装置1Aを例に説明する。
キーワード抽出装置1Aは、入力された検索キーワードに基づいて複数のキーワードを抽出し、抽出したキーワードをソート処理したキーワードリストの情報を、コンテンツ生成装置3に出力する。
コンテンツ雛形記憶部31は、コンテンツの雛形を記憶する。なお、コンテンツの雛形とは、ウェブページの雛形、カタログの雛形、パンフレットの雛形、取扱説明書の雛形等であり、例えば商品毎に雛形が記憶されている。
また、上述した第1実施形態〜第4実施形態において、ドメインDB13(または13D)、タブDB16(または16B)は、ネットワーク2上にあってもよい。
Claims (16)
- 検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索部と、
前記検索部によって検索された前記複数のコンテンツの中から、キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する第1ノイズ除去部と、
前記第1ノイズ除去部によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部と、
前記メインコンテンツ抽出部によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出部と、
を備えるキーワード抽出装置。 - 前記メインコンテンツ抽出部によって抽出された前記メインコンテンツの情報から、所定のタグによって記述されている情報を除去することで、前記キーワードの抽出において意味を成していない不要な記述を除去する第2ノイズ除去部、をさらに備え、
前記キーワード抽出部は、
前記第2ノイズ除去部によって前記所定のタグによって記述されている情報が除去された後の前記メインコンテンツのテキストからキーワードを抽出する、
請求項1に記載のキーワード抽出装置。 - 検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索部と、
前記検索部によって検索された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツから所定のタグによって記述されている情報を除去することで、キーワードの抽出において意味を成していない不要な記述を除去する第2ノイズ除去部と、
前記第2ノイズ除去部によって前記所定のタグによって記述されている情報が除去された前記コンテンツのテキストから複数のキーワードを抽出するキーワード抽出部と、
を備えるキーワード抽出装置。 - 前記検索部と前記キーワード抽出部との間に第1ノイズ除去部、をさらに備え、
前記第1ノイズ除去部は、
前記検索部によって検索された前記複数のコンテンツの中から、前記キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する、
請求項3に記載のキーワード抽出装置。 - 前記第2ノイズ除去部によって前記コンテンツから所定のタグによって記述されている情報が除去されたコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部、
をさらに備える請求項3に記載のキーワード抽出装置。 - 前記第1ノイズ除去部によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部、
をさらに備える請求項4に記載のキーワード抽出装置。 - 前記検索部は、前記検索キーワードに基づいて、コンテンツを検索するドメインを限定して前記コンテンツを検索し、
前記キーワード抽出部は、前記限定したドメインのコンテンツのテキストから複数のキーワードを抽出し、抽出した結果に基づいてキーワードリストを生成する、請求項1から請求項6のいずれか1項に記載のキーワード抽出装置。 - 前記検索部は、前記検索キーワードに基づいて、予め定められている少なくとも2つのドメインの異なるコンテンツを検索し、
前記キーワード抽出部は、前記異なるドメインのコンテンツのテキストそれぞれから複数のキーワードをそれぞれ抽出し、前記異なるドメインのコンテンツのテキストそれぞれから抽出したキーワードを比較し、比較した結果に基づいてキーワードリストを生成する、請求項1から請求項6のいずれか1項に記載のキーワード抽出装置。 - 前記検索部は、前記検索キーワードに基づいて、コンテンツを検索し、前記キーワード抽出部が前記コンテンツのテキストから抽出した複数のキーワードに基づいて検索して評価対象のサイトの検索結果の順位を検索し、
前記キーワード抽出部は、前記コンテンツのテキストから複数のキーワードを抽出し、抽出した前記複数のキーワードが前記評価対象のサイトのコンテンツで使用されているか否かを判別した結果と、前記検索部が検索した前記評価対象のサイトの検索順位に基づいてキーワードリストを生成する、請求項1から請求項6のいずれか1項に記載のキーワード抽出装置。 - 前記メインコンテンツ抽出部が抽出した前記メインコンテンツから少なくとも1つの文章を抽出する文章抽出部と、
前記検索部によって前記文章に基づいて検索された順位を取得する検索順位取得部と、
前記検索順位取得部が取得した順位に基づいて、前記文章が抽出された評価を行う対象のウェブページに対して評価を行う評価結果生成部と、
をさらに備える請求項1、請求項2、請求項5、請求項6のいずれか1項に記載のキーワード抽出装置。 - 前記検索部が検索した結果から、検索キーワードに基づく予測言葉を取得するサジェスト取得部と、
前記サジェスト取得部によって取得された複数の前記予測言葉のうち1つを選択し、前記選択した予測言葉を前記検索部によって検索した結果から、前記メインコンテンツ抽出部によって抽出されたメインコンテンツを用いて、前記選択した予測言葉の検索順位を取得する検索順位取得部と、
前記検索順位取得部が取得した順位に基づいて、評価を行う対象のウェブページに対して評価を行う評価結果生成部と、
をさらに備える請求項1、請求項2、請求項5、請求項6のいずれか1項に記載のキーワード抽出装置。 - 請求項1から請求項10のいずれか1項に記載のキーワード抽出装置と、
前記キーワード抽出装置が抽出した前記複数のキーワードを用いて、所定のコンテンツを生成するコンテンツ生成装置と、
を備えるコンテンツ生成システム。 - 検索部が、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、
第1ノイズ除去部が、前記検索手順によって検索された前記複数のコンテンツの中から、キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する第1ノイズ除去手順と、
メインコンテンツ抽出部が、前記第1ノイズ除去手順によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出手順と、
キーワード抽出部が、前記メインコンテンツ抽出手順によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、
を含むキーワード抽出方法。 - 検索部が、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、
第2ノイズ除去部が、前記検索手順によって検索された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツから所定のタグによって記述されている情報を除去することで、キーワードの抽出において意味を成していない不要な記述を除去する第2ノイズ除去手順と、
キーワード抽出部が、前記第2ノイズ除去手順によって前記所定のタグによって記述されている情報が除去された前記コンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、
を含むキーワード抽出方法。 - コンピュータに、
検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、
前記検索手順によって検索された前記複数のコンテンツの中から、キーワードの抽出において意味を成していない所定のドメインのコンテンツを除去する第1ノイズ除去手順と、
前記第1ノイズ除去手順によって前記所定のドメインのコンテンツが除去された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出手順と、
前記メインコンテンツ抽出手順によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、
を実行させるプログラム。 - コンピュータに、
検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、
前記検索手順によって検索された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツから所定のタグによって記述されている情報を除去することで、キーワードの抽出において意味を成していない不要な記述を除去する第2ノイズ除去手順と、
前記第2ノイズ除去手順によって前記所定のタグによって記述されている情報が除去された前記コンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015249124A JP6653169B2 (ja) | 2015-12-21 | 2015-12-21 | キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015249124A JP6653169B2 (ja) | 2015-12-21 | 2015-12-21 | キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017117021A true JP2017117021A (ja) | 2017-06-29 |
JP6653169B2 JP6653169B2 (ja) | 2020-02-26 |
Family
ID=59234522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015249124A Active JP6653169B2 (ja) | 2015-12-21 | 2015-12-21 | キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6653169B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670176A (zh) * | 2018-12-19 | 2019-04-23 | 武汉瓯越网视有限公司 | 一种关键词抽取方法、装置、电子设备及存储介质 |
CN112491649A (zh) * | 2020-11-17 | 2021-03-12 | 中国平安财产保险股份有限公司 | 接口联调测试方法、装置、电子设备及存储介质 |
WO2021241253A1 (ja) * | 2020-05-27 | 2021-12-02 | オムロン株式会社 | 文字入力補助装置、文字入力補助方法、および、文字入力補助プログラム |
JP7479023B1 (ja) | 2023-07-14 | 2024-05-08 | 株式会社コンテンシャル | コンテンツの生成方法、そのプログラムおよび情報処理装置 |
-
2015
- 2015-12-21 JP JP2015249124A patent/JP6653169B2/ja active Active
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670176A (zh) * | 2018-12-19 | 2019-04-23 | 武汉瓯越网视有限公司 | 一种关键词抽取方法、装置、电子设备及存储介质 |
WO2021241253A1 (ja) * | 2020-05-27 | 2021-12-02 | オムロン株式会社 | 文字入力補助装置、文字入力補助方法、および、文字入力補助プログラム |
JP7355238B2 (ja) | 2020-05-27 | 2023-10-03 | オムロン株式会社 | 文字入力補助装置、文字入力補助方法、および、文字入力補助プログラム |
CN112491649A (zh) * | 2020-11-17 | 2021-03-12 | 中国平安财产保险股份有限公司 | 接口联调测试方法、装置、电子设备及存储介质 |
JP7479023B1 (ja) | 2023-07-14 | 2024-05-08 | 株式会社コンテンシャル | コンテンツの生成方法、そのプログラムおよび情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6653169B2 (ja) | 2020-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9323827B2 (en) | Identifying key terms related to similar passages | |
US8001135B2 (en) | Search support apparatus, computer program product, and search support system | |
JP5431727B2 (ja) | 関連性判定方法、情報収集方法、オブジェクト組織化方法及び検索システム | |
US20080059897A1 (en) | Method and system of social networking through a cloud | |
US20120102014A1 (en) | Matching and Recommending Relevant Videos and Media to Individual Search Engine Results | |
CN102054024B (zh) | 信息处理设备、信息提取方法、程序和信息处理系统 | |
WO2011080899A1 (ja) | 情報推薦方法 | |
JP6529133B2 (ja) | 複数地域でのトピックの評価を分析する装置、プログラム及び方法 | |
US20160299951A1 (en) | Processing a search query and retrieving targeted records from a networked database system | |
Strzelecki et al. | Direct answers in Google search results | |
JP2011103075A (ja) | 抜粋文抽出方法 | |
JP5151368B2 (ja) | 情報処理装置および情報処理プログラム | |
JP6653169B2 (ja) | キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム | |
JP2002007450A (ja) | 検索支援システム | |
Oliveira et al. | From 10 Blue Links Pages to Feature-Full Search Engine Results Pages-Analysis of the Temporal Evolution of SERP Features | |
JP5508131B2 (ja) | 共有読書データ検索装置、及び方法 | |
JP7188879B2 (ja) | 提供装置、提供方法及び提供プログラム | |
Kolli et al. | A Novel Nlp and Machine Learning Based Text Extraction Approach from Online News Feed | |
JP2020091539A (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP2007034464A (ja) | 広告コンテンツ提示システム、広告コンテンツ提示プログラム | |
JP2008112310A (ja) | 検索装置、情報検索システム、検索方法、検索プログラム、及び記録媒体 | |
Arase et al. | Mobile search assistance from HCI aspect | |
KR101308821B1 (ko) | 검색엔진용 키워드 추출 시스템 및 추출 방법 | |
JP2007052693A (ja) | Webページ情報表示装置,処理方法およびプログラム | |
JP4119413B2 (ja) | 知識情報収集システム、知識検索システム及び知識情報収集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20160119 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20180209 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180912 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190924 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191015 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6653169 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |