JP2011054102A - 単語情報収集装置、単語情報収集方法および単語情報収集プログラム - Google Patents

単語情報収集装置、単語情報収集方法および単語情報収集プログラム Download PDF

Info

Publication number
JP2011054102A
JP2011054102A JP2009204796A JP2009204796A JP2011054102A JP 2011054102 A JP2011054102 A JP 2011054102A JP 2009204796 A JP2009204796 A JP 2009204796A JP 2009204796 A JP2009204796 A JP 2009204796A JP 2011054102 A JP2011054102 A JP 2011054102A
Authority
JP
Japan
Prior art keywords
word
information
search
appearance
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009204796A
Other languages
English (en)
Other versions
JP5002631B2 (ja
Inventor
Yoshiro Yamamoto
芳郎 山本
Yukiharu Yoshida
享晴 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2009204796A priority Critical patent/JP5002631B2/ja
Publication of JP2011054102A publication Critical patent/JP2011054102A/ja
Application granted granted Critical
Publication of JP5002631B2 publication Critical patent/JP5002631B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】任意の単語が最初に登場したウェブページに関する情報を収集し、収集した情報を用いてウェブページのコンテンツの充実化を図ることのできる単語情報収集装置、単語情報収集方法および単語情報収集プログラムを提供すること。
【解決手段】単語情報収集装置100は、インデックスデータベース101と、初出ワードデータベース102と、ネットワーク上のウェブページから単語情報を収集する単語情報収集手段110と、指定された検索語に応じた検索結果を提供するウェブ検索手段120と、を備えている。単語情報収集手段110は、ネットワークから単語情報を収集して検索用インデックスを生成するとともに単語の初出情報を収集する。ウェブ検索手段120は、検索結果の一覧を表示するとともに収集した初出情報を表示させる。
【選択図】図1

Description

本発明は、ウェブページに含まれる単語に関する情報を収集する単語情報収集装置、単語情報収集方法および単語情報収集プログラムに関する。
従来、ネットワーク上の検索エンジンによる検索結果ページには、指定された検索語に応じた検索結果の一覧のほかにも様々な情報が表示される。例えば、検索語に関連する広告情報や、検索語に関連のあるショッピングなどの特定のサービス情報などがある。このように、検索結果の一覧だけでなく、様々な情報を表示することでユーザに有益な情報を提供することができるため、検索結果ページにおけるコンテンツのさらなる充実化が求められている。
ここで、検索エンジンは、単語と該単語が含まれるウェブページに関する情報とを関連付けて記憶しており、これらの情報に基づいて、該単語のウェブページにおける出現頻度や重要度に基づいてインデクシング(索引化)した検索用インデックスを作成している。検索時には、この検索用インデックスを参照するため、検索結果ページにはインデクシングの高い(重みの高い)情報が上位に表示され、より有益で意味のある情報をユーザに提供している。
また、検索エンジンは、ネットワークを巡回してウェブページに関する情報を取得してデータベースに蓄積する処理を行う。ウェブページは日々更新されるため、これらの更新情報を速報することは、より有益な情報をユーザに提供することになり、ユーザにとって利便性が高い。このような情報提供を行う方式として、例えば、ホームページを定期、定時に巡回し、その都度ホームページ上の異同を検出、分析を行う技術が知られている(例えば、特許文献1参照)。
特開2002−73649号公報
ところで、検索語としては様々なものを入力でき、例えば、流行語のような珍しい単語を指定する場合がある。流行語は、それが初めて登場したウェブページを発端として流行が広まっている可能性が高く、流行の発端となったウェブページの情報を得たいと思うユーザもいる。
しかしながら、特許文献1に記載の方式では、各ウェブページの最新の情報は得られるものの、特定の単語がウェブページに最初に登場したときの情報を得ることはできない。
本発明の目的は、任意の単語が最初に登場したウェブページに関する情報を簡単に収集でき、収集した情報を用いてウェブページのコンテンツの充実化を図ることのできる単語情報収集装置、単語情報収集方法および単語情報収集プログラムを提供することである。
本発明の単語情報収集装置は、ネットワーク上のウェブページに含まれる単語に関する情報を収集し、収集した単語を用いて、検索キーに対してインデックス検索を実行するための検索用インデックスを生成する単語情報収集装置であって、前記ネットワークを巡回してウェブページに関する情報とともに該ウェブページの更新日時を取得するページ情報取得手段と、前記取得したウェブページを解析して単語候補を抽出するページ解析手段と、前記抽出された単語候補と、取得済みの単語候補から予め生成された検索用インデックスとを比較し、前記単語候補が前記検索用インデックスに記憶されているか否かを判定する登録状況判定手段と、前記判定の結果、前記検索用インデックスに記憶されていないと判定した場合に、前記単語候補と該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させる初出ワード登録手段と、を備えることを特徴とする。
本発明の単語情報収集装置は、ネットワーク上のウェブページに含まれる単語を収集し、収集した単語を用いて、検索キーに対してインデックス検索を実行するための検索用インデックスを生成する装置である。そのために、ページ情報取得手段は、ネットワークを巡回してウェブページに関する情報を取得する(この処理をクロール処理という。)。ここで、ウェブページに関する情報とは、ウェブページのURL(Uniform Resource Locator)情報、ウェブページに表示される文章データ、および画像データ等である。このとき、ページ情報取得手段は、該ウェブページの更新日時も同時に取得する。ページ解析手段は、取得したウェブページの文章を解析して単語候補を抽出する。
登録状況判定手段は、抽出した単語候補が、検索用インデックスに登録済みであるか否かを判定する。検索用インデックスは、クロール処理が行われるたびに、それまでに取得した単語候補全体に対して作成されるものである。初出ワード登録手段は、登録状況判定手段により未登録と判定された単語候補を初出ワード記憶手段へ記憶させる。このとき、単語候補には、初出日時として、ページ情報取得手段により取得した該ウェブページの更新日時が関連付けられ、さらに該ウェブページのURL情報や該ウェブページに表示された文章データや画像データ等のウェブページに関する情報が関連付けられて記憶される。
本発明では、ネットワークを通して収集した単語に対して検索用インデックスを作成するという通常の処理を行いながら、一方で、抽出した単語候補に関する初出情報を収集する。初出情報とは、任意の単語が最初にウェブページに登場したときの日時や該ウェブページに関する情報である。すなわち、単語情報収集装置が通常実施するクロール処理やインデックス作成処理を利用して、登録状況判定手段および初出ワード登録手段が同時に初出情報を収集する。
このように、クロール処理によりインデックスを作成しながら初出情報を収集することができるので、初出情報を得るためだけの処理を実施する必要がなく、簡単かつ効率よく単語の初出情報を収集することができる。
また、このようにして収集された初出情報は、ウェブページに表示してユーザに提供することができる。例えば、ユーザが指定した検索語に応じた検索結果の一覧と共に初出情報を表示させることで、検索結果ページのコンテンツの充実化を図ることができる。
本発明の単語情報収集装置において、前記初出ワード登録手段は、前記登録状況判定手段により前記単語候補が前記検索用インデックスに記憶されていると判定した場合、前記単語候補に関連付けられて記憶された初出日時と前記取得した更新日時とを比較し、前記更新日時が前記初出日時より古いと判定されると、該単語候補の初出日時を前記更新日時で更新することが好ましい。
この発明では、初出ワード登録手段は、初出ワード記憶手段に記憶された単語データの更新処理を行う。更新処理を行うのは、登録状況判定手段により抽出した単語候補が検索用インデックスに登録済みであると判定された場合である。すなわち、検索用インデックスは、前回のクロール処理によって前回までに取得した単語候補全てに対して作成されているため、初出ワード登録手段に記憶されている単語は全て検索用インデックスに含まれている。したがって、単語候補の検索用インデックスへの登録の有無を判定することで、初出ワード記憶手段への登録の有無を判定できる。
更新処理は、クロール処理によって任意の単語が含まれるウェブページの情報を取得するたびに、初出ワード記憶手段に記憶された該単語の初出日時と、ウェブページの情報の取得と同時に取得したウェブページの更新日時と、を比較し、更新日時が初出日時よりも古い場合は、初出ワード記憶手段に記憶されている該単語に関連付けられている初出日時を更新日時で更新し、該単語に関連付けられているウェブページの情報を、新しく取得したウェブページの情報で更新する。すなわち、新しく取得したウェブページの更新日時が古いほど初出ワード記憶手段に記憶されることになる。このような処理が繰り返されることで、結果として該単語がウェブ上に登場した古いウェブページに関する情報を収集することができる。
本発明によれば、クロール処理が行われるたびに、初出ワード記憶手段に記憶された単語データが、より更新日時の古いウェブページの情報に更新されていくので、自動的に最も古い日時のウェブページに関する情報を簡単に収集することができる。したがって、通常のクロール処理を利用して効率よく単語の初出情報を収集することができる。
本発明の単語情報収集装置において、前記ネットワークを介して接続された端末装置に対して検索語の入力を要求し、入力された検索語を取得する検索語取得手段と、前記取得した検索語と一致するキーワードを、前記検索用インデックスから検索し、該当するキーワードに関連付けられたウェブページに関する情報を取得するデータ検索手段と、前記取得した検索語と一致する単語を、前記初出ワード記憶手段から検索し、該当する単語に関連付けられたウェブページに関する情報と初出日時とを取得する初出ワード検索手段と、前記データ検索手段により取得したウェブページに関する情報と前記初出ワード検索手段により取得したウェブページに関する情報および初出日時とを表示させたウェブページを作成して配信する検索結果ページ提供手段と、をさらに備えたことが好ましい。
この発明では、初出ワード記憶手段に収集した初出情報を、ユーザが指定した検索語に対する検索結果の一覧とともに表示させる。すなわち、通常利用されている検索エンジンと同様に、指定された検索語を取得し、検索用インデックスから該検索語のデータを取得し、検索結果ページに一覧表示する一方で、さらに初出ワード検索手段が、初出ワード記憶手段から該検索語のデータ(初出日時、ウェブページに関する情報)を取得し、検索結果ページ提供手段によりそのデータを検索結果ページに表示させて端末装置に送信する。
この発明によれば、ユーザは、指定した検索語に対する検索結果とは別の情報、すなわち検索語の初出情報を得ることができる。特に、検索語として流行後を指定した場合、この流行語に対する初出情報は流行の発端に関わる情報を得ることができ、ユーザにとって有益なものである。このようにして、検索結果ページのコンテンツの充実化を図ることができる。
本発明の単語情報収集装置において、前記抽出された単語候補と一致する単語が前記初出ワード情報記憶手段に記憶されているか否かを判定する初出ワード登録判定手段をさらに備え、前記初出ワード登録手段は、前記登録状況判定手段により前記単語候補が前記検索用インデックスに記憶されていないと判定され、かつ、前記初出ワード登録判定手段により前記単語候補が前記初出ワード情報記憶手段に記憶されていないと判定された場合は、前記単語候補と該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させることが好ましい。
また、本発明の単語情報収集装置において、前記抽出された単語候補と一致する単語が前記初出ワード情報記憶手段に記憶されているか否かを判定する初出ワード登録判定手段をさらに備え、前記初出ワード登録手段は、前記登録状況判定手段により前記単語候補が前記検索用インデックスに記憶されていないと判定され、かつ、前記初出ワード登録判定手段により前記単語候補が前記初出ワード情報記憶手段に記憶されていないと判定された場合は、前記単語候補と該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させ、前記初出ワード登録判定手段により前記単語候補が前記初出ワード情報記憶手段に記憶されていると判定された場合は、前記単語候補に関連付けられて記憶された初出日時と前記取得した更新日時とを比較し、前記更新日時が前記初出日時より古いと判定されると、該単語候補の初出日時を前記更新日時で更新することが好ましい。
この発明では、初出ワード登録手段による登録処理または更新処理を行う前に、初出ワード登録判定手段により、初出ワード記憶手段への該当単語候補の登録の有無を判定する。該当単語が初出ワード記憶手段へ登録済みの場合は更新処理を行い、未登録の場合は登録処理を行う。
これによれば、仮に初出ワード記憶手段に記憶された単語と検索用インデックスに記憶された単語が一致しない場合であっても、確実に登録処理または更新処理を行うことができる。
本発明の単語情報収集方法は、ネットワーク上のウェブページに含まれる単語に関する情報を収集し、収集した単語を用いて、検索キーに対してインデックス検索を実行するための検索用インデックスを生成する単語情報収集方法であって、前記ネットワークを巡回してウェブページに関する情報とともに該ウェブページの更新日時を取得するページ情報取得ステップと、前記取得したウェブページを解析して単語候補を抽出するページ解析ステップと、前記抽出された単語候補と、取得済みの単語候補から予め生成された検索用インデックスとを比較し、前記単語候補が前記検索用インデックスに記憶されているか否かを判定する登録状況判定ステップと、前記判定の結果、前記検索用インデックスに記憶されていないと判定した場合に、前記単語候補と該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させる初出ワード登録ステップと、を備えることを特徴とする。
この発明では、ネットワークを巡回してウェブページに関する情報を取得し、このウェブページを解析して単語候補を抽出し、これまでに抽出した単語に対して検索用インデックスを作成するという処理を行いながら、一方で、抽出した単語候補に関する初出情報を収集する。本発明では、クロール処理により検索用インデックスを生成するという通常の処理を利用して、登録状況判定ステップおよび初出ワード登録ステップにより初出情報を収集する。
具体的には、抽出した単語候補が検索用インデックスに登録済みであるか否かを判定し、単語候補が検索用インデックスに未登録と判定されると、単語候補を初出ワード記憶手段へ登録する。登録の際、その単語候補には、初出日時としてページ情報取得ステップで取得された更新日時が関連付けられ、さらに該単語候補が含まれるウェブページに関する情報が関連付けられて記憶される。なお、検索用インデックスは、クロール処理が行われるたびに、それまでに取得した単語候補全体に対して作成されるものである。
このように、通常のクロール処理によりインデックスを作成しながら初出情報を収集することができるので、初出情報を得るためだけの処理を実施する必要がなく、簡単かつ効率よく単語の初出情報を収集することができる。
また、このようにして収集された初出情報は、ウェブページに表示することで該ウェブページのコンテンツの充実化を図ることができる。
本発明の単語情報収集方法において、前記初出ワード登録ステップは、前記登録状況判定ステップにより前記単語候補が前記検索用インデックスに記憶されていると判定した場合、前記単語候補に関連付けられて記憶された初出日時と前記取得した更新日時とを比較し、前記更新日時が前記初出日時より古いと判定されると、該単語候補の初出日時を前記更新日時で更新することが好ましい。
この発明では、登録状況判定ステップで抽出した単語候補が検索用インデックスに登録済みであると判定された場合に、初出ワード記憶手段に記憶されている該当単語データの更新を行う。更新処理は、クロール処理によって任意の単語が含まれるウェブページの情報を取得するたびに、初出ワード記憶手段に記憶された該当単語の初出日時と、ウェブページの情報の取得と同時に取得したウェブページの更新日時と、を比較し、更新日時が初出日時よりも古い場合は、初出ワード記憶手段に記憶されている該単語に関連付けられている初出日時を更新日時で更新し、該単語に関連付けられているウェブページの情報を、新しく取得したウェブページの情報で更新する。すなわち、新しく取得したウェブページの更新日時が古いほど初出ワード記憶手段に記憶されることになる。このような処理が繰り返されることで、結果として該単語が初出したと思われるウェブページに関する情報を収集することができる。
本発明によれば、クロール処理が行われるたびに、初出ワード記憶手段に記憶された単語データが、より更新日時の古いウェブページの情報に更新されていくので、自動的に最も古い日時のウェブページに関する情報を簡単に収集することができる。したがって、通常のクロール処理を利用して効率よく単語の初出情報を収集することができる。
本発明の単語情報収集プログラムは、前述の単語情報収集方法をコンピュータに実行させることを特徴とする。
この発明によれば、コンピュータに前述の単語情報収集方法を実行させるため、この単語情報収集プログラムをインストールするだけの簡単な構成で、前述と同様の作用効果を得ることができ、有用性が高い。
本発明の実施形態にかかる単語情報収集システムの概略構成を示すブロック図。 前記実施形態における単語情報収集装置の動作を示すフローチャート。 前記実施形態における単語情報収集装置が提供する検索結果ページを端末装置で表示させた画面の概略図。
以下、本発明の実施形態を図面に基づいて説明する。本実施形態では、検索エンジンの機能を有する単語情報収集システムを例示して説明する。
[1.単語情報収集システムの構成]
図1に示すように、単語情報収集システム1は、単語情報収集装置100と、インターネット20を介して単語情報収集装置100に接続された端末装置200と、を備えている。
インターネット20はTCP/IPなどの汎用のプロトコルに基づくインターネットであるが、これに限られない。例えば、LAN(Local Area Network)などのイントラネット、無線媒体により情報が送受信可能な複数の基地局がネットワークを構成する通信回線網や放送網などのネットワーク、さらには、データを直接受信するための媒体となる無線媒体自体など、データを送受信させるいずれの構成も利用できる。
単語情報収集装置100は、検索エンジンの機能を有するとともに、単語の初出情報を収集するものである。ここで、初出情報とは、任意の単語がウェブページ上に最初に登場したときの情報であり、そのときの日時(初出日時)や該ウェブページのURL情報、該ウェブページに表示される文章データおよび画像データ等の情報を含む。
単語情報収集装置100としては、一般的に用いられているパーソナルコンピュータ(PC)が用いられ、各種情報を記憶する記憶手段と、各種演算を実施するCPU等の制御手段と、キーボードやマウス等の入力手段、ウェブページを画面表示として出力させる表示手段などを備えている。
単語情報収集装置100は、図1に示すように、記憶手段として、検索用インデックスとしてのインデックスデータベース101と、初出ワード情報記憶手段としての初出ワードデータベース102と、を備えている。また、図示しないが、単語情報収集装置100は、検索結果ページを作成するための各種フォームを記憶させたデータベースを備えている。
インデックスデータベース101は、例えば、以下の表1に示すように、単語ごとに該単語が含まれるウェブページのURL(Uniform Resource Locator)情報およびランクが関連付けられて1つのレコードとして記憶されたテーブル構造となっている。なお、項目はここに列挙したものに限られず、検索結果として表示可能な情報、例えば単語に関連するイメージデータ等を適宜追加してもよい。
ランク付けとは、任意の単語を含む複数のウェブページに対して、単語とウェブページとの関連度を各種アルゴリズムにより算出し、該ウェブページに付与することである。ランク付けの方法として、例えば、該単語を含むウェブページ中で、該単語が該ウェブページの内容に占める頻度が多いほど重要度が高くランク付けされたり、ウェブページのタイトル中に該キーワードが含まれている場合は重要度が高くランク付けされたりする。また、キーワードを含むウェブページにどれだけ多くのリンクが張られているかに応じてランク付けする方法もある。
なお、このランク付けは、クロール処理を行われるたびに新しく収集した単語も含めた検索用インデックスが作成され、インデックスデータベース101に再登録される。
Figure 2011054102
初出ワードデータベース102は、例えば、以下の表2に示すように、単語ごとに該単語がウェブページ上に最初に登場した日時である初出日時、該単語が含まれるウェブページのURL情報およびキャッシュが関連付けられて1つのレコードとして記憶されたテーブル構造となっている。キャッシュとは、ウェブページの内容を保存したものであり、該ウェブページが更新されてしまった場合でも、キャッシュを表示することによって更新前のウェブページを閲覧することができる。なお、項目はここに列挙したものに限られず、検索結果として表示可能な情報、例えば単語に関連するイメージデータ等を適宜追加してもよい。
Figure 2011054102
単語情報収集装置100は、演算処理手段として、ネットワーク上のウェブページから単語情報を収集する単語情報収集手段110と、指定された検索語に応じた検索結果を提供するウェブ検索手段120と、図示しないが、ネットワークを介して端末装置200とデータの送受信を行う送受信手段と、を備えている。
単語情報収集手段110は、ネットワークから単語情報を収集するものであり、ページ情報取得手段111と、ページ解析手段112と、登録状況判定手段113と、初出ワード登録手段114と、検索用インデックス生成手段115と、初出ワード登録判定手段116と、を備えている。
ページ情報取得手段111は、ネットワーク内を巡回し、ネットワーク内に公開されているウェブページのURL情報、文章データおよび画像データなどの情報(ウェブページに関する情報)を取得する。この処理は一般的にクロール処理と呼ばれ、前回作成された検索用インデックス、すなわちインデックスデータベース101に記憶されたウェブページのURL情報に基づいて各ウェブページを巡回する。また、クロール処理の頻度は必要に応じて適宜調整することができる。
ページ解析手段112は、ページ情報取得手段111により取得したウェブページに含まれる文章(テキスト)を抽出し、該文章に対して形態素解析を実施する。形態素解析とは、文章を意味のある単語に区切り、各単語の品詞等を判別する処理である。ページ解析手段112は、形態素解析により得られる複数の単語のうち、名詞となり得るものを単語候補として取得する。
登録状況判定手段113は、ページ解析手段112により得られた単語候補が、インデックスデータベース101に登録済みであるか否かを判定する。インデックスデータベース101には、前回のクロール処理までに取得した単語候補に対して作成したインデックスが記憶されている。インデックスデータベース101に登録済みである単語候補は、初出ワードデータベース102への更新対象となり、未登録である単語候補は登録対象となる。
初出ワード登録手段114は、取得した単語候補を初出ワードデータベース102に登録または更新の処理を行う。登録処理としては、登録対象となった単語候補に該単語候補が含まれるウェブページのURL情報と該ウェブページの更新日時とを関連づけて初出ワードデータベース102に記憶させる。また、更新処理としては、更新対象となった初出ワードデータベース102内の単語データに対して、記憶されている初出日時と取得した更新日時とを比較し、更新日時が初出日時よりも古い場合は、初出日時を更新日時で更新する。
検索用インデックス生成手段115は、新しく収集した単語候補と、インデックスデータベース101に記憶されている単語情報と、に対して検索用インデックスを作成し、作成した検索用インデックスでインデックスデータベース101を更新する。
初出ワード登録判定手段116は、初出ワード登録手段114の登録または更新処理の前に、対象となる単語候補が初出ワードデータベース102に登録済みであるか否かを判定する。単語候補が初出ワードデータベース102に登録済みであると判定された場合は、該単語候補は更新処理の対象となる。一方、未登録であると判定された場合は、該単語候補は登録処理の対象となる。
ウェブ検索手段120は、端末装置200で指定された検索語に応じた検索結果ページを提供するものであり、検索語取得手段121と、インデックス検索手段122と、初出ワード検索手段123と、検索結果ページ提供手段124と、を備えている。
検索語取得手段121は、端末装置200からの要求に応じて、検索ページを端末装置200に送信する。検索語を入力させるための欄などが表示された検索ページを端末装置200に表示させることで、ユーザに検索語を入力させる。入力された検索語は、ユーザの要求により端末装置200から単語情報収集装置100に送信され、検索語取得手段121は、受信した検索語を取得する。
インデックス検索手段122は、取得した検索語をインデックスデータベース101から検索し、検索語に相当するキーワードと対応付けられたURL情報を取得する。
初出ワード検索手段123は、取得した検索語を初出ワードデータベース102から検索し、検索語に該当する初出ワードと、該初出ワードに対応付けられた初出日時、URL情報、およびキャッシュ等を取得する。
検索結果ページ提供手段124は、検索結果ページを作成し、端末装置200に送信する。端末装置200の表示手段で表示される検索結果ページには、検索結果の一覧のほか、該検索語の初出情報が表示される。初出情報としては、検索語が初出したウェブページのタイトルが表示され、このタイトルにはウェブページへのリンクが張られている。タイトルをクリックするだけで該ウェブページを閲覧することができる。また、初出日時やキャッシュも表示される。キャッシュには、該ウェブページに関する情報を取得したときの内容が保存されているため、仮に該ウェブページが存在しない状況であったとしても、初出した当時のウェブページを閲覧することができる。
端末装置200は、図示しないが、演算処理手段として、単語情報収集装置100に対して検索サービスを要求し、要求した検索サービスのウェブページを受信する端末送受信手段と、ウェブページを画面表示として出力させる出力手段と、文字入力可能なマウスやキーボードなどの入力手段とを備えている。一方、記憶手段としては、各種フォームにかかわるフォームデータを記憶するデータベースなどを備えている。端末装置200としては特に限定されないが、例えば、携帯電話やノートパソコンなどが挙げられる。
[2.単語情報収集装置100の動作]
次に、単語情報収集装置100の動作について説明する。単語情報収集装置100は、単語情報収集手段110による処理と、ウェブ検索手段120による処理と、が別々に動作する。
まず、単語情報収集手段110の動作について、図2に基づいて説明する。
ステップS1において、ページ情報取得手段111は、ネットワークに公開されているウェブページを巡回し、該ウェブページに関する情報と、該ウェブページの更新日時と、を取得する。ここで、ウェブページに関する情報とは、ウェブページのURL情報、ウェブページに表示される文章データおよび画像データ等であり、更新日時とは、ウェブページが更新されたときに通常付与される日時のことである。
次に、ステップS2において、ページ解析手段112は、ページ情報取得手段111により取得したウェブページの文章データを抽出し、該文章データに対して形態素解析を実施する。形態素解析により得られる複数の単語のうち、名詞となり得るものを単語候補として取得する。
このようにしてウェブページから得られた単語候補のそれぞれに対して、以下の処理を実施する。
ステップS3において、登録状況判定手段113は、インデックスデータベース101を参照し、ページ解析手段112により得られた単語候補が記憶されているか否かを判定する。単語候補がインデックスデータベース101に記憶されている場合(S3:Yes)は、ステップS6へ進む。一方、単語候補がインデックスデータベース101に記憶されていない場合(S3:No)は、ステップS4へ進む。
ステップS4では、初出ワード登録判定手段116は、初出ワードデータベース102を参照し、ページ解析手段112により得られた単語候補が記憶されているか否かを判定する。単語候補が初出ワードデータベース102に記憶されている場合(S4:Yes)は、ステップS6へ進む。一方、単語候補が初出ワードデータベース102に記憶されていない場合(S4:No)は、ステップS5へ進む。
ステップS5では、初出ワード登録手段114は、ページ解析手段112により得られた単語候補に、該単語候補が含まれるウェブページの更新日時とURL情報とを関連付けて、初出ワードデータベース102に記憶させてステップS8へ進む。
また、ステップS6では、初出ワード登録手段114は、ページ解析手段112により得られた単語候補と一致する単語を初出ワードデータベース102から検索し、該当単語に関連付けられた初出日時と、該単語候補が含まれるウェブページの更新日時と、を比較し、更新日時が初出日時よりも古いか否かを判定する。更新日時が初出日時よりも古い場合(S6:Yes)は、ステップS7へ進む。一方、更新日時が初出日時と同じか初出日時より新しい場合(S6:No)は、ステップS8へ進む。
ステップS7では、初出ワード登録手段114は、ページ解析手段112により得られた単語候補と一致する単語を初出ワードデータベース102から検索し、該当単語に関連付けられた初出日時を、該ウェブページの更新日時で更新し、さらの該当単語に関連付けられたウェブページのURL情報およびキャッシュを該ウェブページのURL情報およびキャッシュで更新して、ステップS8へ進む。
なお、ステップS3〜S7までの処理は、単語候補の数に応じて複数回実施される。
ステップS8では、検索用インデックス生成手段115は、新しく収集した単語候補と、インデックスデータベース101に記憶されている単語情報と、に対して検索用インデックスを生成し、新しく生成した検索用インデックスでインデックスデータベース101を更新した後、処理を終了する。
次に、ウェブ検索手段120の動作について説明する。
まず、ユーザは、端末装置200の入力手段を入力操作し、単語情報収集装置100が提供する検索ページにアクセスするために、例えば、ウェブブラウザを起動させてアドレスを入力し、検索ページを要求する。
単語情報収集装置100は、図示しない送受信手段により端末装置200からの検索ページの要求を受信すると、検索語取得手段121は、図示しない記憶手段から検索ページ用のフォームを読み出し、これらの情報に基づいて検索ページを作成し、端末装置に送信する。
端末装置200では、端末送受信手段により検索ページの情報を受信して、図示しない表示手段(ディスプレイ等)に画面表示させる。
ユーザは、画面表示にしたがって、入力手段を用いて検索したい単語(検索語)を入力し、単語情報収集装置100へ送信する。
単語情報収集装置100は、送受信手段で検索語を受信し、検索語取得手段121は検索語を取得する。
次に、インデックス検索手段122は、取得した検索語に相当する単語をインデックスデータベース101から検索し、該当する単語データを抽出する。
また、初出ワード検索手段123は、取得した検索語と一致する単語を初出ワードデータベース102から検索し、該当する単語データを抽出する。
次に、検索結果ページ提供手段124は、図3に示すような検索結果ページを作成し、端末装置200に送信する。
図3において、検索結果ページ5は、検索語入力領域51と、初出情報表示領域52と、検索結果一覧表示領域53を有している。
検索語入力領域51は、ユーザが入力可能な検索語入力欄511と検索ボタン512を有する。検索語入力欄511にはユーザが入力した検索語が表示され、検索ボタン512は再検索の要求を単語情報収集装置100へ送信するためのボタンである。
初出情報表示領域52は、初出情報であることを示すタイトル欄521と、ウェブページのタイトルがテキスト表示されたURL情報欄522と、初出日時が表示された初出日時欄523と、該ウェブページのキャッシュへのリンクが張られたキャッシュ欄524と、を有する。タイトル欄521には、指定された検索語が最初に登場したときのウェブページ情報を表示していることをユーザに理解させるためのタイトルが表示されればよい。例えば、検索語として「ねこなべ」が指定されている場合には「ねこなべの初出は!」というタイトルを表示することができる。URL情報欄522に表示されたテキストには、該ウェブページのURLへのリンクが張られており、該URL情報欄522をクリックするだけで、指定した検索語が初出したウェブページのURLへ移動しその内容を閲覧することができる。また、キャッシュ欄524をクリックすると、初出ワードデータベース102に保存した時(初出時)のウェブページの内容を閲覧することができる。
検索結果一覧表示領域53は、インデックスデータベース101から抽出したデータが一覧表示される領域である。ウェブページのタイトルがテキスト表示されるとともに、該テキストにはウェブページのURLへのリンクが張られている。
ユーザは、端末装置200の表示手段に画面表示された検索結果ページにより、指定した検索語に関連するウェブページの一覧を閲覧することができるだけでなく、指定した検索語が最初に登場したウェブページに関する情報も得ることができる。
[3.本実施形態の作用効果]
上述した実施形態では、以下に示す作用効果を奏することができる。
単語情報収集手段110において、ページ情報取得手段111がネットワークを巡回してウェブページに関する情報を取得し、ページ解析手段112が取得したウェブページから単語情報を取得し、検索用インデックス生成手段115が検索用インデックスを作成するという、いわゆる検索エンジンにおける通常の処理を行うとともに、登録状況判定手段および初出ワード登録手段114により取得した単語情報に関する初出情報を収集している。ページ情報取得手段111はウェブページに関する情報とともに、該ウェブページの更新日時を取得する。初出ワードデータベース102に記憶された単語には初出日時が関連付けられているので、この初出日時と取得した更新日時とを比較し、古いほうの日時を初出日時として再登録する。すなわち、取得するウェブページの更新日時が随時古い日時に更新されるので、結果として最も古いウェブページの情報を効率よく収集することができる。
このように、検索エンジンにおいて通常行われる処理を行いながら、簡単かつ効率よく初出情報を収集することができる。
また、ウェブ検索手段120では、ユーザが指定した検索語の検索結果の一覧とともに、収集した初出情報を検索結果ページに表示している。ユーザが指定する検索語としては、一般的な単語のほか、流行語のような単語もある。流行語は、あるウェブページに表示されたことが発端となって流行が広まることも多く、流行の発端となったウェブページに関する情報を得たいと思うユーザも多数いる。上記実施形態では、上述の単語情報収集手段110によって収集した初出情報を、ウェブ検索手段120が、例えば検出語が初出したウェブページのタイトルと、初出日時と、を表示させ、タイトルには該ウェブページのURLへのリンクを張った状態で検索結果ページに表示する。
したがって、ユーザは指定した検索語の初出情報を得ることができるとともに、初出したウェブページを閲覧することができる。このように、ユーザが知りたいと思う有益な情報を検索語の検索結果とともに提供することができ、検索結果ページのコンテンツの充実化を図ることができる。
さらに、上記実施形態では、検索結果ページの初出情報の一部にキャッシュを表示している。初出情報としてリンクが張られるウェブページは古く、その後更新されていることが多いため、初出時のウェブページを閲覧できない可能性が高い。しかしながら、初出時のウェブページの内容をキャッシュとして初出ワードデータベース102に保存し、検索結果ページにキャッシュとして表示させるので、仮に初出時のウェブページが存在しない場合でも、初出時のウェブページを閲覧することができる。したがって、ユーザにとって有益な情報を提供することができる。
[4.変形例]
なお、本発明は、上述した実施形態に限定されるものではなく、本発明の目的を達成できる範囲で、以下に示される変形をも含むものである。
例えば、上記実施形態では、単語情報収集手段110の動作において、初出ワード登録判定手段116により、検索語が初出ワードデータベース102に登録済みであるか否かを判定する処理(S4)を行ったが、この処理は省略してもよい。これは、ステップS3において、登録状況判定手段113がインデックスデータベース101への登録状況を判定しているため、この判定結果に基づいて初出ワードデータベース102への登録の有無を判定することができるからである。これによれば、処理の高速化を図ることができる。
また、上記実施形態では、ページ解析手段112は、形態素解析により文章を単語候補に分解したが、単語候補を抽出する方法はこれに限られない。一般的に用いられる言語処理技術、例えばN−gramを用いて解析してもよい。
さらに、上記実施形態において、初出ワードデータベース102の項目として画像データを追加してもよい。任意の単語が含まれるウェブページから、該単語に関連する画像データを取得し、該単語にこの画像データを関連付けて初出ワードデータベース102に記憶させる。したがって、ウェブ検索手段120により初出情報を検索結果ページに表示させる際は、初出情報の一部としてこの画像データを表示させることができる。画像データは視覚的なものであるので、ユーザにとっては認識が容易である。すなわち、ユーザにわかりやすい情報提供を行うことができる。
本発明は、ネットワーク上のウェブページに含まれる単語情報を収集する単語情報収集装置として検索エンジン等に利用できる。
100…単語情報収集装置
101…インデックスデータベース
102…初出ワードデータベース
110…単語情報収集手段
111…ページ情報取得手段
112…ページ解析手段
113…登録状況判定手段
114…初出ワード登録手段
115…検索用インデックス生成手段
116…初出ワード登録判定手段
120…ウェブ検索手段
121…検索語取得手段
122…インデックス検索手段
123…初出ワード検索手段
124…検索結果ページ提供手段
200…端末装置

Claims (8)

  1. ネットワーク上のウェブページに含まれる単語に関する情報を収集し、収集した単語を用いて、検索キーに対してインデックス検索を実行するための検索用インデックスを生成する単語情報収集装置であって、
    前記ネットワークを巡回してウェブページに関する情報とともに該ウェブページの更新日時を取得するページ情報取得手段と、
    前記取得したウェブページを解析して単語候補を抽出するページ解析手段と、
    前記抽出された単語候補と、取得済みの単語候補から予め生成された検索用インデックスとを比較し、前記単語候補が前記検索用インデックスに記憶されているか否かを判定する登録状況判定手段と、
    前記判定の結果、前記検索用インデックスに記憶されていないと判定した場合に、前記単語候補と該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させる初出ワード登録手段と、を備える
    ことを特徴とする単語情報収集装置。
  2. 請求項1に記載の単語情報収集装置において、
    前記初出ワード登録手段は、
    前記登録状況判定手段により前記単語候補が前記検索用インデックスに記憶されていると判定した場合、前記単語候補に関連付けられて記憶された初出日時と前記取得した更新日時とを比較し、前記更新日時が前記初出日時より古いと判定されると、該単語候補の初出日時を前記更新日時で更新する
    ことを特徴とする単語情報収集装置。
  3. 請求項1または請求項2に記載の単語情報収集装置において、
    前記ネットワークを介して接続された端末装置に対して検索語の入力を要求し、入力された検索語を取得する検索語取得手段と、
    前記取得した検索語と一致するキーワードを、前記検索用インデックスから検索し、該当するキーワードに関連付けられたウェブページに関する情報を取得するデータ検索手段と、
    前記取得した検索語と一致する単語を、前記初出ワード記憶手段から検索し、該当する単語に関連付けられたウェブページに関する情報と初出日時とを取得する初出ワード検索手段と、
    前記データ検索手段により取得したウェブページに関する情報と前記初出ワード検索手段により取得したウェブページに関する情報および初出日時とを表示させたウェブページを作成して配信する検索結果ページ提供手段と、をさらに備えた
    ことを特徴とする単語情報収集装置。
  4. 請求項1に記載の単語情報収集装置において、
    前記抽出された単語候補と一致する単語が前記初出ワード情報記憶手段に記憶されているか否かを判定する初出ワード登録判定手段をさらに備え、
    前記初出ワード登録手段は、前記登録状況判定手段により前記単語候補が前記検索用インデックスに記憶されていないと判定され、かつ、前記初出ワード登録判定手段により前記単語候補が前記初出ワード情報記憶手段に記憶されていないと判定された場合は、前記単語候補と該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させる
    ことを特徴とする単語情報収集装置。
  5. 請求項2に記載の単語情報収集装置において、
    前記抽出された単語候補と一致する単語が前記初出ワード情報記憶手段に記憶されているか否かを判定する初出ワード登録判定手段をさらに備え、
    前記初出ワード登録手段は、
    前記登録状況判定手段により前記単語候補が前記検索用インデックスに記憶されていないと判定され、かつ、前記初出ワード登録判定手段により前記単語候補が前記初出ワード情報記憶手段に記憶されていないと判定された場合は、前記単語候補と該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させ、
    前記初出ワード登録判定手段により前記単語候補が前記初出ワード情報記憶手段に記憶されていると判定された場合は、前記単語候補に関連付けられて記憶された初出日時と前記取得した更新日時とを比較し、前記更新日時が前記初出日時より古いと判定されると、該単語候補の初出日時を前記更新日時で更新する
    ことを特徴とする単語情報収集装置。
  6. ネットワーク上のウェブページに含まれる単語に関する情報を収集し、収集した単語を用いて、検索キーに対してインデックス検索を実行するための検索用インデックスを生成する単語情報収集方法であって、
    前記ネットワークを巡回してウェブページに関する情報とともに該ウェブページの更新日時を取得するページ情報取得ステップと、
    前記取得したウェブページを解析して単語候補を抽出するページ解析ステップと、
    前記抽出された単語候補と、取得済みの単語候補から予め生成された検索用インデックスとを比較し、前記単語候補が前記検索用インデックスに記憶されているか否かを判定する登録状況判定ステップと、
    前記判定の結果、前記検索用インデックスに記憶されていないと判定した場合に、前記単語候補と該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させる初出ワード登録ステップと、を備える
    ことを特徴とする単語情報収集方法。
  7. 請求項6に記載の単語情報収集方法において、
    前記初出ワード登録ステップは、
    前記登録状況判定ステップにより前記単語候補が前記検索用インデックスに記憶されていると判定した場合、前記単語候補に関連付けられて記憶された初出日時と前記取得した更新日時とを比較し、前記更新日時が前記初出日時より古いと判定されると、該単語候補の初出日時を前記更新日時で更新する
    ことを特徴とする単語情報収集方法。
  8. 請求項6または請求項7に記載の単語情報収集方法をコンピュータに実行させることを特徴とする単語情報収集プログラム。
JP2009204796A 2009-09-04 2009-09-04 単語情報収集装置、単語情報収集方法および単語情報収集プログラム Active JP5002631B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009204796A JP5002631B2 (ja) 2009-09-04 2009-09-04 単語情報収集装置、単語情報収集方法および単語情報収集プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009204796A JP5002631B2 (ja) 2009-09-04 2009-09-04 単語情報収集装置、単語情報収集方法および単語情報収集プログラム

Publications (2)

Publication Number Publication Date
JP2011054102A true JP2011054102A (ja) 2011-03-17
JP5002631B2 JP5002631B2 (ja) 2012-08-15

Family

ID=43943003

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009204796A Active JP5002631B2 (ja) 2009-09-04 2009-09-04 単語情報収集装置、単語情報収集方法および単語情報収集プログラム

Country Status (1)

Country Link
JP (1) JP5002631B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013186532A (ja) * 2012-03-06 2013-09-19 Yahoo Japan Corp 情報処理装置、方法及びシステム
JP2016136300A (ja) * 2015-01-23 2016-07-28 ヤフー株式会社 情報処理装置及び方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006185020A (ja) * 2004-12-27 2006-07-13 Fuji Xerox Co Ltd 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2007507798A (ja) * 2003-09-30 2007-03-29 グーグル・インク ドキュメントをスコア付けするための方法、ドキュメントをランク付けするための方法及びドキュメントをスコア付けするためのシステム
JP2009157734A (ja) * 2007-12-27 2009-07-16 Dainippon Printing Co Ltd 早期発信者特定システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007507798A (ja) * 2003-09-30 2007-03-29 グーグル・インク ドキュメントをスコア付けするための方法、ドキュメントをランク付けするための方法及びドキュメントをスコア付けするためのシステム
JP2006185020A (ja) * 2004-12-27 2006-07-13 Fuji Xerox Co Ltd 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2009157734A (ja) * 2007-12-27 2009-07-16 Dainippon Printing Co Ltd 早期発信者特定システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013186532A (ja) * 2012-03-06 2013-09-19 Yahoo Japan Corp 情報処理装置、方法及びシステム
JP2016136300A (ja) * 2015-01-23 2016-07-28 ヤフー株式会社 情報処理装置及び方法

Also Published As

Publication number Publication date
JP5002631B2 (ja) 2012-08-15

Similar Documents

Publication Publication Date Title
US8001135B2 (en) Search support apparatus, computer program product, and search support system
US20070043706A1 (en) Search history visual representation
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
JP2019074843A (ja) 情報提供装置、情報提供方法、およびプログラム
JP2007122513A (ja) コンテンツ検索方法、及び、コンテンツ検索サーバ
JP2003208434A (ja) 情報検索システム及びそれに用いる情報検索方法
JP2007072596A (ja) 情報共有システムおよび情報共有方法
JP2011103075A (ja) 抜粋文抽出方法
JP2010146366A (ja) 情報提供サーバ
JP5185891B2 (ja) コンテンツ提供装置、コンテンツ提供方法およびコンテンツ提供プログラム
JP5002631B2 (ja) 単語情報収集装置、単語情報収集方法および単語情報収集プログラム
JP2010198350A (ja) 検索装置及び検索方法
CN107622125B (zh) 一种信息爬取方法和装置、电子设备
JP5297295B2 (ja) WWW情報閲覧システムと方法およびWebブラウザとプログラム
JP5228529B2 (ja) データ検索プログラム、データ検索装置およびデータ検索方法
JP2004246422A (ja) 情報検索支援装置
JP6640519B2 (ja) 情報分析装置及び情報分析方法
JP2007148741A (ja) Web検索支援サーバ
JP5039086B2 (ja) 評価情報入力支援装置、評価情報入力支援方法およびその方法を実行させるプログラム
JP2013238939A (ja) 推奨検索語提示システム
JP5040544B2 (ja) コンテンツ関係登録方法
JP2008052553A (ja) ウェブテキスト抽出装置、方法及びプログラム
JP2007012100A (ja) 人物情報に基づく検索方法および検索装置、あるいは情報提供システム
JP5222691B2 (ja) 検索情報提供システム
JP5769648B2 (ja) 関連語取得装置及び関連語取得方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120515

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120521

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5002631

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150525

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250