JP2011054102A - 単語情報収集装置、単語情報収集方法および単語情報収集プログラム - Google Patents
単語情報収集装置、単語情報収集方法および単語情報収集プログラム Download PDFInfo
- Publication number
- JP2011054102A JP2011054102A JP2009204796A JP2009204796A JP2011054102A JP 2011054102 A JP2011054102 A JP 2011054102A JP 2009204796 A JP2009204796 A JP 2009204796A JP 2009204796 A JP2009204796 A JP 2009204796A JP 2011054102 A JP2011054102 A JP 2011054102A
- Authority
- JP
- Japan
- Prior art keywords
- word
- information
- search
- appearance
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 239000000284 extract Substances 0.000 description 6
- 230000000877 morphologic effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009193 crawling Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】単語情報収集装置100は、インデックスデータベース101と、初出ワードデータベース102と、ネットワーク上のウェブページから単語情報を収集する単語情報収集手段110と、指定された検索語に応じた検索結果を提供するウェブ検索手段120と、を備えている。単語情報収集手段110は、ネットワークから単語情報を収集して検索用インデックスを生成するとともに単語の初出情報を収集する。ウェブ検索手段120は、検索結果の一覧を表示するとともに収集した初出情報を表示させる。
【選択図】図1
Description
しかしながら、特許文献1に記載の方式では、各ウェブページの最新の情報は得られるものの、特定の単語がウェブページに最初に登場したときの情報を得ることはできない。
また、このようにして収集された初出情報は、ウェブページに表示してユーザに提供することができる。例えば、ユーザが指定した検索語に応じた検索結果の一覧と共に初出情報を表示させることで、検索結果ページのコンテンツの充実化を図ることができる。
本発明によれば、クロール処理が行われるたびに、初出ワード記憶手段に記憶された単語データが、より更新日時の古いウェブページの情報に更新されていくので、自動的に最も古い日時のウェブページに関する情報を簡単に収集することができる。したがって、通常のクロール処理を利用して効率よく単語の初出情報を収集することができる。
これによれば、仮に初出ワード記憶手段に記憶された単語と検索用インデックスに記憶された単語が一致しない場合であっても、確実に登録処理または更新処理を行うことができる。
また、このようにして収集された初出情報は、ウェブページに表示することで該ウェブページのコンテンツの充実化を図ることができる。
この発明によれば、コンピュータに前述の単語情報収集方法を実行させるため、この単語情報収集プログラムをインストールするだけの簡単な構成で、前述と同様の作用効果を得ることができ、有用性が高い。
[1.単語情報収集システムの構成]
図1に示すように、単語情報収集システム1は、単語情報収集装置100と、インターネット20を介して単語情報収集装置100に接続された端末装置200と、を備えている。
単語情報収集装置100としては、一般的に用いられているパーソナルコンピュータ(PC)が用いられ、各種情報を記憶する記憶手段と、各種演算を実施するCPU等の制御手段と、キーボードやマウス等の入力手段、ウェブページを画面表示として出力させる表示手段などを備えている。
なお、このランク付けは、クロール処理を行われるたびに新しく収集した単語も含めた検索用インデックスが作成され、インデックスデータベース101に再登録される。
ページ情報取得手段111は、ネットワーク内を巡回し、ネットワーク内に公開されているウェブページのURL情報、文章データおよび画像データなどの情報(ウェブページに関する情報)を取得する。この処理は一般的にクロール処理と呼ばれ、前回作成された検索用インデックス、すなわちインデックスデータベース101に記憶されたウェブページのURL情報に基づいて各ウェブページを巡回する。また、クロール処理の頻度は必要に応じて適宜調整することができる。
初出ワード登録判定手段116は、初出ワード登録手段114の登録または更新処理の前に、対象となる単語候補が初出ワードデータベース102に登録済みであるか否かを判定する。単語候補が初出ワードデータベース102に登録済みであると判定された場合は、該単語候補は更新処理の対象となる。一方、未登録であると判定された場合は、該単語候補は登録処理の対象となる。
検索語取得手段121は、端末装置200からの要求に応じて、検索ページを端末装置200に送信する。検索語を入力させるための欄などが表示された検索ページを端末装置200に表示させることで、ユーザに検索語を入力させる。入力された検索語は、ユーザの要求により端末装置200から単語情報収集装置100に送信され、検索語取得手段121は、受信した検索語を取得する。
初出ワード検索手段123は、取得した検索語を初出ワードデータベース102から検索し、検索語に該当する初出ワードと、該初出ワードに対応付けられた初出日時、URL情報、およびキャッシュ等を取得する。
次に、単語情報収集装置100の動作について説明する。単語情報収集装置100は、単語情報収集手段110による処理と、ウェブ検索手段120による処理と、が別々に動作する。
ステップS1において、ページ情報取得手段111は、ネットワークに公開されているウェブページを巡回し、該ウェブページに関する情報と、該ウェブページの更新日時と、を取得する。ここで、ウェブページに関する情報とは、ウェブページのURL情報、ウェブページに表示される文章データおよび画像データ等であり、更新日時とは、ウェブページが更新されたときに通常付与される日時のことである。
次に、ステップS2において、ページ解析手段112は、ページ情報取得手段111により取得したウェブページの文章データを抽出し、該文章データに対して形態素解析を実施する。形態素解析により得られる複数の単語のうち、名詞となり得るものを単語候補として取得する。
ステップS3において、登録状況判定手段113は、インデックスデータベース101を参照し、ページ解析手段112により得られた単語候補が記憶されているか否かを判定する。単語候補がインデックスデータベース101に記憶されている場合(S3:Yes)は、ステップS6へ進む。一方、単語候補がインデックスデータベース101に記憶されていない場合(S3:No)は、ステップS4へ進む。
また、ステップS6では、初出ワード登録手段114は、ページ解析手段112により得られた単語候補と一致する単語を初出ワードデータベース102から検索し、該当単語に関連付けられた初出日時と、該単語候補が含まれるウェブページの更新日時と、を比較し、更新日時が初出日時よりも古いか否かを判定する。更新日時が初出日時よりも古い場合(S6:Yes)は、ステップS7へ進む。一方、更新日時が初出日時と同じか初出日時より新しい場合(S6:No)は、ステップS8へ進む。
なお、ステップS3〜S7までの処理は、単語候補の数に応じて複数回実施される。
まず、ユーザは、端末装置200の入力手段を入力操作し、単語情報収集装置100が提供する検索ページにアクセスするために、例えば、ウェブブラウザを起動させてアドレスを入力し、検索ページを要求する。
単語情報収集装置100は、図示しない送受信手段により端末装置200からの検索ページの要求を受信すると、検索語取得手段121は、図示しない記憶手段から検索ページ用のフォームを読み出し、これらの情報に基づいて検索ページを作成し、端末装置に送信する。
ユーザは、画面表示にしたがって、入力手段を用いて検索したい単語(検索語)を入力し、単語情報収集装置100へ送信する。
単語情報収集装置100は、送受信手段で検索語を受信し、検索語取得手段121は検索語を取得する。
また、初出ワード検索手段123は、取得した検索語と一致する単語を初出ワードデータベース102から検索し、該当する単語データを抽出する。
次に、検索結果ページ提供手段124は、図3に示すような検索結果ページを作成し、端末装置200に送信する。
検索語入力領域51は、ユーザが入力可能な検索語入力欄511と検索ボタン512を有する。検索語入力欄511にはユーザが入力した検索語が表示され、検索ボタン512は再検索の要求を単語情報収集装置100へ送信するためのボタンである。
上述した実施形態では、以下に示す作用効果を奏することができる。
単語情報収集手段110において、ページ情報取得手段111がネットワークを巡回してウェブページに関する情報を取得し、ページ解析手段112が取得したウェブページから単語情報を取得し、検索用インデックス生成手段115が検索用インデックスを作成するという、いわゆる検索エンジンにおける通常の処理を行うとともに、登録状況判定手段および初出ワード登録手段114により取得した単語情報に関する初出情報を収集している。ページ情報取得手段111はウェブページに関する情報とともに、該ウェブページの更新日時を取得する。初出ワードデータベース102に記憶された単語には初出日時が関連付けられているので、この初出日時と取得した更新日時とを比較し、古いほうの日時を初出日時として再登録する。すなわち、取得するウェブページの更新日時が随時古い日時に更新されるので、結果として最も古いウェブページの情報を効率よく収集することができる。
このように、検索エンジンにおいて通常行われる処理を行いながら、簡単かつ効率よく初出情報を収集することができる。
したがって、ユーザは指定した検索語の初出情報を得ることができるとともに、初出したウェブページを閲覧することができる。このように、ユーザが知りたいと思う有益な情報を検索語の検索結果とともに提供することができ、検索結果ページのコンテンツの充実化を図ることができる。
なお、本発明は、上述した実施形態に限定されるものではなく、本発明の目的を達成できる範囲で、以下に示される変形をも含むものである。
例えば、上記実施形態では、単語情報収集手段110の動作において、初出ワード登録判定手段116により、検索語が初出ワードデータベース102に登録済みであるか否かを判定する処理(S4)を行ったが、この処理は省略してもよい。これは、ステップS3において、登録状況判定手段113がインデックスデータベース101への登録状況を判定しているため、この判定結果に基づいて初出ワードデータベース102への登録の有無を判定することができるからである。これによれば、処理の高速化を図ることができる。
101…インデックスデータベース
102…初出ワードデータベース
110…単語情報収集手段
111…ページ情報取得手段
112…ページ解析手段
113…登録状況判定手段
114…初出ワード登録手段
115…検索用インデックス生成手段
116…初出ワード登録判定手段
120…ウェブ検索手段
121…検索語取得手段
122…インデックス検索手段
123…初出ワード検索手段
124…検索結果ページ提供手段
200…端末装置
Claims (8)
- ネットワーク上のウェブページに含まれる単語に関する情報を収集し、収集した単語を用いて、検索キーに対してインデックス検索を実行するための検索用インデックスを生成する単語情報収集装置であって、
前記ネットワークを巡回してウェブページに関する情報とともに該ウェブページの更新日時を取得するページ情報取得手段と、
前記取得したウェブページを解析して単語候補を抽出するページ解析手段と、
前記抽出された単語候補と、取得済みの単語候補から予め生成された検索用インデックスとを比較し、前記単語候補が前記検索用インデックスに記憶されているか否かを判定する登録状況判定手段と、
前記判定の結果、前記検索用インデックスに記憶されていないと判定した場合に、前記単語候補と該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させる初出ワード登録手段と、を備える
ことを特徴とする単語情報収集装置。 - 請求項1に記載の単語情報収集装置において、
前記初出ワード登録手段は、
前記登録状況判定手段により前記単語候補が前記検索用インデックスに記憶されていると判定した場合、前記単語候補に関連付けられて記憶された初出日時と前記取得した更新日時とを比較し、前記更新日時が前記初出日時より古いと判定されると、該単語候補の初出日時を前記更新日時で更新する
ことを特徴とする単語情報収集装置。 - 請求項1または請求項2に記載の単語情報収集装置において、
前記ネットワークを介して接続された端末装置に対して検索語の入力を要求し、入力された検索語を取得する検索語取得手段と、
前記取得した検索語と一致するキーワードを、前記検索用インデックスから検索し、該当するキーワードに関連付けられたウェブページに関する情報を取得するデータ検索手段と、
前記取得した検索語と一致する単語を、前記初出ワード記憶手段から検索し、該当する単語に関連付けられたウェブページに関する情報と初出日時とを取得する初出ワード検索手段と、
前記データ検索手段により取得したウェブページに関する情報と前記初出ワード検索手段により取得したウェブページに関する情報および初出日時とを表示させたウェブページを作成して配信する検索結果ページ提供手段と、をさらに備えた
ことを特徴とする単語情報収集装置。 - 請求項1に記載の単語情報収集装置において、
前記抽出された単語候補と一致する単語が前記初出ワード情報記憶手段に記憶されているか否かを判定する初出ワード登録判定手段をさらに備え、
前記初出ワード登録手段は、前記登録状況判定手段により前記単語候補が前記検索用インデックスに記憶されていないと判定され、かつ、前記初出ワード登録判定手段により前記単語候補が前記初出ワード情報記憶手段に記憶されていないと判定された場合は、前記単語候補と該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させる
ことを特徴とする単語情報収集装置。 - 請求項2に記載の単語情報収集装置において、
前記抽出された単語候補と一致する単語が前記初出ワード情報記憶手段に記憶されているか否かを判定する初出ワード登録判定手段をさらに備え、
前記初出ワード登録手段は、
前記登録状況判定手段により前記単語候補が前記検索用インデックスに記憶されていないと判定され、かつ、前記初出ワード登録判定手段により前記単語候補が前記初出ワード情報記憶手段に記憶されていないと判定された場合は、前記単語候補と該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させ、
前記初出ワード登録判定手段により前記単語候補が前記初出ワード情報記憶手段に記憶されていると判定された場合は、前記単語候補に関連付けられて記憶された初出日時と前記取得した更新日時とを比較し、前記更新日時が前記初出日時より古いと判定されると、該単語候補の初出日時を前記更新日時で更新する
ことを特徴とする単語情報収集装置。 - ネットワーク上のウェブページに含まれる単語に関する情報を収集し、収集した単語を用いて、検索キーに対してインデックス検索を実行するための検索用インデックスを生成する単語情報収集方法であって、
前記ネットワークを巡回してウェブページに関する情報とともに該ウェブページの更新日時を取得するページ情報取得ステップと、
前記取得したウェブページを解析して単語候補を抽出するページ解析ステップと、
前記抽出された単語候補と、取得済みの単語候補から予め生成された検索用インデックスとを比較し、前記単語候補が前記検索用インデックスに記憶されているか否かを判定する登録状況判定ステップと、
前記判定の結果、前記検索用インデックスに記憶されていないと判定した場合に、前記単語候補と該ウェブページに関する情報とに前記更新日時を初出日時として関連付けて初出ワード記憶手段に記憶させる初出ワード登録ステップと、を備える
ことを特徴とする単語情報収集方法。 - 請求項6に記載の単語情報収集方法において、
前記初出ワード登録ステップは、
前記登録状況判定ステップにより前記単語候補が前記検索用インデックスに記憶されていると判定した場合、前記単語候補に関連付けられて記憶された初出日時と前記取得した更新日時とを比較し、前記更新日時が前記初出日時より古いと判定されると、該単語候補の初出日時を前記更新日時で更新する
ことを特徴とする単語情報収集方法。 - 請求項6または請求項7に記載の単語情報収集方法をコンピュータに実行させることを特徴とする単語情報収集プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009204796A JP5002631B2 (ja) | 2009-09-04 | 2009-09-04 | 単語情報収集装置、単語情報収集方法および単語情報収集プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009204796A JP5002631B2 (ja) | 2009-09-04 | 2009-09-04 | 単語情報収集装置、単語情報収集方法および単語情報収集プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011054102A true JP2011054102A (ja) | 2011-03-17 |
JP5002631B2 JP5002631B2 (ja) | 2012-08-15 |
Family
ID=43943003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009204796A Active JP5002631B2 (ja) | 2009-09-04 | 2009-09-04 | 単語情報収集装置、単語情報収集方法および単語情報収集プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5002631B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013186532A (ja) * | 2012-03-06 | 2013-09-19 | Yahoo Japan Corp | 情報処理装置、方法及びシステム |
JP2016136300A (ja) * | 2015-01-23 | 2016-07-28 | ヤフー株式会社 | 情報処理装置及び方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006185020A (ja) * | 2004-12-27 | 2006-07-13 | Fuji Xerox Co Ltd | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
JP2007507798A (ja) * | 2003-09-30 | 2007-03-29 | グーグル・インク | ドキュメントをスコア付けするための方法、ドキュメントをランク付けするための方法及びドキュメントをスコア付けするためのシステム |
JP2009157734A (ja) * | 2007-12-27 | 2009-07-16 | Dainippon Printing Co Ltd | 早期発信者特定システム |
-
2009
- 2009-09-04 JP JP2009204796A patent/JP5002631B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007507798A (ja) * | 2003-09-30 | 2007-03-29 | グーグル・インク | ドキュメントをスコア付けするための方法、ドキュメントをランク付けするための方法及びドキュメントをスコア付けするためのシステム |
JP2006185020A (ja) * | 2004-12-27 | 2006-07-13 | Fuji Xerox Co Ltd | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
JP2009157734A (ja) * | 2007-12-27 | 2009-07-16 | Dainippon Printing Co Ltd | 早期発信者特定システム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013186532A (ja) * | 2012-03-06 | 2013-09-19 | Yahoo Japan Corp | 情報処理装置、方法及びシステム |
JP2016136300A (ja) * | 2015-01-23 | 2016-07-28 | ヤフー株式会社 | 情報処理装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5002631B2 (ja) | 2012-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8001135B2 (en) | Search support apparatus, computer program product, and search support system | |
US20070043706A1 (en) | Search history visual representation | |
JP5084858B2 (ja) | サマリ作成装置、サマリ作成方法及びプログラム | |
JP2019074843A (ja) | 情報提供装置、情報提供方法、およびプログラム | |
JP2007122513A (ja) | コンテンツ検索方法、及び、コンテンツ検索サーバ | |
JP2003208434A (ja) | 情報検索システム及びそれに用いる情報検索方法 | |
JP2007072596A (ja) | 情報共有システムおよび情報共有方法 | |
JP2011103075A (ja) | 抜粋文抽出方法 | |
JP2010146366A (ja) | 情報提供サーバ | |
JP5185891B2 (ja) | コンテンツ提供装置、コンテンツ提供方法およびコンテンツ提供プログラム | |
JP5002631B2 (ja) | 単語情報収集装置、単語情報収集方法および単語情報収集プログラム | |
JP2010198350A (ja) | 検索装置及び検索方法 | |
CN107622125B (zh) | 一种信息爬取方法和装置、电子设备 | |
JP5297295B2 (ja) | WWW情報閲覧システムと方法およびWebブラウザとプログラム | |
JP5228529B2 (ja) | データ検索プログラム、データ検索装置およびデータ検索方法 | |
JP2004246422A (ja) | 情報検索支援装置 | |
JP6640519B2 (ja) | 情報分析装置及び情報分析方法 | |
JP2007148741A (ja) | Web検索支援サーバ | |
JP5039086B2 (ja) | 評価情報入力支援装置、評価情報入力支援方法およびその方法を実行させるプログラム | |
JP2013238939A (ja) | 推奨検索語提示システム | |
JP5040544B2 (ja) | コンテンツ関係登録方法 | |
JP2008052553A (ja) | ウェブテキスト抽出装置、方法及びプログラム | |
JP2007012100A (ja) | 人物情報に基づく検索方法および検索装置、あるいは情報提供システム | |
JP5222691B2 (ja) | 検索情報提供システム | |
JP5769648B2 (ja) | 関連語取得装置及び関連語取得方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120427 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120515 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120521 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5002631 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150525 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |