JP5068437B2 - イントラネット検索のための方法および装置 - Google Patents
イントラネット検索のための方法および装置 Download PDFInfo
- Publication number
- JP5068437B2 JP5068437B2 JP2005261230A JP2005261230A JP5068437B2 JP 5068437 B2 JP5068437 B2 JP 5068437B2 JP 2005261230 A JP2005261230 A JP 2005261230A JP 2005261230 A JP2005261230 A JP 2005261230A JP 5068437 B2 JP5068437 B2 JP 5068437B2
- Authority
- JP
- Japan
- Prior art keywords
- page
- pages
- level
- intranet
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Description
ここで、NLWは、特定のページ内のタームに関連する正規化されたタームレベルすなわち具体性である。NLは、この特定ページの階層内のタームの未加工のタームレベルであり、ページのルートタグから測ることができる。
ここで、TWは、特定のページについて、あるタームに割り当てられた全体的具体性に関連するターム具体性であり、TagWは、あるタームの直近の親のHTMLタグタイプに基づいてそのタームに帰されるタグ具体性パラメータである。これを実行するため、タグタイプごとにイントラネット全体で定義された一定値をタグタイプに割り当てることができる。例えば、イントラネット全体で最も共通するタグタイプに重み1を割り当て、他のタグタイプには、それらの相対的不明瞭さに応じて、より高い重みを割り当てることができる。例えば、重み2のタグは、重み1のタグに比べて頻度が半分であるとすることができる。また、例えばページ見出し中のタグをページ本文中のタグとは別様に扱うこともできる。例えば、見出し中のタグにはチューニング可能な重みを与えることができる。すなわち、任意の好適な手続きを利用して、種々のタグタイプに具体性レベルを割り当てることができる。
NDL=IDL−TDL、そして
r=((twK*NTW)+(nlK*NDL))の和
これらの数式におけるパラメータは以下の定義を有する。
201 ホームページ
210 第1レベルのページ
220 第2レベルのページ
230 第3レベルのページ
400 ページ構造
401 ルートタグ
410 ページ見出しタグ
411 ページタイトルタグ
412 見出しメタタグ
420 本文タグ
421 本文見出しタグ
422 本文テーブルタグ
423a,423b 本文段落タグ
424a,424b 太字フォントタグ
425a,425b アンカータグ
430a,430b,430c 内部テキスト
Claims (17)
- 少なくとも1つのルートページを含む複数のページを備えるイントラネットを処理するための、1つまたは複数のコンピュータが実施する方法であって、
(A)前記イントラネットをクロールして前記イントラネット中の前記複数のページを識別することと、
(B)前記識別したページのそれぞれについて、前記少なくとも1つのルートページから前記識別したページまでの最短パスのリンク数を表す第1の数を決定することと、
(C)クエリの具体性を表す第2の数を計算することであって、前記クエリの具体性が前記クエリに応答して返される潜在的ページの数と逆の関係を有することと、
(D)前記検索クエリに応答して選択されたページを提示することであって、前記選択されたページの提示は、前記クエリに対する各選択されたページの関連性を示し、前記関連性は前記第1の数を前記第2の数で調整した結果に基づくことと
を含むことを特徴とする方法。 - (E)前記識別したページのそれぞれについて、前記少なくとも1つのルートページから前記識別したページまでの最短パスのリンクの前記第1の数を示す情報を格納することであって、前記情報が前記イントラネット中の前記識別したページの階層レベルを指定すること
をさらに含むことを特徴とする請求項1に記載の方法。 - (F)前記識別したページの階層レベルと相関する前記識別したページの主題の具体性レベルを定めること
をさらに含むことを特徴とする請求項2に記載の方法。 - 前記主題の具体性レベルは、前記少なくとも1つのルートページからの最短パスのリンクの第1の数がより大きい識別したページについての値のほうが、前記少なくとも1つのルートページからの最短パスのリンクの第1の数がより小さい識別したページについての値に比べて大きいことを特徴とする請求項3に記載の方法。
- (E)複数のコンセプトページを複数のルートページであるように選択すること
をさらに含むことを特徴とする請求項1に記載の方法。 - 前記(A)は、前記複数のルートページのそれぞれから出発して前記イントラネットを通して複数のクロールを開始することによって、前記イントラネットをクロールすることを含むことを特徴とする請求項1に記載の方法。
- 前記(A)は、前記イントラネット中の前記複数のページのすべてを識別することを含むことを特徴とする請求項1に記載の方法。
- 前記複数のページの少なくとも1つは、HTML書式を備えることを特徴とする請求項1に記載の方法。
- 前記イントラネットは、ウェブサイトに関連づけられることを特徴とする請求項1に記載の方法。
- (E)識別したページごとに、前記最短パスのリンクの前記第1の数に関連する逆ページレベルを決定すること
をさらに含むことを特徴とする請求項1に記載の方法。 - (F)前記識別したページのうち、リンクのしきい値数より小さいリンク数の最短パスを有するページを除外すること
をさらに含むことを特徴とする請求項10に記載の方法。 - (E)前記複数のページの各ページをパースして前記ページ内の任意のタームを識別すること
をさらに含むことを特徴とする請求項1に記載の方法。 - (F)識別したタームごとに、前記ページのルートノードからの距離を決定すること
をさらに含むことを特徴とする請求項12に記載の方法。 - (G)識別したタームごとに、前記ルートからの距離を示す情報を格納することであって、前記情報が前記ページの前記識別したタームについての階層レベルを指定すること
をさらに含むことを特徴とする請求項13に記載の方法。 - 前記(D)は、前記クエリの具体性のレベルに関連する具体性のレベルを有するページを前記選択されたページとして自動的に提示することを含むことを特徴とする請求項1に記載の方法。
- 前記(D)は、前記選択されたページの具体性のレベルに相関づけられる順序で前記選択されたページを提示することを含むことを特徴とする請求項15に記載の方法。
- 請求項1乃至16のいずれかに記載の方法を前記1つまたは複数のコンピュータに実行させるコンピュータ実行可能命令を記憶したコンピュータ記憶媒体。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/967,003 US8595223B2 (en) | 2004-10-15 | 2004-10-15 | Method and apparatus for intranet searching |
US10/967,003 | 2004-10-15 | ||
US10/987,283 | 2004-11-12 | ||
US10/987,092 | 2004-11-12 | ||
US10/987,283 US7779012B2 (en) | 2004-10-15 | 2004-11-12 | Method and apparatus for intranet searching |
US10/987,092 US20060085427A1 (en) | 2004-10-15 | 2004-11-12 | Method and apparatus for intranet searching |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011209151A Division JP2012027938A (ja) | 2004-10-15 | 2011-09-26 | イントラネット検索のための方法および装置 |
JP2011209150A Division JP2012027937A (ja) | 2004-10-15 | 2011-09-26 | イントラネット検索のための方法および装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006114021A JP2006114021A (ja) | 2006-04-27 |
JP2006114021A5 JP2006114021A5 (ja) | 2008-10-23 |
JP5068437B2 true JP5068437B2 (ja) | 2012-11-07 |
Family
ID=35709117
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005261230A Expired - Fee Related JP5068437B2 (ja) | 2004-10-15 | 2005-09-08 | イントラネット検索のための方法および装置 |
JP2011209151A Withdrawn JP2012027938A (ja) | 2004-10-15 | 2011-09-26 | イントラネット検索のための方法および装置 |
JP2011209150A Withdrawn JP2012027937A (ja) | 2004-10-15 | 2011-09-26 | イントラネット検索のための方法および装置 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011209151A Withdrawn JP2012027938A (ja) | 2004-10-15 | 2011-09-26 | イントラネット検索のための方法および装置 |
JP2011209150A Withdrawn JP2012027937A (ja) | 2004-10-15 | 2011-09-26 | イントラネット検索のための方法および装置 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP1647904A3 (ja) |
JP (3) | JP5068437B2 (ja) |
KR (1) | KR101159342B1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6520362B2 (ja) | 2014-08-25 | 2019-05-29 | 富士通株式会社 | 生成方法、装置、及びプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08305729A (ja) * | 1995-05-10 | 1996-11-22 | Oki Electric Ind Co Ltd | ネットワーク情報フィルタリングシステム |
JP3615280B2 (ja) * | 1995-08-17 | 2005-02-02 | 沖電気工業株式会社 | ネットワーク情報検索システム |
JP2940459B2 (ja) * | 1996-02-08 | 1999-08-25 | 日本電気株式会社 | ノード・リンク探索装置 |
US6151595A (en) * | 1998-04-17 | 2000-11-21 | Xerox Corporation | Methods for interactive visualization of spreading activation using time tubes and disk trees |
US6658402B1 (en) * | 1999-12-16 | 2003-12-02 | International Business Machines Corporation | Web client controlled system, method, and program to get a proximate page when a bookmarked page disappears |
US7330845B2 (en) * | 2000-02-17 | 2008-02-12 | International Business Machines Corporation | System, method and program product for providing navigational information for facilitating navigation and user socialization at web sites |
US6785688B2 (en) * | 2000-11-21 | 2004-08-31 | America Online, Inc. | Internet streaming media workflow architecture |
JP4094844B2 (ja) * | 2000-12-27 | 2008-06-04 | 富士通株式会社 | 特定用途向けの文書収集装置、その方法及びコンピュータに実行させるためのプログラム |
JP3774145B2 (ja) * | 2001-12-21 | 2006-05-10 | 日本電信電話株式会社 | Webサイトの内部構造推定装置、内部構造推定方法、この方法のプログラム、このプログラムを記録した記録媒体 |
US7567953B2 (en) | 2002-03-01 | 2009-07-28 | Business Objects Americas | System and method for retrieving and organizing information from disparate computer network information sources |
-
2005
- 2005-08-30 KR KR1020050079882A patent/KR101159342B1/ko active IP Right Grant
- 2005-09-08 JP JP2005261230A patent/JP5068437B2/ja not_active Expired - Fee Related
- 2005-09-28 EP EP05108952A patent/EP1647904A3/en not_active Ceased
-
2011
- 2011-09-26 JP JP2011209151A patent/JP2012027938A/ja not_active Withdrawn
- 2011-09-26 JP JP2011209150A patent/JP2012027937A/ja not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
JP2012027938A (ja) | 2012-02-09 |
EP1647904A3 (en) | 2006-08-09 |
JP2006114021A (ja) | 2006-04-27 |
EP1647904A2 (en) | 2006-04-19 |
KR20060050806A (ko) | 2006-05-19 |
KR101159342B1 (ko) | 2012-06-25 |
JP2012027937A (ja) | 2012-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9507828B2 (en) | Method and apparatus for intranet searching | |
US11314824B2 (en) | System and method for block segmenting, identifying and indexing visual elements, and searching documents | |
US6691108B2 (en) | Focused search engine and method | |
US7447684B2 (en) | Determining searchable criteria of network resources based on a commonality of content | |
US8190601B2 (en) | Identifying task groups for organizing search results | |
EP1934823B1 (en) | Click distance determination | |
US7657546B2 (en) | Knowledge management system, program product and method | |
US8099423B2 (en) | Hierarchical metadata generator for retrieval systems | |
US7475074B2 (en) | Web search system and method thereof | |
US7756860B2 (en) | Advanced handling of multiple form fields based on recent behavior | |
US20100131563A1 (en) | System and methods for automatic clustering of ranked and categorized search objects | |
US20080294619A1 (en) | System and method for automatic generation of search suggestions based on recent operator behavior | |
AU2009223819A1 (en) | System, method, and/or apparatus for reordering search results | |
US20120166973A1 (en) | Presenting list previews among search results | |
CA2547800A1 (en) | Logo or image based search engine for presenting search results | |
US20050114317A1 (en) | Ordering of web search results | |
JP5068437B2 (ja) | イントラネット検索のための方法および装置 | |
US7490082B2 (en) | System and method for searching internet domains | |
US8117205B2 (en) | Technique for enhancing a set of website bookmarks by finding related bookmarks based on a latent similarity metric | |
Álvarez et al. | A Task-specific Approach for Crawling the Deep Web. | |
US8495483B1 (en) | Using text surrounding hypertext links when indexing and generating page summaries | |
Almuhareb | Arabic poetry focused crawling using SVM and keywords | |
Ogban et al. | On a cohesive focused and path-ascending crawling scheme for improved search results | |
Chakrapani et al. | Automatic Summarization on Aggregated Search Results | |
Moise et al. | Effectively Retrieving Related Pages on the Web using Focused Co-citation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080908 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080908 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110524 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110824 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120720 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120815 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150824 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5068437 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |