JP2010524096A - 検索検証システム及び方法 - Google Patents

検索検証システム及び方法 Download PDF

Info

Publication number
JP2010524096A
JP2010524096A JP2010502390A JP2010502390A JP2010524096A JP 2010524096 A JP2010524096 A JP 2010524096A JP 2010502390 A JP2010502390 A JP 2010502390A JP 2010502390 A JP2010502390 A JP 2010502390A JP 2010524096 A JP2010524096 A JP 2010524096A
Authority
JP
Japan
Prior art keywords
search engine
data object
engine
missed
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010502390A
Other languages
English (en)
Other versions
JP5439360B2 (ja
Inventor
デニス カークビー ステファン
ケレット ピーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Accenture Global Services GmbH
Original Assignee
Accenture Global Services GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AU2007901883A external-priority patent/AU2007901883A0/en
Application filed by Accenture Global Services GmbH filed Critical Accenture Global Services GmbH
Publication of JP2010524096A publication Critical patent/JP2010524096A/ja
Application granted granted Critical
Publication of JP5439360B2 publication Critical patent/JP5439360B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification

Abstract

ホスト検索エンジン(50)の検索結果を検証する方法であって、当該方法は、ウェブサイトを介して提供可能な全てのデータオブジェクトをスキャンエンジン(25)でスキャンするステップと、マッチングエンジン(35)を実行して、当該ホスト検索エンジン(50)によって見逃されたコンテンツを含むレポートのセットを生成するステップとを含む。

Description

本発明は、ウェブベースシステムの検索検証システム及び方法に関する。
ほとんどのウェブサイトは、当該サイトの訪問者が、興味のあるアイテムを見付けるための検索を実行できるように検索エンジン機能を備える。ウェブサイトがクライアントとの好ましい通信手段になればなるほど、ウェブサイトのオーナーは、自身のウェブサイトがユーザフレンドリーであること及びクライアントに有益な経験を提供することを保証することに特に関心を持つようになる。
ウェブサイト上での経験の結果に不満をもつクライアントは、サイトを所有する者に否定的な見方をもつ。当該ウェブサイトが、販売品の検索及び購入といった取引の案内のためのメカニズムをクライアントに提供する場合、当該クライアントは、所望の品物を迅速に検索して購入できないために品物の購入をやめてしまうかもしれない。政府機関のウェブサイトのような、クライアントに情報を提供するだけのサイトであっても、クライアントが所望の情報を検索可能であることをサイトのオーナーが保証することは重要であり、そうでなければ、ウェブサイトを所有及び/または運営する者への不満として否定的な見方が生まれてしまう。
ウェブサイトに関する問題点は、検索エンジンの有効性が試験不可能であることである。従来行われてきた全ての検索エンジン試験は、ブラウザを使用して手作業で行われ、その結果として、組織は自身の検索エンジンの問題点を「事後」に知ることとなっていた。
このことは、通常、クライアントがウェブサイト上の情報の検索を試行し、当該情報の検索が不可能であることを組織に報告するという、クライアントのフィードバックの結果として現れる。当然ながら、この方法に頼ってウェブサイトの検索エンジンによって見逃されるコンテンツに関する問題を探し出すことは、結果として、クライアントの否定的な見方を生み、かつ解決方法の発見の手段を提供しない。さらに、見逃されたコンテンツの認知後においては、当該組織が当該ウェブサイト検索エンジンに関する問題を手作業で調査して解決することが必要となる。
現在、検索エンジンの検証を実行して、当該検索エンジンが、ウェブサイト(またはリンクされた一連のウェブサイト)内に含まれる情報を全てカバーすることを保証する自動的な方法は存在しない。さらに、検索エンジンによるカバレッジ(検索範囲)(coverage)をチェックする手段も存在しない。上述したように、現在の解決方法は、クライアントのフィードバック(例えば、なぜ文書「a」が発見できないのか)が調査チームに到達した後に行われるものである。当該検索エンジンは、結果を送信するために使用されるが、それは当該検索エンジンがウェブサイトコンテンツの全てをどのようにインデックス付けしているかについての深い理解を伴っていない。なぜなら、検索エンジンは、何がすでにインデックス付けされているかは検証できるが、何が見逃されているかは検証できないからである。従って、検索エンジンチームで働いているスタッフは、当該スタッフが管理する検索エンジンのカバレッジを検証する積極的な手段を持たない。
本明細書における従来技術の記載は、当該従来技術が添付の特許請求の範囲の優先日における通常の一般的な知識の一部を形成することを自認または示唆するものでもない。
1つの特徴において、本発明は、ホスト検索エンジンの検索結果を検証する手段を提供する。当該手段は、ウェブインタフェースを介して提供可能な全てのデータオブジェクトをスキャンするステップと、マッチングエンジンを実行して当該ホスト検索エンジンによって見逃されたコンテンツを含むレポートのセットを生成するステップと、を含む。
当該レポートのセットは、ウェブインタフェース内のコンテンツの正確な位置を詳述した一覧表レポートを含んでも良い。追加のレポートには、ウェブサイトレポート内の「リンクが一番多いページ」を含めて、当該検索エンジンのオペレータが当該検索エンジンを調整する手助けをしてもよい。
当該レポートのセットは、ウェブインタフェースシステムに保持されている異なるウェブドメインを強調するウェブURLリストを含んでいても良い。
本発明の1つの実施形態において、ウェブインタフェースが提供することができる全てのデータオブジェクトをスキャンするステップは、将来の参照のための全てのオブジェクトのインデックスの作成を含む。1つの実施形態において、ウェブサイト内で入手可能な全てのワードのインデックスが生成される。さらに、入手可能な全てのワードのインデックスは、当該ワードの一意性に従って順序づけられても良い。例えば、密度解析が使用されて、スキャン中に検索されるワードの相対的な一意性が判定されても良い。
代替実施形態において、PDF、ワード、パワーポイント及び他の出力フォーマットの文書及び特性とともにページ、イメージ、テキスト、リンク、メタデータ及びスクリプトのような全てのオブジェクトが取得されてインデックス化される。
ウェブサイト内の入手可能な全てのワードをスキャンして取得する実施形態においては、一意的なワードが規定され、これらのワードは、マッチングエンジンを実行する際に、キーワードとして使用され得る。この実施形態において、当該キーワードは、検索エンジン内の適切なフィールド内に入力され、全てのキーワードについて、検索エンジンによって見付けられるかどうかが判定される。検索エンジンのフィールド内にキーワードが入力されると、当該検索エンジンによって見付けられたURLの結果のセットが、スキャンによって識別されたURLのセットと比較される。キーワードのスキャンによって識別されたURLのセットと、同一のキーワードの全てを見付ける検索エンジンの試行の結果との相違は、見逃されたコンテンツを示す。
本発明の1つの実施形態において、レポートのセットは、見逃されたコンテンツが存在するURLを含む。
他の特徴において、本発明は、ホスト検索エンジンの検索結果の検証システムを提供し、当該システムは、ウェブサイトの検索を実行することが可能なホスト検索エンジンと、ウェブインタフェースを介して当該ウェブサイトに入手可能な全てのデータオブジェクトをスキャンして見付けるスキャンコンポーネントと、当該スキャンコンポーネントによって見付けられた当該データオブジェクトを受信して、同一のデータオブジェクトを当該ホスト検索エンジンに送信して、当該スキャンコンポーネントから取得された当該データオブジェクトであって当該ホスト検索エンジンによっては見付けることができなかったデータオブジェクトを判定して、当該ホスト検索エンジンによって見逃されたデータオブジェクトを示すことが可能なマッチングエンジンと、を含む。
さらに他の特徴において、本発明は、コンピュータの動作を制御して、ホスト検索エンジンの検索結果を検証することが可能なコンピュータ命令コードを提供し、当該コンピュータ命令コードは、ウェブインタフェースを介して提供可能な全てのデータオブジェクトをスキャンするステップと、マッチングエンジンを実行して、当該ホスト検索エンジンによって見逃されたコンテンツを含むレポートのセットを生成するステップと、を実行する。
他の特徴において、本発明は、ホスト検索エンジンの検索結果を検証するためにコンピュータ可読媒体に包含されるコンピュータプログラムを提供し、当該コンピュータプログラムは、ウェブインタフェースを介して提供可能な全てのデータオブジェクトをスキャンするコンピュータ命令コードと、マッチングエンジンを実行して、当該ホスト検索エンジンによって見逃されたコンテンツを識別するレポートのセットを生成するコンピュータ命令コードと、を含む。
従って、本発明によるシステム及び方法は、企業のウェブサイト検索エンジンの「カバレッジ有効性」を検証する。当該システム及び方法は、ウェブサイト検索エンジンがインデックス化していないコンテンツ、すなわち見逃しているコンテンツがどこにあるかを通知し、より良い検索結果を導くことによってユーザの作業効率を向上させる。
本明細書に記載されている技術手段は、保存された実行可能命令によって実施でき、当該実行可能命令は、パーソナルコンピュータまたはサーバコンピュータのような1または複数の適切な処理デバイスによって実行される。
本発明は、本発明の例示の実施形態を示す添付の図面を参照して説明される。
ウェブサイト検索エンジンの検証の図である。 ウェブサイトの解析を行う際に通常使用される情報のデータベース及び情報のタイプの図である。 報告されたウェブサイトの検索性評価を含むウェブサイト訪問者の経験の調査結果を詳述するレポートの図である。 検索性評価指標及び検索エンジンのウェブサイトカバレッジのレポートの図である。 検索性評価指標及び検索エンジンのウェブサイトカバレッジのレポートの図である。 検索エンジンの検証プロセス中に発見されなかったURL(ウェブサイト)の詳細なリストを含む検索エンジンカバレッジレポートの図である。 ターゲット検索エンジンカバレッジ検証処理の結果のレポートの図である。 ターゲット検索エンジンカバレッジ検証処理の結果のレポートの図である。
本発明の実施形態は、様々なオペレーティングシステムソフトウェア(例えば、ウィンドウズ(Windows)、リナックス(Linux)及びソラリス(Solaris))を動作させる家庭のコンピュータ機器にインストール可能な実行可能コンピュータソフトウェアまたはASPサービスとして実行されるコンピュータ実行可能コンピュータソフトウェアに関する。当該ソフトウェアは、ウェブインタフェースを介してエンドユーザが入手可能な全てのデータオブジェクトをスキャンする。当該スキャンが完了した後、当該ソフトウェアは、解析マッチングエンジンを実行し、当該解析マッチングエンジンは、ホスト検索エンジンがスキャンソフトウェアに識別されたコンテンツを見落とした領域を詳述するレポートのセットを生成する。
1つの実施形態において、当該レポートのセットは、htmlベースであり、入手可能な全てのデータオブジェクトのスキャンと企業のウェブサイト検索の結果とで異なる物理領域を識別する。もちろん、見逃されたデータを識別して、当該企業の検索エンジンの問題を解決して、当該見逃されたデータを盛り込むために様々なレポートを生成できる。例えば、当該組織内のコンテンツの正確な位置を詳述した一覧表レポートを生成できる。ウェブサイト内の「最も多くのリンクを有するページ」(すなわち、最も内部に向かったリンク先になっているページ)を詳述したその他のレポートは、検索エンジンユーザの検索エンジンの調整に役立つ。これに関して、リンクされたページを使用する検索エンジンの調整は、一般的な企業の手法である。ウェブURL一覧表を識別するさらに他のレポートは、ホスト企業検索チームに対して、自身が有する異なったウェブドメインが強調表示されることにおいて有用である。
当該レポートの受取人は、当該結果を使用して、既存のウェブサイト検索エンジンのカバレッジを改善できる。例えば、既存のウェブサイト検索エンジンによってインデックス化されていないページにアクセスして当該ページのコードを再調査することは、オペレータが、当該ページ内にあるデータが見逃された原因がどのページコードなのかを理解することを可能とする。これに関して、JAVAスクリプト及び/またはフラッシュナビゲーション内のエラーは、ウェブサイトの全体がインデックス化されない原因として知られている。
当該レポートは、オペレータが、当該オペレータのウェブサイト検索エンジンの全ての問題を解決して完璧なカバレッジを保証することに役立つ。このプロセスは、反復プロセスによっておこなわれ、それによって、オペレータが、本発明の方法を実行するソフトウェアを使用して、当該オペレータの既存の企業検索の問題解決手段を検証する。
図1を参照すると、検索検証プロセス(本明細書においてはFindMaxプロセスと称される)が示されており、様々な検証手段が実行される相対的な位置が詳細に示されている。
例えば、当該FindMaxプロセスコンポーネント(10)は、クライアントウェブサイト(20)を保持するコンピュータ(1または複数)とは別のコンピュータ(1または複数)上で実行される。主FindMaxプロセス(10)コンポーネントは、スキャンエンジン(25)、FindMaxインデックス(30)、マッチングエンジン(35)及びレポートエンジン(40)を含む。
同様に、クライアントウェブサイト(20)は、様々なウェブサイト(45)及びクライアント検索エンジン(50)を含む。
図1に詳細に示されている実施形態においては、FindMaxプロセスコンポーネント(10)とクライアントウェブサイト(20)との間の5つの主要な方法ステップ(付随するデータ通信を伴う)が存在する。ステップ(10)において、スキャンエンジン(25)は、クライアントウェブサイト(20)のウェブページ(45)をスキャンする。ステップ(20)において、当該スキャンの結果として見付けられたデータオブジェクトは、マッチングエンジン(35)による使用のためにインデックス化される。これに関連して、FindMaxインデックス(30)が形成され、(当該インデックスの解析によって判別された)一意的なワードがクライアント検索エンジン(50)に返送される。
ステップ(30)において、当該一意的なワードは、クライアント検索エンジン(50)の検索フィールド内に当該ワードを挿入されることによってクライアント検索エンジン(50)へ返送される。クライアント検索エンジン(50)は、当該一意的なワードに関してウェブページを検索し、ステップ(40)において、当該一意的なワードに関するページが、マッチングエンジン(35)に送信される。マッチングエンジン(35)は、クライアント検索エンジン(50)からのページと、同一の一意的なワードに関してFindMaxインデックス(30)内に記録されたページとを比較して、同一の一意的なワードに関してクライアント検索エンジン(50)によって見つけ出されなかったFindMaxインデックス(30)内のページの全てを判別する。
ステップ(5)において、レポートエンジン(40)は、FindMaxインデックス(30)内に記録されたページとクライアント検索エンジン(50)によって取得されたページとの不一致に関するレポートを生成する。当該レポートは、クライアント検索エンジン(50)によって見逃されたデータを示す。ステップ(5)におけるレポートは、クライアント検索エンジンの操作に関与するオペレータによる後の解析ためにクライアントに送信される。当該検索エンジンがデータを見逃した原因を調査して、必要な修正措置を行うことをオペレータに可能とさせる。
もちろん、様々なレポートを生成して、検索エンジンのオペレータが当該オペレータの検索エンジンの欠陥を理解することを助け、当該オペレータが当該欠陥を修正することを助けることは可能である。本発明のシステム及び方法は、主に、ウェブサイトのユーザビリティの向上のために使用され得る評価指標のセットのうちの1つである検索カバレッジの問題に関する。これに関し、図2を参照すると、当該システムの主要コンポーネントを示した別の図が提供されている。図2においては、異なったタイプのレポートは、顧客経験レポート及びサイト品質レポートのように識別されている。
いずれの場合においても、ウェブサイトのユーザビリティの評価の基本的な見地は、検索エンジンのカバレッジである。ウェブサイトページのユーザに対する視覚表示が、他のウェブサイトよりも優れていても、ユーザによって探し求められる情報を検索エンジンが見付けられない場合は、高いレベルの不満が生ずるであろう。
1つの実施形態において、スキャンエンジンは、ブラウザを介してユーザに提供される全てのタイプのウェブオブジェクトをスキャンして解析する能力を有する。ウェブコンテンツがhtml、フラッシュ、AJAX、javaスクリプト及びファイル名の拡張子が.doc、.ppt、.xls等の異なったフォーマットの文書で構成されていることは一般的である。従って、この実施形態において、スキャンエンジンは、ロバスト(robust)で、柔軟で、かつ提供される様々なファイルタイプの全てを解釈することが可能であることが必要である。これは、多くの検索エンジンがこれらの異なったデータタイプをスキャンすることが不可能であるように、非常に複雑なプロセスである。
他の実施形態において、並列処理技術が実行されて、ウェブコンテンツをスキャンするFindMaxプロセスの能力が「高速化」される(すなわち、FindMaxプロセスは、1つのウェブサイトのスキャンに関する複数のプロセスを実行して、ウェブサイトのスキャンを完遂するのに必要な時間を短縮させることが可能である)。
他の実施形態において、スキャンプロセスを助成する学習技術が、FindMaxプロセスに組み込まれる。この構成においては、ウェブサイト内の重複コンテンツ及びリダイレクトのスキャンが特に重視される。例として、スキャンプロセスが、ウェブサーバの外に提供されるリダイレクトまたは重複コンテンツを検出する場合、当該スキャナは、当該リダイレクトの取得を自動的に停止し、さらに関係のあるコンテンツを引き続き重点的に扱うべきである。同一の概念は、重複コンテンツに適用することができ、これに関して、当該スキャナは、コンテンツ内のパターンを検出して、取得プロセスの一部として重複コンテンツを取得しないことを学習するべきである。従って、当該実施形態において、スキャンエンジンは、ウェブの性質をスキャンする際に「インテリジェントリアルタイム判定」を行う。
1つの特別な実施形態において、FindMaxプロセスは、全てのコンテンツを、当該全てのコンテンツがスキャンされる際にインデックス化する。見付けられたワードのインデックス化の単純なアプローチは、検索文字列(string)の存在頻度に基づいている。1つの実施形態において、頻度の考慮に加えて、インデックス化プロセスは、文脈(context)の相対的な重要性、他のトピックとの近似性及び他の重要な比較基準も評価する。これに関して、インテリジェントな知識マイニングアルゴリズムが使用されて、与えられた検索文字列にどの概念が関連しているのかが理解されて、関連する概念を含むべくクエリが自動的に拡張されてもよい。
高度な学習技術を使用する実施形態において、FindMaxプロセスが情報リポジトリ(repository)をスキャンする際に、FindMaxプロセスは、情報カテゴリ化の法則を学習し、当該リポジトリの構造をカテゴリツリーのセットとして表示する。この特徴は、FindMaxプロセスが、適用されないであろう条件に依存するのではなく、組織内の情報のカテゴリ化の固有のパターン及び情報の保存の固有のパターンを取得することを保証する。
結果として生成されたカテゴリツリーは、知識クエリ結果視覚化ツールに使用できる。これらは、ユーザが独自にブラウジングするためにも使用可能である。この視覚化ツールは、ユーザが組織の情報階層を理解することを助け、当該情報階層は、将来の検索を最適化するために使用される。
上述したように、スキャンが完遂されると、FindMaxプロセスは、内部検索エンジンから(上述の)自らのインデックスの出力を行い、当該出力を「ホスト企業検索手法」の出力とクロスマッチングさせる。このプロセスは、マッチングエンジンを使用して実行される。1つの実施形態において、当該マッチングエンジンは、FindMaxプロセスがウェブページ内の一意的な「ローカウント」のワードを当該FindMaxプロセスのインデックスから発見して、当該一意的なワードを当該「ホスト企業検索手法」内に送信するように構成される。その後、ホスト企業検索手法からの取得結果(URLである)は、FindMaxプロセスの出力とマッチングさせられる。FindMaxプロセスによって見付けられ、当該ホスト企業検索エンジンによって発見されなかったURLまたはウェブページは、その後、htmlレポートに詳述される。
図3を参照すると、ウェブサイトの評価レポートの例が示されている。当該レポートは、ユーザビリティ、品質、検索性(searchability)、アクセス性及び追跡性の個々の評価を提供する。これらの評価基準の各々は、ウェブサイトの有効性(すなわちユーザフレンドリー度)を判定するために通常使用される一般的な評価基準である。図3のレポート内で識別されている評価基準において、検索性特性は、検索エンジンの有効カバレッジに関する評価基準である。
図4a及び図4bを参照すると、特に検索性および検索エンジンのカバレッジに関するさらに詳細なレポートが提供されている。このレポートにおいて、一般的な検索性評価指標(文書プロパティ、HTML構造、内部リンクテキスト解析等)の特性に関して、さらに詳述されており、当該レポートの最後には、通常検索エンジンカバレッジ(General Search Engine Coverage)及びターゲット検索エンジンカバレッジ(Targeted Search Engine Coverage)の結果がレポートされる。
図5を参照すると、検索エンジンのカバレッジに関してさらに詳述されたレポートが提供されている。レポートのこの部分において、スキャンされたURLの全数に関する詳細情報が、検索タームの全数、検証されたURLの全数及び見付けられなかったURLの全数とともに提供される。当該レポートされた数値から、検索エンジンのカバレッジの評価として63.63%の総合評価が得られた。さらに、当該レポートは、検索エンジンによって発見されなかったURLの詳細なリストを含む。この特定のレポートを生成する本発明の実施形態において、発見されなかったURLへのリンクが提供され、ユーザが、当該リンクを容易に選択して見逃されたデータを含むページへ当該ユーザのブラウザを向かわせることが可能となる。
図6a及び図6bを参照すると、ターゲット検索エンジンカバレッジ解析の結果を詳述したレポートが提供されている。図6a及び図6bにおいて、当該レポートは、実際の情報を何も提供しない。
しかし、当該レポートは有用である。なぜならば、当該レポートによって、組織は、(その中に含むキーワードを有する)キーページが当該組織の検索エンジンによってインデックス化されており、検索クエリによってユーザがアクセス可能であることを確認できるからである。組織は、通常は、検索エンジンの最適化に多くの費用を消費する。当該最適化において、当該組織は、当該組織のウェブページに「キーワード」を与え、当該ページが検索エンジンに適切に識別されることを可能とする。しかし、インデックス化されていないキーワードを含むページ内で他のエラー(スクリプト及びリンク切れ)が発生した場合、当該組織による投資は無駄となってしまう。当該ターゲット検索エンジンカバレッジは、ページ上のこれらのキータームを識別して、当該キータームが適切にインデックス化されることを保証する。
本発明の概要において、本発明のシステム及び方法の実施形態は、オンラインスキャン、オンラインマッピング、オンライン検索、オンラインレポート及びオンライントラフィック解析によって、ウェブサイトの長所と欠点を明らかにする。
これらのプロセスは、以下のステップを含む。
1.スキャンステップ−ソフトウェアは、全てのオブジェクト(すなわち、全てのページ、全てのイメージ、全ての文書及び全てのリンク)を識別して、所与の時点において、サイトの時間及び日付スタンプの付された記録を形成する。
2.レポートステップ−レポートは、ウェブの所有に責任を有する管理者及び当該ウェブを維持する責任を有するコンテンツ制作者(publisher)に対して役立つ。
3.トラフィック解析ステップ−トラフィックマッピング及びトラフィックレポートが、「最終的な」解析の能力を提供し、既存の統計的トラフィック解析の結果を補完する。
4.検索ステップ−検索は、サイト管理者及びウェブ解析者が、正確に、サイトのオブジェクト及び特性の存在及び位置を識別することを可能とする。
5.マッピングステップ−ソフトウェアは、サイトのマップを生成し、ナビゲーション構造並びに全てのページ、イメージ、文書及びリンクへのリンク及びこれらからのリンクを識別する。
6.ブループリンティング(Blueprinting)ステップ−ブリープリンティングは、サイトのオーナーとサイトのコンテンツ制作者及び開発者との明確かつ明白なコミュニケーションを容易にする。
もちろん、ウェブサイトは動的であり、絶えず変化する。従って、ウェブサイトの解析を定期的に行って、検索エンジンのカバレッジを監視し、不足分すなわち見逃されたデータを補うのに必要な修正措置を定期的に行うことが必要である。FindMaxプロセスからのレポートは、検索エンジンのオペレータが、当該オペレータの検索エンジンを調整することを可能にする。これに関して、当該検索エンジンのオペレータは、当該レポートを以下の目的で使用できる。
1)PDF−特性領域が空、すなわち空値の場合に通知をする。
2)ファイル名と取得された結果を比較すること
3)取得された結果のURL全体を比較すること
4)(ユーザにコントロールされる特性の数を決定する変数を付加して)ページタイトルをスキャンすること
5)(ユーザにコントロールされる特性の数を決定する変数を付加して)本文コンテンツをスキャンすること
6)メタタグ(すなわちキーワード)を含めること
7)リンクのタイトルとページタイトルをマッチングすること
8)最も内部リンク数の多いページ
9)タイトルの複製等
もちろん、本発明は、例示的に説明され図示された実施形態に限定されず、技術的に均等なもの及びそれらの組み合わせも含む。
関連技術範囲の当業者は、本明細書に記載された発明が、具体的に説明されたもの以外の変形例、変更例を許容することを理解するであろう。本発明の趣旨及び範囲内にある全ての変形例及び変更例を本発明が含むことが理解される。
本明細書及び添付の特許請求の範囲の全てにおいて、文脈上他の意味に解すべき場合を除き、「含む」は、記載された要素もしくはステップまたは要素もしくはステップのグループを包含することを意味するが、他の要素もしくはステップまたは他の要素もしくはステップのグループを除外することを意味するものではないと理解されるであろう。

Claims (22)

  1. ホスト検索エンジンの検索結果を検証する方法であって、
    ウェブインタフェースを介して提供可能な全てのデータオブジェクトをスキャンするステップと、
    マッチングエンジンを実行して、前記ホスト検索エンジンによって見逃されたコンテンツを含むレポートのセットを生成するステップと
    を含むことを特徴とする方法。
  2. 前記データオブジェクトをスキャンするステップは、当該スキャンされたデータオブジェクトの全てのインデックスを生成するステップを含むことを特徴とする請求項1に記載の方法。
  3. 前記データオブジェクトが、
    a.ワード
    b.ページ
    c.イメージ
    d.テキスト
    e.リンク
    f.メタデータ
    g.スクリプト
    h.文書
    i.文書のプロパティ
    のうちの1または複数を含むことを特徴とする請求項1または2に記載の方法。
  4. 前記インデックスのコンテンツが、前記データオブジェクトの一意性に従って順序づけられることを特徴とする請求項2または3に記載の方法。
  5. 前記データオブジェクトの一意性は、前記データオブジェクトの密度解析によって判定されることを特徴とする請求項4に記載の方法。
  6. 前記データオブジェクトはワードであり、前記密度解析が、
    a.存在頻度
    b.文脈の相対的重要性
    c.他のトピックとの近似性
    のうちの1または複数に基づいていることを特徴とする請求項5に記載の方法。
  7. 前記マッチングエンジンが、前記スキャンするステップで取得されたデータオブジェクトを前記ホスト検索エンジンに送信することを特徴とする請求項1から6のいずれか1に記載の方法。
  8. 前記ホスト検索エンジンに送信される前記データオブジェクトが、一意的なデータオブジェクトに限定されることを特徴とする請求項7に記載の方法。
  9. 前記レポートのセットが、見逃されたデータを含む特定のウェブサイトページを識別するのに十分な情報を含むことを特徴とする請求項1から8のいずれか1に記載の方法。
  10. 前記マッチングエンジンには、特定の重要性を有するキーワードが与えられ、当該重要なキーワードを含むコンテンツが前記ホスト検索エンジンに見逃されているかを判定することを特徴とする請求項1から9のいずれか1に記載の方法。
  11. ホスト検索エンジンの検索結果を検証するシステムであって、
    ウェブサイトの検索を実行可能なホスト検索エンジンと、
    ウェブインタフェースを介して前記ウェブサイトに利用可能な全てのデータオブジェクトをスキャンして見付けるスキャンコンポーネントと、
    前記スキャンコンポーネントによって見付けられたデータオブジェクトを受信し、同一のデータオブジェクトを前記ホスト検索エンジンに送信し、前記スキャンコンポーネントから取得されたデータオブジェクトであって前記ホスト検索エンジンによっては見付けることができなかったデータオブジェクトを判定して、前記ホスト検索エンジンによって見逃されたデータオブジェクトを示すことが可能なマッチングエンジンと、
    を含むことを特徴とするシステム。
  12. 前記スキャンコンポーネントは、前記見付けられたデータオブジェクトをインデックス化するインデックス化コンポーネントを含むことを特徴とする請求項11に記載のシステム。
  13. 前記マッチングエンジンは、前記見逃されたデータオブジェクトのレポートを生成するレポートコンポーネントをさらに含むことを特徴とする請求項11または12に記載のシステム。
  14. 前記レポートは、見逃されたデータを含んでいると当該レポートにおいて識別されたウェブページへのリンクを含むことを特徴とする請求項13に記載のシステム。
  15. コンピュータの動作を制御してホスト検索エンジンの検索結果を検証することが可能なコンピュータ命令コードであって、
    ウェブインタフェースを介して提供可能な全てのデータオブジェクトをスキャンするステップと、
    マッチングエンジンを実行して前記ホスト検索エンジンによって見逃されたコンテンツを含むレポートのセットを生成するステップと、
    を実行することを特徴とするコンピュータ命令コード。
  16. 前記スキャンするステップによって識別されたデータオブジェクトをインデックス化するステップを実行することを特徴とする請求項15に記載のコンピュータ命令コード。
  17. 当該インデックス化されたデータオブジェクトを解析し、前記ホスト検索エンジンへの送信のために、一意的なデータオブジェクトのみを前記マッチングエンジンへ送信するステップを実行することを特徴とする請求項16に記載のコンピュータ命令コード。
  18. a.存在頻度
    b.文脈の相対的重要性
    c.他のトピックとの近似性
    のうちの1または複数に基づいて前記データオブジェクトの解析を行うことによって一意的なデータオブジェクトを判定するステップを実行することを特徴とする請求項17に記載のコンピュータ命令コード。
  19. ホスト検索エンジンの検索結果を検証するためにコンピュータ可読媒体に実装されるコンピュータプログラムであって、
    ウェブインタフェースを介して提供可能な全てのデータオブジェクトをスキャンするコンピュータ命令コードと、
    マッチングエンジンを実行して、前記ホスト検索エンジンによって見逃されたコンテンツを識別するレポートのセットを生成するコンピュータ命令コードと、
    を含むことを特徴とするコンピュータプログラム。
  20. 前記ウェブインタフェースを介して提供可能な全てのデータオブジェクトのスキャンによって識別されたデータオブジェクトをインデックス化するコンピュータ命令コードを含むことを特徴とする請求項19に記載のコンピュータプログラム。
  21. 前記インデックス化されたデータオブジェクトを解析して、一意的なデータオブジェクトのみを前記マッチングエンジンへ送信するコンピュータ命令コードを含むことを特徴とする請求項20に記載のコンピュータプログラム。
  22. a.存在頻度
    b.文脈の相対的重要性
    c.他のトピックとの近似性
    のうちの1または複数に基づいて前記データオブジェクトを解析することによって一意的なデータオブジェクトを判定するコンピュータ命令コードを含むことを特徴とする請求項21に記載のコンピュータプログラム。
JP2010502390A 2007-04-10 2008-04-10 検索検証システム及び方法 Active JP5439360B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AU2007901883 2007-04-10
AU2007901883A AU2007901883A0 (en) 2007-04-10 System & method of search validation
PCT/AU2008/000501 WO2008122091A1 (en) 2007-04-10 2008-04-10 System and method of search validation

Publications (2)

Publication Number Publication Date
JP2010524096A true JP2010524096A (ja) 2010-07-15
JP5439360B2 JP5439360B2 (ja) 2014-03-12

Family

ID=39830417

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010502390A Active JP5439360B2 (ja) 2007-04-10 2008-04-10 検索検証システム及び方法

Country Status (8)

Country Link
US (1) US10073919B2 (ja)
EP (1) EP2156333A4 (ja)
JP (1) JP5439360B2 (ja)
KR (1) KR101584123B1 (ja)
CN (1) CN101681375B (ja)
AU (1) AU2008235263A1 (ja)
CA (1) CA2686540A1 (ja)
WO (1) WO2008122091A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8818858B1 (en) * 2009-12-22 2014-08-26 Amazon Technologies, Inc. Ensuring appearance of merchant offering in network sites
US11195213B2 (en) 2010-09-01 2021-12-07 Apixio, Inc. Method of optimizing patient-related outcomes
US11544652B2 (en) 2010-09-01 2023-01-03 Apixio, Inc. Systems and methods for enhancing workflow efficiency in a healthcare management system
US20130262144A1 (en) 2010-09-01 2013-10-03 Imran N. Chaudhri Systems and Methods for Patient Retention in Network Through Referral Analytics
US11481411B2 (en) 2010-09-01 2022-10-25 Apixio, Inc. Systems and methods for automated generation classifiers
US20130253949A1 (en) * 2010-09-01 2013-09-26 Vishnuvyas Sethumadhavan Systems and methods for extraction of clinical knowledge with reimbursement potential
US11694239B2 (en) 2010-09-01 2023-07-04 Apixio, Inc. Method of optimizing patient-related outcomes
US11610653B2 (en) 2010-09-01 2023-03-21 Apixio, Inc. Systems and methods for improved optical character recognition of health records
US9280794B2 (en) * 2012-03-19 2016-03-08 David W. Victor Providing access to documents in an online document sharing community
US9875239B2 (en) 2012-03-19 2018-01-23 David W. Victor Providing different access to documents in an online document sharing community depending on whether the document is public or private
US9355384B2 (en) 2012-03-19 2016-05-31 David W. Victor Providing access to documents requiring a non-disclosure agreement (NDA) in an online document sharing community
US9594767B2 (en) 2012-03-19 2017-03-14 David W. Victor Providing access to documents of friends in an online document sharing community based on whether the friends' documents are public or private
US9779065B1 (en) * 2013-08-29 2017-10-03 Google Inc. Displaying graphical content items based on textual content items
US10430473B2 (en) 2015-03-09 2019-10-01 Microsoft Technology Licensing, Llc Deep mining of network resource references
US10698960B2 (en) * 2016-12-08 2020-06-30 MetaSense Digital Marketing Management Inc. Content validation and coding for search engine optimization

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050055342A1 (en) * 2000-11-08 2005-03-10 Bharat Krishna Asur Method for estimating coverage of Web search engines
JP2005276213A (ja) * 2004-03-22 2005-10-06 Microsoft Corp 検索結果適合性の自動最適化のためのシステムおよび方法
JP2006011851A (ja) * 2004-06-25 2006-01-12 Oki Electric Ind Co Ltd 文書合致度演算システム、文書合致度演算方法及び文書合致度演算プログラム
JP2006301975A (ja) * 2005-04-20 2006-11-02 Canon Inc 情報処理装置及び情報処理方法並びにプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7120574B2 (en) * 2000-04-03 2006-10-10 Invention Machine Corporation Synonym extension of search queries with validation
EP1189148A1 (en) * 2000-09-19 2002-03-20 UMA Information Technology AG Document search and analysing method and apparatus
US7925967B2 (en) 2000-11-21 2011-04-12 Aol Inc. Metadata quality improvement
US20030061028A1 (en) * 2001-09-21 2003-03-27 Knumi Inc. Tool for automatically mapping multimedia annotations to ontologies
US7225197B2 (en) * 2002-10-31 2007-05-29 Elecdecom, Inc. Data entry, cross reference database and search systems and methods thereof
US7685296B2 (en) * 2003-09-25 2010-03-23 Microsoft Corporation Systems and methods for client-based web crawling
CN1818908A (zh) * 2006-03-16 2006-08-16 董崇军 一种在搜索引擎中应用搜索者反馈信息的方法
US20070265999A1 (en) * 2006-05-15 2007-11-15 Einat Amitay Search Performance and User Interaction Monitoring of Search Engines
US20080027913A1 (en) 2006-07-25 2008-01-31 Yahoo! Inc. System and method of information retrieval engine evaluation using human judgment input
US20090292677A1 (en) * 2008-02-15 2009-11-26 Wordstream, Inc. Integrated web analytics and actionable workbench tools for search engine optimization and marketing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050055342A1 (en) * 2000-11-08 2005-03-10 Bharat Krishna Asur Method for estimating coverage of Web search engines
JP2005276213A (ja) * 2004-03-22 2005-10-06 Microsoft Corp 検索結果適合性の自動最適化のためのシステムおよび方法
JP2006011851A (ja) * 2004-06-25 2006-01-12 Oki Electric Ind Co Ltd 文書合致度演算システム、文書合致度演算方法及び文書合致度演算プログラム
JP2006301975A (ja) * 2005-04-20 2006-11-02 Canon Inc 情報処理装置及び情報処理方法並びにプログラム

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CSNG200300267014; 守村 篤、外1名: 'WWWを対象としたサーチエンジン間統合機能の実現' 情報処理学会研究報告 第2001巻,第70号, 20010718, p.111-117, 社団法人情報処理学会 *
CSNG200800063119; 佃 陽平、外3名: 'Web検索エンジンを用いた分野連想語の自動抽出に関する研究' 言語処理学会第12回年次大会発表論文集 , 20060313, p.648-651, 言語処理学会 *
JPN6012057758; 守村 篤、外1名: 'WWWを対象としたサーチエンジン間統合機能の実現' 情報処理学会研究報告 第2001巻,第70号, 20010718, p.111-117, 社団法人情報処理学会 *
JPN6012057761; 佃 陽平、外3名: 'Web検索エンジンを用いた分野連想語の自動抽出に関する研究' 言語処理学会第12回年次大会発表論文集 , 20060313, p.648-651, 言語処理学会 *
JPN7012004509; '"Search Engine Coverage Tool"' [online] , 20070205, p.1-3, searchenginecoverage.co.uk *

Also Published As

Publication number Publication date
CA2686540A1 (en) 2008-10-16
KR101584123B1 (ko) 2016-01-12
AU2008235263A1 (en) 2008-10-16
US10073919B2 (en) 2018-09-11
CN101681375A (zh) 2010-03-24
US20110072002A1 (en) 2011-03-24
KR20100022004A (ko) 2010-02-26
CN101681375B (zh) 2014-12-17
WO2008122091A1 (en) 2008-10-16
JP5439360B2 (ja) 2014-03-12
EP2156333A4 (en) 2011-08-17
EP2156333A1 (en) 2010-02-24

Similar Documents

Publication Publication Date Title
JP5439360B2 (ja) 検索検証システム及び方法
US10362050B2 (en) System and methods for scalably identifying and characterizing structural differences between document object models
US8285702B2 (en) Content analysis simulator for improving site findability in information retrieval systems
US9081861B2 (en) Uniform resource locator canonicalization
US10108699B2 (en) Adaptive query suggestion
US20140245438A1 (en) Download resource providing method and device
US8560519B2 (en) Indexing and searching employing virtual documents
US9135357B2 (en) Using scenario-related information to customize user experiences
US9792370B2 (en) Identifying equivalent links on a page
US10614500B2 (en) Identifying search friendly web pages
US20090319481A1 (en) Framework for aggregating information of web pages from a website
JP2004280569A (ja) 情報監視装置
US20140279991A1 (en) Conducting search sessions utilizing navigation patterns
AU2012227213B2 (en) System and method of search validation
US9420052B2 (en) Web navigation using web navigation pattern histories
Li et al. Exploiting attribute redundancy in extracting open source forge websites
Sodhi et al. Using stackoverflow content to assist in code review
KR101048590B1 (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
KR100458458B1 (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
KR20170044408A (ko) 프로젝트의 추천 시스템 및 방법
Asrigo et al. Improving E-Commerce Website Rank Using Search Engine Optimization (SEO)
US20120011427A1 (en) Systems and Methods for Linking Items to a Matter
Azizi QRTest: Automatic Query Reformulation for Information Retrieval Based Regression Test Case Prioritization
Trusz Content Management Systems and MD5: Investigating Alternative Methods of Version Identification for Open Source Projects

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121109

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130212

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130219

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130311

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130318

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130409

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130509

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20130823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131216

R150 Certificate of patent or registration of utility model

Ref document number: 5439360

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250