JP2006527886A - オンライン購入システム用のコンテント集合方法及び装置 - Google Patents
オンライン購入システム用のコンテント集合方法及び装置 Download PDFInfo
- Publication number
- JP2006527886A JP2006527886A JP2006517102A JP2006517102A JP2006527886A JP 2006527886 A JP2006527886 A JP 2006527886A JP 2006517102 A JP2006517102 A JP 2006517102A JP 2006517102 A JP2006517102 A JP 2006517102A JP 2006527886 A JP2006527886 A JP 2006527886A
- Authority
- JP
- Japan
- Prior art keywords
- product
- information
- product information
- category
- products
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/087—Inventory or stock management, e.g. order filling, procurement or balancing against orders
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Economics (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
製品情報源42、46からの複数の製品情報記録を処理するステップを有する方法である。ショッピングサーバ20は、小売商サーバ40及び/又は製造者サーバ44に保持されたウェブページ42、46等のインターネットアクセス可能な情報から製品情報を収集するための1又は1以上のウェブ巡回者を生成する。ショッピングサーバ20は、グループに集められた製品情報記録を形成するために製品情報を処理し、製品情報が同じ製品に対応する各グループに指定される。製品を特定するために、ユニークな製品IDが各グループに関連づけられた製品に対応する。分類における特定された各製品カテゴリを指定する。各製品用のグループに対応する製品情報記録における属性が見出される。各製品用の属性に基づいて製品特性を作成し、カタログ26を作成するためにカテゴリの指定された製品で各製品特性を分類に格納する。
Description
本出願は、2003年9月11日付け米国特許出願番号10/657,740及び2003年6月18日付け米国特許分割出願番号60/479,153の利益を得ることを主張し、その開示が参照としてここに組み込まれる。
本発明は、通信ネットワーク上の商品及びサービスのカタログを作成するためのシステムに関する。特に、本発明は、オンラインカタログシステム用のコンテントを集めるための方法及びシステムに関する。
インターネットは、TCP/IP(送信制御プロトコル/インターネットプロトコル)として知られる標準の一組のプロトコルを全て運用する種々のハードウェア通信リンクでリンクされたコンピュータの世界的なネットワークである。最近のインターネットの成長は著しく、ブラウザとして知られる閲覧用ソフトウェア及びインターネット上で通信するために使用される簡単なGUI(グラフィカルユーザインターフェース)を許容するHTTP(ハイパテキスト変換プロトコル)の広汎な使用によりほとんどの分野で支持されている。ブラウザは、一般に、インターネット上のコンテントにアクセスするために使用されるコンピュータ、すなわちクライアントコンピュータに備えられている。HTTPは、TCP/IPの構成要素であり、HTML(ハイパテキストマークアップ言語)、最近ではXML(拡張可能マークアップ言語)及びHTMLのXMLへの改良であるXHTML(拡張可能ハイパテキストマークアップ言語)として知られる標準のページ記述言語を使用する種々の書式(format)のファイルに対するユーザアクセスを提供する。HTTPを使用するインターネット上のサーバのコレクションは、「ワールドワイドウェブ(World Wide Web)」又は単に「ウェブ」として知られるようになっている。
従来よく知られ認められるように、種々のコンテントを有する多数のウェブページが目下存在する。興味ある種々のコンテントを有する種々のウェブページを獲得するためのこれらのウェブページの検索をユーザに許容するためにツールが開発されている。所望のウェブページをつきとめる1つの方法は、特定のキーワード又は複数のキーワードを有するウェブページを検索する「検索エンジン」を使用することである。検索エンジンは、典型的には、3つの構成要素を有している:巡回者(crawler)(ロボット、ボット、自動化されたサイト検索者等)、インデックス及びその検索結果をユーザに提示するソフトウェアプログラムである。キーワード用の検索において検索エンジンを使用することができるページのURLs及びテキスト等の他の情報を集めるために、巡回者は、ウェブサーバからウェブサーバに、及び、そこに集合しているサイトに自動的に巡回する。巡回者により集められた情報が完全なときは、そのウェブページに関係する情報は、検索エンジンのデータベースに格納され索引付けされる。ユーザが検索エンジンの検索フィールドにおけるキーワードにおいてウェブタイプから情報を探すときは、検索エンジンのソフトウェアプログラムは、データベースに格納された情報に適合するキーワードを見出すためにアルゴリズム関数及び判定基準を使用する。あるプログラムは各ページのテキストの全てを検索し、一方、他のプログラムはそのページのURLs及び/又はタイトルを単に検索するだけである。そして、ソフトウェアプログラムは、検索結果を分類し、ウェブページの関連に基づいてユーザに優先順位を付けた結果を提供する。種々の検索エンジンソフトウェアプログラムは、ウェブページの関連の決定用として使用する方法が異なっている。例えば、ソフトウェアはページの「メタタグ」を調べ、ページのテキスト上でキーワード存在数を数えるためのカウンタを含み、及び/又は、ウェブページのウェブマスタが検索結果として表示されるウェブページを有するために特別の編成をしているか等のウェブページの評判及び他のファクタを考慮してもよい。
ウェブの基本的な応用の1つは、ショッピング、すなわち、商品やサービスつまり製品の購入である。実際に各主要な商業用の「ブロック・モルタル」小売商(merchant)は、製品のショーケースや販売用のウェブサイトを設立している。更に多くの製造者がウェブ上で製品を直接販売している。そして、過剰なオンライン小売商は、ブロック・モルタル界に以前には存在していないが、存在するようになっている。結果として、実際に各製品は、複数の小売商からウェブ上での購入用として有効である。小売商の場所への物理的な移動を必要とせず複数の小売商から製品及び販売期間を容易に比較することを買い手(shopper)に許可することで、この状況が市場の効率を増加させている。
しかしながら、異なる小売商の製品や期間を比較するために、種々の小売商ウェブサイトを個別に「訪問(visit)」しなければならない。まず、各小売商ウェブサイト用のURLsの知識又はやっかいで不正確な検索エンジンの使用をこのことが要求する。よりすぐれた比較のために異なるブラウザのウィンドウに種々のサイトを開くことは可能である。しかしながら、各小売商ウェブサイトの種々の書式が製品や期間を直接比較することを飽き飽きさせている。購入決定をするときは、その購入又は複数の購入が個別の小売商ウェブサイトを通じてなされなければならない。更に、通常、買い手は、購入する前に、例えば、ユーザ名やパスワードを入力することで、それぞれの小売商ウェブサイトにログインすることが要求され、そして、次のサイトに進む。例えば、買い手が3つの異なる小売商から3つのアイテムを購入することを決定するなら、3つのログイン手順及び3つの購入手順、すなわち、小売商ウェブサイトで購入を生じさせるための手順が3つの小売商ウェブサイト及びそれらの独自のインターフェースを通じてそれぞれマニュアルで実行されなければならい。
複数のウェブサイトを「ショッピングポータル」として知られる1つの環境に統合することがよく知られている。ショッポングポータルは、通常、種々の小売商からの複数の製品を表示する統合されたインターフェースを表すウェブサーバを含む。従って、従来のショッピングポータルは、比較ショッピングを容易にし、このため、市場効率を増加させる。統合されたショッピング体験を提供するために、製品カテゴリの分類に編制された種々の小売商からの提案製品のカタログを準備することが知られている。しかしながら、製品情報記録を有する種々の小売商及び他のパーティは、情報を種々のデータ書式及びレイアウトで全て格納するため、製品カタログ用の情報収集は、大量のマニュアル操作を要求する冗長で長々とした集約的なタスクである。
本発明の1態様は、製品情報用として全く異なる書式を有する複数の製品情報源から製品情報を集めその情報を分類装置に格納することでコンピュータ読み取り可能な媒体に格納された製品カタログを作成する方法である。その方法は、製品情報記録が前記同じ製品に対応して適当であることに基づいて1又は1以上のグループに前記製品情報源からの複数の製品情報記録を処理するステップと、前記製品を特定するために、前記各グループに関連づけられた前記製品に対応するユニークな製品IDを相関させるステップと、前記分類装置における前記特定された製品用のカテゴリを決定するために、特定された各製品を分類装置のカテゴリと比較するステップと、各グループに対応する前記製品情報記録に基づいて、カテゴリ化された各製品用の属性を決定するステップと、前記決定された属性に基づいて製品特性を作成するステップと、前記分類装置の前記対応して決定されたカテゴリに前記製品特性を格納するステップと、を有する。
好ましい実施形態及び図面を通じて本発明を説明する。
統合されたオンラインショッピング体験及び製品カタログ生成を提供するための好ましい実施形態のコンピュータ構成を図1に示す。商取引(commerce)システム10は、HTTPプロトコルをサポートするブラウザアプリケーション14を実行するクライアントコンピュータ12を含む。クライアントコンピュータ12は、典型的にはISP(インターネットサービスプロバイダ)を通じて、通信チャネルとして動作するインターネット100に接続されている。例えば、クライアントコンピュータ12は、モデムを使用する従来のダイアルアップ接続、又は、ISDN(統合サービスディジタルネットワーク)、ケーブルモデム、DSL(ディジタル加入者回線)接続等のブロードバンド接続を通じてISPに接続される。ショッピングサーバ20も公知の方法でインターネット100に接続される。ショッピングサーバ20は、HTTPサーバアプリケーションとして知られ、メモリデバイスに格納されたウェブサーバ制御アプリケーション22を実行する。例えば、NCSAやAPACHEからの公衆ドメインウェブサーバソフトウェアアプリケーションを使用することができる。また、ショッピングサーバ20は、プライバシィのために安全な接続を使用するエージェントサーバ制御アプリケーション24も実行する(その機能は以下に詳細に説明する)。
複数の小売商サーバ40は、従来の商取引サーバ制御アプリケーション、すなわち、製品表示、オンライン注文、在庫管理等のオンライン店頭の主要機能のいくつかを実行するソフトウェアを使用するオンラインショッピングを提供する。小売商サーバ40及び商取引サーバソフトウェアは、公知であり、このため、ここでは詳細に説明しない。また、小売商サーバ40は、売り出す製品についての情報を含む製品情報記録を格納することができる。
好ましい実施形態では、クライアントコンピュータ12、ショッピングサーバ20及び小売商サーバ40のそれぞれは、SSLやS−HTTP等の安全な接続プロトコルを使用して通信することが可能である。非安全な接続30及び安全な接続32を明確に別々に示している。しかしながら、典型的には、これらの接続は、インターネット100等の同じ物理的接続や通信チャネル上で生じるものである。また、ショッピングサーバ20及び小売商サーバ40は、HTML書式及び/又は他の書式のファイルとしてメモリデバイスに格納された多数のウェブページを有している。また、ショッピングサーバ20は、以下に詳細に説明するようにメモリデバイスに格納された製品カタログ26及び買い手データベース28も含んでいる。
インターネット100を通じてショッピングサーバ20にURL要求を発することで、クライアントコンピュータ12は、ショッピングサーバ20に格納されたウェブページの表示を要求することができる。例えば、クライアントコンピュータ12のユーザ、すなわち買い手は、ショッピングサーバ20に格納され製品カタログ26からの製品情報で構成されたウェブページをナビゲートする(navigating)ことで購入用の1製品又は複数の製品を選択することができる。製品カタログ26は、データベースの形式でもよく、複数の小売商用の製品の記述、価格及び他の製品情報や以下に詳細に説明するような自動化されたウェブ巡回者を使用して小売商サーバ40から選び出された製品情報を含んでもよい。製品カタログ26の製品情報は、小売商サーバ40上の最新製品情報に対応して定期的にアップデートされる。しかしながら、以下に明らかとなるように、製品情報がリアルタイムにアップデートされる必要はない。
クライアントコンピュータ12のブラウザアプリケーション14で買い手に表されるようなショッピングサーバ20のインターフェースを使用する所望の方法で製品タイプ、識別番号、価格、キーワードや製品特色により、製品カタログ26からの製品情報を検索し表示することができる。その製品情報に基づいて1又は1以上の小売商サーバ40からのショップ比較及び製品選択を買い手に許容するために、クライアントコンピュータ12のブラウザウィンドウに複数の小売商サーバ40からの製品に関連する製品カタログ26における製品情報を並べて表示することができる。例えば、ユーザは、製品名や識別番号で特定のアイテムの全ての実例(instances)について検索してもよく、最低価格を有する小売商からその実例を購入用として選択してもよい。ショッピングサーバ20へのログインでは、例えば、特定データとしてユーザ名及びユーザIDを入力することで、ユーザが特定され、このため、ユーザは以前に登録したデータ及び好みを再入力する必要を回避することができる。
自動化された購入手順での好ましい実施形態の通信チャネル接続を図2に示す。明確にするため、以下の説明は、一般に、1つの小売商サーバ40のみに関連する。しかしながら、以下に説明する手順は、複数の小売商サーバ40からの複数の製品用として実行することもできる。例えば、「購入」ボタンをクリックすることで、ユーザが購入用の製品を選択すると、安全な接続32は、クライアントコンピュータ12及びショッピングサーバ20のエージェントサーバアプリケーション24間に確立される。そして、エージェントサーバアプリケーション24は、小売商サーバ40の商取引サーバアプリケーションと安全な接続32を平行して開設する。安全な接続32は、明確にするためコンピュータ間の直接の接続として示している。しかしながら、安全な接続32はインターネット100や他のタイプの通信チャネル上でのSSL接続であると理解すべきである。
また、図2に示すように、第1「クッキー」29(すなわち、サーバに使用されるべき特定情報等の情報を含むファイル)はショッピングサーバ20に確立され、第2クッキー18はクライアントコンピュータ12に確立される。第1クッキー29はその注文受容の処理(process)の状況を追跡することを小売商サーバ40に許容し、第2クッキー18はその注文場所処理の状況を追跡することをショッピングサーバ20に許容する。図3を参照すると、第1クッキー29はショッピングサーバ20及び小売商サーバ40間の注文受容セッションを特定する情報、すなわち、小売商セッションIDを含んでいる。特定する情報はいかなるキャラクタ列やコードでもよく、それにより小売商サーバ40が注文受容セッションを特定することができる。同様に、第2クッキー18は、「ナンス(nonce)」(すなわち、1回のランダム列)やクライアントコンピュータ12及びショッピングサーバ20間の注文場所セッションを特定する他の情報を含んでいる。ショッピングサーバ20は記録55を保持しており、その記録は、例えば、取引記録54(以下の図4の記述参照)を示すことで対応する取引記録54に第2クッキー18のナンスを関連づけるデータベースや索引テーブル等である。小売商サーバ40から報告される取引における変更は取引記録54に記録されるが、その2つが取引記録54に対するナンスからの指示の効果で同期されているためである。取引記録54は、対応する小売商セッションIDも含んでいる。従って、クライアントコンピュータ12を通じて注文を確認すること等で買い手がアイドル(idle)セッションを再開するときは、ショッピングサーバ20は第2クッキー18を検査し対応する注文場所セッション及び状況を特定し、このため、そのセッションを安全な方法で再開することができる。また、ショッピングサーバ20は、対応する第1クッキー29をつきとめ、対応する注文受容セッションを再開するために小売商サーバ40にそれを示すことができる。
典型的には、複数の注文場所があり、対応する注文受容セッションが同時に生じることを記憶に留めておく。上述したクッキー処理手順は、全てのセッションに正確に相関されるべきことを許容し、このため、シームレスのショッピング体験を許容する。小売商サーバ40の購入手順の実行の間に買い手の援助を実行するために、ショッピングサーバ20は、買い手データベース28に格納された情報を使用する。買い手データベース28は、彼らの名前、住所、ショッピング好み、クレジットカード番号、小売商アカウント情報(それぞれの特定小売商での買い手用のユーザ名及びユーザid等)、等の登録された買い手に関する適切な情報を含んでもよい。もちろん、買い手データベース28の全てのデータは、登録手順の間に収集され、安全のために公知の方法で暗号化されてもよい。
図4は、ショッピングサーバ20の購入手順、すなわちエージェントサーバ24の機能を非常に詳細に示している。買い手がショッピングサーバ20にログインした後、又は、別の方法で一意的に彼ら自身が特定された後に、その購入手順が通常開始することを記憶に留めておく。購入手順の第1段階では、買い手がカタログ26における製品を検索し、種々の方法で製品をブラウズし、1又は1以上の小売商サーバ40から購入用の1又は1以上の製品を選択する。ログイン後、エージェントサーバ制御アプリケーション24のメイン処理50は、買い手に対する表示用として購入フォームを生成する。買い手が現在の購入手順用の購入フォーム52における情報を変更することを所望する場合には、買い手は購入フォーム52を単に編集することができる。例えば、買い手が送付住所や発送方法を変更することを望むこともできる。もちろん、買い手データベース28におけるデフォルト(default)の買い手情報を変更するために買い手プロフィールを編集してもよい。そのような情報が買い手プロフィールとして買い手データベース28に存在していれば、その買い手に対応するデフォルトの買い手情報で購入フォーム52が自動的に予めファイルされている。そのような情報が買い手用として存在していなければ、情報を入力することが買い手に促され、その情報が現在の購入手順において使用される。現在の取引手順用として、メイン処理52は、取引状況を含む全ての取引情報(買い手データベース28からのクレジットカード情報、請求書発送住所、その他の情報及び製品カタログ26からの選択された製品の小売商SKUs、発送オプション、その他の情報)の追跡を保持する取引記録54も作成する。
また、メイン処理50は、購入処理56を引き起こし、対応する取引記録に購入処理56を指示する。クライアントコンピュータ12のブラウザインターフェースを使用して買い手が種々の製品及びオプションを選択すると、取引記録54がアップデートされる。与えられた時間で、個々の購入処理56及び対応する取引記録54をそれぞれ有する複数の買い手用として複数の購入手順があることに注意する。購入処理56は、メイン処理50と平行してその購入手順が完了するまで実行し続ける。購入処理56は、買い手の選択に基づいて取引記録54を絶えずアップデートする。そうする間に、メイン処理50は、アップデート状況用として取引記録54を調査する。このように、メイン処理50は、それぞれの購入手順の状況でアップデートされる。
購入手順の第1段階が完了すると、すなわち、買い手が全ての所望の製品及びオプションを全ての所望の小売商から選択すると、メイン処理50は、買い手による注文の認証用としてクライアントコンピュータシステム12のブラウザインターフェースを通じて、買い手に確認ページ58を示す。ショッピングサーバコンピュータシステム20及び適切な小売商サーバ40間の安全な接続32を使用して、ショッピングサーバコンピュータシステム20及び適切な小売商サーバ40間の通信で確認ページ58が生成される。特に、各小売商の検査ページ又は他の情報ページに自動的に進み、アップデートされた情報を検索することで、小売商サーバ40で所望の購入の価格情報、発送情報及び他の詳細情報を認証するために、ショッピングサーバコンピュータシステム20は、取引記録54における情報を使用する。小売商サーバ40を自動的にナビゲートすることを購入処理56に許容するために、小売商サーバ40の購入手順は、ショッピングサーバ20の購入処理に統合される。小売商サーバ40の特定の購入手順ステップを決定するために、バックエンドテストスクリプトその他を使用することができる。
特定の小売商用のアカウント(account)情報が買い手用として買い手データベース28に存在していれば、小売商サーバ40で購入手順を実行するときにそのアカウント情報が使用される。存在していなければ、小売商で買い手用として新しいアカウントが作成され、そのアカウント情報が後の使用のために買い手データベース28に格納される。ショッピングサーバ20は、買い手に対応する小売商アカウント情報を使用するため、買い手は、小売商サーバ40で直接ショッピングするかのように、好ましい購入者ポイントや他の特典及び割引を保持することができる。
好ましい実施形態では、オンライン商取引の不安定な状態のために完全にアップデートされない可能性のある製品カタログ26からの情報を使用するクライアントコンピュータ12及びショッピングサーバ20間で、確認ページ58を生成するときまで通信が続けられることを記憶に留めておく。従って、取引記録54における選択された各製品用として小売商サーバ40から獲得したリアルタイムの価格情報及び発送情報を確認ページ58は含んでいる。確認ページ58にまとめられた注文の買い手の確認を受信すると、取引記録54における全ての取引情報がセーブされ、同じユーザセッションで後で再開するための手順を許容するために第2クッキー18がセーブされる。買い手が確認ページ58上でボタンを選択するか他の操作を取ることで注文を確認するまで待つ間、購入処理56は、アイドル状態のままである。
購入手順の第2段階で購入取引が完了する。特に、小売商サーバ40で以前のユーザセッションを再開するために第2クッキー18が使用される。続いて、小売商サーバ40で購入手順を実行し、そして、購入処理を実行するために、取引記録54における情報を使用する小売商サーバ40で注文が実行される。そして、注文がショッピングサーバ20で確認され、取引記録54がアップデートされ、小売商サーバ40からの取引情報、確認番号、その他を示す受領書ページ60が生成される。もう一度、複数の小売商サーバ40から製品を選択することができ、その場合、それぞれの小売商サーバ40用として自動的に適切な買い手アカウント情報を使用する各小売商サーバ40上で複数の購入手順が実行され確認されることに注意することが重要である。
上述した購入手順では、小売商サーバ40との相互関係で買い手に代わってエージェントとして動作することをショッピングサーバ20に許容することが考えられる。しかしながら、ある小売商は、エージェントウェブサイトを使用する買い手を心地よく感じていない。特に、多くの小売商は、彼らのビジネス方式(model)における宣伝、提携プログラム、その他に頼っており、このため、ショッピング中に特に買い手が彼らのウェブサイト及び購入ページを訪問、すなわち直接閲覧すれば、彼らのビジネス目的が単に達成される。従って、上述した統合された購入手順の多くの利点を提案するために、ショッピングサーバ20のプロキシサーバモードを使用することができ、それと同時に、買い手に彼らのウェブサイト購入ページを訪問させることを望む売り主(vendors)を満足させることができる。
インターネットプロキシサーバは公知である。フレーズ「プロキシサーバ」は、一般に、ウェブブラウザ等のクライアントアプリケーション及び要求を妨害するためのウェブサーバ間に接続されるサーバに関連する。そして、プロキシサーバは、ウェブサーバに要求が指示されるように同じコンテントを十分に供給し、それと同時に、データの濾過(filtering)、データの監視(monitoring)、ウェブページのキャッシュコピー(cached copy)の供給等の補助機能を実行する。好ましい実施形態では、この一般的なコンセプトは、拡張され、統合されたショッピング環境に適用される。図2に示すように、プロキシサーバモードでは、クライアントコンピュータ及びショッピングサーバ20間、及び、ショッピングサーバ20及び小売商サーバ40間に平行な安全接続32が設定される。購入手順の第1段階は、標準モードに関しては、上述したのと同じ方法で実行される。プロキシサーバモードを使用するために、小売商データベース28は、小売商サーバ40の注文フォームにおけるフィールドを買い手データベース26におけるフィールドに配置するためのフォームマップを含むことが好ましい。フォームマップを公知の方法で開発するために外部の編集ツールが提供される。例えば、編集ツールは、HTMLフォームを読み取り、データフィールドを解析するために構成される。そして、これらのデータフィールドは、顧客データベース28における対応するフィールドに相互に関連づけられる。
購入手順の第2段階中に、クライアントコンピュータ12が小売商サーバ40からウェブページを要求するときは、小売商サーバ40の代わりにショッピングサーバ20に指示するために、ショッピングサーバ20がその要求を処理し、HREFs、すなわちHTML文書の参照文、及び、POSTs、すなわちHTMLフォームの提案をふるい分けする。小売商サーバ40がクライアントコンピュータ12にブランク(blank)フォームを送信するときは、そのフォームはショッピングサーバ20でインターセプト(intercept)され、そのフォームが買い手データベース26からの情報で満たされる。クライアントコンピュータ12が小売商サーバ40にフォームを返信するときは、ショッピングサーバ20は、買い手によりなされたフォームのコンテントにおける全ての変更を完全に保つ返信を再生成する。第1クッキー29及び第2クッキー18は上述したようにセッションを追跡する。
プロキシサーバモードでは、クライアントコンピュータ12に表示された確認ページ58又は他のページから購入ボタンを買い手が選択するときは、小売商サーバ40のショッピングカートページや他の購入ページが表示される。買い手は、クライアントコンピュータ12に表示されたように小売商サーバ40のインターフェースを使用して小売商サーバ40の購入手順をマニュアルで実行する。このマニュアル手順は、プロキシモードを要求する各小売商サーバ40用として実行される。従って、プロキシサーバモードでは、買い手は、小売商サーバ40で全ての購入ページを見て購入手順を実行する。しかしながら、ショッピングサーバ20は、フォームを満たすことで取り次ぎ、援助する。プロキシサーバモードを使用する購入手順の別の態様では、上述したプロキシサーバモードを使用しない購入手順と同様にすることができる。
本発明は、複数の小売商から統合された購入体験を許容することでオンライン商取引を容易にする。本発明は、インターネット、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、コンピュータの直接接続、その他のいかなるタイプの通信ハードウェア及びプロトコルを使用するいかなるタイプの通信チャネル上で実施してもよい。いかなるタイプのハードウェアやハードウェアの組合せを種々のクライアント及びサーバとして使用してもよい。従って、ここで使用される用語「コンピュータ」は、パーソナルコンピュータ、ポータブルコンピュータ、ダム(dumb)端末、シンクライアント(thin cliant)、携帯デバイス、無線電話、このようなデバイスの組合せ等のコンピュータデバイスやデータ端末のいかなるタイプにも関連している。種々のクライアント及びサーバは、単一の場所で単一のコンピュータでもよく、単一の場所又は複数の場所で複数のコンピュータでもよい。例えば、小型化するための種々の場所で共通に設置された複数の過剰なコンピュータでサーバを構成してもよい。適切なサーバやクライアントソフトウェアを使用してもよく、いかなる通信プロトコルを使用してもよい。電気ケーブル、光ファイバケーブル、その他のケーブル上で、ラジオ周波数、赤外線、その他の技術を使用する無線方法で通信することができる。購入用の製品を選択するためにいかなるインターフェースを使用してもよい。種々の情報は、いかなる書式で格納してもよく、このため、ここで使用される用語「データベース」は、データベースファイル、索引テーブル、その他のいかなるコレクションにも関連している。
先に示したように、製品カタログ26は、複数の小売商用の製品記述、価格、納入日その他の製品情報を含んでもよい。そのような製品情報は、以下に説明する自動化された巡回者を使用することで種々の情報源(sources)の製品情報記録から選び出され、小売商サーバ40で有効な現在の製品に対応して定期的にアップデートされてもよい。ここで使用される用語「巡回者」は、ネットワーク上でコンテントの検索を実行するいかなるソフトウェアにも相当しており、「ボット」、「ロボット」、「自動化されたサイト検索者」その他を含んでもよい。図1に示すように、商取引システム10は、ブラウザアプリケーション14を実行するクライアントコンピュータ12及びエージェントサーバ制御アプリケーション24を実行するショッピングサーバ20を含み、クライアントコンピュータ12及びショッピングサーバ20が通信チャネルを供給するインターネット100に接続されている。更に、好ましい実施形態では、複数の製造者のサーバ44も非安全接続30を介してインターネット100に接続されている。この点では、製品カテゴリの製品に関連するインターネット100に接続された複数の情報源から製品情報を集め、その集めた情報を分類のフォームで製品カタログ26に格納するためにショッピングサーバ20を使用してもよい。しかしながら、製品情報の集合がエージェントサーバセントラルアプリケーション24を実行するコンピュータとは別のコンピュータを使用して達成されてもよく、その結果の情報がエージェントサーバセントラルアプリケーション24を実行するコンピュータに有効とすることができることに注目すべきである。
図7は、製品カタログ26の分類700の例を示している。図7の分類は、米国特許出願番号??(分類の出願番号を挿入)に詳細に記載されており、その開示は参照としてここに組み込まれる。分類700は、第1階層カテゴリ714、第2階層カテゴリ716、第3階層カテゴリ720、製品仕様、すなわち特性718及び722を含んでいる。分類700は、ツリー状構造で定義され、そのツリー状構造ではカテゴリがカテゴリ内の製品用として仕様を定義する属性を含むことに注意する。製品仕様718及び722は親カテゴリの属性を引き継ぎ、属性用の数値及び適用可能な計測単位を含んでもよい。
複数の情報源は複数の小売商の情報源及び製造者の製品特性情報源を含んでもよく、それらは小売商のサーバ40及び製造者のサーバ44にそれぞれ配置されている。好ましい実施形態では、複数の小売商の情報源が小売商のウェブページ42であり、複数の製造者の製品特性情報源が製造者の製品特性ウェブページ46であることが適切である。更に製品情報記録の情報源を、種々の製品広告情報源とすることができ、製品広告情報源を、製品カテゴリの1製品又は複数の製品に関連する付加的な情報を報告し提供する製品広告ウェブページとしてもよい。実際には、製造者の製品特性情報源は、製品広告情報源のサブセットに過ぎないと考えてもよい。また、製造者がインターネット100上で直接製品を販売するときは、製造者のサーバ44は小売商のサーバ40と同じものの1つである。
好ましい実施形態では、ショッピングサーバ20は、複数の情報源を訪問するための少なくとも1つの巡回者を提供するために操作され、それらの複数の情報源は、製品カテゴリの種々の製品に関連するこれらの複数の情報源から製品情報を集めるために、例えば、小売商のサーバ40及び製造者のサーバ44で集められる。巡回者は、製造者のサーバ44で集められた製造者の製品特性ウェブページから製品フレーズ情報を集める製品広告巡回者72を含んでもよい。また、巡回者は、小売商のサーバ40で集められた小売商のウェブページから製品カテゴリにおける各製品の製品フレーズ情報及び価格情報を集める製品提案巡回者74を含んでもよい。もちろん、製品広告巡回者72が小売商のウェブページを訪問してもよく、製品提案巡回者74が製造者の製品特性ウェブページを訪問してもよいことに注目する。更に、製品広告巡回者72及び製品提案巡回者74の両者の機能を実行するために単一の巡回者が提供されてもよい。いかなるタイプの数の巡回者を使用してもよい。
好ましい実施形態では、製品広告巡回者72及び/又は製品提案巡回者74は、製品カタログ26から情報を集めてもよく、その情報は、製造者の特定や製品モデル、及び、コンピュータ言語を使用することで複数の情報源のそれぞれからの1つのフレーズ及びそのフレーズの少なくとも1つの特性を含むことが好ましい製品フレーズ情報に関連する。巡回者72、74で集められた「フレーズ」の用語は、製造者の製品特性ウェブページ46、小売商のウェブページ42及び/又は製品広告ウェブページ(示していない)等の情報源に現れる英数文字の1つの列又は複数の列に関連している。用語「特性」は、そのウェブページにおける英数文字の列のいくつかの属性に相当する。例えば、フレーズの特性は、そのウェブページにおけるそのフレーズの頻度、場所、フォントサイズ、フォントスタイル、フォントケース、フォント効果及びフォント色でもよく、同様に、語順の頻度(相互にすぐ次のフレーズ)及びフレーズの同時出現(相互に予め定められたワード中のフレーズ)としてもよい。更に、用語「コンピュータ言語」は、ここでは、上述したフレーズの特性のいずれか等の言語データを処理するためのコンピュータ分析を使用する言語のモデル化の学際的分野に関連して使用される。好ましい実施形態では、巡回者72、74及びそれらにより使用されるコンピュータ言語は、上述した機能を実行するために設計されたソフトウェアプログラムである。このため、コンピュータ言語を使用することで、製品広告巡回者72及び/又は製品提案巡回者74は、以下に説明する方法で処理し使用することができる製品フレーズ情報を集める。
上述したとおり、図5は本発明の好ましい実施形態の方法を示しており、製品広告巡回者72がコンピュータ言語モジュール75を使用して製品フレーズ情報を獲得する。獲得された製品フレーズ情報(すなわち、そのフレーズ及びそのフレーズの特性)は、更なる分析用として製品フレーズデータベース76に格納される。図1の商取引システム10は、ショッピングサーバ20を通じて、又は、他のコンピュータ/サーバ等の別の方法で、統計分析モジュール78を使用して製品フレーズ情報を更に分析し、それによりいずれかの与えられた製品カテゴリにおける製品フレーズのランキングを提供するために使用可能である。これらのランク付けされた製品フレーズは、典型的には、与えられた製品又は製品カテゴリの一般に見出される製品特性を表しており、製品フレーズデータベース76にも格納されている。
更に、以下に詳細に説明するように、本発明の好ましい実施形態では、格納された製品フレーズ情報を分析し、それにより製品フレーズデータベース76における各製品フレーズ情報が実際に製品特性であるかを決定するための特性定義ツール80を使用する。用語「製品特性」や「製品の複数の特性」は、製品や製品カテゴリを記述的に特性付けするワード、数、フレーズやそれらの組合せであると理解されるべきである。好ましい実施形態の特性定義ツール80は、図5の各ステップに示すように、ショッピングサーバ20や他のデバイスで実行するソフトウェアアルゴリズムである。
このため、例えば、製品広告巡回者72は、ウェブページ上で提供された製品フレーズ情報を獲得するために、コンピュータ製造者等の製造者のサーバ44(又は、製品広告情報源を有する他のサーバ)のウェブページのコンテントを検査してもよく、そのウェブページはフレーズ及びフレーズの特性を含み、同様にウェブページのURLアドレス及び他のメタタグに提供された情報を含む。そして、この製品フレーズ情報は、更なる分析用として製品フレーズデータベース76に格納される。本例では、コンピュータ製造者のホームウェブページは、おそらく、フレーズ「コンピュータ」を含むメタタグ、及び、そのホームウェブページ全体にフレーズ「コンピュータ」を有しており、そのホームウェブページはウェブページ上でテキストの残りからフレーズを区別する書式設定(formatting)及び位置決め(positioning)等の特別の特性を有していてもよく有していなくてもよい。コンピュータ言語モジュール75の使用のため、製品広告巡回者72は、ホームウェブページのメタタグにおける存在、ホームウェブページにおける頻度及び他の特別な特性等のフレーズ「コンピュータ」に関するそのような情報を認識し獲得することができ、それにより、ホームウェブページがコンピュータに関連すること及びそのホームウェブページにリンクしたウェブページもまたおそらくコンピュータに関連することを統計的に区別し、その結果、このフレーズが製品特性、特に製品カテゴリであることを決定することができる。
製品広告巡回者72は、正確な決定を確保するために、そのフレーズが製品特性であるかを決定する前に、リンクしたウェブページの重要な部分を通じて巡回することが好ましい。例えば、製品広告巡回者72は、製品フレーズ情報を集めるために、そのホームウェブページにリンクした複数のウェブページを通じて巡回してもよく、本例では、おそらくフレーズ「コンピュータ」の存在及び与えられた製品カテゴリに関連づけられるべきことが知られた他のフレーズ、例えば、フレーズ「MHz」、「フロッピ」及び/又は「Gb」等と共に配置されたフレーズ「Mb RAM」等を更に確認してもよい。統計的分析モジュール78によるそのようなフレーズの頻度及び特性の分析に基づいて、フレーズ「コンピュータ」を、製品カテゴリを定義する製品特性であると決定することができる。この点で、製品カテゴリ決定の正確性を確保するために、相互に関連する種々の製品カテゴリ及びもっともらしく関連づけられたキーワードフレーズと共に別のカテゴリデータベース79を提供してもよい。更に、カテゴリデータベース79に加え又はその代替として、製品カテゴリ決定の正確性を更に確保するために、人の確認処理を提供してもよい。
更に、ホームウェブページにリンクした複数のウェブページは、典型的に、その製品又は製品カテゴリの他の重要な特性を確認する英数文字列、すなわちデータ列を含んでもよい。また、ウェブページ上の場所、書式設定やその文字列の特性によりそのような文字列がしばしばウェブページの残りのテキストから区別されていることに注目すべきである。例えば、その文字列は、そのウェブページのトップ付近や左手側に配置され、ウェブページ上の他の文字列の大多数より大きなフォントサイズを有してもよい。この点では、そのような重要な文字列は、目立ったフォントサイズ、フォントスタイル(ボールド等)やフォント効果(イタリック体にしたり及び/又は下線を付したりすること等)等を有してもよい。本例のコンピュータに関しては、スピード、容量等のコンピュータの重要な属性/特性は、「Mb RAM」、「MHz」、「Gb」等のフレーズが付された文字列で示されることがある。コンピュータ言語モジュール75の使用のため、製品広告巡回者72は、頻度、場所、フォントサイズ、フォントスタイル、フォントケース、フォント効果、フォント色、語順や同時出現等のフレーズ及びそのフレーズの特性を製品フレーズ情報として認識し獲得することができる。そのような情報は、製品フレーズデータベース76に記憶されており、統計的分析モジュール78は、与えられた製品カテゴリにおけるフレーズ及び製品フレーズデータベース76に格納されたフレーズのランキングを提供するために使用される。特に、統計的分析モジュール78は、特定のフレーズが1又は1以上の特性の存在により強調されたことを認識し、その結果、そのフレーズに関連づけられた特性を有していない他のフレーズより高いランキングをその特定のフレーズ用として提供する。
本発明の好ましい実施形態では、製品フレーズ情報におけるフレーズが実際に製品や製品カテゴリを記述的に特徴づける関連した製品特性であるかを決定するために、製品フレーズデータベース76におけるフレーズのランキングされたリストが特性定義ツール80で更に分析されてもよい。特性定義ツール80が人の編集者により実行されることが好ましいことに注目すべきであり、このため、コンピュータ及び統計的分析モジュール78を使用して生成されたランク付けされたフレーズに関連して、社会通念の判定がなされてもよい。しかしながら、特性定義ツール80の機能を自動化/半自動化するためにコンピュータや他のロジックデバイスを使用してもよい。
図5に示すように、製品フレーズ情報におけるフレーズが製品特性であるかの決定は、好ましくは人の編集者により、ステップ81で実行される。そのフレーズが製品特性に関連しないと決定されると、そのフレーズ及び製品フレーズ情報が放棄され次のフレーズが分析される。そのフレーズが製品特性であると決定される(すなわち、そのフレーズが製品や製品カテゴリを記述的に特徴づけている)と、ステップ82に示すように、そのフレーズが数値列であるかのように決定がなされる。例えば、本例のコンピュータでは、好例の数値フレーズは、RAM、ハードドライブ容量、プロセッサスピード、等を定める数値である。フレーズが数値であれば、ステップ84で、対応する数値フレーズ用として範囲及び間隔が適切であり記録されているかが入力される。例えば、RAMについて、そのコンピュータモデルが32、64、96又は128MbのRAMで有効であるとしてもよい。この場合、範囲を32〜128Mb及び間隔を32Mbとしてもよい。
そして、ステップ86に示すように、その数値フレーズが評価可能かについて、すなわち、その数値フレーズが製品の品質を示しているかについて、及び/又は、製品の望ましさを満たしているかについて決定がなされる。容易に判断することができるように、RAMの量がそのコンピュータの容量及び望ましさを直接満たすため、RAMに関連づけられた数値を評価可能である。数値フレーズが評価可能であれば、ステップ88に示すように、評価の方向、すなわち、高い数値ほど優れているか、低い数値ほど優れているかが決定される。また、本例に関して、高容量のRAMを有するコンピュータは、低容量のRAMを有するコンピュータより望ましく、このため、高い数値ほど優れており、評価の方向は、数値フレーズの値が増加するときにより優れている。その方向は、人の編集者によりマニュアルで決定されるか、又は、例えば価格との関連でコンピュータや他のデバイスを通じて自動的に決定される。もちろん、数値であり評価可能な特定の製品特性では、低い数値ほど優れていてもよい。例えば、ノートブックコンピュータの重量では低い数値が高い数値より好ましい。同様に、評価の方向は、ステップ89に示すように、それぞれのフレーズのランキングを容易にする。このため、少なくともRAMの製品特性については、数値フレーズ「32」が「64」等より低くランク付けされる。数値フレーズを評価可能でなければ、ステップ89で、人の編集者が自らの製品知識及び経験に基づいて数値フレーズ用のランキングを入力してもよく、次のフレーズが分析される。もちろん、そのような数値フレーズは評価可能ではないため、そのフレーズ用のランキングは、評価可能な数値フレーズと比較しておそらく低くなる。
詳述したステップ82について、そのフレーズが数値でなければ、ステップ83で、そのフレーズが不連続か、及び、ステップ85で、不連続フレーズ用として計数された数値名が入力されたかの決定がなされる。例えば、本例では、フレーズ「CD−ROM」、「CD−R」及び「CD−RW」は全てコンピュータの特性でもある不連続フレーズである。そして、ステップ86で、不連続フレーズが評価可能であるかが決定される。評価されると、コンピュータ技術で知られるように、これらのCDメモリデバイスのそれぞれがコンピュータに対して異なるレベルの機能性を提供するため、それらが製品の品質を示すことができること、及び/又は、製品の望ましさを満たすことにおいて、これらの不連続フレーズを評価可能である。この点では、特性定義ツール80は、ステップ88に示すように、評価の方向を入力し、ステップ89に示すように、不連続フレーズのランキングを入力し同時に製品をランク付けする。本例では、フレーズ「CD−ROM」、「CD−R」及び「CD−RW」は、コンピュータ技術で評価されたように、コンピュータにおける望ましさの順である。もう一度、順序やランキングは、マニュアルで又は自動で決定されてもよい。更に、不連続フレーズが評価可能でなければ、ステップ89で、不連続フレーズ用のランキングが入力され次のフレーズが分析される。もちろん、そのような不連続フレーズは評価可能ではないため、そのフレーズ用のランキングは評価可能な不連続フレーズと比較しておそらく低くなる。
そして、フレーズが不連続でなく数値でもなければ、ステップ87に示すように、フレーズがフリーフォームテキストとして設定され、ステップ89に示すように、ランキングが入力され次のフレーズが分析される。そのフレーズが製品特性とみなされるため、そのようなフリーフォームテキストは比較的珍しい。しかしながら、特定の製品では、そのようなフリーフォームテキストが好ましく製品に数値を付加する場合もあり、反対に、製品の数値を減少させて好ましくない場合もある。例えば、製品上の自署(autograph)や書込み(inscription)は、製品に数値を付加するフリーフォームテキストとして考慮してもよい。
図5に示す本発明の好ましい実施形態では、特性定義ツール80に示すように、製品フレーズデータベース76に格納された製品フレーズ情報で分析が完了すると、その結果として得られた製品特性は(すなわち、その製品や製品カテゴリを記述的に特徴づけるフレーズ)、製品特性データベース90に格納される。更に、特性定義ツール80を実行することで、これらの製品特性が製品特性データベース90に格納され、また、製品や製品カテゴリにおける重要性の順にランク付けされる。このため、上述した本例のコンピュータでは、製品特性データベース90は、MHz、Mb RAM、Gb、CD−ROM、CD−R、CD−RW等の製品特性、及び、コンピュータを評価するために関連する多くの他の製品特性及び属性の記録を有してもよい。更に、特性定義ツール80の実行を通じて、これらの製品特性が同様にランク付けされる。以下に更に詳細に説明するように、個々の小売商ウェブページ上で種々の小売商から入手できる製品の評価に使用するカタログ26を作成し、その小売商ウェブページにより複数のオンライン小売商をシームレスに統合する単一のショッピングインターフェースを提供し、従って、オンライン環境における比較ショッピングを容易にするために製品特性データベースのこれらの格納された製品特性を検索し使用してもよい。
もちろん、本発明の上述した態様ではコンピュータに適用した例を説明したが、本発明はこれらに限定されるものではなく、製品広告巡回者72及び特性定義ツール80がどのように使用されるかの例としてコンピュータが選択されたに過ぎないことに注目すべきである。この点では、インターネット100等のネットワーク接続された環境上で有効に取引される全ての異なる製品及びサービスに対して本発明が適用可能であることを評価すべきである。このため、保険、財務サービス、レンタル、住居、運送、休暇パック、等を含む全ての商品及び多くのサービスに、上述した同様の方法で本発明を適用することができる。
図6は、本発明の好ましい実施形態に従い、オンライン小売商の製品提案を有効にし、製品特性に基づいて新しい製品記録を作成するための方法のブロックダイアグラムを示している。図で判るように、図6の下側の部分は、製品広告巡回者72により製造者の製品特性ウェブページ46及び他の情報源から集められたときに製品特性を決定するための方法を基本的に説明した上述の図5の略図を提供している。同様の方法で、製品フレーズ情報は、ショッピングサーバ20で生成される製品提案巡回者74により小売商のウェブページ42等の小売商の情報源から集めることができる。このため、製品広告巡回者72と同様に、製品提案巡回者74は、コンピュータ言語モジュール(不図示)を使用するフレーズ及びそのフレーズの少なくとも1つの特性を含む小売商のウェブページ42から製品フレーズ情報を集める。また、そのフレーズの特性は、ウェブページにおけるフレーズの頻度、場所、フォントサイズ、フォントスタイル、フォントケース、フォント効果及びフォント色、及び、語順の頻度、フレーズの同時出現である。
更に、1以上の製造者の種々のモデルを各小売商が提案しそうなため、製品提案巡回者74は、製品モデル及び製造者の特性に関する情報も獲得する。また、各製品が特定の小売商により設定された特別の価格でその特定の小売商を通じて購入されるため、小売商のURL、提案された各製品用の価格情報等の小売商特定情報もまた製品提案巡回者74により集められ、このため、製品、価格及び与えられた価格で製品を提案する小売商の特定に関する情報が全て互いに関連している。上述した集められた情報の全ては、製品提案データベース92に格納される。製造者の特定、製品モデル、製品フレーズ情報、小売商特定情報及び価格情報がどのように全て集められるかの詳細は、図5の製品広告巡回者72について上述した方法と基本的に同様であり、このため、繰り返しを避けるためここでは省略する。しかしながら、上述した教示に基づいて、そのような情報が製品提案巡回者74を使用してどのように集められ、製品提案データベース92にどのようにセーブされ、製品カタログ26の作成にどのように使用されるかは、当業者に明らかである。
このため、上述したコンピュータの例に関連して、コンピュータ小売商のウェブページ42で提案されたコンピュータの各製造及びモデルに関する要求された情報の全て及び小売商の関連したURL等の小売商特定情報を集めるために、製品提案巡回者74はコンピュータ小売商の種々のウェブページを訪問することができる。この情報は、更なる処理のために同じ書式で、製品提案データベース92に格納される。
図6に示すように、本発明の好ましい実施形態に従うと、上述した情報が集められ製品提案データベース92に格納されれば、種々の小売商の提案が図1に示すショッピングサーバ20の製品カタログ26に格納された製品情報にマッチすることが確認ツール93を使用して確認される。先に説明したように、ショッピングサーバ20の製品カタログ26は、複数の小売商用の製品記述、価格及び他の製品情報等の製品情報を格納し、それらの複数の小売商が自動化された製品提案巡回者74を使用して小売商サーバ40から選択されてもよい。ショッピングサーバ20は、クライアントサーバ12にアクセスして製品カタログ26に格納された製品情報を表し、それによりシームレスに統合された複数のオンライン小売商を有する単一のショッピングインターフェースを提供し、それによりオンライン環境における比較ショッピングを容易にする。
製品提案データベース92における各製品提案用として、ステップ94に示すように、製品カタログ26に相当する適合が存在するかを決定するために製品カタログ26が検索される。そのような適合が存在していれば、その確認は特定の製品提案用として完了したと判断され、製品提案カタログ92における別の製品提案が確認ツール93を通じて確認用として選択される。コンピュータや他の手段を通じて製品カタログ26にアクセスする人の編集者が確認ツール93を実行するようにしてもよいことに注目すべきである。しかしながら、確認ツール93はコンピュータや他の自動化されたデバイスで実行するようにしてもよい。
しかしながら、製品カタログ26に相当する適合が見つからなければ、製品提案データベース92に見出される新しい製品提案で製品カタログ26をアップデートするために、製品記録作成ツール95が実行される。この点では、製品や製品カテゴリのランク付けされた製品特性を製品記録作成ツール95に提供するために、上述した製品特性データベース90にアクセスする。そして、製品提案データベース92に見出された新しい製品提案用として製品カタログ26に記録を作成し、その記録により新しい製品提案用として重要な製品特性の獲得を保証するために、製品広告巡回者72を通じて獲得されたこのようなランク付けされた製品特性が使用される。製品記録作成ツール95を人の編集者が実行するようにしてもよいことに注目すべきである。しかしながら、製品記録作成ツール95は、コンピュータや他の自動化されたデバイスで実行するようにしてもよい。
同様に、コンピュータの例について、製品定義ツール80を通じて処理され製品特性データベース90に格納されたランク付けされた製品特性は、製品記録作成ツール95に提供され、このため、新しい記録が作成されるときに、新しい製品提案用として重要な製品特性の全てが獲得され製品カタログ26に納められる。これらの製品特性は、MHz、Mb RAM、Gb、CD−ROM、CD−R、CD−RW、等、及び、コンピュータの評価に関連する製品特性データベース90に格納された多くの他の製品特性及び属性を含んでもよい。また、もちろん、コンピュータ販売への適用は一例として選択されたに過ぎず、インターネット100等のネットワーク接続された環境上で有効に取引される全ての異なる製品及びサービスに対して本発明が適用可能であることに注目すべきである。
このため、この方法では、市場における有効な新しい製品提案に、製品カタログ26に容易に統合されるべきことを許容し、それにより、最新の製品及び価格の正確な提案をクライアントコンピュータ12に保証するために製品カタログ26が定期的にアップデートされる。しかしながら、先に評価したように、アップデートが製品提案巡回者74を通じて行われるため、製品情報はリアルタイムにアップデートされるばかりでなく、ショッピングサーバ20のバックグランドで定期的にアップデートされる。先に説明したように、ショッピングサーバ20のインターフェースを使用する望ましい方法で製品タイプ、識別番号、価格、キーワードや製品の特徴により購入用として有効な製品を表示するために、製品カタログ26上の製品情報を使用することができる。製品情報に基づいて1又は1以上の小売商サーバ40からショップを比較し製品を選択することを買い手に許可するために、クライアントコンピュータ12のブラウザウィンドウに製品情報を並べて表示することができる。全ての望ましい小売商から全ての望ましい製品及びオプションを買い手が選択すると、先に説明したように、望ましい購入の価格情報、運送情報及び他の詳細情報を確認する注文書を認証することで、買い手はショッピング及び「チェックアウト」を完了する。
上述した実施形態では、特性定義ツール80,確認ツール93及び製品記録作成ツール95は、コンピュータや他のデバイスを使用する人の編集者で行われることが好ましく、このため、それらの実行が半自動であることが注目される。本発明が異なる機能を有するこれらの異なるツールを提供するため、異なる能力及び知識を有する人の編集者が各ツールを使用することができる。例えば、確認ツール93及び製品記録作成ツール95を実行するためには比較的低レベルの能力及び知識を求められるが、特性定義ツール80を実行するためにはより高い程度の能力及び知識が求められる。それゆえ、ツール及びそれらの個々の機能が区別されることが好ましいため、本実施形態は有能な人資源の管理を許容し、特性定義ツール80を実行するために経験豊富な人の編集者を任命することができ、その他のツールを実行するために経験の乏しい人の編集者を任命することができる。もちろん、代わりの実施形態では、上述したツールが部分的に又は全体に結びつけられてもよく、また、コンピュータや他のデバイスを通じて自動的に実行されてもよく、このため、人の編集者の使用が不要となる。
本発明の他の実施形態を図8に示す。図8の実施形態では、小売商サーバ40及び製造者サーバ44等の複数の情報源から製品情報を集め、高度に自動化された方法で製品カタログ26を生成するために取り入れられる特性定義ツールを含んでいる。特性定義ツール800は、図8の実施形態におけるショッピングサーバ20等の汎用コンピュータ上で実行するソフトウェアの形式とすることができる。特性定義ツール800は、クラスタラ(集合)モジュール802、カテゴライザ(カテゴリ化)モジュール804、名称セレクタ/クレンザ(cleanser)モジュール806、イメージセレクタモジュール808、特性スクレーパモジュール810、補助キーワードジェネレータモジュール812、特性アグリゲータモジュール814、ディスクリプション(記述)ジェネレータモジュール816、類似製品ディスカバリモジュール818及びポストプロセッシング(後処理)モジュール820を含んでいる。
好ましい実施形態の特性定義ツール800のハイレベルの機能のフローチャートを図9に示す。図9のそれぞれのステップを以下にさらに詳細に説明する。ステップ900では、クラスタラモジュール802が小売商サーバ40に格納された記録等の複数の製品情報記録から小売商提案を分析し、同じ製品であることが最も起こりやすいことに従いそれらを集め、すなわちグループ化し、それぞれにUPID(ユニバーサル製品ID)を指定又は作成する。もちろん、製品情報は、上述した広告巡回者72等の巡回者を使用して製品情報記録から集めることができる。本実施形態では、巡回者は、特性定義ツール800による自動処理用として製品情報記録をそっくりそのまま引き出すことができる。
ステップ902では、分類のカテゴリに既に分類された他の製品とその製品との比較分析に基づいて、カテゴライザモジュール804が製品カタログ分類におけるカテゴリにそれぞれのUPIDを位置付ける。製品カタログ分類の決定は一般によく知られている。ステップ904では、名称セレクタ/クレンザモジュール806が製品記録のグループに見出される製品用の多種の異なった名称から最良名を選択し、製品の名称フィールドに一般に見出される余分に挿入されたテキストやつなげられたテキストの名称を除去する。そして、一致したスタイルであり、問題の特定のカテゴリ用として最も関連したコンテントのみを有するオプションの長い名称を組み立てる。
ステップ906では、サイズ、タイプ、品質、調和、情報源の信頼性その他の因子に基づいて、イメージセレクタモジュール808がグループにおける全ての種々の製品情報記録から最も好ましい製品イメージを選択する。ステップ908では、特性スクレーパモジュール810が各有効な製品情報記録からそれぞれの製品用として標準化された属性値をかき集め(scrape)、それを実行するかき集めの各行為に信頼等級を供給する。ステップ910では、補助キーワードジェネレータモジュール812が、標準化された属性用というより、それぞれのグループ用として拡張可能なキーワードに関連すること以外はステップ908の処理と同様の処理を繰り返す。
ステップ912では、多くのかき集めたもの(scrapings)を組合せ、各製品の各属性用の最終の数値を決定するために、重み付けされた決定用(voting)エンジンを使用することで、特性アグリゲータモジュールが特性スクレーパモジュール810の出力を処理する。また、ステップ810では、補助キーワードが種々のアルゴリズムの1つに基づいて標準化される。
ステップ914では、ジェネレータ816がそれぞれの製品を記述する短いテキストを構成する。そのテキストは、評価可能ではなく、ステップ810及び812で達成された属性値を使用するテンプレートに基づいている。例えば、製品の最も重要な特性に対する参照文で例示することができる多くの記述テンプレートの1つをランダムに選択し、単調さを回避するために重要でないワードやフレーズの変化を実行することでこれを達成することができる。最終ステップは適切な文の書式設定、句読点、大文字化を確保する。
ステップ916では、類似製品モジュール818が、アクセサリ、部品、コネクタ等の関連した類似製品、及び類似製品のセットを構成する組(bundle)やキットを認識する。マニュアルでも自動的でも種々の方法で信頼限界以下のいかなるアイテムも特別に取り扱うことができる。類似製品モジュール818を以下に詳細に説明する。
クラスタラモジュール802で実行されたクラスタリング(clustering)は、予め付されたUPIDを有していない種々の小売商提案を一緒にグループ化し、各グループ用として新しいUPIDを作成する処理である。この処理は、1製品対多価格の関係の結果となる。クラスタリングを可能にするために、多くの特徴が製品を記述する小売商の提案記録、製造者記録、配給者記録及びその他の記録(ここでは集合的に「製品情報記録」に相当する)から抽出される。
クラスタリングを製造者が実行してもよく、すなわち、処理の「プライマリ(第1)キー」は製造者名となる。このため、解決すべき第1の課題は、同じ製造者に対する参照文の異なるフォームが本当に同じであることを決定することである。異なる製造者の製品を偶然にクラスタリングするリスクは僅かであるが、それが生じたときは非常に重大なエラーとなり、それゆえ、このエラーを回避することがシステムにとって重要である。製造者の識別番号及びモデル識別子におけるパターンを発見することでシステムは非常に大規模になっている。このことが製造者を既に製品名のほかに分けていることの証しであり、−ある製品情報記録が製造者やブランド名を製品名フィールドの部分として含むケースは通常ではない。従って、クラスタリングに使用するための製造者名フィールドを構成するために第1パスを要求してもよい。
製造者名(又はブランド名)が別々に得られさえすれば、クラスタラモジュール802は、全ての製品情報記録を選択するためにサブ配列検索に使用するデータ列としてこの名称を付与し、その製品情報記録では製造者名がこのサブ配列で始まる。例えば、「ベル(bell)」で始まる製造者名を有する製品提案のスペース上でクラスタラモジュール802を開始することができる。「ベル アトランティック」、「ベル インダストリーズ、インコーポレイテッド」、「ベル マイクロプロダクツ」等の製造者列を有する製品提案を選択したときに、このことがデータセットを処理用として定義する。これらの名称は標準化され(「インコーポレイテッド」や「コーポレーション」等の不要な部分が除かれ)、カタログからの1製造者名とマッチする最小の製造者名がカタログから見出されるまで、更にワードが終端から除かれる。例として、「ソニー(sony)」を付している全てのデータプロバイダには今日では複数の異なる名称があり、このため、複数の「ソニー様(sony like)」製造者名のどれを「標準」として使用すべきかを決定するために更なる作業が要求される。そのシステムは種々のデータ情報源から製造者の別名を使用してもよく、更に、マニュアルでもUPCマッチ(小売商に製造者名を要求しない)を通じてでも、カタログが「ブートストラップされ(bootstrapped)」、製品が作成され、小売商提案が新しい製品に配置されたときに、別名を引用してもよい。
特定のパス用としてデータセットを定義した後、クラスタラモジュール804がクラスタリングするステップを開始する。多くの公知の標準AI「クラスタリング」アルゴリズムが存在しており、いずれの1つも基線(baseline)クラスタリングを満たすことができる。しかしながら、製品の十分なクラスタリングは、以下に説明するように多くの要素及び調整を有する基線クラスタリングをしばしば増加させることとなる。基線クラスタリング手順の単純な概要は以下の通りである:
a.いずれのクラスタ、すなわち製品グループもまだ存在しなければ、最初の製品が最初のクラスタとなる
b.別の方法で、密接な適合用のクラスタを通じて検索する
c.密接な適合であればそれを結合する
d.密接な適合がなければ、単独のクラスタとなる
a.いずれのクラスタ、すなわち製品グループもまだ存在しなければ、最初の製品が最初のクラスタとなる
b.別の方法で、密接な適合用のクラスタを通じて検索する
c.密接な適合であればそれを結合する
d.密接な適合がなければ、単独のクラスタとなる
「密接な適合」を決定するためのいくつかのアプローチがある。以下のセクションではそのアプローチの例について説明する。製品が同じであるもの、すなわち同じグループにすべきかを決定する第1のアプローチでは、製造者識別番号、可能であればUPCやモデルIDsを検査し、その名称における表面上の変化を標準化する。その間に、クラスタラモジュール802は、その可能性を制限するように、いくつかのパスを作成し、最初に別のクラスタであったものを一緒に組み合わせてもよい。この制限は、多くの場合では、クラスタラモジュール802の効力であり、その効力は、文字−数字パターンが、誘導的に、その工業周辺の種々の製品ファミリィにあると思われることを「それ自身に教える「こと及び不良データを除外するためにこの知識を使用することである。全てのデータ情報源が原始的であるアイディアル(ideal)ワールドでいかに動作するかに対して、不良データが一般的である事実のため、本当に、クラスタラモジュール802は、多くの点で異なって作動する。
一例では、1つの製造者がビデオカムコーダの全てに「VCM」の文字で始まり1以上の文字が続く識別番号を与えてもよく、そして3つの番号を与えてもよい。しかしながら、ある小売商は、製造者識別番号フィールドに彼らの内部のSKUをあちこちに挿入する(実際には非常に一般的な問題である)。小売商の内部のSKUは上述した番号−文字パターンに適合せず、実際には非常に異なるため、予想された書式における識別番号を検索するためにプログラムされたシステムは、内部のSKUを有する配列をエラーとみなし、記録の他の部分を検査し続け、その記録には問題の提案のクラスタリングを可能にするためにいくつかの他のデータが見出される(例えば、不良な製造者識別番号にもかかわらず、その製品名が完全な形であり、データベースにおける多くの他の提案に完全にマッチしている)。
クラスタラモジュール802は、製品のUPCを変更している(それらのほとんどがそのままではない)小売商に多くの方法を適応させることもできる。あるものは最初のゼロを除き、彼ら独自の内部の意味を有する1桁又は2桁を終端に加え、検査合計の桁を除く。自動化された試行錯誤を通じて、クラスタラモジュール802は、UPCsを引っ張る特定の小売商パターンを脱構成し再構成することを試みる。変換ルールが小売商の特有のUPCから最終的なUPCを十分に再構成することを調べるために、一定で完全なUPCが公知の少なくとも1つの情報源を有し、多くの公知の実践的な技術を適用することでこのことが可能とされる(例えば、ヒドゥン マルコフ モデルやスタンダードロジックプログラムを使用することでこれを行うことができる)。ヒドゥンマルコフモデル(HMM)は、制限された状態マシン(machine)の公知の変種であり、1組の状態Q、出力アルファベットO、変換確率A、出力確率B及び初期状態確率Piを有している。現在の状態は検出できない。その代わり、それぞれの状態が特定の確率Bを有する出力を生成する。通常、状態Q及び出力Oが考慮され、HMMが3つ(A、B、Pi)で示される。HMMsはスピーチ認識及び他の応用における使用するものとして知られている。
クラスタラモジュール802には以下に説明する多くの他の機能がある。図8のステップ900でクラスタリングが完了した後、ステップ900におけるオリジナルのクラスタリングと通常同じ方法を使用して、週及び月の期間を越えて現れる追加の小売商の提案がマッチ(適合)することの自動確認が実行される。
存在するとき、別の製品記述記録におけるアイテムが同じであり、このため、クラスタラモジュール802で同じグループに一緒にクラスタリングされるべきかを判断するために、モデルIDや製品名はしばしば最良の手がかりである。しかしながら、これが失敗となる多くの方法があり、失敗とみなすべきである。第1には、句読点及び大文字化にすぎず、以下の違い等である:
「$69.49 Sony MD−74 Mini−Disc player」
「$75.99 Sony MD74」
「$68.00 Sony MD 74 Mini Disc Personal Player」
「$69.49 Sony MD−74 Mini−Disc player」
「$75.99 Sony MD74」
「$68.00 Sony MD 74 Mini Disc Personal Player」
別のものはモデルIDに次のような余分な用語がつなげられている:
「$59.99 Sony Black MD 74」
「$68.99 Sony Silver MD−74 BB」
「$59.99 Sony Black MD 74」
「$68.99 Sony Silver MD−74 BB」
ここで、「BB」は「バスブースト」を意味しており、全てのそのようなモデルが有する単純な特徴であり、異なる製品であることを本当には示していない。対照的に、ブラック(Black)及びシルバ(Silver)間の違いは明確な違いを示している。シルバモデルを買い求める多くの人はブラックモデルを有することを望んでおらず、ある場合には、小売商が他の点では同じデバイスのもう1つよりはもう1色を担当してもよい。
句読点における違いを取り扱い解決するために基本的なロジックのみが要求されるが、次に示すように、製品やキットの色、サイズ及び優れた特徴等のアイテム用の特別な取り扱いを獲得することができる。
「$99.50 Special!Sony MD−74 Plemium Kit with Mini Speakers and Leather Case」(99.50ドル スペシャル、ソニー製MD−74、プレミアムキット、ミニスピーカ及びレザーケース付き)
この場合では、価格の違い;「キット」の存在;それら自身における又はそれら自身の製品の別のカテゴリであるべきことを示す製品データベースのアイテムの記述(スピーカ、ケース)が全ての手がかり、すなわち、この提案がMD−74を含み単なるMD−74それ自身だけではない製品の「組」である高い可能性があることを伝えている。
「$99.50 Special!Sony MD−74 Plemium Kit with Mini Speakers and Leather Case」(99.50ドル スペシャル、ソニー製MD−74、プレミアムキット、ミニスピーカ及びレザーケース付き)
この場合では、価格の違い;「キット」の存在;それら自身における又はそれら自身の製品の別のカテゴリであるべきことを示す製品データベースのアイテムの記述(スピーカ、ケース)が全ての手がかり、すなわち、この提案がMD−74を含み単なるMD−74それ自身だけではない製品の「組」である高い可能性があることを伝えている。
多くの場合には、曖昧な配列の適合が、提案が同じであるかのようないくつかの手がかりを提供し、情報源データのスペルエラに注意することにおいて重要である。スペルエラは、例えば、次の通りである:
「$74.50 Sony Mini−Disc Player MD−74」
「$69.49 Sony Mini−Discc [sic] Player MD74」
「$74.50 Sony Mini−Disc Player MD−74」
「$69.49 Sony Mini−Discc [sic] Player MD74」
第1パスとして、全体の配列上での曖昧な適合がクラスタリング用の第1の候補群を容易に完成させることができる。例えば、単独の曖昧な適合で、最初のクラスタとして数え切れない多数の提案から次のリストが選択される:
「Sony MD−80 Mini−Disc Player」(ソニー製MD−80 ミニディスクプレイヤ)
「Mini−Disc Player MD−74 from Sony」(ミニディスクプレイヤ MD−74 ソニー製)
「Sony New MD−74 music disc player」(ソニー製新MD−74 ミュージックディスクプレイヤ)
「M−740 Symphony Synth from Moog」(M−740 シンフォニィ シンセ ムーク製)
「Sony MD−74 Personal Music Device」(ソニー製MD−74 パーソナルミュージックデバイス)
「Sony 8−inch Mini−TV−80」(ソニー製8−インチ ミニ−TV−80)
「Sony MD−80 Mini−Disc Player」(ソニー製MD−80 ミニディスクプレイヤ)
「Mini−Disc Player MD−74 from Sony」(ミニディスクプレイヤ MD−74 ソニー製)
「Sony New MD−74 music disc player」(ソニー製新MD−74 ミュージックディスクプレイヤ)
「M−740 Symphony Synth from Moog」(M−740 シンフォニィ シンセ ムーク製)
「Sony MD−74 Personal Music Device」(ソニー製MD−74 パーソナルミュージックデバイス)
「Sony 8−inch Mini−TV−80」(ソニー製8−インチ ミニ−TV−80)
全てこれらは、テキストコンテントの明らかに重なり合う部分を有していることに注目する。しかしながら、「Symphony」及び「Sony」は67%の曖昧な適合を有している−両者のワードをつなげた12文字のうち8文字が同じであり、同じ順序である。いくつかの曖昧な適合の候補がまだ間違っていることをいかに避けることができないかをこのことが示している。それでもなお、クラスタラモジュール802が処理するために6製品だけを有しており600,000ではないことは、途方もなく大幅に制限されている。残りのものは、上述したリストにおける第1アイテムをリスト中の残りのアイテムから分けるために、MD−74及びMD−80間の違いが重要であることを特定するためのものであり、「Synth」(又は「Moog」)及び「TV」の存在が第4及び第6アイテムをそれぞれ無効にすることを決定するためである。
クラスタラモジュール802は特定のワードも無視する。上述した例では、ワード「New」及び「Player」は本当に何も加えないことに注目する。「New」は、全ての種類の製品市場で非常にしばしば使用される例外的なワードの一例であり、ランダムワードが取り扱われる方法とは別に取り扱われる。特に、新製品を中古品や修復製品から区別することを除いて、全ての目的で無視されるべきことが必要である。一方、「Player」は、初期クラスタを作成するための初期パスで役に立つが、しかしながら、この一語の存在対非存在が異なる製品としてカウントされることに、そのシステムはそのような大きな重要性を示していない。これは、「Player」が製品の全体のカテゴリに関連する「共通の名詞」である事実に基づいている。他の例は、「TV」、「CD」、「ビデオ」その他である。特に、クラスタリングステップ900の後の段階では、取引業者が製品名にそれを含めるか含めないかは単なるオプションであるため、共通の名詞が無視される。それらが初期クラスタに含まれるべき第1パスを作成することにおいて重要な手がかりである事実をこのことが取り除くものではない。
「MD−74」及び「MD−80」における「74」及び「80」等の番号は、製品の2つのモデルを互いに区別するために明らかに決定的である。一般的なルールとして、モデル名や製品名における異なる番号は、異なる製品であることを示すため採用すべきである。しかしながら、同様にこれを例外とすべき必要もある。例えば、次の通りである:
「$12.99 Hasbro Wayne Gretzky #13 ActionFigure」
「$13.99 Hasbro Wayne Gretzky 6−inch Action Figure Mighty Ducks」
「$12.99 Hasbro Wayne Gretzky #13 ActionFigure」
「$13.99 Hasbro Wayne Gretzky 6−inch Action Figure Mighty Ducks」
「13」及び「6」間のここでの違いは、これらが実際には同じであるときに異なる製品であることをクラスタラモジュール802に予想させる。これを解決するための最良の方法は、特定のカテゴリ用の属性が番号に表されることがあり、製品名の部分としてつなげられることもあることをシステムとして認識することである。この場合、スポーツアクションフィギュアは、可能な属性としてジャージ番号(「#13」)を有し、インチ単位の高さ(「6−inch」)を有する。これらのパラメータ用のシステムチェックを有することで、製品名配列での異なる番号の単なる出現のために適合の確率を劇的に低下させることを回避することができる。そのようなパラメータを発見しない場合、製品名に異なる番号が存在するときはいつでも、そのシステムは適合する製品の推定の確率を低下させる。
このことにもかかわらず、次に示す「3」及び「4」間の違い等の名称における付加的な番号がクラスタリングを除外する:
「$13.99 Hasbro Wayne Gretzky #13 ActionFigure Series 3」
「$14.99 Hasbro Wayne Gretzky 6−inch Action Figure Mighty Ducks Series 4」
「$13.99 Hasbro Wayne Gretzky #13 ActionFigure Series 3」
「$14.99 Hasbro Wayne Gretzky 6−inch Action Figure Mighty Ducks Series 4」
クラスタを分ける、すなわち特定の製品に相当するアイテムのグループを形成するために重要であると考えられる名称を決定するには、特定のカテゴリに専門化した小売商及び多くのカテゴリを広範囲にカバーする小売商間;同様に、特定のカテゴリに既にカタログ化された提案及び全体のカタログ間で、差分頻度分析が実行される。この分析の結果は、各カテゴリ用として、一般に全体の資料におけるよりそのカテゴリにおいて非常に頻繁にある用語のリストである。1つのカテゴリでの非常に一般的なワード(又はフレーズ)が、通常は、システムがそのカテゴリにおける製品間の差異を示していないとみなすワードであるため、これは、新アイテムのカテゴリ化に有効であり(後述)、クラスタリング用としても有効である。ワード「サーベル(saber)」を例としてあげる。これは全体の資料では稀に挙げられるワードであるが、アクションフィギュアでは非常に頻繁に挙げられ、「ライトサーベルと共に現れる」スターウォーズアクションフィギュアの優越に与えられる。ここで、システムが次のような2つの提案を見出したと仮定する:
「$5.99 Obi Wan Kenobi 6” Nabo garb withlight saber」
「$5.99 Obi Wan Kenobi 6” Naboo garb」
「$5.99 Obi Wan Kenobi 6” Nabo garb withlight saber」
「$5.99 Obi Wan Kenobi 6” Naboo garb」
通常は、一方にあり他方にない「サーベル」の存在はアイテムを異なるものとして計数する方に重きを置かれるが、しかしながら、このカテゴリにおいてあげられるべき「サーベル」についていかに一般的であるかのシステムの認識が、そのワードがオプションの記述的フレーズに過ぎず、一方のアクションフィギュアが他方に対して特別ではないことの可能性を高める。また、これは蓋然的であり評価されうる多くの因子の1つに過ぎない。
クラスタリングステップ900でシステムを援助する別の実際的なチェックは、前の確率をチェックすることであり、例えば、有効な製品情報記録や他の情報のコンテントで証明されるような、いかに多くの非常に類似した製品が市場にあるかを検査することである。その数値が高ければ、そのシステムでは製品名における重要でない差異でさえも疑わしくなる。しかしながら、その数値が低ければ、システムは重要でない差異を容認することができる。例えば、データベースに1つだけ又は2つの「アブラハムリンカーン アクションフィギュア」製品があると、追加製品を配置する提案の確率は比較的乏しい。対照的に、データベースに100以上の異なる「ルークスカイウォーカ アクションフィギュア」の製品があると、その名称における重要でない違いを有する新しいルークスカイウォーカの提案が非常によくある新しい異なるモデルであることを示唆している。換言すれば、間違ってクラスタ化されるルークスカイウォーカのアクションフィギュアの可能性は、最初は、非常に大きい−それが与えられたグループに属するチャンスは100のうち1である。一方では、2つのアブラハムリンカーンのアクションフィギュアがあると、そのクラスタ又は他のクラスタに属する提案のチャンスはすぐに50−50になる。これは、クラスタリング予測の信頼における因子となる。
グループ数の決定では、小売商の範囲は、(1)単一の小売商により提案された類似アイテムの最大の選択がそのアイテムのファミリィ用の最小のグループ数として供給されるように考慮されてもよく、(2)適切なグループ数であるように更なる手がかりを提供するために種々の小売商の製品範囲の相違点が推測されるように考慮されてもよい。例えば、システムが「ルークスカイウォーカ アクションフィギュア」に見られるような数百の提案を番地付けし、37の異なる「ルークスカイウォーカ」の提案のうち1つの小売商を仮定すると、システムは、(この1つの特定の小売商がデータセットにおける多すぎる提案を複製しないことを信じて)この製品のファミリィ用として少なくとも37のクラスタが必要であることを推定することができる。更にまた、既にUPID化された製品中に、全体の10の提案ごとに約1.5のユニーク(unique)な提案があると(例えば、KBキッズが23のそのようなアクションフィギュアを有しており、KBキッズのみにより提案されたものにおいて23のうち3がユニークなことを意味し、この種の割合がルークスカイウォーカのアクションフィギュアが既にUPID化された全ての小売商中に見出されるような割合の平均であることを意味する)、仮に、同じ歴史的相違点の割合を得るとすれば、いかに多くの推定された新しいユニークな製品が存在するかについて推定するために(UPID化された製品の提案をまだ有していない小売商の残りのセットを越える)、そのシステムはこの情報を使用することができる。これら全ての計測は、種々の一時的なクラスタリング結合の信頼レベルに重みを付けるために実施することができる「実際的」又は「実践的」計測に効果的である−上述した計測とよく一致する(すなわち、推定されたフィギュアに密接になる)結合は、その計測から大幅に外れるものより高い信頼レベルを有する。
名称、記述及び仕様がクラスタラモジュール802に2つの製品が同じであるかを決定することを難しくさせる多くの場合には、それ自身の価格が重要な、おそらく明確な因子である。例えば、1つの提案が7.99ドル($)であり別の提案が59.99ドルなら、そして表面的には同様の記述なら、同じ製品であることはなさそうである。しかしながら、いくつかの注意がある。まず、見切り品処分や在庫一掃セール、修復されたアイテム及び再認証されたアイテム(開封された箱内の返送された製品等)等の例外的な状況についてクラスタラが解析し分析することに注意すべきである。ある場合には、これらのアイテムは更にコストが下げられている。
仲買された別の違いは小売商価格における典型的な差分である。多くの第1階層小売商は、型通りに、30%まで又はあるディスカウント小売商以上に請求する。別の考慮は、価格競争力及びカタログにおける一貫性である。あるカテゴリでは、そのシステムは、既にカタログ化されたアイテムから、小売商間の価格変動が典型的には他のカテゴリのそれより大きいことを決定することができる。これら全ての因子を考慮した後、価格の違いがまだ大きければ、同じ製品にある提案の可能性がそれにつれ低下する。
小売商の価格設定を考慮せずに、ほとんどの小売商は−小売商価格及びそのMSRPの差として派生した明らかな「節約(savings)」を通常自慢するために製品のMSRPをリスト化する。小売商は、通常、製造者及び配給者から同じMSRPを取り入れるため、実際の小売商価格それ自身におけるMSRPであると解釈するものにおいて小売商が互いに同じとなる傾向がある。そして、この情報が有効であるときは、クラスタラモジュール802で重み付けがされ、実際には、小売商の価格設定と同様のものより重くなる。多くの他の因子も同様に、データがときどき不完全となるため(すなわち、小売商の誤植を通じて、又は、稀に、別の小売商が更に最新式のMSRPを反映しているのに対して旧式のMSRPを有する小売商を通じて)、ブール検査だけではなく、重み付けも行うべきである。
これらのパラメータに見出されるジレンマは、クラスタリングが理想的にはカテゴリ化の前に行われることである。クラスタリングが終了するまでカテゴリ化が終了しないにもかかわらず、このことは、製品のカテゴリ化のような試験的な推測を要求する。このため、クラスタラモジュール802及びカテゴライザモジュール804のアルゴリズム間の弁証的又は反復の処理流れは、ときどき望ましく、必然的でさえある。クラスタラモジュール802は、試験的なカテゴリ化の観点でクラスタメンバシップを修正するが、これに続いて、カテゴリ化が再度チェックされ、その場合にカテゴライザモジュール804は、そのカテゴリ「推測」を変更されたクラスタの結果として修正する。クラスタリングステップ900及びカテゴリ化ステップ902の両者の結果が安定化し、両者が要求された信頼限界を越えるまで、この反復の処理が続けられる。クラスタラモジュール802及びカテゴライザモジュール804の両者間の最も高い最小信頼スコアを有する両者の結果の結合が有力である。換言すれば、クラスタラモジュール802がクラスタC1及びC2を有し、カテゴライザモジュール804がカテゴリA及びBを出力するなら、下表1に示す成果のマトリックスが結果となる。なお、表1において、*印はクラスタリング信頼/カテゴリ化信頼を示している。
クラスタラモジュール802及びカテゴライザモジュール804の両者に0.70の信頼限界を仮定すると、そのシステムはクラスタC1及びカテゴリBで進行し、そのシナリオにおける最小信頼が0.71である−他のシナリオより優れており、上述した限界を両者とも越えている。もちろん、クラスタラモジュール802及びカテゴライザモジュール804の結果に相関関係を示す他のアルゴリズムを使用してもよい。
一般に、そのシステムは、2つの製品名において異なるワードが多くなるほど、それらが同じ製品であることの可能性が小さくなることを推測する。しかしながら、そのシステムは、知的方法で同義語、下位語、上位語を解釈できることが必要である。例えば、次のものを考える:
「Sony MD−74 mini−disc player」(ソニー MD−74 ミニディスクプレイヤ)
「Sony Inc., MD−74 muic listening device」(ソニー インコーポレイテッド、MD−74 ミュージックリスニングデバイス)
「Sony MD−74 mini−disc player」(ソニー MD−74 ミニディスクプレイヤ)
「Sony Inc., MD−74 muic listening device」(ソニー インコーポレイテッド、MD−74 ミュージックリスニングデバイス)
表面上、異なるワードが同じワードより多いように見える。しかしながら、「プレイヤ」は「デバイス」の下位語である(逆に言えば、「デバイス」は「プレイヤ」の上位語である)。一方では、「ソニー」及び「ソニー インコーポレイテッド」は同義語として扱われる。これらのワードは、適合について部分的な信頼を示している。モデル番号の適合を有する結合では、クラスタラモジュール802にとってこれらの提案を確信的にクラスタ化するためにはこれらの事実は十分であると思われる。
また、1つの製品がしばしば2つ又はそれ以上の変種を有する。例えば、トースタオーブンは、ブラック及びホワイトを有してもよく、そのモデルIDは以下のいずれかである:
「PG−400−B」(ここで、Bはブラックを示す)
「PG−400−W」(ここで、Wはホワイトを示す)
「PG−400」(ここで、テキスト記述はブラック、ホワイト又は両者の記載に続く)
「PG−400−B」(ここで、Bはブラックを示す)
「PG−400−W」(ここで、Wはホワイトを示す)
「PG−400」(ここで、テキスト記述はブラック、ホワイト又は両者の記載に続く)
他の例では、右/左利き用ゴルフクラブ等がある。これらは、同様のものとして次のように示される:
「タイトリスト プロ700 ドライバ R」
「タイトリスト プロ700 ドライバ L」
「タイトリスト プロ700 ドライバ R」
「タイトリスト プロ700 ドライバ L」
一般に、これらの変種は、いくつかの観点では表面上であるが、それでも別の個々の識別番号が製造者から付されており、特定の買い手に対する重要性は小さくない。それゆえ、それらにはユニークな製品IDsが与えられる。しかしながら、それらは、単一の製品ラインの部分に、又は、基本モデルの構成の変種(例えば、右利き用ゴルフクラブを基本モデルと考えれば、左利き用は変種であり、ブラックのトースタオーブンを基本モデルと考えれば、アーモンド色は変種である、等)に関連している。
製品をいかなる意図で集めるべきかは、部分的に手近な目的事項である。ところが、一般的にクラスタリングは、製品に対応する製品情報記録と一緒にグループ化することで、単一のモデル、すなわち製品を種々の価格提案に割り当てることに相当する。しかしながら、意味のある構成の変種があり、その変種は、技術的には異なるモデルとしてカウントされるが、しばしば顧客や小売商人(retailers)により「基本的に」同じモデルでありちょっと変更したスタイル、等であると考えられる。同様に、製品モデルはシリーズの部分であり、複数の製品シリーズが製品ファミリィの部分である等と考えられる。それゆえ、クラスタラモジュール802は、スーパー(上位)クラスタリング及び/又はサブ(下位)クラスタリングの複数のレベルを提供することができる。これらのレベル用として多くの可能な意味のラベルを付した図表中の1つは以下の通りである:
(1)製品ライン
(2)製品ファミリィ
(3)製品シリーズ
(4)モデル(*)
(5)モデルの構成
(1)製品ライン
(2)製品ファミリィ
(3)製品シリーズ
(4)モデル(*)
(5)モデルの構成
アスタリスク(*)は小売商の提案のレベルでクラスタラモジュール802により実行された基線クラスタリングを示しており、手順に従って、スーパークラスタリング(レベル1−3)及びサブクラスタリング(レベル5)の前に生じる。全ての5レベルの例では、384MBのRAMを有するFujistu ライフブック P−2040を挙げることができる。Fujitsuブランドは、「ライフブック」製品ラインを有し、そのラインにはノートブックコンピュータの「P」ファミリィを有し(「S」ファミリィに対して)、そのファミリィには「2000」シリーズを有し(「1000」シリーズに対して)、そのシリーズには「2040」モデルを有しており(2080及び2100モデルに対して)、選択的に384MBのRAMを有する製品のブランドを新しくすることができる(256又は512MB RAMを有するものに対して)。
クラスタリングの同じ基本的な方法は、ネーミングにおける違いの異なるセット及び問題のレベルに重要であると考えるか考えないかのいずれかの特徴を単に有する、いかなるレベルでも使用される。
カテゴリ化ステップ902は、分類700で適切なカテゴリにそれぞれのUPIDを指定する処理を含む。これは、2つの処理でたいてい実行される。第1に、その別名、同義語、上位語等に沿った公知の方法でそれぞれのカテゴリ用として定義された属性及び属性値セットを検査する。第2に、それぞれのカテゴリに既に分類された実際の製品情報記録を検査する。ケースを基礎とした理由付け、ジェネティックアルゴリズム、ニューラルネット等を制限されることなく含む分類用として、AI機械−学習アルゴリズムのいくつかを使用することができる。移入(importation)するものが機械−学習モジュールの呼び出しに先行する特徴抽出であり、特別な種類の機械−学習モジュールが使用されるほどではない。
カテゴリ化ステップ902の特徴抽出処理では、属性名、数値、計測の単位、ブランド名、製品記述に見出されるキーワード及びフレーズ等であっても、製品情報記録に見出される適合する各アイテムがそのカテゴリに存在する製品の利益となるようにカウントする。反対に、競合すると思われることが見出された製品は確率スコアが主として差し引かれる。結局、最終スコアは各カテゴリに対する各UPIDに達する。信頼限界がリーフ−ノード(leaf−node)カテゴリの1つ、ただ1つを越えることが望ましい。この結果が得られない少数の場合には、マニュアル(又は他の外部)の認証が使用されてもよく、すなわちカテゴリ化が異なる。
通常、市場の理由のため、再販者は製品用として非常に長く非常に「不快な」名称を付ける。再販者が検索エンジンの巡回者を彼らが人であるのと同じように喜ばせようとする−すなわち、彼らが考えられる関連テキストの各断片を製品名に含めることを望むことを意味するオンラインの世界では、このことが特に真実である。一方、彼らは、希望するグーグルやヤフー!検索上でランキングする検索結果が得られないことをおそれている。その結果は、
「Sony MD−74 Mini−Disc Player」
等の理想的な製品名がしばしば次のように製品記録に記載される。
「New Sony MD−74 (MD74、MD 74) Mini−Disc Player Personal Music Listening Device with Rebate(割引) and Free Leather Case(フリーレザーケース) Now For Grads and Dads(推奨中)」
「Sony MD−74 Mini−Disc Player」
等の理想的な製品名がしばしば次のように製品記録に記載される。
「New Sony MD−74 (MD74、MD 74) Mini−Disc Player Personal Music Listening Device with Rebate(割引) and Free Leather Case(フリーレザーケース) Now For Grads and Dads(推奨中)」
幸運なことに、実際には、全ての名称がこの長く無関係なものではない。しかしながら、名称除去ステップ904は多くの場合でまだ要求されている。UPID製品記録用として使用されるべき魅力的な名称スクリーンを決定する始めの明らかなステップは、非常に長いものを削除し長くないものを好んで選ぶことである。
好ましくない名称の別の種類は、ミニ製品仕様テーブルのように全てその名称フィールドに過剰に詰め込もうとすることであり、例えば、以下の通りである:
「Sony MD−74 23−hr battery(23時間バッテリ)、6 watt output(6ワット出力)、headphones(ヘッドフォン)、8 oz(8オンス)」
「これを次のものと一緒に考える:
「Sony Corp. MD−74 Mini−Disc Personal Music Listening Device」
ここで、両者ともほぼ同じ長さのため、名称単独の長さは助けにならないが、カタログ化する目的用としては後者が前者より好ましい。前者は製品記録からの多くの魅力的な名称及び属性値列を含んでいないことから、その名称に「デメリット」が指定され、すなわち、名称セレクタ/クレンザモジュール806で製品名として選択されることがないようにさせる。
「Sony MD−74 23−hr battery(23時間バッテリ)、6 watt output(6ワット出力)、headphones(ヘッドフォン)、8 oz(8オンス)」
「これを次のものと一緒に考える:
「Sony Corp. MD−74 Mini−Disc Personal Music Listening Device」
ここで、両者ともほぼ同じ長さのため、名称単独の長さは助けにならないが、カタログ化する目的用としては後者が前者より好ましい。前者は製品記録からの多くの魅力的な名称及び属性値列を含んでいないことから、その名称に「デメリット」が指定され、すなわち、名称セレクタ/クレンザモジュール806で製品名として選択されることがないようにさせる。
また、販売業者は、製品の名称とは別に情報の多くの他の要素を持ち込むため、製品情報記録の名称フィールドを過負荷(overloading)にする慣習を有している。実際には語彙においてこれを制限するものではない。しかしながら、特定の言語の役割は意味としては市場に関連しており、その市場は、マニュアルリストを通じた市場、又は、製品名を乱す市場の「フラッフ(fluff)」に、より一般的に含まれているワードの統計的なアカウント処理を通じた市場のいずれかである。統計的なアプローチは、更に自動化されることが魅力的である。この手順は、その名称において「市場言語」を有するようにタグ付けするために、市場言語を有していない同じ製品名を示す比較するデータセットと共にいくつかのサンプルデータを要求する。ワード/フレーズ頻度、ワードの近接及び他の標準の統計的NLP法を伴う差分分析は、それぞれのカテゴリの製品用として市場言語を構成する良好な確率的プロフィールを決定するために適用することができる。
名称セレクタ/クレンザ806が可能な名称を単純で簡潔で完全な製品名に制限すれば、任意のさらに長い標準の名称を生成するために望ましい。標準の名称は、それがカテゴリを通じて一貫したフォームに従うことを意味し、(a)最も重要な変種の構成要素(色、右手用等)及び(b)最も重要な属性(デジタルカメラの解像度等)のみに言及している。長い名称の信頼できる一貫したスタイルを有することは、短い名称又は長い名称をそれらの適用への最良の適合として表面化させることにおける最大の融通性をそのカタログを使用するものに経験させる。
ステップ906では、サイズ、タイプ、品質、調和、情報源の信頼性等に基づいて、イメージセレクタモジュール808が全ての種々の情報源から最も好ましいイメージを選択する。最も好ましいイメージの選択のために、種々のルール及び限界を使用することができる。例えば、そのイメージが特定の最小解像度及びサイズを有していてもよい。これに代えて、有効性の順に好ましい情報源(例えば、小売商サーバ40)のリストからの製品情報記録からイメージを使用するために、イメージセレクタモジュール808がプログラムされていてもよい。
ステップ908では、特性スクレーパモジュール810は、その情報源から製品仕様情報を標準化されたフォームで抽出するために、小売商、製造者、配給者、評論家等の情報源を形成するウェブページやPDF文書等の製品情報記録を解析し分析する。特性スクレーパモジュール810は、問題の製品情報記録のテキストを放棄するか又は残しておく。
特性かき集めステップ908は次のように実行される。まず、そのページの主要な製品仕様部分をクロス販売(cross−sell)やアップ販売(up−sell)の商品から、及び、リンクされたアクセサリ等から分けるために、DOM(文書対象モデル化)を実行する。次に、個別の仕様を一度に1つずつそのページに配置するために、異なる文、フレーズ及びテーブル構造を解析する。存在しないもの及び他の機能が別々に取り扱われ、このため、特性スクレーパモジュール810が間違ってこれらを製品に組み込むものとして構成することはない。属性名及び数値の両者用として種々の製品情報記録中に使用された特殊用語を標準化するために、同義語及び別名を解析することを実行する。「裂け目間に落ちることになる」新規な仕様を集めることを含み、問題の製品のカテゴリ用として予め定義された仕様に適合しないボーナス(付加的)キーワードや仕様が引き出される。属性名及び数値が両方見出されるか、単に数値列が見出されるかに基づいて、又は、属性名及び数値間にいくつかの無関係なワードが見出されるか、又は、テーブル中にラインの中断や隣接したセルがあるかに基づいて、かき集めのそれぞれの行為に信頼レベルが割り当てられる(これらのアイテムの全てがあるリスクを導入し、そのリスクでは、仕様がともかく変更され、制限され、放棄されており、それゆえ、あるべき仕様が正確に現れていないおそれがある)。また、スクレーパは、そのページで矛盾する情報(例えば、彼らが単一のサイズを販売するが、後で多くのサイズで有効であることを説明する)を取り上げることがあり、これが信頼を低下させ、そして正しいと思われるテキスト(すなわち、そのページで他の仕様と共に更に密接に配置されるテキスト)に更に高い信頼が与えられる。全てのこれらの方法の重み付けされた結合の結果は、かき集められた各製品情報記録から個別の各仕様用の信頼スコアである。
同義語、例えば「lb」に対する「lbs」、及び、変換、例えば「1kg」に対する「2.2 lb」の両方を取り扱い、各仕様用の標準への計測単位の変換及び認識を行うことはそのシステムにとってしばしば重要である。つまり、属性名が見出されないことは、ときどきその単位が正しい値であると確かに認めることができる(例えば、3.1メガピクセルのカメラでは、そのカテゴリ内での「メガピクセル」単位の一意性のため、「3.1メガピクセル」が解像度であると推論するために「解像度」のワードは必要ない)。番号はすべての様々に表現されたスタイルで解析されてもよく、そのスタイルは分数、ローマ数字及びコンマを有する書式を含んでいる。数値範囲は両方を属性セットアップにおける可能性として認識すべきことが必要であり、すなわち、「最小」及び「最大」の原始属性で構成される複合的属性を有している。異なるタイプの言い回しは、コンマで分けられた数値のリスト(例えば、1、2又は3プレイヤ)、ハイフンでつなげられた最小−最大範囲等の範囲を示してもよい。
本文タイプの属性は異なるルールを有してもよい。仕様では、ブールタイプ属性(ノー/イエス)が存在すべき属性名を要求し、ワード「イエス」を要求しない。正しく「ノー」値を決定することは、通常単純な「ノー」以外の他の否定する語(例えば、「選択的」や「含まれない」)を検索することをシステムに要求するため、やや扱いにくい。
他の場合では、特に複数の数値を許容する属性を有する場合、又は、数値それ自身の言語が明らかである場合は、製品名フィールドや製品テキストにおける限定的な記述での属性の包含により制限を要求するのに十分ではなく、例えば、「このHDTVテレビジョンは・・・」は、読み取り機に「HDTV」が「適合性」の属性に相当することをはっきり示している。
特定の製品情報記録からの情報源の文書は、しばしば、HTML、XML、PDFや他のタグに詰め込まれた(tag−laden)文書タイプである。これは特性スクレーパモジュール810に対する利益及び損失の両方であり、これらのタグが要求されている仕様を示すこともでき隠すこともできる。それゆえ、以下に示すように、複数のパス(タグを取り扱う異なる方法を使用すること)を使用してもよい。
1つの方法は、タグを解析することで単純にタグを無視することである。この方法は、単純であるが、実際に多くの仕様を得ることができる。例えば、ウェブサイトでアクションフィギュア製品ページから「高さ:6インチ」を読み取れるとするなら、HTML情報源では「Height:<TC><Font:Helvetica></B><I>6inches」として読み取ることができる。換言すれば、テーブル中での情報の位置を決めること、1つの欄から次の欄へフォントを変えること、等を目的とするタグが介在している。そのテーブルの一列でタグを単に混乱させることで(情報は1つの列に保ちながら)、スクレーパは「高さ:6」を見出し、その仕様がかき集められるように非常に近くなる。
しかしながら、多くの他の場合には、タグ付けは、望ましい結果を得るために、単に放棄されるというより解析され分析される。上述した同じ例で見ると、その列の上部には、次の語句を見ることができ、
「Phantom Series 4」(ファントムシリーズ4)
その列の下部には、次の語句を見ることができる。
「vehicle included」(乗り物を含む)
列記述のタグを保ち解析することで、特性スクレーパモジュール810は、「ファントムシリーズ4」が一列であり、「高さ:6インチ」が一列であり、「乗り物を含む」がもう一列であることを認知する。全てのタグが無視されると、特性スクレーパモジュール810は、この列の境界を失い、次のような連続した列を認知する:
「Phantom Series 4 Height:6 vehicle included」
このことは、解析し分析することを難しくし、おそらくいくつかのリスクがある。そのリスクは、アクションフィギュアが4インチの高さであり、6インチの乗り物と共にあることをそのシステムが考えてしまうことである。このため、実際にタグを解析しそれにより文書構造を保持することは重要である。
「Phantom Series 4」(ファントムシリーズ4)
その列の下部には、次の語句を見ることができる。
「vehicle included」(乗り物を含む)
列記述のタグを保ち解析することで、特性スクレーパモジュール810は、「ファントムシリーズ4」が一列であり、「高さ:6インチ」が一列であり、「乗り物を含む」がもう一列であることを認知する。全てのタグが無視されると、特性スクレーパモジュール810は、この列の境界を失い、次のような連続した列を認知する:
「Phantom Series 4 Height:6 vehicle included」
このことは、解析し分析することを難しくし、おそらくいくつかのリスクがある。そのリスクは、アクションフィギュアが4インチの高さであり、6インチの乗り物と共にあることをそのシステムが考えてしまうことである。このため、実際にタグを解析しそれにより文書構造を保持することは重要である。
タグ付けが有効である無数の他の方法がある。別の場合では、そのシステムがテキストブロックで仕様のリストが終了することを決定しようとする。例えば、仕様が終了するとき及びクロス販売製品のリストが始まるときに、製品情報記録は、フォントやテキストスタイルや段落インデントをしばしば変更する。この変化が注目されることが重要であり、クロス販売製品が主要な製品それ自身の特性として不意に構成されることはない(例えば、デジタルカメラ用の任意のアクセサリであるメモリカードを構成するには、カメラと共にあるものとして構成する)。
多くの製品情報記録は、全体で互いに密接な属性名及び価値を残念ながら配置しないテーブルを生成する。一例を下表2に示す。表2では、「あなたにふさわしいP−2000シリーズの構成」を取り上げている。
この例では、多くの変種のモデルが1つのテーブルに一緒にリスト化されており、各モデル用として正しく仕様を集めるために、ヘッダの列は解析され一度に1欄ずつかき集められる。
製品情報記録に見出されるいくつかのテーブルは、もっと複雑であり、多次元の結合の仕様を表している。ごく一般的な例は、パンツのウェストサイズ及び股下サイズの結合であり、通常、全ての可能な結合ではなくいくつかが有効である。下表3に一例を示す。なお、表3において、*印は奇数及び偶数サイズが有効を示し、**印は偶数サイズが有効を示す。
スクレーパ用として実際に下表4に示す「標準」テーブルを集めるためにそのテーブルが解析されるばかりではなく、注釈も理解されることに注目する。
システムは、属性について言及していない複数の情報源があるとき及びそれを記述する情報源が1つもないときに、いくつかの属性値を強制的にデフォルトの「ノー」や「ノン」に構成する。販売業者では、かれらの製品が特徴を欠落するときに記述せず、製品が特徴を有するときにのみそれを記述する傾向があるため、このことが必要とされる。例えば、ハイエンドなデジタルカメラの少数のみが交換可能なレンズを有している。製品ページにこの特徴の記述が全くなされていなければ、そのカメラがそれを有していないことが実際に保証される。しかしながら、販売業者は、このタイプのレンズを有する彼らのカメラを、仮に有していなくても、自慢するための機会を逃していない。それゆえ、システムは、特定のカメラ用として特徴の記述に失敗している複数の確かな情報源を見出したときに、このパターンを検出し属性「交換可能なレンズ」でデフォルトの「ノー」を始めることができる。
補助キーワードジェネレータ812は、標準化された仕様用より各カテゴリ用として開放キーワードに対する参照文と共に各製品情報記録を分析する。これらはDOM分析から続いており、DOM分析では、製品情報記録が仕様として前に置かれていると思われる列や証拠をシステムが認識し、システムでの予め定義された仕様にきちんと適合しない。この捉えたものが非常に特別な一度限りの仕様であり一方では裂け目間に落ち込む。例えば、50の異なるベビーカーシートには、「片手ハーネス解除」と称する僅かに1又は2の製品があるが、この特性は、属性がリスト化されているカテゴリでは認識され標準化された仕様ではない。それにもかかわらず、同じカーシート用の他の仕様と正しく一緒の製品情報記録の一組で表されることが、標準化された仕様に対し「付属書」の部類としてそのままフレーズを追加することをそのシステムに可能にする。(1)十分に標準化されていない多くの秘密でユニークな特徴があるカテゴリ、又は、(2)製造者が彼らの製品に新しい特徴を加えたときに現れる仕様の新しい組合せのトップにとどまるシステム管理者を援助することのために、このことは非常に強力な特徴である(その管理者は、警告され、多数の重なり合う補助キーワード仕様が特定のカテゴリ用として加えられたケースを再検査し、そのケースが標準化された方法で加えられるべき新しい仕様を構成するかを調べることを目的とする)。
好ましい実施形態の特性アグリゲータモジュール814は、ある製品情報記録に他より大きい重み付けを指定する決定用エンジンであり、特定の製品用として全ての製品情報記録からかき集められた仕様を最終セットに存在する仕様に組み合わせようとする。これは、多くの情報源中に見出される非常に一般的な矛盾を解消する。特性アグリゲータは、仕様のための複数の証言を見出すことに大きな重要性を指定し、−その仕様は、異なる書式を有し問題の仕様の基本的なコンテントで一致する複数の情報源のデータを有するように定義されている。
重みは自動的にセットされてもよくマニュアルでセットしてもよい。自動的なセットでは、時間において、最終結果でその製品情報記録がいかにしばしば取り消されるかの結果となる。重み付けには、完全な製品情報記録上の全体、単に1つのカテゴリ、1つのカテゴリにおける単に1つの属性、そのカテゴリにおける1つの属性の単に1つの数値、そのカテゴリにおける製品の単に1つの製造者のいずれかをセットすることができる。また、イメージ信頼用として、全体的に、カテゴリごとに、製造者ごとに、カテゴリにおける製造者ごとに個別に重み付けすることができる。
好ましい実施形態の類似の製品モジュールの主要な構成要素は、以下の通りである:
1)製品及びカテゴリ間のアクセサリ関係を制約と共にマニュアルで定義するため、及び、自動的に作成された類似の製品として指定の特定の製品を注視するか又はマニュアルで無視するための製品関係ツール、2)関係のある製品関係が自動的に「発見された」ところからの生の情報源データを捜索するための論理及びアルゴリズムを含む類似製品エンジン。
1)製品及びカテゴリ間のアクセサリ関係を制約と共にマニュアルで定義するため、及び、自動的に作成された類似の製品として指定の特定の製品を注視するか又はマニュアルで無視するための製品関係ツール、2)関係のある製品関係が自動的に「発見された」ところからの生の情報源データを捜索するための論理及びアルゴリズムを含む類似製品エンジン。
以下の関係を全て定義することができる。
カテゴリ−カテゴリ関係:カテゴリAの製品がカテゴリBの製品と類似することを条件として要求する。特性の制約は任意である。例えば、コンパクトフラッシュ(登録商標)カードは、PDAのカテゴリと類似であり、その関係用として得るためにPDA用のメモリモジュールタイプが「コンパクトフラッシュ」であることの制限を有している。
カテゴリ−製品関係:製品のカテゴリが特定の製品と類似であることを条件として要求する。一例としては、完全なカテゴリとして採用された「XBOXカートリッジ」が特定の製品「XBOXゲームコンソール」と類似である。
製品−カテゴリ関係:特定の製品が完全な製品のカテゴリと類似であることを任意の制約と共に条件として要求する。例えば、特定のレザーケースは「デジタルカメラ」の完全なカテゴリと類似であり、「形態因子」の特性が「コンパクト」として示される条件を有している。
製品−製品関係:特定の製品が別の特定の製品と関係することを条件として要求し、例えば、特定モデルのプリンタカートリッジが特定モデルのフォトプリンタと類似である。
マニュアルで定義される上述した関係の全てを許容するソフトウェアツールが制約と共に又は制約を伴わずに提供されてもよく、選択的に「ポテンシャル(潜在的)」とマークされる。ソフトウェアツールは、類似の製品を「アクセサリ」や「部品」や「サプライ(supply)」等の1つとして示すことをユーザに許容するために定義されてもよい。また、それぞれのタイプには「強調された(highlighted)」タイプがあり、それらは人の編集者の知識が特別な興味があるように指令する。それぞれの製品用としてマニュアルで強調された関係の欠落では、強調された関係の上位3つに変動を与えるために、発見エンジンが密接に似通った製品を削除しつつ(カテゴリ及び曖昧な名称の比較を使用して)、最高スコアの関係を自動的に強調する(例えば、同じコンパクトフラッシュカードのサイズ変動が最高スコアを有するけれども、そのサイズ変動を単純に強調することを望んでもよい)。否定されるべき潜在的な関係を許容するために、すなわち、カテゴリが他のカテゴリと類似すると考えるべきではないことをユーザに示すために、ソフトウェアツールが提供されてもよい。これは、発見エンジンが誤ったむだな処理を回避することを助けるためである。これは、マニュアルスコアの0を有する潜在的なカテゴリ−カテゴリ関係を作成することで達成される。
類似製品モジュール818は、種々の製品情報の情報源の構成要素がそのウェブページ又は他の情報源での「類似製品テーブル」であることを確認するためのアルゴリズムを含む。例えば、小売商ウェブページのHTMLテンプレートの部分がそのアクセサリリストにあることが確かに見出される。小売商のページを訪問し、現在のハイスコア及びマニュアルの関係を検索し、これらのリンクが見出されたページの領域を特定し、記録することで、このことが実行される。従って、小売商サイトへの後の訪問では、そのページ上で見いだされるおそらく関連した製品に対するリンクに依存して、スコアを調整するためにこの情報を使用することができる。類似製品モジュール818は、種々の類似製品テーブルで見出されたリンクに従い、公知のカテゴリの製品をチェックする。現在スキャニングしているカテゴリにおける製品用として同じカテゴリにおける製品のn繰り返された例をスキャナが見出したとき、「ポテンシャル」としてマークされた適切なカテゴリ−カテゴリ関係が自動的に作成され、eメイル又は他の通信チャネルを通じて適切なカテゴリ管理者に通知される。
類似製品モジュール818は、ステップ916で類似製品を作り出すために、通常、次のようなアルゴリズムに従って動作する。
1.カテゴリにおける各製品用
a.各小売商用として、全ての小売商の提案を得る(この部分は複数につながれている)
i.小売商のウェブページをロードし解析する(また、そのページをキャッシュ(cache)する)
ii.ページ上の「関連した製品」に対するリンクを検索する
iii.補助のアクセサリページに導くリンクがそのページ上にあれば、そのリンクに従い、1.a.i.に戻る
iv.製品参照文を逆に検索しカタログに戻ってそれらを関連づけ、製品関連スコアを算出しその配置及びスコアを記録する
2.最終的な製品関係スコアの算出
ここで、これらのアルゴリズムステップのそれぞれについて詳細に説明する。類似製品モジュール818の主要な課題は、小売商がそのウェブページ上で製品に関連しているときに認識することができることである。製品名の表現における変動性のため、製品を明確に認めることができる信頼できる方法のみが「小売商SKUs」又は小売商が製品を関連づけるために使用するユニークな製品識別子を通り抜けられる。小売商のページ上のリンクが実際にカタログにおける製品に既に関連づけられていることを認識可能とするために、「小売商SKU発見「のステップを実行することが必要である。類似製品モジュール818が小売商のURLを検索する最初のときは、以前にこのステップを実行したかを調べることに注意する。実行していなければ、そのプログラムは、カタログ26に存在する小売商からURLsの全てをロードする。そのURLsが互いに比較され、可変的な部分がSKUとして決定される。これらのSKUsは、カタログ26における製品IDsに戻って配置すると共に、小売商SKUをそのURLから遊離させることを助ける記号の範囲を定めることと一緒に、それぞれの小売商用として記録される。小売商ページ上でURLに遭遇するとき、そのURLは、区切り記号(delimiter)を使用して分析され、URLの各サブ配列が小売商から以前に記録されたSKUsのリストで検索される。適合が見出されると、類似製品モジュール818は、そのURLがカタログにおける製品に関連していることを認知する。
1.カテゴリにおける各製品用
a.各小売商用として、全ての小売商の提案を得る(この部分は複数につながれている)
i.小売商のウェブページをロードし解析する(また、そのページをキャッシュ(cache)する)
ii.ページ上の「関連した製品」に対するリンクを検索する
iii.補助のアクセサリページに導くリンクがそのページ上にあれば、そのリンクに従い、1.a.i.に戻る
iv.製品参照文を逆に検索しカタログに戻ってそれらを関連づけ、製品関連スコアを算出しその配置及びスコアを記録する
2.最終的な製品関係スコアの算出
ここで、これらのアルゴリズムステップのそれぞれについて詳細に説明する。類似製品モジュール818の主要な課題は、小売商がそのウェブページ上で製品に関連しているときに認識することができることである。製品名の表現における変動性のため、製品を明確に認めることができる信頼できる方法のみが「小売商SKUs」又は小売商が製品を関連づけるために使用するユニークな製品識別子を通り抜けられる。小売商のページ上のリンクが実際にカタログにおける製品に既に関連づけられていることを認識可能とするために、「小売商SKU発見「のステップを実行することが必要である。類似製品モジュール818が小売商のURLを検索する最初のときは、以前にこのステップを実行したかを調べることに注意する。実行していなければ、そのプログラムは、カタログ26に存在する小売商からURLsの全てをロードする。そのURLsが互いに比較され、可変的な部分がSKUとして決定される。これらのSKUsは、カタログ26における製品IDsに戻って配置すると共に、小売商SKUをそのURLから遊離させることを助ける記号の範囲を定めることと一緒に、それぞれの小売商用として記録される。小売商ページ上でURLに遭遇するとき、そのURLは、区切り記号(delimiter)を使用して分析され、URLの各サブ配列が小売商から以前に記録されたSKUsのリストで検索される。適合が見出されると、類似製品モジュール818は、そのURLがカタログにおける製品に関連していることを認知する。
しばしば、類似製品モジュール818が、関連した製品リンクを検索するために、小売商のページ又は他の製品情報の情報源を処理するとき、小売商はその製品のリストを他のページにおくことを決定する。そのページは、例えば、http://www.buydig.com/shop.php?prod_id=CNPSA70&adv=cnet.である。その場合、類似製品モジュール818は、このようなリンクにおいて、及びそれらに続いて製品の関係を見出すために、その言語を分析する。類似製品モジュール818は、ミニ語彙集(lexicon)を使用することができ、各結果の製品関連用の最終的なスコアに対し与えられた製品用のアクセサリにこのリンクが実際に関連していることの信頼を含むことができる。リスト化するアクセサリに対するリンクは、ときどき実際には小さいイメージでもよい。公知の方法でそのイメージを使ってテキストを得るためにOCRを使用することができる。
各小売商で発見された関連用の製品関連スコアを計算するのに多くのファクタが使用される。これらは次のものを含んでいる:
・関連した製品が同じ会社で製造されたかどうかに基づいて、より高いスコアを提供する。
・そのリンクが「・・・ための・・・」等の言語を含んでいれば、そのテキストの残りがいかによく適合しているかを検査し、それに従ってスコアを増加又は減少させる。これは「Palm500シリーズ用」等の参照文の考慮に組み込まれ、この場合、ワード「シリーズ」がその515がそのシリーズの部分であることを示すため、Palm515がボーナスを得ることを決定する。対照的に、そのリンクが「Palm505単独用」であれば、ワード「単独」の存在がこの製品に関連するPalm515がより低いスコアを得ることを示す。この種の分析は、モデルIDs、言語の包含/排除の異なるタイプの認識、シリーズ特性及びモデルIDsの適合の確認を要求する。
・そのリンクが完全なカテゴリや製品に対する汎用の参照文を含んでいれば、例えば、PDAカテゴリがスキャンされるときに、「Viking MMC32M 32MB MultiMedia Card(マルチメディアカード) for a MP3 player(MP3プレイヤ),PDA or digital camera(デジタルカメラ)」等のカテゴリの言い回しが適合するかどうかでボーナスを与える。このことは、カテゴリ名用として良好な語彙集の同義語の範囲を要求する。
・小売商からHTML文書を解析しリンクが見出されたときは、そのリンクの前に生じている「グループテキストコンセプト」が検索される。例えば、関連した製品リンクのセットの前に「アド−オン(Add−ons)」や「×××用アクセサリ」等がある。小売商がHTMLにこのような見出しを付ける多くの方法があるため、この検索は難しい。これらの製品リンクが関連するものを検索するときは、配置、テキスト特徴及び言語を全て考慮する。グループテキストコンセプトが見出されたときは、リンクのリストが関連した製品を構成することをその言語が示していればスコアを増加させる。「この製品を購入する他の人はこれらも購入・・・」等の他のタイプの関連ではスコアを減少させる。これらの「ヘッダ」が実際にはときどき小さいイメージであり、イメージを使ってテキストを得るためのOCRをこれらの場合に使用してもよい。
・同じカテゴリでの製品に対する関連を放棄する。
・デジタルカメラやノートブックコンピュータ等の主要製品のアクセサリが、一般的に、主要製品より低コストのとき、関連した製品の価格を考慮する。
・関連した製品が同じ会社で製造されたかどうかに基づいて、より高いスコアを提供する。
・そのリンクが「・・・ための・・・」等の言語を含んでいれば、そのテキストの残りがいかによく適合しているかを検査し、それに従ってスコアを増加又は減少させる。これは「Palm500シリーズ用」等の参照文の考慮に組み込まれ、この場合、ワード「シリーズ」がその515がそのシリーズの部分であることを示すため、Palm515がボーナスを得ることを決定する。対照的に、そのリンクが「Palm505単独用」であれば、ワード「単独」の存在がこの製品に関連するPalm515がより低いスコアを得ることを示す。この種の分析は、モデルIDs、言語の包含/排除の異なるタイプの認識、シリーズ特性及びモデルIDsの適合の確認を要求する。
・そのリンクが完全なカテゴリや製品に対する汎用の参照文を含んでいれば、例えば、PDAカテゴリがスキャンされるときに、「Viking MMC32M 32MB MultiMedia Card(マルチメディアカード) for a MP3 player(MP3プレイヤ),PDA or digital camera(デジタルカメラ)」等のカテゴリの言い回しが適合するかどうかでボーナスを与える。このことは、カテゴリ名用として良好な語彙集の同義語の範囲を要求する。
・小売商からHTML文書を解析しリンクが見出されたときは、そのリンクの前に生じている「グループテキストコンセプト」が検索される。例えば、関連した製品リンクのセットの前に「アド−オン(Add−ons)」や「×××用アクセサリ」等がある。小売商がHTMLにこのような見出しを付ける多くの方法があるため、この検索は難しい。これらの製品リンクが関連するものを検索するときは、配置、テキスト特徴及び言語を全て考慮する。グループテキストコンセプトが見出されたときは、リンクのリストが関連した製品を構成することをその言語が示していればスコアを増加させる。「この製品を購入する他の人はこれらも購入・・・」等の他のタイプの関連ではスコアを減少させる。これらの「ヘッダ」が実際にはときどき小さいイメージであり、イメージを使ってテキストを得るためのOCRをこれらの場合に使用してもよい。
・同じカテゴリでの製品に対する関連を放棄する。
・デジタルカメラやノートブックコンピュータ等の主要製品のアクセサリが、一般的に、主要製品より低コストのとき、関連した製品の価格を考慮する。
小売商の全てから製品用として関連の全てが集められれば、関連スコアの全体を計算する。その計算におけるファクタは次のとおりである:
・小売商の参照文の全てを集め、1以上の小売商により関連付けされた関連した製品に、更に高いスコアを与える。スキャンされる製品をもたらす小売商が全てでなければ、これはまったく確かなものではなく、例えば、与えられた製品用の小売商のわれわれのリストにおいて単に1小売商であってもよい。
・関連した製品をいかによく特徴づけしているかについて評価する(カタログ編集者によりマニュアルでセットされた)小売商は、与えられた関係用のスコア全体に対する貢献を増加させ又は減少させる。
・潜在的なカテゴリ−カテゴリ関係はそのスコアを変更することに対して考慮し貢献もする。その関係は、以前発見された潜在的な関係のスコアに肯定的又は否定的の両方で依存している。
・小売商の参照文の全てを集め、1以上の小売商により関連付けされた関連した製品に、更に高いスコアを与える。スキャンされる製品をもたらす小売商が全てでなければ、これはまったく確かなものではなく、例えば、与えられた製品用の小売商のわれわれのリストにおいて単に1小売商であってもよい。
・関連した製品をいかによく特徴づけしているかについて評価する(カタログ編集者によりマニュアルでセットされた)小売商は、与えられた関係用のスコア全体に対する貢献を増加させ又は減少させる。
・潜在的なカテゴリ−カテゴリ関係はそのスコアを変更することに対して考慮し貢献もする。その関係は、以前発見された潜在的な関係のスコアに肯定的又は否定的の両方で依存している。
製品の全カテゴリがスキャンされたとき、その全カテゴリ自身がある製品又は他のあるカテゴリと類似するかを決定するために、以下のことを考慮する:
・カテゴリ計数−それぞれのカテゴリにおける関連した製品の全数を計数する。更なる関連した製品を有するカテゴリは、製品の類似カテゴリの全体に確かに関連していることが更に考えやすく、従って、そのスコアがそのカテゴリの計数に基づいて調整される。例えば、「携帯用デバイスケース」のカテゴリでは、このカテゴリのほぼ全ての製品が既に他の製品に対する関係(又は多くの関係)を有している。この事実は、完全なカテゴリそれ自身、すなわち、「携帯用デバイスケース」は、製品の類似カテゴリとしていくつかの製品にそれ自身が確かに関連するより多くの機会を有している。
・「雑多な」タイプの関連したカテゴリにスコアのペナルティ(penalty)を付与−そのようなカテゴリは確かな関連を有するいくつかの製品を有しているが、通常雑多なカテゴリでは、全体として、特定の製品に何も関連していない。
・カテゴリツリーの長さがよく考えられており、そのような関係は通常は好ましくないため、兄弟(sibling)カテゴリからの関係にスコアのペナルティを付与する(例えば、ノートブックに関連したデスクトップ)。
・関連した製品を有することの可能性について向上又は悪化するとカタログ編集者は特定のカテゴリにマークし、システムがスコアを調整するためにその情報を使用する(これらが潜在的なカテゴリ−カテゴリ関係である?)。
・スコアがスキャニングの限界を越えると、必要であればスコアがマニュアルで無効とされるデータベースにそれらがセーブされる。実際には2つの限界、「スキャニング限界」及び「公表(publish)限界」がある。「スキャニング限界」が満たされると、その関係がセーブされるが、公表された限界ではセーブされない。ここでのアイディアは、良好な関係がいくつかの理由で低スコアを得るが、ユーザは、その関係が公表にふさわしいと考えるなら、マニュアルでそのスコアを無視してもよい。
・カテゴリ計数−それぞれのカテゴリにおける関連した製品の全数を計数する。更なる関連した製品を有するカテゴリは、製品の類似カテゴリの全体に確かに関連していることが更に考えやすく、従って、そのスコアがそのカテゴリの計数に基づいて調整される。例えば、「携帯用デバイスケース」のカテゴリでは、このカテゴリのほぼ全ての製品が既に他の製品に対する関係(又は多くの関係)を有している。この事実は、完全なカテゴリそれ自身、すなわち、「携帯用デバイスケース」は、製品の類似カテゴリとしていくつかの製品にそれ自身が確かに関連するより多くの機会を有している。
・「雑多な」タイプの関連したカテゴリにスコアのペナルティ(penalty)を付与−そのようなカテゴリは確かな関連を有するいくつかの製品を有しているが、通常雑多なカテゴリでは、全体として、特定の製品に何も関連していない。
・カテゴリツリーの長さがよく考えられており、そのような関係は通常は好ましくないため、兄弟(sibling)カテゴリからの関係にスコアのペナルティを付与する(例えば、ノートブックに関連したデスクトップ)。
・関連した製品を有することの可能性について向上又は悪化するとカタログ編集者は特定のカテゴリにマークし、システムがスコアを調整するためにその情報を使用する(これらが潜在的なカテゴリ−カテゴリ関係である?)。
・スコアがスキャニングの限界を越えると、必要であればスコアがマニュアルで無効とされるデータベースにそれらがセーブされる。実際には2つの限界、「スキャニング限界」及び「公表(publish)限界」がある。「スキャニング限界」が満たされると、その関係がセーブされるが、公表された限界ではセーブされない。ここでのアイディアは、良好な関係がいくつかの理由で低スコアを得るが、ユーザは、その関係が公表にふさわしいと考えるなら、マニュアルでそのスコアを無視してもよい。
各製品用の最終的なパスは、その上位3つ(又は上位n)の製品を「強調」することである。強調された関連した製品は、(その関連した製品のページが最初に表示されたときにユーザに良好な変化を与えるために)最高スコアの製品及び少しも類似しない製品で構成される。類似製品モジュール818は、最高スコアを有する関連を採用し、次のページに移動してその製品名がありその製品名に類似するカテゴリをチェックする。その製品が類似の限界を越えると、第2の製品は強調されず、システムは第3の最高スコアの製品等に移動する。カタログ編集者は、マニュアルで製品を強調し、それらが実行される。
多くの関係はときどき非常に類似することが見出され、それらの製品のブラウジングを退屈なものにする。類似製品モジュール818は応用を許容するクラスタリング情報を提供する。クラスタにおける最高スコアの関係を任意に示し、他を示さず、代わりに「更にこのような・・・」リンクを示す。クラスタは、強調するフレーズ及びそれらの類似性における関係のスコアの正反対のロジックを使用して作成され、その関係のスコアはカテゴリ、製造者、あいまいな製品名の適合(1つの属性で異なることを含む異なるタイプの言語等に焦点を当てる違い)、マニュアルで作成されたクラスタパターン、価格等を含んでいる。
類似製品リストが作成されセーブされると、その分類にマークされたアクセサリカテゴリにおける製品用として小売商から製品情報記録が取り戻される。これと類似する製品/モデルであることを示す製品リンクや言語は、製品データベースを検索し、公知の洗練された解析技術を使用してその結果に信頼レベルを指定することで、配置される。全ての小売商からの結果が集められ、選挙機構が適用され、別のリストが作成される。これらの関係のリストの両者が集めたスコアを誘導するために使用してもよい。そのスコアが予め定められた限界より大きければ、そのテーブル中に製品−製品関係が作成される。主要製品が製品ラインにある、例えば、1つの場合がPalm Mシリーズの全てに適合するため、これが他の製品関係に対する推論を含んでいる。
第2−パスのスキャニングでは、単なる「潜在的な」関係が考慮され;そのエンジンはこれらの潜在的な関係に従うことが見出されないリンクを無効にし;このため無効とされたアイテムを1つにまとめる。そのようなアイテムが特定量になると(又は特定の時間が経過すると)、第1−パスのスキャニングが繰り返される。
クラスタラモジュール802、カテゴライザモジュール804、特性スクレーパモジュール810、特性アグリゲータモジュール814、記述ジェネレータモジュール816及び類似製品モジュール818の上述した手順では、製品や提案(又は関係や組)の数値は、要求された信頼限界以下となることが可能でありまたそうなる。ポストプロセッシングモジュール820ではそのような製品を取り扱う。これらのモジュールは、それから作動するための自動化されたシステム用として更なるデータが有効となるまで延期されセーブされるか、又は、それらが不完全な、単なる表面上の「UPID化された」形態に保持されるかのいずれかである。これに代えて、これらのモジュールは、それらを可能な限り修繕するために人の編集者用としてツールに移動されてもよい。例えば、製品がCRT TV及びポータブルTV間にTVを十分な信頼性を有して分類するための十分な情報を有していなくてもよく、適当なエラー状態がセットされていてもよく、人の注意を問題の属性に適切にひきつけ、このため、それが満たされる。
この文書で概説された全体の手順の以前のテストでは、少なくとも80%の自動化及びいくつかのカテゴリでは96%程度の結果となり(すなわち、マニュアルでデータ入力する「暴力的な」方法と比較して動作の減少となる)、一方では、マニュアルの方法に対して、比較可能な正確さ及び実際には優れた標準化を保持する;このことは、アクションフィギュアからベビーカーシートの心臓モニタまでを範囲とする20以上の異なる製品カテゴリのテストから得られた結果である。
更に、本発明の1実施形態では、インターネットがネットワーク接続されたコンピュータ環境であり、巡回者がウェブ巡回者であることを上で説明していることに注目されるべきである。更に、上述した実施形態では、製造者の製品特徴ウェブページが製造者の製品特徴の情報源と考えられており、小売商のウェブページが小売商の情報の情報源と考えられている。しかしながら、本発明は、それらに制限されるものではなく、ネットワーク接続されたコンピュータ環境の他のタイプ及び他の情報源に同様に適用してもよい。本発明は、インターネット、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、直接的なコンピュータの接続、その他の通信チャネルのいかなるタイプ上で、通信用ハードウェア及びプロトコルのいかなるタイプを使用して実施してもよい。いかなるタイプのハードウェアやハードウェアの組合せを種々のクライアント及びサーバ用として使用してもよい。従って、上述した用語「コンピュータ」はいかなるタイプのコンピュータデバイスやデータ端末にも相当し、例えば、パーソナルコンピュータ、ポータブルコンピュータ、ダム(dumb)端末、シンクライアント、携帯デバイス、無線電話、これらのデバイスのいかなる組合せも挙げることができる。種々のクライアント及びサーバは、単一の場所で単独のコンピュータでもよく、又は、単一又は複数の場所で複数のコンピュータでもよい。例えば、小型化する(facilitate scalability)ための種々の場所で共通に設置された複数の過剰なコンピュータでサーバを構成してもよい。いかなる適切なサーバやクライアントソフトウェアが使用されてもよく、いかなる通信プロトコルが使用されてもよい。通信は、電気ケーブル、光ファイバケーブル、その他のケーブル上で、又は、ラジオ周波数、赤外線を使用する無線方法やその他の技術で実行されてもよい。いかなるインターフェースが購入用の製品を選択するために使用されてもよい。種々の情報がいかなる書式で格納されてもよく、このため、上述した用語「データベース」は、データベースファイル、索引テーブル、等のいかなる情報の収集にも相当する。
このため、本発明の実施形態に従う上述した方法及び装置は、望ましい製品情報を集めるために非常に効果的なシステム及び方法を提供する。ここで十分に評価されたたように、本発明は、買い手に重要な製品情報の準備を許容し、それにより買い手による通知された購入決定を容易にすることで、オンライン商取引を容易にする。また、本発明は、ネットワーク化されたコンピュータ環境からそのような製品情報を効果的に集めるための新規な方法を提供し、買い手にアップデートされた製品情報を提供しそれにより買い手の購入決定を容易にするための新規な方法を提供する。
本発明を好ましい実施形態を通じて説明してきた。しかしながら、添付された特許請求の範囲及びその均等の範囲で定義される本発明の範囲から外れることなく種々の変更がなされてもよい。
<用語説明>
類似製品:他の製品と共に機能的に統合される製品−例えば、アクセサリ(プリンタ用の封筒供給機)、部品(PDA用の交換スクリーン)、サプライ(用紙やプリンタカートリッジ)、保守用品(テープヘッドクリーナ)である。これら間の相違は、そのアイテムの消耗性、典型的に1回購入するか、何度も購入するか等に関連して重要である。
関連した製品:全ての類似、変種、ファミリィ及び組製品を包含する広範囲の用語。
属性値セット:特定の属性用としてシステムに記録された(又は記録可能な)すべての可能な値。
属性:製品の機能、関連、品質、量、目的、材料、書式、構造、製造された効果。特性も参照。
カテゴリ化:最も適当に属する分類におけるカテゴリに製品を指定するプロセス。
カテゴリ:同じ基本的な特性定義を互いに共有し分類における同じノードを互いに占領する製品のグループ。
クラスタリング:同じ製品(又は製品の同じ結合)の異なる小売商からの提案をグループに集めるプロセス。
信頼スコア:データが正しく又は確実である信頼性の尺度−例えば、製品名や参照文が解析され、他の製品の類似製品としてデータ情報源により提出されたものと正しく特定されること、すなわち、製品Aが製品B用のアクセサリであることを与えられたウェブページで言っているシステムがいかに確かであるか?
DOM:(文書対象モデル化):例えば、ヘッダ、フッタ、製品仕様テーブル、製品テキスト記述、推奨されたアクセサリ、クロス販売/アップ販売製品リスト、ナビゲーション用バー、アドブロック等の種々の領域に分けるためにHTMLウェブページを分析すること。これは、特性かき集め、アイテムクラスタリング、アクセサリ発見等をセットアップするための予備的ステップである。
最小製造社名:製造社名の列が「インコーポレイテッド」、「コーポレーション」等の種々の無関係で共通の接尾語を除かれた後の結果の列。
標準化:同じ意味を有するが表面上異なる命名法で表現された属性名及び/又は属性値を決定し、それらを単一の一貫した表現形態に配置すること。
標準化された属性値セット:適用可能な計測の単位を含む十分に標準化された属性値。属性名それ自身は標準化されてもよくされなくてもよい。
標準化された属性:標準化された属性は、それぞれの属性の名称が標準化されたものである。その属性用の数値セットは標準化されてもよくされなくてもよい。
標準化された仕様:要素の全てが標準化された属性名/数値/単位情報で構成されるデータのセット。
潜在的関係:定義によれば適性であるが特定の製品適合性テストに従うような関係を確立すること。例えば、スタイラス(styluses)は通常はPDAsに「潜在的に」リンクしているが、適合性に従う。
先の確率:概念的に存在する全ての可能性から確かであるランダム推測の差異。例えば、クラスタリングで、カタログ中に与えられたタイプの2製品があり、新しい未知の提案が分析されるべきであるとすれば、そのクラスタリングは先の確率0.33である(そのデータベースにおける2製品の1つと同じであるか、第3の新しいものであるかのいずれかの3チャンスのうち1つを反映する)。カタログ化された製品の99に対して比較された1つの新しい提案は、クラスタリングの先の確率0.01である。先の確率は、クラスタリングの種々の段階で信頼推定に影響を及ぼす。先の確率は、必要な変更を加えて、カタログの自動生成で種々の他の態様における役割を果たす。
製品組:いくつかのアクセサリ、部品、サプライと結合された主要製品。
特性:本質的な又は他のいずれかがその本質的な特性について製品の認知又は使用から単に派生する属性。製品の使用とは別の他の外部の作用から派生するため、ブランド、価格、及び配給者SKU等のいくつかの製品属性は特性ではない。
準UPID化:製品の提案を表すデータのセットは、ほとんどの例では、UPID化されているが、少数の製品の提案はUPID化されていない(UPID参照)。
兄弟製品:同じ製品ライン、シリーズ、ファミリィのメンバであるまったく異なる製品であるが、同様のもの、例えば、Palm Vに対するPalm Vx。
分類:製品カテゴリの階層的ツリー又は他のグループ化
UPID:「ユニバーサル製品ID」複数の様々に記述された様々に命名された提案中の1つの特定の製品の識別子。有効な場所は、製造者識別番号、モデルID、カタログ番号、ISBN番号がUPIDとして役に立つ。多くの場合、そのようなUPIDは外部のデータ情報源には存在せず、そのシステムにより作成され割り当てられる。
変種製品:製造者や商人からの特徴構成において異なるが基本的に同じ製品である製品のバージョン。例えば、128MBのRAMを有するノートブック及び同じノートブックであるが256MBのRAMを有するもの。
Claims (72)
- 製品情報用として全く異なる書式を有する複数の製品情報源から製品情報を集め分類装置に前記情報を格納することでコンピュータ読み取り可能な媒体に格納された製品カタログの作成方法であって、
製品情報記録が前記同じ製品に対応して適当であることに基づいて1又は1以上のグループに前記製品情報源からの複数の製品情報記録を処理するステップと、
前記製品を特定するために、前記各グループに関連づけられた前記製品に対応するユニークな製品IDを相関させるステップと、
前記分類装置における前記特定された製品用のカテゴリを決定するために、特定された各製品を分類装置のカテゴリと比較するステップと、
各グループに対応する前記製品情報記録に基づいて、カテゴリ化された各製品用の属性を決定するステップと、
前記決定された属性に基づいて製品特性を作成するステップと、
前記分類装置の前記対応して決定されたカテゴリに前記製品特性を格納するステップと、
を有する方法。 - 前記処理するステップは、前記製品に関連づけられたデータ列を比較することで前記製品情報記録において相当する製品が同じであることが適当であることを決定するステップ、及び、共通のデータ列を決定するステップを含むことを特徴とする請求項1に記載の方法。
- 前記データ列は、製造者識別番号、モデル識別子及び単一の製品コードの少なくとも1つを含むことを特徴とする請求項2に記載の方法。
- 前記処理するステップは、前記製品情報記録における製品名を比較し実質的に類似の製品名を有する全ての製品を一緒にグループ化するステップを有することを特徴とする請求項1に記載の方法。
- 前記製品名は、大文字使用及び句読点の違いに関せず比較されることを特徴とする請求項4に記載の方法。
- 前記グループを決定するステップで、前記製品に関連づけられた共通の名詞を解析し無視する第2の処理するステップを更に有することを特徴とする請求項4に記載の方法。
- 前記処理するステップは、前記グループを決定するステップで、選択された形容詞を解析し、前記選択された形容詞を無視するステップを有することを特徴とする請求項1に記載の方法。
- 前記処理するステップは、前記製品に関連づけられた前記製品情報記録における価格を考慮するステップを有することを特徴とする請求項1に記載の方法。
- 前記処理するステップは、前記製品情報記録における前記製品の記述において同義語、上位語及び下位語の関係を考慮するステップを有することを特徴とする請求項1に記載の方法。
- 前記処理するステップは、前記製品情報記録に示された小売商の適用範囲を考慮するステップを有することを特徴とする請求項1に記載の方法。
- 前記処理するステップは、前記製品をサブグループ及び/又は上位グループにグループ化するステップを含むことを特徴とする請求項1に記載の方法。
- 前記決定するステップは、
グループにおける複数の製品情報記録から属性値を集め、集められた各属性値に信用格付を割り当てるステップと、
前記信用格付に基づいた一組の製品特性属性に前記属性値を組み合わせるステップと、
を有することを特徴とする請求項1に記載の方法。 - それぞれの特定された製品用の製品名を決定するステップを更に含むことを特徴とする請求項1に記載の方法。
- 前記製品名を決定するステップは、
グループにおける製品情報記録から複数の変種製品名の最良名を選択するステップと、
過剰なつなげられたテキストの最良名を取り除き、所定のスタイルの製品名に前記取り除かれた最良名をフォーマットするステップと、
を有することを特徴とする請求項13に記載の方法。 - 前記製品情報記録から最も好ましい製品イメージを選択することで特定された各製品用の製品イメージを決定するステップを更に有することを特徴とする請求項1に記載の方法。
- 前記決定された属性の少なくとも一部から特定された各製品の記述を生成するステップを更に有することを特徴とする請求項1に記載の方法。
- 前記処理するステップは、前記製品情報記録に存在する特定コードを解析することで各製品情報記録に関連づけられた特定コードを検査し、コード間の共通性を決定するために前記解析された特定コードを比較するステップを有することを特徴とする請求項1に記載の方法。
- 各製品に関連づけられた共通の特定コードを決定するために各製品情報記録を一回以上検査することを特徴とする請求項17に記載の方法。
- 前記比較ステップ後に前記処理するステップを繰り返し、そして、前記比較ステップを再度実行するステップを更に有することを特徴とする請求項1に記載の方法。
- 前記処理するステップ、相関させるステップ、比較するステップ及び決定するステップの1又は1以上の結果が所定の信用レベル以下のときに決定し、更に処理するために前記結果を警告するステップを更に有することを特徴とする請求項1に記載の方法。
- 更なる製品情報源が有効となるときに、前記警告された結果が延期され、セーブされ、再処理されることを特徴とする請求項20に記載の方法。
- 前記警告された結果は、マニュアル操作のために処理ツールに移動されることを特徴とする請求項20に記載の方法。
- 製品情報用として全く異なる書式を有する複数の製品情報源から製品情報を集めることでコンピュータ読み取り可能な媒体に格納された製品カタログの作成方法であって、
製品情報記録が前記同じ製品に対応して適当であることに基づいて1又は1以上のグループに前記製品情報源からの複数の製品情報記録を処理するステップと、
前記各グループ用として特定された製品に対応するユニークな製品IDを相関させるステップと、
前記分類装置における前記特定された製品用のカテゴリを決定するために、特定された各製品を分類装置におけるカテゴリと比較するステップと、
前記複数の製品情報記録が属するグループを修正するために、前記比較するステップの実行後に前記処理するステップ及び相関させるステップを繰り返すステップと、
各グループに対応する前記製品情報記録に基づいて、カテゴリ化された各製品用の属性を決定するステップと、
前記決定された属性に基づいて製品特性を作成するステップと、
前記分類装置の前記対応して決定されたカテゴリに前記製品特性を格納するステップと、
を有する方法。 - 前記処理するステップは、前記製品に関連づけられたデータ列を比較することで前記製品情報記録において相当する製品が同じであることが適当であることを決定するステップ、及び、共通のデータ列を決定するステップを含むことを特徴とする請求項23に記載の方法。
- 前記データ列は、製造者識別番号、モデル識別子及び単一の製品コードの少なくとも1つを含むことを特徴とする請求項24に記載の方法。
- 前記処理するステップは、前記製品情報記録における製品名を比較し実質的に類似の製品名を有する全ての製品を一緒にグループ化するステップを有することを特徴とする請求項24に記載の方法。
- 前記処理するステップで生成した情報のグループ化に集合信用スコアを割り当てるステップ、前記比較するステップで生成したカテゴリに信用スコアをカテゴリ化するステップ及び前記信用スコアが安定化するまで前記繰り返しステップを繰り返すステップを更に含むことを特徴とする請求項23に記載の方法。
- 前記処理するステップ及びカテゴリ化するステップの一方又は両者に関連づけられた前記信用スコアが所定の最小値以下のときに前記処理するステップ及びカテゴリ化するステップの一方又は両者の結果を警告するステップを更に含むことを特徴とする請求項27に記載の方法。
- 更なる製品情報源が有効となるときに、前記警告された結果が延期され、セーブされ、再処理されることを特徴とする請求項28に記載の方法。
- 前記警告された結果は、マニュアル操作のために処理ツールに移動されることを特徴とする請求項28に記載の方法。
- 前記比較するステップは、各カテゴリに設定された前記属性及び属性値を検査するステップ及び既に各カテゴリに分類された実際の製品情報記録を検査するステップを含むことを特徴とする請求項23に記載の方法。
- 前記相関させるステップは、色違いの前記同じ製品に異なる製品IDを割り当てることを特徴とする請求項23に記載の方法。
- 前記処理するステップは、前記製品情報源に対しサーバから巡回者を生成するステップを有することを特徴とする請求項1に記載の方法。
- ネットワーク接続されたコンピュータ環境における複数の製品情報源から製品情報を集めるための方法であって、
前記複数の情報源を訪問するために前記ネットワークコンピュータ環境に相互接続されたサーバから巡回者を生成するステップと、
前記巡回者を通じて前記複数の情報源のそれぞれから製品フレーズ情報及び前記製品フレーズ情報の特徴を寄せ集めるステップと、
前記製品フレーズ情報及び前記製品フレーズ情報の特徴に基づいて製品のカタログを作成するステップと、
を有する方法。 - 前記フレーズの前記少なくとも1つの特徴は、前記複数の情報源のそれぞれにおける前記フレーズの頻度、位置、フォントサイズ、フォントスタイル、フォントケース、フォント効果、フォント色、配列及び同時出現の少なくとも1つを含むことを特徴とする請求項34に記載の方法。
- 前記複数の情報源は、製造者の製品特性情報源、製品広告情報源及び小売商の情報源の少なくとも1つを含むことを特徴とする請求項35に記載の方法。
- 前記巡回者は、前記製造者の製品特性情報源及び前記製品広告情報源の少なくとも1つから製品フレーズ情報を寄せ集める製品広告巡回者を含むことを特徴とする請求項30に記載の方法。
- 前記製品フレーズ情報により記述された製品の製品カテゴリを決定するために前記製品フレーズ情報を分類装置のカテゴリと比較するステップを更に有することを特徴とする請求項34に記載の方法。
- 前記製品の少なくとも1つについて類似の製品を決定するステップを更に有することを特徴とする請求項1に記載の方法。
- 前記類似の製品を決定するステップは、
製品に対応する少なくとも1つの製品情報記録を解析するステップと、
関連した製品に対する前記製品情報記録にリンクが存在するなら、関連した製品情報記録に対する前記リンクを追跡するステップと、
前記関連した製品情報記録における前記製品に対する参照文を逆に検索するステップと、
前記カタログにおける前記製品に前記関連した製品情報記録における前記関連した製品を関連づけるステップと、
を有することを特徴とする請求項39に記載の方法。 - 前記製品の少なくとも1つについて類似の製品を決定するステップを更に有することを特徴とする請求項23に記載の方法。
- 前記類似の製品を決定するステップは、
製品に対応する少なくとも1つの製品情報記録を解析するステップと、
関連した製品に対する前記製品情報記録にリンクが存在するなら、関連した製品情報記録に対する前記リンクを追跡するステップと、
前記関連した製品情報記録における前記製品に対する参照文を逆に検索するステップと、
前記カタログにおける前記製品に前記関連した製品情報記録における前記関連した製品を関連づけるステップと、
を有することを特徴とする請求項23に記載の方法。 - 前記製品の少なくとも1つについて類似の製品を決定するステップを更に有することを特徴とする請求項34に記載の方法。
- 前記類似の製品を決定するステップは、
製品に対応する少なくとも1つの製品情報記録を解析するステップと、
関連した製品に対する前記製品情報記録にリンクが存在するなら、関連した製品情報記録に対する前記リンクを追跡するステップと、
前記関連した製品情報記録における前記製品に対する参照文を逆に検索するステップと、
前記カタログにおける前記製品に前記関連した製品情報記録における前記関連した製品を関連づけるステップと、
を有することを特徴とする請求項34に記載の方法。 - 製品情報用として全く異なる書式を有する複数の製品情報源から製品情報を集め分類装置に前記情報を格納することで製品カタログを作成するためのシステムにおいて、
製品情報記録が前記同じ製品に対応して適当であることに基づいて1又は1以上のグループに前記製品情報源からの複数の製品情報記録を処理するための手段と、
前記製品を特定するために、前記各グループに関連づけられた前記製品に対応するユニークな製品IDを相関させるための手段と、
前記分類装置における前記特定された製品用のカテゴリを決定するために、特定された各製品を分類装置のカテゴリと比較するための手段と、
各グループに対応する前記製品情報記録に基づいて、カテゴリ化された各製品用の属性を決定するための手段と、
前記決定された属性に基づいて製品特性を作成するための手段と、
前記分類装置の前記対応して決定されたカテゴリに前記製品特性を格納するための手段と、
を有するシステム。 - 前記処理するための手段は、前記製品に関連づけられたデータ列を比較することで前記製品情報記録において相当する製品が同じであることが適当であることを決定するための手段、及び、共通のデータ列を決定するための手段を含むことを特徴とする請求項45に記載のシステム。
- 前記データ列は、製造者識別番号、モデル識別子及び単一の製品コードの少なくとも1つを含むことを特徴とする請求項45に記載のシステム。
- 前記処理するための手段は、前記製品情報記録における製品名を比較するための手段、及び、実質的に類似の製品名を有する全ての製品を一緒にグループ化するための手段を有することを特徴とする請求項45に記載のシステム。
- 前記製品名は、大文字使用及び句読点の違いに関せず比較されることを特徴とする請求項48に記載のシステム。
- 前記決定するための手段で、前記製品に関連づけられた共通の名詞を解析し該共通の名詞を処理することから排除するための手段を更に有することを特徴とする請求項48に記載のシステム。
- 前記決定手段で、選択された形容詞を解析し該選択された形容詞を処理することから排除するための手段を更に有することを特徴とする請求項45に記載のシステム。
- 前記処理するための手段は、前記製品に関連づけられた前記製品情報記録における価格を考慮するための手段を有することを特徴とする請求項45に記載のシステム。
- 前記処理するための手段は、前記製品情報記録における前記製品の記述に関連する同義語、上位語及び下位語を考慮するための手段を有することを特徴とする請求項45に記載のシステム。
- 前記処理するための手段は、前記製品情報記録に示された小売商の適用範囲を考慮するための手段を有することを特徴とする請求項45に記載のシステム。
- 前記処理するための手段は、前記製品をサブグループ及び/又は上位グループにグループ化するための手段を有することを特徴とする請求項45に記載のシステム。
- 前記決定するための手段は、
グループにおける複数の製品情報記録から属性値を集め、集められた各属性値に信用格付を割り当てるための手段と、
前記信用格付に基づいて前記属性値を一組の製品特性属性に組み合わせるための手段と、
を有することを特徴とする請求項45に記載のシステム。 - 特定された各製品用の製品名を決定するための手段を更に有することを特徴とする請求項44に記載のシステム。
- 前記製品名を決定するための手段は、
グループにおける製品情報記録から複数の変種製品名の最良名を選択するための手段と、
過剰なつなげられたテキストの最良名を除外し、所定のスタイルの製品名に前記除外された名称をフォーマットするための手段と、
を有することを特徴とする請求項57に記載のシステム。 - 前記製品情報記録から最も好ましい製品イメージを選択することで特定された各製品用の製品イメージを決定するための手段を更に有することを特徴とする請求項45に記載のシステム。
- 前記決定された属性の少なくとも一部から特定された各製品の記述を生成するための手段を更に有することを特徴とする請求項45に記載のシステム。
- 前記処理するための手段は、前記製品情報記録に存在する特定コードを解析することで各製品情報記録に関連づけられた特定コードを検査し、コード間の共通性を決定するために前記解析された特定コードを比較するための手段を有することを特徴とする請求項45に記載のシステム。
- 前記検査するための手段は、各製品に関連づけられた共通の特定コードを決定するために各製品情報記録を一回以上検査することを特徴とする請求項61に記載のシステム。
- 前記処理するステップ、相関させるステップ、比較するステップ及び決定するステップの1又は1以上の結果が所定の信用レベル以下のときに決定し、更に処理するために前記結果を警告するための手段を更に含むことを特徴とする請求項45に記載のシステム。
- 更なる製品情報源が有効となるときに、前記警告された結果が延期され、セーブされ、再処理されることを特徴とする請求項63に記載のシステム。
- 前記警告された結果は、マニュアル操作のために処理ツールに移動されることを特徴とする請求項63に記載のシステム。
- ネットワーク接続されたコンピュータ環境における複数の製品情報源から製品情報を集めるためのシステムにおいて、
前記複数の情報源を訪問するために前記ネットワークコンピュータ環境に相互接続されたサーバから巡回者を生成するための手段と、
前記巡回者を通じて前記複数の情報源のそれぞれから製品フレーズ情報及び前記製品フレーズ情報の特徴を寄せ集めるための手段と、
前記製品フレーズ情報及び前記製品フレーズ情報の特徴に基づいて製品のカタログを作成するための手段と、
を有するシステム。 - 前記フレーズの前記少なくとも1つの特徴は、前記複数の情報源のそれぞれにおける前記フレーズの頻度、位置、フォントサイズ、フォントスタイル、フォントケース、フォント効果、フォント色、配列及び同時出現の少なくとも1つを含むことを特徴とする請求項66に記載のシステム。
- 前記複数の情報源は、製造者の製品特性情報源、製品広告情報源及び小売商の情報源の少なくとも1つを含むことを特徴とする請求項67に記載のシステム。
- 前記巡回者は、前記製造者の製品特性情報源及び前記製品広告情報源の少なくとも1つから製品フレーズ情報を寄せ集める製品広告巡回者を含むことを特徴とする請求項66に記載のシステム。
- 前記製品フレーズ情報により記述された製品の製品カテゴリを決定するために、前記製品フレーズ情報を分類装置のカテゴリと比較するための手段を更に有することを特徴とする請求項66に記載のシステム。
- 前記製品の少なくとも1つについて類似の製品を決定するための手段を更に有することを特徴とする請求項45に記載のシステム。
- 前記類似の製品を決定するための手段は、
製品に対応する少なくとも1つの製品情報記録を解析し、関連した製品に対する前記製品情報記録にリンクが存在するなら、関連した製品情報記録に対する前記リンクを追跡するための手段と、
前記関連した製品情報記録における前記製品に対する参照文を逆に検索するための手段と、
前記カタログにおける前記製品に前記関連した製品情報記録における前記関連した製品を関連づけるための手段と、
を有することを特徴とする請求項71に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US47915303P | 2003-06-18 | 2003-06-18 | |
US10/659,740 US7082426B2 (en) | 1993-06-18 | 2003-09-11 | Content aggregation method and apparatus for an on-line product catalog |
PCT/US2004/013650 WO2005001595A2 (en) | 2003-06-18 | 2004-04-29 | Content aggregation method and apparatus for on-line purchasing system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006527886A true JP2006527886A (ja) | 2006-12-07 |
Family
ID=33555518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006517102A Pending JP2006527886A (ja) | 2003-06-18 | 2004-04-29 | オンライン購入システム用のコンテント集合方法及び装置 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP1639505A4 (ja) |
JP (1) | JP2006527886A (ja) |
WO (1) | WO2005001595A2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012132170A1 (ja) * | 2011-03-30 | 2012-10-04 | 株式会社日立製作所 | 製品情報管理支援装置 |
JP2013517561A (ja) * | 2010-01-13 | 2013-05-16 | アリババ・グループ・ホールディング・リミテッド | 標準製品ユニットのための属性集約 |
JP2013527958A (ja) * | 2010-04-21 | 2013-07-04 | マイクロソフト コーポレーション | 多数のソースからの生産物合成 |
JP2014512614A (ja) * | 2011-04-14 | 2014-05-22 | アリババ・グループ・ホールディング・リミテッド | 製品カテゴリ情報を判断する方法および装置 |
JP2016062270A (ja) * | 2014-09-17 | 2016-04-25 | Kddi株式会社 | ネットワーク上のメッセージでの商品名の曖昧さを除去する曖昧性除去装置及びプログラム |
KR20210012809A (ko) * | 2019-07-26 | 2021-02-03 | 주식회사 메이커빌 | 제품 정보 제공 방법, 제품 정보 제공 서버 및 제품 정보 제공 시스템 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AT8155U3 (de) * | 2005-02-24 | 2006-08-15 | Shanker Bhawani Dipl Ing | Verfahren und computer-technische umsetzung zur flexiblen klassifikation von produkten und produktsystemen |
BRPI0621284A2 (pt) * | 2006-01-24 | 2011-12-06 | Gaming Solutions International Llc | sistema e método de apresentação de dados e método de provisão de um jogo on-line |
CN108717639A (zh) * | 2018-07-17 | 2018-10-30 | 北京引领海逛科技有限公司 | 扫码快速获得产品详情的方法和系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5231566A (en) * | 1991-03-29 | 1993-07-27 | Shoppers Express | Method and apparatus for producing a catalog |
US5740425A (en) * | 1995-09-26 | 1998-04-14 | Povilus; David S. | Data structure and method for publishing electronic and printed product catalogs |
US5920854A (en) * | 1996-08-14 | 1999-07-06 | Infoseek Corporation | Real-time document collection search engine with phrase indexing |
US5890175A (en) * | 1996-09-25 | 1999-03-30 | Wong; Garland | Dynamic generation and display of catalogs |
US6154738A (en) * | 1998-03-27 | 2000-11-28 | Call; Charles Gainor | Methods and apparatus for disseminating product information via the internet using universal product codes |
US6304864B1 (en) * | 1999-04-20 | 2001-10-16 | Textwise Llc | System for retrieving multimedia information from the internet using multiple evolving intelligent agents |
WO2000067183A1 (en) * | 1999-05-05 | 2000-11-09 | Decide.Com | Web-based comparison shopping for consumer services |
US6405175B1 (en) * | 1999-07-27 | 2002-06-11 | David Way Ng | Shopping scouts web site for rewarding customer referrals on product and price information with rewards scaled by the number of shoppers using the information |
JP2003522356A (ja) * | 1999-12-17 | 2003-07-22 | ワールド シアター,インコーポレイティド | 複数の参加販売業者が提供する広範囲の製品の中から選択された製品を顧客が発注することができるようにするためのシステムおよび方法 |
AU2001237574A1 (en) * | 2000-03-29 | 2001-10-08 | British Telecommunications Public Limited Company | Electronic commerce |
-
2004
- 2004-04-29 EP EP04751173A patent/EP1639505A4/en not_active Withdrawn
- 2004-04-29 WO PCT/US2004/013650 patent/WO2005001595A2/en active Application Filing
- 2004-04-29 JP JP2006517102A patent/JP2006527886A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013517561A (ja) * | 2010-01-13 | 2013-05-16 | アリババ・グループ・ホールディング・リミテッド | 標準製品ユニットのための属性集約 |
JP2013527958A (ja) * | 2010-04-21 | 2013-07-04 | マイクロソフト コーポレーション | 多数のソースからの生産物合成 |
US9384233B2 (en) | 2010-04-21 | 2016-07-05 | Microsoft Technology Licensing, Llc | Product synthesis from multiple sources |
WO2012132170A1 (ja) * | 2011-03-30 | 2012-10-04 | 株式会社日立製作所 | 製品情報管理支援装置 |
JP2014512614A (ja) * | 2011-04-14 | 2014-05-22 | アリババ・グループ・ホールディング・リミテッド | 製品カテゴリ情報を判断する方法および装置 |
US9418147B2 (en) | 2011-04-14 | 2016-08-16 | Alibaba Group Holding Limited | Method and apparatus of determining product category information |
JP2016062270A (ja) * | 2014-09-17 | 2016-04-25 | Kddi株式会社 | ネットワーク上のメッセージでの商品名の曖昧さを除去する曖昧性除去装置及びプログラム |
KR20210012809A (ko) * | 2019-07-26 | 2021-02-03 | 주식회사 메이커빌 | 제품 정보 제공 방법, 제품 정보 제공 서버 및 제품 정보 제공 시스템 |
KR102284165B1 (ko) * | 2019-07-26 | 2021-07-30 | 주식회사 메이커빌 | 제품 정보 제공 방법, 제품 정보 제공 서버 및 제품 정보 제공 시스템 |
Also Published As
Publication number | Publication date |
---|---|
WO2005001595A3 (en) | 2005-09-09 |
EP1639505A2 (en) | 2006-03-29 |
WO2005001595A2 (en) | 2005-01-06 |
EP1639505A4 (en) | 2006-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8930370B2 (en) | Content aggregation method and apparatus for on-line purchasing system | |
US9177059B2 (en) | Method and system for determining allied products | |
US7941383B2 (en) | Maintaining state transition data for a plurality of users, modeling, detecting, and predicting user states and behavior | |
US8051063B2 (en) | Aggregating context data for programmable search engines | |
JP5355733B2 (ja) | 広告または電子商取引のためにプロセッサが実行する方法 | |
CN1934569B (zh) | 集成有用户注释的搜索系统和方法 | |
US8249885B2 (en) | Knowledge-based e-catalog procurement system and method | |
US8548987B2 (en) | System and method for efficiently providing a recommendation | |
US8452746B2 (en) | Detecting spam search results for context processed search queries | |
US7693805B2 (en) | Automatic identification of distance based event classification errors in a network by comparing to a second classification using event logs | |
US8005823B1 (en) | Community search optimization | |
US20100306249A1 (en) | Social network systems and methods | |
US20070038614A1 (en) | Generating and presenting advertisements based on context data for programmable search engines | |
US10817522B1 (en) | Product information integration | |
CN107241914B (zh) | 用于搜索查询重写的系统和方法 | |
US20060074843A1 (en) | World wide web directory for providing live links | |
JP2006527886A (ja) | オンライン購入システム用のコンテント集合方法及び装置 | |
WO2001027712A2 (en) | A method and system for automatically structuring content from universal marked-up documents | |
Markellou et al. | Personalized e-commerce recommendations | |
WO2001055886A2 (en) | System, method and database for classifying product information obtained from a computer network | |
Ali et al. | Golden path analyzer: using divide-and-conquer to cluster web clickstreams | |
Silverman et al. | Buyer Decision Support Systems and Search Agents for eCommerce Websites | |
Honarvar et al. | Analysis of user behavior to find interest priorities in big data log of web proxies |