JP2002351875A - Database contents quality analyzing method and device - Google Patents

Database contents quality analyzing method and device

Info

Publication number
JP2002351875A
JP2002351875A JP2001151689A JP2001151689A JP2002351875A JP 2002351875 A JP2002351875 A JP 2002351875A JP 2001151689 A JP2001151689 A JP 2001151689A JP 2001151689 A JP2001151689 A JP 2001151689A JP 2002351875 A JP2002351875 A JP 2002351875A
Authority
JP
Japan
Prior art keywords
database
fields
score
catalog
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001151689A
Other languages
Japanese (ja)
Inventor
Michael Renn Neal
マイケル・レン・ニール
Gregg Menin
グレッグ・メニン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Requisite Technology Inc
Original Assignee
Requisite Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Requisite Technology Inc filed Critical Requisite Technology Inc
Priority to JP2001151689A priority Critical patent/JP2002351875A/en
Publication of JP2002351875A publication Critical patent/JP2002351875A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a method for calculating the score of searchable an electronic catalog used in an electronic commerce and an industrial material system. SOLUTION: A catalog is built typically as a database, and the method according to the present invention analyzes the quality of completeness, consistency, or comprehensiveness. This method selects fields in the database to be analyzed, ranks the fields to be analyzed in order of relevancy of quality on which the measurement is based (52), fetches the values of the records in the database from the fields to be analyzed (56), and compares the fetched values with the standard values (58). After the comparison, a score is assigned to each field (62). The scores of the fields are weighted based on the rank of the fields (64) and the weighted scores are combined (66) for calculating the score of the database.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、一般に電子データ
ベースに関し、より詳細には、データベース・コンテン
ツを、他のデータベースとの比較においてデータベース
の有用性に影響があるコンプレヘンション性(comprehen
sibility:理解しやすさ)、完全性および一貫性など、様
々なクオリティについて分析するための方法および装置
に関する。
FIELD OF THE INVENTION The present invention relates generally to electronic databases, and more particularly, to comprehensibility of database content, which affects the usefulness of the database in comparison to other databases.
sibility), methods and apparatus for analyzing various qualities, such as completeness and consistency.

【0002】[0002]

【従来の技術】探索可能な電子カタログは、一般に、電
子商取引および購買機能のサポートにおいて使用され
る。これらの電子カタログは、印刷されたカタログ、ス
プレッドシート、テキスト文書、データベースまたはリ
ストから作成することができ、典型的には、データベー
ス、HTMLページの集まり、および他の電子的手段に
される。個々の購買者または市場システムの設置は、し
ばしば、いくつかのソースからのいくつかのカタログを
含む。たとえば、事務用品の設置は、いくつかの異なる
事務用品ベンダまたはメーカからの事務用品カタログを
含む可能性がある。カタログのいくつかは、青いペンな
ど、等しい品目を記述する可能性があるが、各カタログ
は、異なる造りの青いペンなど、類似しているが異なる
品目を記述する可能性が高くなる。これらのカタログ
は、ユーザが品目を発見して購買する能力によって測定
されたような、それらのクオリティおよび使いやすさに
おいて異なる可能性がある。各カタログのクオリティの
客観的な測定により、カタログを比較し、カタログの不
足分を迅速に識別することができる。十分なサポートに
より、このような分析で不足分の原因を迅速に突きとめ
ることができる。
BACKGROUND OF THE INVENTION Searchable electronic catalogs are commonly used in support of e-commerce and purchasing functions. These electronic catalogs can be created from printed catalogs, spreadsheets, text documents, databases or lists, typically in databases, collections of HTML pages, and other electronic means. The installation of individual buyers or market systems often includes several catalogs from several sources. For example, an office supply installation may include office supply catalogs from several different office supply vendors or manufacturers. While some of the catalogs may describe equal items, such as blue pens, each catalog is more likely to describe similar but different items, such as differently constructed blue pens. These catalogs can differ in their quality and ease of use, as measured by the ability of a user to find and purchase items. Objective measurement of the quality of each catalog allows catalogs to be compared and catalog shortages to be quickly identified. With sufficient support, such analysis can quickly pinpoint the source of the shortfall.

【0003】カタログ使用の3つの重要な態様は、購
買、品目の識別および妥当性検査、および発見である。
品目を記述するための十分な情報がカタログにおいて存
在し、ユーザまたは見込みのある買い手が品目を発見で
きるようにしなければならない。カタログ供給者は、品
目が発見され、識別され、次いで購買される見込みを最
大にするカタログを提示するように努める。購買のため
に必要とされる情報は、部品番号のみにすることがで
き、あるいは、画像およびインタラクティブなアプリケ
ーションを有する非常に詳細な品目の記述を含めること
ができる。より大量の特定情報をサポートするカタログ
は、より大きい売上げを生じ、そのため、これらが、カ
タログの有用性を評価することにおいて、また、購買者
が探す品目を発見することがどれほど容易かについての
重要な属性を評価することにおいて、より高くスコアリ
ングされる。
[0003] Three important aspects of catalog use are purchasing, item identification and validation, and discovery.
Sufficient information must be present in the catalog to describe the item so that users or potential buyers can find the item. Catalog suppliers seek to present a catalog that maximizes the likelihood that an item will be found, identified, and then purchased. The information needed for the purchase can be only the part number or can include a very detailed item description with images and interactive applications. Catalogs that support a greater amount of specific information generate greater sales, so they are important in assessing the usefulness of the catalog and as to how easy it is for buyers to find the item they are looking for. Higher scores will be scored in evaluating different attributes.

【0004】[0004]

【発明が解決しようとする課題】好ましい実施形態で
は、本発明は、データベースをクオリティ、たとえば、
完全性、一貫性またはコンプレヘンション性についてス
コアリングするための方法を提供する。
SUMMARY OF THE INVENTION In a preferred embodiment, the present invention provides a database with quality, for example,
Provides a method for scoring for completeness, consistency or comprehension.

【0005】[0005]

【課題を解決するための手段】この方法は、データベー
スの分析されるフィールドを選択すること、データベー
スの各レコードについての値を分析されるフィールドか
ら取り出すこと、および、取り出された値を標準と比較
することを含む。比較の後、その比較に基づいて、スコ
アが各フィールドに対して割り当てられることが好まし
い。フィールドが、測定されるクオリティに適切である
順序にランク付けされ、各フィールドのランクに基づい
て、スコアが各フィールドに重み付けされる。重み付け
されたスコアが最後に結合されて、データベースのスコ
アが得られる。
The method comprises selecting a field to be analyzed in a database, retrieving a value for each record in the database from the field to be analyzed, and comparing the retrieved value to a standard. Including doing. After the comparison, a score is preferably assigned to each field based on the comparison. The fields are ranked in an order that is appropriate for the quality being measured, and a score is weighted for each field based on the rank of each field. The weighted scores are finally combined to obtain a database score.

【0006】分析されるクオリティが完全性である場
合、本発明は、フィールドに対して取り出された値を、
同じフィールドについて取り出された別の値と比較する
ことを含む。スコアを割り当てることが、点を各ヌル値
について割り当て、フィールドについてのスコアがその
フィールドにおけるすべてのレコードについてのヌル値
の数に対応するようにすることを含む。
If the quality being analyzed is complete, the present invention uses the values retrieved for the fields as
Includes comparing to another value retrieved for the same field. Assigning a score includes assigning a point for each null value so that the score for the field corresponds to the number of null values for all records in that field.

【0007】分析されるクオリティが一貫性である場
合、本発明は、フィールドに対して取り出された値を可
能な値の辞書と比較することを含む。スコアを割り当て
ることが、取り出された各値のうち辞書値に合致しない
ものに対して点を割り当て、フィールドのスコアがその
フィールドに対するすべてのレコードについての合致し
ない値の数に対応するようにすることを含む。
If the quality analyzed is consistent, the invention involves comparing the values retrieved for the field with a dictionary of possible values. Assigning a score assigns a point to each retrieved value that does not match the dictionary value, so that the field score corresponds to the number of unmatched values for all records for that field. including.

【0008】分析されるクオリティがコンプレヘンショ
ン性である場合、本発明は、フィールドに対して取り出
された値を可能な値の辞書と比較することを含み、スコ
アを割り当てることが、取り出された各値のうち辞書値
に合致しないものに対して点を割り当て、フィールドに
ついてのスコアがそのフィールドについてのすべてのレ
コードについての合致しない値の数に対応するようにす
ることを含む。
If the quality being analyzed is comprehensible, the present invention includes comparing the retrieved value for the field with a dictionary of possible values, and assigning a score to the retrieved value. Assigning a point to each value that does not match the dictionary value so that the score for the field corresponds to the number of unmatched values for all records for that field.

【0009】付属の特許請求の範囲が、本発明の特徴を
詳細に示す。本発明はその利点と共に、添付の図面と共
に以下の詳細な説明から、最適に理解することができ
る。
[0009] The appended claims set forth the features of the present invention with particularity. The invention, together with its advantages, may best be understood from the following detailed description, taken in conjunction with the accompanying drawings.

【0010】[0010]

【発明の実施の形態】以下の記載においては、説明のた
め、本発明の完全な理解を提供するために、多数の特定
の詳細を示す。しかし、本発明を、これらの特定の詳細
のいくつかがなくとも実施できることは、当業者には明
らかになるであろう。他の場合では、よく知られた構造
およびデバイスを、ブロック図の形式で示す。
DETAILED DESCRIPTION In the following description, for purposes of explanation, numerous specific details are set forth in order to provide a thorough understanding of the present invention. It will be apparent, however, to one skilled in the art, that the present invention may be practiced without some of these specific details. In other instances, well-known structures and devices are shown in block diagram form.

【0011】本発明は様々なステップを含み、これらを
以下で記載する。本発明のステップは、ハードウェア構
成要素によって実行することができ、あるいは、機械可
読命令において実施することができ、これを使用して、
汎用または専用プロセッサ、または、命令によりプログ
ラムされた論理回路に、これらのステップを実行させる
ことができる。別法として、これらのステップをハード
ウェアおよびソフトウェアの組み合わせによって実行す
ることができる。
The present invention includes various steps, which are described below. The steps of the present invention can be performed by hardware components or can be implemented in machine-readable instructions, which can be used to
A general purpose or special purpose processor, or logic programmed with instructions, may cause these steps to be performed. Alternatively, these steps can be performed by a combination of hardware and software.

【0012】本発明はコンピュータ・プログラム製品と
して提供することができ、これは、命令を格納した機械
可読媒体を含み、この命令を使用して、本発明による処
理を実行するようにコンピュータ(または他の電子デバ
イス)をプログラムすることができる。機械可読媒体に
は、フロッピー(登録商標)・ディスク、光ディスク、
CD−ROMおよび光磁気ディスク、ROM、RAM、
EPROM、EEPROM、磁気または光カード、フラ
ッシュ・メモリ、または他のタイプの媒体/電子命令を
格納するために適した様々な機械可読媒体が含まれる
が、それらに限定されるものではない。さらに、本発明
は、コンピュータ・プログラム製品としてダウンロード
することもでき、このプログラムをリモート・コンピュ
ータから要求側コンピュータへ、搬送波または他の伝搬
媒体に埋め込まれたデータ信号によって、通信リンク
(たとえば、モデムまたはネットワーク接続)を介して
転送することができる。
The present invention may be provided as a computer program product, which includes a machine readable medium having stored thereon instructions, which are used to perform a process according to the present invention (or other computer). Electronic devices) can be programmed. Machine readable media include floppy disks, optical disks,
CD-ROM and magneto-optical disk, ROM, RAM,
Including, but not limited to, EPROM, EEPROM, magnetic or optical card, flash memory, or other types of machine-readable media suitable for storing media / electronic instructions. In addition, the present invention may be downloaded as a computer program product, wherein the program is transmitted from a remote computer to a requesting computer by a data signal embedded in a carrier wave or other propagation medium, such as a modem or modem. Network connection).

【0013】重要なことには、本発明の実施形態を、潜
在的な顧客などのユーザに対し、特定の関心の品目を発
見させかつ識別させるためにカタログのクオリティを分
析することに関して記載するが、本明細書に記載した方
法および装置は、特定のクオリティが測定されるいかな
る種類のデータベースの分析にも等しく適用可能であ
る。たとえば、本明細書に記載した技術は、クライアン
トまたは顧客管理のため、在庫管理のため、輸送管理お
よびスケジューリングのためのデータベース用として有
用であると考えられる。
Significantly, embodiments of the present invention are described with respect to analyzing the quality of a catalog to allow a user, such as a potential customer, to find and identify items of particular interest. The methods and apparatus described herein are equally applicable to the analysis of any type of database where a particular quality is measured. For example, the techniques described herein may be useful for databases for client or customer management, inventory management, transportation management and scheduling.

【0014】本発明は、Java(登録商標)ソフトウ
ェア命令において実施されることが好ましいが、他のい
かなるコンピュータ・プログラミング言語を使用するこ
とができる。Java(登録商標)コードは、幅広い種
類のコンピュータ・システムで動作することができる。
本発明を実施することができる、このようなコンピュー
タ・システムの一例を、図1を参照して以下に記載す
る。コンピュータ・システムは、情報を通信するための
バスまたは他の通信手段1、および、バス1と結合され
たプロセッサ2などの情報を処理するための処理手段を
含む。コンピュータ・システムはさらに、ランダム・ア
クセス・メモリ(RAM)または他の動的記憶デバイス
4(メイン・メモリとも呼ぶ)も含み、これはバス1に
結合され、プロセッサ2によって実行される情報および
命令を格納するものである。メイン・メモリ4は、プロ
セッサ2による命令の実行中に、一時的数値変数または
他の中間情報を格納するために使用することもできる。
コンピュータ・システムは、読取り専用メモリ(RO
M)または他の静的記憶デバイス6も含むことができ、
これはバス1に結合され、プロセッサ2のための静的な
情報および命令を格納するものである。
The invention is preferably implemented in Java software instructions, but any other computer programming language can be used. Java code can operate on a wide variety of computer systems.
One example of such a computer system in which the invention can be implemented is described below with reference to FIG. The computer system includes a bus or other communication means 1 for communicating information, and processing means for processing information, such as a processor 2 coupled to the bus 1. The computer system further includes a random access memory (RAM) or other dynamic storage device 4 (also referred to as main memory), which is coupled to bus 1 and stores information and instructions executed by processor 2. What to store. Main memory 4 may also be used to store temporary numeric variables or other intermediate information during execution of instructions by processor 2.
The computer system has read-only memory (RO)
M) or other static storage device 6;
It is coupled to bus 1 and stores static information and instructions for processor 2.

【0015】磁気ディスクまたは光ディスクなどのデー
タ記憶デバイス7、およびその対応するドライブも、情
報および命令を格納するためにコンピュータ・システム
に結合することができる。コンピュータ・システムは、
バス1を介して、陰極線管(CRT)または液晶表示
(LCD)などのディスプレイ・デバイス21へ結合す
ることもでき、これは、情報をエンド・ユーザへ表示す
るものである。たとえば、設置状況、試行期間における
残存時間、および他の情報のグラフィカルおよびテキス
トの指示を見込みのある購買者に対してディスプレイ・
デバイス21で提示することができる。典型的には、英
数字入力デバイス22は英数字および他のキーを含み、
情報およびコマンド選択をプロセッサ2へ通信するため
に、バス1に結合することができる。別のタイプのユー
ザ入力デバイスはカーソル制御23であり、マウス、ト
ラックボール、またはカーソル方向キーなど、方向情報
およびコマンド選択をプロセッサ2へ通信するため、か
つ、ディスプレイ21上のカーソル移動を制御するため
のものである。
[0015] A data storage device 7, such as a magnetic or optical disk, and its corresponding drive may also be coupled to the computer system for storing information and instructions. The computer system is
Via the bus 1, it can also be coupled to a display device 21, such as a cathode ray tube (CRT) or a liquid crystal display (LCD), for displaying information to the end user. For example, graphical and textual instructions for installation status, remaining time in the trial period, and other information are displayed to prospective buyers.
It can be presented on the device 21. Typically, the alphanumeric input device 22 includes alphanumeric and other keys,
Information and command selection can be coupled to bus 1 for communicating to processor 2. Another type of user input device is a cursor control 23, for communicating directional information and command selections such as a mouse, trackball, or cursor direction keys to the processor 2 and for controlling cursor movement on the display 21. belongs to.

【0016】通信デバイス25もバス1に結合される。
通信デバイス25は、モデム、ネットワーク・インタフ
ェース・カード、または他のよく知られたインタフェー
ス・デバイスを含むことができ、これは、イーサネット
(登録商標)、トークン・リング、または、たとえば、
通信リンクを構成してローカルまたは広域ネットワーク
をサポートするための他のタイプの物理アタッチメント
などである。いかなる場合も、このように、コンピュー
タ・システムをいくつかのクライアントまたはサーバ
に、たとえば、企業のイントラネットまたはインターネ
ットなど、従来のネットワーク・インフラストラクチャ
を介して結合することができる。
A communication device 25 is also coupled to bus 1.
Communication device 25 may include a modem, a network interface card, or other well-known interface devices, such as Ethernet, Token Ring, or, for example,
Other types of physical attachments and the like to configure communication links to support local or wide area networks. In any case, the computer system can thus be coupled to several clients or servers via a conventional network infrastructure, such as, for example, a corporate intranet or the Internet.

【0017】上に記載した例よりも少なく、あるいはよ
り多く装備されたコンピュータ・システムが、ある実施
について望ましい可能性があることを理解されたい。し
たがって、コンピュータ・システムの構成は、実施毎
に、価格の制約、性能要件、技術的改良、および他の事
情など、多数の要素に応じて変わるであろう。
It should be appreciated that fewer or more equipped computer systems than the examples described above may be desirable for certain implementations. Thus, the configuration of a computer system will vary from implementation to implementation depending on a number of factors, such as price constraints, performance requirements, technical improvements, and other considerations.

【0018】本明細書に記載したステップを、プロセッ
サ2など、プログラムされたプロセッサの制御下で実行
することができるが、代替実施形態では、このステップ
を完全あるいは部分的に、いかなるプログラム可能ある
いはハード・コーディングされたロジック、たとえば、
フィールド・プログラマブル・ゲート・アレイ(FPG
A)、TTLロジック、または専用集積回路(ASI
C)などによって実施できることに留意されたい。加え
て、プログラムされた汎用コンピュータ構成要素または
カスタム・ハードウェア構成要素のいかなる組み合わせ
によっても本発明の方法を実行することもできる。した
がって、本明細書で開示されたものはいずれも、本発明
を、列挙されたステップが特定の組み合わせのハードウ
ェア構成要素によって実行される特定の実施形態に限定
するものとして、解釈されるべきではない。
Although the steps described herein may be performed under the control of a programmed processor, such as processor 2, in an alternative embodiment, the steps may be completely or partially performed by any programmable or hard- ware. Coded logic, eg,
Field Programmable Gate Array (FPG)
A), TTL logic, or dedicated integrated circuit (ASI)
It should be noted that this can be performed by C) or the like. In addition, the method of the present invention may be performed by any combination of programmed general-purpose computer components or custom hardware components. Therefore, anything disclosed herein should not be construed as limiting the invention to the particular embodiments in which the recited steps are performed by particular combinations of hardware components. Absent.

【0019】本発明は、データのリストを分析すること
を対象とし、好ましい実施形態では、電子カタログを分
析することを対象とする。カタログは、データベースと
して、あるいは、スプレッドシートまたはテキストな
ど、他のいかなる電子フォーマットにおいても存在する
ことができる。電子フォーマットがない場合、紙のカタ
ログまたはテキスト文書を電子形式に走査し、次いで、
標準化された品目のリストをそれらの説明と共に処理す
ることもできる。本出願は、データベースに関して本発
明を記載する。本発明の文脈において、データベースと
いう用語は、いかなる特定のタイプの構造にも限定され
るものと解釈されるべきではなく、より幅広い意味にお
いて、品目に説明が添付されるリストまたはシーケンス
として解釈されるべきである。このようなデータベース
を、たとえば、2次元テーブルの集まりとして見ること
ができ、各行が異なるレコードを表し、各列が異なるフ
ィールドを表す。各レコードが特定の品目に対応する。
事務用品のカタログの場合、レコードが、特定のペンな
ど、特定の事務用品についてのカタログ情報を提供す
る。異なるペンはそれぞれ異なるレコードを有する。各
レコードにいくつかのフィールドがある。各フィールド
が、価格、色、重量、サイズなど、レコードに対応する
品目の属性を記述する。本発明は、データベースのフィ
ールドに入力される値を分析する。
The present invention is directed to analyzing a list of data, and in a preferred embodiment is directed to analyzing an electronic catalog. The catalog can exist as a database or in any other electronic format, such as a spreadsheet or text. If there is no electronic format, scan a paper catalog or text document in electronic format,
A standardized list of items can be processed along with their descriptions. This application describes the invention with respect to a database. In the context of the present invention, the term database should not be construed as being limited to any particular type of structure, but rather, in a broader sense, as a list or sequence accompanied by an explanation to an item Should. Such a database can be viewed, for example, as a collection of two-dimensional tables, with each row representing a different record and each column representing a different field. Each record corresponds to a particular item.
In the case of a catalog of office supplies, the record provides catalog information about a particular office supply, such as a particular pen. Different pens have different records. Each record has several fields. Each field describes the attributes of the item corresponding to the record, such as price, color, weight, and size. The present invention analyzes the values entered in the fields of the database.

【0020】図2は本発明の応用例であり、一般に、デ
ータベースのクオリティを分析するためのものである。
図2では、処理が、分析されるフィールドを選択するこ
と(30)で開始する。典型的には、すべてのフィール
ドが同じ重要性を与えられるのではない。これについて
は、後に続く例において理解されよう。フィールドが選
択されたあと、これらが重要性の順序でランク付けされ
る(32)。本発明は、データベースのフィールドの値
において、不足分、超過分、および可変性を調べ、意味
をなすスコアを与えるために、異なるフィールドが、ス
コアリングにおいて異なるレベルの重要性に一致させら
れなければならない。各フィールドは、そのランク付け
に基づいて重みが与えられ、この重みが、最終スコアを
決定するのに使用される。フィールドが選択され、ラン
ク付けされた後、データベースにおける、選択された各
フィールドの値が取り出され(34)、次いで比較の処
理(36)を通じて分析される。比較の特定のタイプ
は、分析中である特定のクオリティに依存する。比較の
後、この比較に基づいて、スコアが割り当てられる(3
8)。このスコアが、データベースに対する全体スコア
への基礎入力である。上に述べたように、フィールドの
ランク付けを使用して、重み係数が各フィールドへ割り
当てられる(40)。これらの重み係数が、重みを各ス
コアに加える(42)ために使用されるテーブルに記録
されることが好ましい。重みがすべてゼロと1の間の乗
算係数を構成することが好ましいが、数値スケーリング
を様々な異なる方法で行うことができる。最後に、重み
付けされたスコアが結合されて(44)、データベース
用の、分析中の特定のクオリティに関して全体のスコア
が生成される。多数のクオリティについてのスコアを結
合して、データベースのより総合的なスコアを提供する
ことができる。この結果を正規化して、異なるデータベ
ースまたは電子ソースの間の比較を容易にすることもで
きる。
FIG. 2 shows an application of the present invention, generally for analyzing the quality of a database.
In FIG. 2, the process begins with selecting a field to be analyzed (30). Typically, not all fields are given the same importance. This will be understood in the examples that follow. After the fields are selected, they are ranked in order of importance (32). The present invention examines the deficiencies, excesses, and variability in the values of the fields in the database and provides different scores if different fields are not matched to different levels of importance in scoring. No. Each field is given a weight based on its ranking, and this weight is used to determine the final score. After the fields have been selected and ranked, the value of each selected field in the database is retrieved (34) and then analyzed through a comparison process (36). The particular type of comparison depends on the particular quality being analyzed. After the comparison, a score is assigned based on the comparison (3
8). This score is the basic input to the overall score for the database. As mentioned above, a weighting factor is assigned to each field using the ranking of the fields (40). These weighting factors are preferably recorded in a table used to add weights to each score (42). Preferably, the weights constitute a multiplication factor between all zeros and ones, but numerical scaling can be done in a variety of different ways. Finally, the weighted scores are combined (44) to produce an overall score for the particular quality under analysis for the database. Scores for multiple qualities can be combined to provide a more comprehensive score for the database. This result can also be normalized to facilitate comparison between different databases or electronic sources.

【0021】好ましい実施形態では、本発明を使用し
て、カタログにおける品目を発見できる容易さを測定す
ることができる。3つの構成要素が分析されることが好
ましい。完全性は、カタログ項目についての属性および
フィールド値がカタログに存在するかどうか、あるい
は、すなわち、各レコードについての重要なフィールド
がデータ・エントリを含むかどうかを調べる。強調が、
発見および購買に重要な属性に置かれ、これはSKU
(在庫商品識別番号)、価格、供給者名、および説明な
どである。これらの項目が欠けている(ヌル・フィール
ド値を含む)カタログは、より使いにくいものとなる。
一貫性は、共通の略語および測定の単位の一貫した使用
を探す。コンプレヘンションは、どのように製品が説明
されるかについて、単語の使用を評価することによって
調べる。単語は、説明のフィールドにおいて、測定の単
位および共通の略語を含み、辞書を使用して検査され、
品詞が適切性およびカウントについて分析される。
In a preferred embodiment, the present invention can be used to measure the ease with which items can be found in a catalog. Preferably, three components are analyzed. Integrity checks to see if the attributes and field values for the catalog entry are present in the catalog, or whether the important fields for each record contain data entries. The emphasis is
Attributes that are important for discovery and purchasing,
(Stock item identification number), price, supplier name, description, and the like. Catalogs that lack these entries (including null field values) are more difficult to use.
Consistency looks for consistent use of common abbreviations and units of measurement. Comprehension examines how a product is described by assessing the use of words. The words are examined using a dictionary, including units of measurement and common abbreviations in the description field,
The parts of speech are analyzed for appropriateness and count.

【0022】図3は、完全性を分析するための一例の流
れ図である。電子カタログを分析する例において、完全
性分析は、購買を行うことが必要とされる製品のすべて
の属性の存在、ならびに、製品を発見する能力を向上さ
せるフィールド値の存在についての検査であることが好
ましい。
FIG. 3 is an example flow chart for analyzing integrity. In the example of analyzing an electronic catalog, the integrity analysis is a test for the presence of all attributes of the product that need to be purchased, as well as the presence of field values that enhance the ability to find the product. Is preferred.

【0023】図3では、データベースを完全性のクオリ
ティについて分析する処理が、分析されるフィールドを
選択すること(50)で開始する。典型的には、電子カ
タログの例では、SKU、価格、供給者名、および説明
のフィールドが選択される。しかし、選択される特定の
フィールドは、分析される特定のデータベース、およ
び、もっとも重要と見なされるフィールドに依存する。
フィールドが選択された後、これらが重要性の順序でラ
ンク付けされる(52)。典型的には、ランク付けは、
SKU、価格、供給者名、および説明となる。特定のデ
ータベース、データベース・コンテンツの領域、および
フィールドのランク付けは、特定のデータベースおよび
分析の目的に依存する。次に、重みが、ランク付けに基
づいて割り当てられる(54)。加える重みの例は、S
KU:1.0、価格:0.75、供給者名:0.5、お
よび説明:0.25となる。
In FIG. 3, the process of analyzing the database for quality of integrity begins with selecting the fields to be analyzed (50). Typically, in the example of an electronic catalog, the fields SKU, Price, Supplier Name, and Description are selected. However, the particular fields selected will depend on the particular database being analyzed and the fields deemed most important.
After the fields are selected, they are ranked 52 in order of importance. Typically, the ranking is
SKU, price, supplier name, and description. The ranking of particular databases, regions of database content, and fields will depend on the particular database and the purpose of the analysis. Next, weights are assigned based on the ranking (54). An example of the weight to be added is S
KU: 1.0, price: 0.75, supplier name: 0.5, and description: 0.25.

【0024】フィールドが選択されランク付けされた
後、選択された各フィールドに対するデータベースにお
ける値が取り出され(56)、次いで比較の処理(5
8)を通じて分析される。特に、フィールドの値がヌル
値と比較され、すなわち、特定のフィールドについてフ
ィールドに入力されたいずれかのデータがあるかどうか
について、決定が行われる。次いで、カウントが、各フ
ィールドについてのヌル値のすべてで行われる(6
0)。比較に基づいて、スコアが割り当てられる(6
2)。スコアは、単に、各フィールドについてヌルでな
い値の数であることが好ましい。重み係数が各スコアに
割り当てられることが好ましい(64)。最後に、重み
付けされたスコアが結合されて(66)、分析中のデー
タベースに対する全体の完全性のスコアが生成される。
After the fields have been selected and ranked, the values in the database for each selected field are retrieved (56) and then compared (5).
Analyzed through 8). In particular, the value of the field is compared to a null value, ie, a determination is made as to whether there is any data entered into the field for a particular field. A count is then performed on all of the null values for each field (6
0). A score is assigned based on the comparison (6
2). Preferably, the score is simply the number of non-null values for each field. Preferably, a weighting factor is assigned to each score (64). Finally, the weighted scores are combined (66) to generate an overall integrity score for the database under analysis.

【0025】3つの異なるフィールドが分析中である場
合、完全性のスコアを決定する数学的な例は、以下の通
りである。 完全性のスコア=(w1*f1(n)+w2*f2
(n)+w3*f3(n))/(w1+w2+w3)
If three different fields are being analyzed, a mathematical example for determining the integrity score is as follows. Completeness score = (w1 * f1 (n) + w2 * f2
(N) + w3 * f3 (n)) / (w1 + w2 + w3)

【0026】ただし、以下のようになる。 f1(n)=Σ([すべての第1のグループのフィール
ド]*[第1のグループのフィールドで、レコードにつ
き非ヌル値を有するもののカウント]*[評価中のレコ
ード(すなわち、カタログにおける製品)のカウン
ト])/([すべての第1のグループのフィールド]*
[評価中のレコードのカウント]) f2(n)=Σ([すべての第2のグループのフィール
ド]*[第2のグループのフィールドで、製品につき非
ヌル値を有するもののカウント]*[評価中の製品(す
なわち、カタログ)のカウント])/([すべての第2
のグループのフィールド]*[評価中の製品のカウン
ト]) f3(n)=Σ([すべての第3のグループのフィール
ド]*[第3のグループのフィールドで、製品につき非
ヌル値を有するもののカウント]*[評価中の製品(す
なわち、カタログ)のカウント])/([すべての第3
のグループのフィールド]*[評価中の製品のカウン
ト]) ただし、w1、w2およびw3は、それぞれ第1から第
3のフィールドに対する対応する重みである。
However, it becomes as follows. f1 (n) = Σ ([all first group fields] * [count of first group fields with non-null values per record] * [record under evaluation (ie, product in catalog) Count]) / ([all first group fields] *
[Count of records under evaluation]) f2 (n) = Σ ([all second group fields] * [count of second group fields with non-null value per product] * [under evaluation Of products (ie, catalogs)]) / ([all second
F3 (n) = Σ ([all third group fields] * [third group fields that have a non-null value for the product) Count] * [count of product under evaluation (ie, catalog)] / ([all 3rd
Field of the group of *) * [Count of products under evaluation]) where w1, w2 and w3 are the corresponding weights for the first to third fields, respectively.

【0027】完全性の詳細なレポートが、典型的には、
選択されたすべてのフィールドについての完全さ(ヌル
でない値)の割合、選択されたフィールドのリスト、お
よび、すべてのフィールドのカテゴリによる完全さの割
合を示す。加えて、重要な属性がフィールドにおいて欠
けている品目の数、リッチ・コンテンツ(すなわち、画
像)を有する品目の数、および、カテゴリを有していな
い品目の数を示すことができる。最後に、すべてのフィ
ールドのスコアによる完全さの割合を提供することがで
きる。これを使用して、データ値改善努力をもっとも必
要とする分野に集中させることができる。
A detailed report of completeness is typically
Shows the percentage completeness (non-null value) for all selected fields, a list of selected fields, and percentage completeness by category for all fields. In addition, important attributes can indicate the number of items missing in the field, the number of items with rich content (ie, images), and the number of items without categories. Finally, a percentage of completeness by score for all fields can be provided. This can be used to focus on areas where data value improvement efforts are most needed.

【0028】領域、カテゴリまたは属性に基づいてスコ
アを生成することが望まれる可能性もある。いくつかの
領域に渡るカタログでは、どの領域が最大レベルの完全
さを有するか、どの領域が最大の改善を必要とするかを
理解することが、有効であろう。特定の領域内で、カタ
ログのユーザまたは作成者が、どのカテゴリの商品また
はサービスが修正からもっとも利益を得ることができる
かを理解することによって、利益を得ることができる。
フィールドのグループに関係する属性(記述子または仕
様)は、カタログのユーザまたは作成者に報告するため
のもう1つの有効な基礎を提示する。不完全なフィール
ドが、SKUおよび価格など、カタログに渡って共通で
ある属性に属していた場合、不完全なフィールドが、色
または電力など、カテゴリに特有の属性に関係する場合
とは異なる修正の努力が必要とされるであろう。
It may be desirable to generate a score based on a region, category or attribute. For a catalog that spans several domains, it would be useful to understand which domains have the highest level of completeness and which domains require the greatest improvement. Within a particular area, a catalog user or creator can benefit by understanding which categories of goods or services can benefit most from the modification.
Attributes (descriptors or specifications) that pertain to groups of fields provide another useful basis for reporting to catalog users or creators. If the incomplete field belongs to an attribute that is common across the catalog, such as SKU and price, the incomplete field will have a different modification than if it relates to a category-specific attribute, such as color or power. Effort will be needed.

【0029】図4は、一貫性を分析するための、本発明
の応用例を提示する。カタログのユーザは一般に、品目
が記述される方法における一貫性を好む。これにより、
ユーザが製品の説明を探索するとき、所望の製品のよう
なすべての品目が発見され、表示されるという確信が増
進される。第1の一貫性の要素は、単語の使用、測定の
単位、および略語であり、たとえば、ft.、F.、F
T.またはfootを使用する。不必要あるいは一貫し
ていない類義語の使用、つまり、製品における違いを示
唆しない類義語を使用することは、混乱を招くことであ
り、カタログの効率的な使用を妨げる。多数の可能な意
味を有する略語(CT=CartonまたはCrate
またはConnecticut)の使用は、曖昧さを生
じる可能性があり、これもカタログの効率的な使用を妨
げる。本発明は、ユーザによって、類義語のデータベー
スとして定義されたシソーラスを使用し、類義語使用を
スコアリングすることができる。
FIG. 4 presents an application of the present invention for analyzing consistency. Catalog users generally prefer consistency in the way items are described. This allows
As the user searches for product descriptions, the confidence that all items, such as the desired product, will be found and displayed is increased. The first elements of consistency are word usage, units of measurement, and abbreviations, for example, ft. , F. , F
T. Or use foot. The use of unnecessary or inconsistent synonyms, that is, synonyms that do not indicate a difference in the product, is confusing and prevents efficient use of the catalog. Abbreviations with a number of possible meanings (CT = Carton or Crate)
Or Connecticut) can cause ambiguity, which also prevents efficient use of the catalog. The present invention allows a user to score synonym usage using a thesaurus defined as a database of synonyms.

【0030】略語使用における一貫性は、カタログ一貫
性のためにも、曖昧さを回避するためにも望ましい。略
語のテーブルを、好ましい略語を示して作成することが
できる。この一貫性の構成要素のスコアリングは、好ま
しい略語と全体の略語の比に基づかせることができる。
ユニークな組み合わせが起こる頻度が、第2の方法であ
る。いくつかの方法を組み合わせることにより、全体の
一貫性の構成要素についての重み付けされたスコアを可
能にする。
Consistency in abbreviation usage is desirable both for catalog consistency and to avoid ambiguity. A table of abbreviations can be created showing preferred abbreviations. The scoring of this consistency component can be based on the ratio of preferred abbreviations to total abbreviations.
The frequency at which unique combinations occur is the second method. The combination of several methods allows for a weighted score for the overall consistency component.

【0031】図4では、データベースを、完全性のクオ
リティについて分析する処理が、分析されるフィールド
を選択すること(70)で開始する。典型的には、電子
カタログの例では、測定の単位および略語を含むフィー
ルドが選択される。カタログでは、寸法、色、タイプお
よび出荷日についてのフィールドを選択することができ
る。フィールドが選択された後、これらが重要性の順序
でランク付けされる(72)。選択される特定のフィー
ルド、およびフィールドのランク付けは、特定のデータ
ベースおよび分析の目的に依存する。次に、重みが、ラ
ンク付けに基づいて割り当てられる(74)。加える重
みの例は、サイズ:1.0、重量:0.75、色:0.
5、および出荷日:0.25となる。
In FIG. 4, the process of analyzing the database for quality of integrity begins with selecting the fields to be analyzed (70). Typically, in the example of an electronic catalog, fields containing units of measurement and abbreviations are selected. In the catalog, you can select fields for dimensions, colors, types and shipping dates. After the fields are selected, they are ranked in order of importance (72). The particular fields selected, and the ranking of the fields, will depend on the particular database and the purpose of the analysis. Next, weights are assigned based on the ranking (74). Examples of weights to be added are: size: 1.0, weight: 0.75, color: 0.
5, and shipping date: 0.25.

【0032】フィールドが選択されランク付けされた
後、データベースにおいて、選択された各フィールドに
ついての値が取り出され(76)、次いで比較の処理
(80)を通じて分析される。特に、各フィールドの値
がシソーラス(78)における値と比較される。シソー
ラスは特に、分析中のカタログのタイプについて設計さ
れる。これは、カタログの作成者によって提供すること
ができ、あるいは、カタログの特定のユーザの必要性に
基づかせることができる。シソーラスが、測定の単位お
よび略語についてのフィールドにおいて十分に理解され
る類義語の完全リストを含むことが好ましい。異なるシ
ソーラスが、異なるカテゴリまたは領域について必要と
される可能性がある。
After the fields are selected and ranked, in the database the value for each selected field is retrieved (76) and then analyzed through a process of comparison (80). In particular, the value of each field is compared to the value in the thesaurus (78). The thesaurus is specifically designed for the type of catalog being analyzed. This can be provided by the creator of the catalog or can be based on the needs of the particular user of the catalog. Preferably, the thesaurus contains a complete list of synonyms well understood in the field of units of measurement and abbreviations. Different thesauruses may be needed for different categories or regions.

【0033】比較において、各レコードからの測定の単
位または略語の値が、シソーラスにおけるエントリと合
致するかどうかについての決定が行われる。次いで、カ
ウントが、各フィールドについて異なる合致する値のす
べてで行われる(82)。合致の数に基づいて、スコア
が割り当てられる(84)。スコアは、単に、各フィー
ルドについてシソーラスにおける合致を発見する値の数
を、非ヌル値の総数で除算したものであることが好まし
い。次いで、重み係数が各スコアに割り当てられる(8
6)。比較(80)から開発することができる別のスコ
アが、各フィールドにおけるユニークな値のすべてのカ
ウント(88)である。たとえば、測定の単位の値「l
b.」、「Lb.」、「pd.」および「pound」
が共に追加されて、これらの各値が重みフィールドにお
いて起こる回数がどれほどであろうと、4つのカウント
が形成される。このユニークな値の総数にスコアが割り
当てられ(90)、類義語の数が多いほどより低いスコ
アを生成するようにする。好ましいスコアは、類義語の
グループの数の総数を、各類義語のグループについて発
見された類義語のカウントで除算したものである。類義
語のグループは、たとえば、ポンドによる重量であり、
類義語は、上記のポンドを表す様々な方法である(l
b.、Lb.、poundなど)。次いで、スコアが、
合致の総数と同じ方法において、重み付けされる(9
2)。最後に、重み付けされたスコアが結合されて(9
4)、分析中のデータベースについての全体の一貫性の
スコアが生成される。全体の一貫性のスコアは、(冗長
な略語および測定の単位のカウント)/(ユニークな略
語および測定の単位のカウント)である比を反映するこ
とが好ましい。完全な数学的分析は、上記で完全性につ
いて提示したものと非常に類似する。
In the comparison, a determination is made as to whether the unit of measure or abbreviation value from each record matches an entry in the thesaurus. A count is then made on all of the different matching values for each field (82). A score is assigned based on the number of matches (84). Preferably, the score is simply the number of values finding a match in the thesaurus for each field divided by the total number of non-null values. A weighting factor is then assigned to each score (8
6). Another score that can be developed from the comparison (80) is a count (88) of all unique values in each field. For example, the unit of measure value "l
b. "," Lb. "," pd. "And" ound "
Are added together to form four counts, no matter how many times each of these values occurs in the weight field. A score is assigned to this total number of unique values (90), such that a greater number of synonyms produces a lower score. A preferred score is the total number of synonym groups divided by the count of synonyms found for each synonym group. A group of synonyms is, for example, weight in pounds,
Synonyms are various ways of representing pounds above (l
b. , Lb. , Pound, etc.). Then the score is
Weighted in the same way as the total number of matches (9
2). Finally, the weighted scores are combined (9
4) An overall consistency score is generated for the database under analysis. The overall consistency score preferably reflects a ratio of (redundant abbreviations and units of measurement) / (unique abbreviations and units of measurement). A complete mathematical analysis is very similar to that presented above for completeness.

【0034】カタログについての詳細な一貫性のレポー
トは、カテゴリ毎かつ属性毎に、以下を示すことが好ま
しい。 略語の数 ユニークな略語の数 冗長な略語の数 測定の単位の数 ユニークな測定の単位の数 冗長な測定の単位の数
The detailed consistency report for the catalog preferably shows, by category and by attribute: Number of abbreviations Number of unique abbreviations Number of redundant abbreviations Number of units of measurement Number of unique units of measurement Number of units of redundant measurement

【0035】分析する第3の例のクオリティはコンプレ
ヘンション(comprehension)である。コンプレヘンショ
ンを分析するための1つの方法では、本発明は、カタロ
グにおける品目の説明が母国語の単語を使用しているか
どうか、かつ、様々な単語がカタログのサイズに一致し
ているかどうかを調べる。数字および英数字文字列は、
知られている測定の単位および略語であるとして、分析
から排除される。数字は、記述子に関連付けられた部品
番号または値であると仮定される。英数字文字列は、部
品番号であると仮定される。測定の単位および略語は、
上述の一貫性評価において処理される。
A third example of quality to analyze is comprehension. In one method for analyzing complications, the present invention determines whether item descriptions in a catalog use native language words and whether various words match the size of the catalog. Find out. Numeric and alphanumeric strings are
It is excluded from the analysis as it is a known unit of measure and abbreviation. The number is assumed to be the part number or value associated with the descriptor. Alphanumeric strings are assumed to be part numbers. Units of measure and abbreviations are:
It is processed in the consistency evaluation described above.

【0036】追加の分析を生成して、品目を説明するこ
とにおける名詞および形容詞の使用を調べることができ
る。本発明は、所与の領域において品目を説明するため
の最適な値の範囲、および、ユニークな名詞の数とカテ
ゴリの数の間の関係を分析することもできる。この場
合、グレードを、ユニークな単語が辞書において発見さ
れる割合に関連付けることができる。単語の各再発はカ
ウントされない。他に含める要素は、カタログにおける
単語の数、カタログにおけるユニークな単語の数、レコ
ードまたは品目毎に、ユニークなSKUを有することに
よって区別されるように使用された名詞の数、および、
レコード毎の形容詞の数である。この最後の測定は、少
なくとも1つの単語により記述されるレコードの割合を
測定することによって、考慮することもできる。ユーザ
が書かれた説明を好むカタログでは、説明の範囲の統計
的カウントが価値を有する。これらのすべての測定値
が、カテゴリによって、かつ属性によってソートされ
て、もっとも有効な測定値がカタログのユーザおよび作
成者に提供されることが好ましい。
[0036] Additional analysis can be generated to examine the use of nouns and adjectives in describing items. The invention can also analyze the optimal range of values to describe an item in a given domain, and the relationship between the number of unique nouns and the number of categories. In this case, the grade can be associated with the rate at which unique words are found in the dictionary. Each recurrence of the word is not counted. Other factors to include include the number of words in the catalog, the number of unique words in the catalog, the number of nouns used to distinguish each record or item by having a unique SKU, and
Number of adjectives per record. This last measure can also be taken into account by measuring the percentage of records described by at least one word. In catalogs where users prefer written descriptions, a statistical count of the range of the descriptions is valuable. Preferably, all these measurements are sorted by category and by attribute so that the most effective measurements are provided to catalog users and creators.

【0037】図5では、コンプレヘンションのクオリテ
ィについてデータベースを分析する処理が、分析される
フィールドを選択すること(100)で開始する。典型
的には、電子カタログの例では、テキスト記述を含むフ
ィールドが選択される。データベースでは、この情報
が、製品に関連付けられたいくつかのフィールドに広げ
られる可能性があり、すべてのフィールドを全体として
検査することができる。ユーザが、どのフィールドが特
定の状況について適切であるかを選択することができ
る。さらに、全体のカタログに渡る品詞を、類似の品目
を区別するカタログの能力の指示として分析することが
できる。製品説明のテキスト構成要素を、十分性ならび
に一貫性について評価することができる。十分性は、効
果的に製品を記述するために、ならびに、カタログ内の
品目を効果的に区別するために、十分な記述を提供する
ことである。品目毎に各品詞(名詞、形容詞など)の数
および分散を検査することにより、その品目について搬
送された情報の程度のある指示が得られる。フィールド
が選択された後、これらが重要性の順序でランク付けさ
れる(102)。次に、重みが、ランク付けに基づいて
割り当てられる(104)。フィールドが選択されラン
ク付けされた後、データベースにおいて、選択された各
フィールドについての値が取り出され(106)、次い
で、辞書110との比較の処理(108)を通じてへ分
析される。辞書は特に、分析中のカタログのタイプにつ
いて設計される。
In FIG. 5, the process of analyzing the database for the quality of the completion begins with selecting the fields to be analyzed (100). Typically, in the example of an electronic catalog, a field containing a text description is selected. In the database, this information can be spread over several fields associated with the product, and all fields can be examined as a whole. The user can select which fields are appropriate for a particular situation. Further, the part of speech across the entire catalog can be analyzed as an indication of the catalog's ability to distinguish similar items. The text component of the product description can be evaluated for sufficiency as well as consistency. Sufficiency is to provide enough description to effectively describe the product as well as to effectively distinguish the items in the catalog. By examining the number and variance of each part of speech (noun, adjective, etc.) for each item, a high degree of indication of the information carried about that item is obtained. After the fields are selected, they are ranked in order of importance (102). Next, weights are assigned based on the ranking (104). After the fields are selected and ranked, in the database the value for each selected field is retrieved (106) and then analyzed through the process of comparison with the dictionary 110 (108). The dictionary is specifically designed for the type of catalog under analysis.

【0038】比較において、各レコードについての各単
語が、辞書におけるエントリと合致するかどうかについ
て決定が行われる(112)。次いで、カウントが、各
フィールドについて異なる合致する値のすべてで行われ
る(114)。合致の数に基づいて、スコアが割り当て
られる(114)。スコアは、単に、各フィールドにつ
いて辞書における合致を発見する値の数であることが好
ましい。次いで、重み係数が各スコアに割り当てられる
(116)。
In the comparison, a determination is made as to whether each word for each record matches an entry in the dictionary (112). A count is then made on all of the different matching values for each field (114). A score is assigned based on the number of matches (114). Preferably, the score is simply the number of values that find a match in the dictionary for each field. A weighting factor is then assigned to each score (116).

【0039】比較(108)から開発することができる
別のスコアが、各フィールドにおける名詞のすべてのカ
ウント(118)である。辞書比較を使用して、単語の
品詞を決定することができる。名詞カウントにスコアが
割り当てられ(120)、好ましくは単にカウントであ
り、次いで、合致の総数と同じ方法において重み付けさ
れる(122)。加えて、形容詞がカウントされ(12
4)、各フィールドに対するスコアが割り当てられ(1
26)、適切に重み付けされる(128)。最後に、重
み付けされたすべてのスコアが結合されて(130)、
分析中のデータベースに対して全体のコンプレヘンショ
ンのスコアが生成される。スコアリングは、発見された
単語と合計の単語、発見されたユニークな単語のインス
タンスと合計のユニークな単語の比、および、部品番号
および非記述的など、非言語テキスト(そうでない場
合、接続詞および前置詞など、関心のないテキスト)に
ついてのフィルタリング後の比に、基づかせることがで
きる。
Another score that can be developed from the comparison (108) is the count of all nouns in each field (118). Dictionary comparisons can be used to determine the part of speech of a word. The noun count is assigned a score (120), preferably just a count, and then weighted in the same way as the total number of matches (122). In addition, adjectives are counted (12
4) A score for each field is assigned (1
26), appropriately weighted (128). Finally, all weighted scores are combined (130),
An overall completion score is generated for the database under analysis. Scoring involves finding words and total words, the ratio of instances of unique words found to total unique words, and non-verbal texts such as part numbers and non-descriptive Based on filtered ratios of uninteresting text, such as prepositions).

【0040】スコアリングは、各構成要素についてのス
コアが正規化される値駆動型の方法に基づく。スコアリ
ング構成要素がより大きい表現に集約されるので、集約
された各スコアが再正規化される。多数の要素からなる
いかなる構成要素も、他のカタログ要素との関係におけ
るその要素の相対的な値を反映するために加えられた重
みを有する。重みは、スコアリング集合体のすべてのレ
ベルで加えられる。ユーザは、スコアリングの相対的な
重み(値重み付けおよび正規化)を構成することが許可
される。品目の説明の十分性を評価するための、追加の
方法がある。これらの中には、文字および単語のカウン
トによる、説明の長さの検査、および、これを予想値
(範囲)または既存の計算された分布と比較することが
ある。このような評価を、1つまたは複数のフィールド
上で、カテゴリ、カタログ、カタログ・セット、または
ユーザによって定義された他のグループによって、実行
することができる。
Scoring is based on a value-driven method in which the scores for each component are normalized. As the scoring components are aggregated into a larger representation, each aggregated score is renormalized. Any component consisting of multiple elements has a weight added to reflect that element's relative value in relation to other catalog elements. Weights are added at all levels of the scoring aggregate. The user is allowed to configure the relative weight of scoring (value weighting and normalization). There are additional ways to assess the adequacy of the item description. Some of these include checking the length of the description by counting characters and words, and comparing this to expected values (ranges) or existing calculated distributions. Such an evaluation may be performed on one or more fields by category, catalog, catalog set, or other group defined by the user.

【0041】異なる応用例および領域が、発見および購
買について異なる要件を有する。スコアリング・システ
ムは、各特定の環境の値を反映するように構成可能であ
ることが好ましい。領域および応用例の専門家は、自分
自身の、カタログの構成要素のスコアリングの相対的な
重要性の評価を適用する。
Different applications and domains have different requirements for discovery and purchase. Preferably, the scoring system is configurable to reflect the value of each particular environment. Domain and application experts apply their own assessment of the relative importance of scoring the components of the catalog.

【0042】上記の記載では、3つの基本的なクオリテ
ィ属性がスコアリングされる。同じ方法を使用して、デ
ータベースの多数の他のクオリティを評価することがで
きる。本発明は、上述のクオリティ・測定に限定される
ものではない。
In the above description, three basic quality attributes are scored. The same method can be used to evaluate a number of other qualities of the database. The present invention is not limited to the quality and measurement described above.

【0043】所望のクオリティのすべてがスコアリング
された後、結果のレポートが構成される。基本的なレポ
ートは、カタログの要約記述である。これは、カタログ
における品目の総数(SKU)、ユニークな品目の数
(合計のSKU−重複)、カテゴリの数、基本およびロ
ーカル属性の数、および、ユニークなローカル属性の数
を含む。
After all of the desired qualities have been scored, the resulting report is constructed. The basic report is a summary description of the catalog. This includes the total number of items in the catalog (SKU), the number of unique items (total SKU-duplication), the number of categories, the number of basic and local attributes, and the number of unique local attributes.

【0044】カタログ・グレードは、上に述べた個々の
クオリティ・スコアのすべての、重み付けされた平均で
ある。すべてのグレードが0〜10の尺度を使用し、1
0が可能な最高のスコアであることが好ましい。ユーザ
が、各構成要素に割り当てられた重みを定義することが
できるが、標準化された重み付け値が、カタログ比較を
容易にするために好ましい。
The catalog grade is a weighted average of all the individual quality scores mentioned above. All grades use a scale of 0-10,
Preferably, 0 is the highest possible score. The user can define the weight assigned to each component, but standardized weight values are preferred to facilitate catalog comparison.

【0045】本発明を、特にその好ましい実施形態を参
照して図示し、記載したが、以下の特許請求の範囲によ
って定義されるような本発明の精神および範囲から逸れ
ることなく、変形形態、適合および修正をその中で行う
ことができることは、当業者には理解されよう。
While the invention has been particularly shown and described with reference to preferred embodiments thereof, modifications, adaptations, and adaptations are possible without departing from the spirit and scope of the invention as defined by the following claims. Those skilled in the art will appreciate that and that modifications can be made therein.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態を実施することができる、
典型的なコンピュータ・システムの一例の図である。
FIG. 1 can implement one embodiment of the present invention;
FIG. 1 is a diagram of an example of a typical computer system.

【図2】本発明の一実施形態を示す流れ図である。FIG. 2 is a flowchart illustrating an embodiment of the present invention.

【図3】完全性を測定するための本発明の応用例を示す
流れ図である。
FIG. 3 is a flow chart illustrating an application of the present invention for measuring integrity.

【図4】一貫性を測定するための本発明の応用例を示す
流れ図である。
FIG. 4 is a flow chart illustrating an application of the present invention for measuring consistency.

【図5】コンプレヘンション性を測定するための本発明
の応用例を示す流れ図である。
FIG. 5 is a flow chart showing an application example of the present invention for measuring the degree of completion.

【符号の説明】[Explanation of symbols]

1 バス 2 プロセッサ 4 メイン・メモリ 6 読取り専用メモリ 7 データ記憶デバイス 21 ディスプレイ・デバイス 22 英数字入力デバイス 23 カーソル制御 25 通信デバイス 1 Bus 2 Processor 4 Main Memory 6 Read Only Memory 7 Data Storage Device 21 Display Device 22 Alphanumeric Input Device 23 Cursor Control 25 Communication Device

───────────────────────────────────────────────────── フロントページの続き (72)発明者 マイケル・レン・ニール アメリカ合衆国・80027・コロラド州・ス ペリアー・リバーベンド ランド・1622 (72)発明者 グレッグ・メニン アメリカ合衆国・80020・コロラド州・ブ ルームフィールド・ドッグレッグ レー ン・13893 Fターム(参考) 5B075 NK46 NR02 NR12 NR20 PP13 UU38  ──────────────────────────────────────────────────続 き Continued on the front page (72) Michael Len Neal, Inventor, United States, 80027, Superior Riverbend, Colorado, Land 1622 (72) Greg Menin, United States, 80020, Bloomfield, Colorado, United States Dog leg lane 13893 F term (reference) 5B075 NK46 NR02 NR12 NR20 PP13 UU38

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 データベースをクオリティに対してスコ
アリングする方法であって、 前記データベースの少なくとも1つのフィールドを、分
析のために選択するステップと、 前記データベースの各レコードにつ対する値を分析され
る前記フィールドから取り出すステップと、 前記取り出された値を標準と比較するステップと、 前記比較に基づいて、選択された各フィールドについて
スコアを割り当てるステップとを含む方法。
1. A method of scoring a database for quality, wherein at least one field of the database is selected for analysis, and a value for each record of the database is analyzed. A method comprising: retrieving from the field; comparing the retrieved value to a standard; and assigning a score for each selected field based on the comparison.
【請求項2】 プロセッサによって実行されたときに次
のステップを実施する命令のシーケンスを現すデータを
格納した機械可読媒体であって、 分析のためのデータベースの少なくとも1フィールドを
選択するステップと、 前記データベースの各レコードに対する値を分析される
前記フィールドから取り出すステップと、 前記取り出された値を標準と比較するステップと、 前記比較に基づいて、選択された各フィールドについて
スコアを割り当てるステップとを含む機械可読媒体。
2. A machine-readable medium having stored thereon data representing a sequence of instructions that, when executed by a processor, performs the following steps: selecting at least one field of a database for analysis; A machine comprising: retrieving a value for each record of a database from the analyzed field; comparing the retrieved value to a standard; and assigning a score for each selected field based on the comparison. Readable medium.
【請求項3】 クオリティに対する妥当性のために選択
されたフィールドをランク付けするステップと、 各選択されたランクに基づいて各選択されたフィールド
に対するスコアの重み付けを行うステップと、 データベース用のスコアを得るために重みづけられたス
コアを結合させるステップとをさらに有する請求項2記
載の機械可読媒体。
3. Ranking the selected fields for relevance to quality; weighting a score for each selected field based on each selected rank; Combining the weighted scores to obtain.
JP2001151689A 2001-05-21 2001-05-21 Database contents quality analyzing method and device Pending JP2002351875A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001151689A JP2002351875A (en) 2001-05-21 2001-05-21 Database contents quality analyzing method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001151689A JP2002351875A (en) 2001-05-21 2001-05-21 Database contents quality analyzing method and device

Publications (1)

Publication Number Publication Date
JP2002351875A true JP2002351875A (en) 2002-12-06

Family

ID=18996484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001151689A Pending JP2002351875A (en) 2001-05-21 2001-05-21 Database contents quality analyzing method and device

Country Status (1)

Country Link
JP (1) JP2002351875A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006190007A (en) * 2005-01-04 2006-07-20 Olympus Corp Image control program, image control device and recording medium
CN111897803A (en) * 2020-08-17 2020-11-06 国网辽宁省电力有限公司信息通信分公司 Database integrity evaluation method for power industry business system
CN113434490A (en) * 2020-03-23 2021-09-24 北京京东振世信息技术有限公司 Quality detection method and device for offline imported data

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006190007A (en) * 2005-01-04 2006-07-20 Olympus Corp Image control program, image control device and recording medium
CN113434490A (en) * 2020-03-23 2021-09-24 北京京东振世信息技术有限公司 Quality detection method and device for offline imported data
CN113434490B (en) * 2020-03-23 2024-04-12 北京京东振世信息技术有限公司 Quality detection method and device for offline imported data
CN111897803A (en) * 2020-08-17 2020-11-06 国网辽宁省电力有限公司信息通信分公司 Database integrity evaluation method for power industry business system
CN111897803B (en) * 2020-08-17 2023-10-20 国网辽宁省电力有限公司信息通信分公司 Database integrity evaluation method for power industry service system

Similar Documents

Publication Publication Date Title
US6631365B1 (en) Method and apparatus for analyzing the quality of the content of a database
US8271476B2 (en) Method of searching text to find user community changes of interest and drug side effect upsurges, and presenting advertisements to users
US8117072B2 (en) Promoting strategic documents by bias ranking of search results on a web browser
Scaffidi et al. Red Opal: product-feature scoring from reviews
US8275773B2 (en) Method of searching text to find relevant content
US7428538B2 (en) Retrieval of structured documents
US7542978B2 (en) Auction notification system
US7814107B1 (en) Generating similarity scores for matching non-identical data strings
JP3597370B2 (en) Document processing device and recording medium
US8768937B2 (en) System and method for retrieving and normalizing product information
US8156102B2 (en) Inferring search category synonyms
CN103309886B (en) Trading-platform-based structural information searching method and device
US7006990B2 (en) Electronic product catalog systems
WO2001093067A1 (en) Method for automatic categorization of items
US20050097092A1 (en) Method and apparatus for query and analysis
US20060173753A1 (en) Method and system for online shopping
US20070239742A1 (en) Determining data elements in heterogeneous schema definitions for possible mapping
US20020059220A1 (en) Intelligent computerized search engine
US7689433B2 (en) Active relationship management
US20080021892A1 (en) Process and system for matching product and markets
EP1258814A1 (en) Method and apparatus for analyzing the quality of the content of a database
EP3798863A1 (en) Creating line item information from free-form tabular data
Yan et al. Product schema integration for electronic commerce-a synonym comparison approach
US8341176B1 (en) Structure-based expansion of user element selection
JP2002351875A (en) Database contents quality analyzing method and device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070315

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20091005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091020

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100120

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100217

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100222

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100323

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100401

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100304

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100326

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100608

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20100826

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110412