JP5864614B2 - 分類された誤配置の識別 - Google Patents

分類された誤配置の識別 Download PDF

Info

Publication number
JP5864614B2
JP5864614B2 JP2013550528A JP2013550528A JP5864614B2 JP 5864614 B2 JP5864614 B2 JP 5864614B2 JP 2013550528 A JP2013550528 A JP 2013550528A JP 2013550528 A JP2013550528 A JP 2013550528A JP 5864614 B2 JP5864614 B2 JP 5864614B2
Authority
JP
Japan
Prior art keywords
category
product title
under
word
product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013550528A
Other languages
English (en)
Other versions
JP2014507716A (ja
Inventor
ユーリン ワン
ユーリン ワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2014507716A publication Critical patent/JP2014507716A/ja
Application granted granted Critical
Publication of JP5864614B2 publication Critical patent/JP5864614B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

関連する特許出願の相互参照
本出願は、参照によりその全内容が本明細書に組み込まれる、『カテゴリーの誤配置を識別するための方法およびデバイス(METHOD AND DEVICE FOR IDENTIFYING CATEGORY MISPLACEMENT)』と題された、2011年1月25日出願の中国特許出願第201110026733.9号の外国優先権を主張する。
本開示は、データ処理技術の1つの分野に関し、より具体的には、カテゴリー誤配置を識別するための方法およびデバイスに関する。
eコマースの発展に伴い、オンラインストアおよびオンライントランザクションは、オンラインユーザーの間でますます一般的になってきている。オンライン・トレーディング・システムは、オンラインストアの製品がカテゴリーを基準にして管理されるオンライン・トレーディング・プラットフォームを提供する。広義のカテゴリーの各々はより小さな下位カテゴリーに分類されて、カテゴリー・ツリーを形成することができる。オンライン製品の数が増えるにつれ、カテゴリー・ツリーもより大きくなっていく。このため、オンラインストアを運営する販売者は、販売している製品を無意識または故意に、間違ったカテゴリーの下に配置してしまうことがあり、これはカテゴリー誤配置として知られている。
カテゴリー誤配置は不正確な検索結果に繋がる可能性があり、さらに、システム記憶およびコンピューティング資源を浪費し、不快なユーザー体験を与える可能性もある。例えば、ユーザーがカテゴリーAの製品を見ようとしてカテゴリー・ツリーをクリックするが、カテゴリーBの製品が提示される。カテゴリー誤配置は、さらに販売者にとって損失の原因ともなり得る。例えば、間違ったカテゴリーに誤配置された製品は見過ごされるかもしれない。間違ったカテゴリーに誤配置された製品を識別して、修正することができれば、上記のマイナス効果を除去し、それによりシステム記憶およびコンピューティング資源の利用率を増加し、購入者と販売者の両方により良いサービスを提供することができる。
誤配置された製品を識別するための1つの方法は、クリック辞書に基づく。クリック辞書は複数のレコードから構成され、各レコードはユーザーが、ユーザーが行ったクエリーの検索結果の中にある特定のカテゴリーをクリックする確率を表す。ユーザーのクエリーおよびクリック動作の記録に基づいて、特定のクエリーに対してそれまでユーザーがクリックした製品の分布を得ることができる。製品が間違ったカテゴリーに誤配置されているかどうかが判断されたら、その製品のタイトルがセグメント分割される。セグメント分割から生じる各語は1つのクエリーとして扱われ、そのクエリーのカテゴリー分布がクリック辞書を通して検索される。合致するカテゴリーが見つかった場合は、カテゴリー誤配置は存在しない;見つからなかった場合は、カテゴリー誤配置が存在する。
大量のデータ(例えば、数千万件または数十億件もの製品データ)に対して上記の方法を使うと、カテゴリー誤配置の識別を見逃す可能性が高くなる。このような方法は数万件のカテゴリー誤配置データのみを識別および撤回し得る。1つの理由はクリック辞書には、膨大な量のデータがあり、分布はわずかであり、カテゴリー誤配置のある製品の大多数は、クリック辞書のクエリーでカバーされていないことにある。もう1つの理由は、この方法は集中的なコンピュータの使用および複雑な処理を必要とし、高いシステム・リソース要件および長い計算時間に繋がることにある。したがって、上記の方法は、インターネット産業の要件を満足することはできない。
本開示は、カテゴリー誤配置を見逃す確率を減らすために、カテゴリー誤配置を識別するための方法およびデバイスを提供する。本開示は、カテゴリー誤配置を識別するためのシステム要件を下げ、システム・リソースを節約し、計算効率を向上することができる。
本開示は、カテゴリー誤配置を識別するための方法を提供する。現在のカテゴリーの下での製品タイトル中の各語の単語頻度が求められる。現在のカテゴリーの下での各語の単語頻度に基づいて、製品タイトルの全体の単語頻度が求められる。次に製品タイトルの全体の単語頻度が現在のカテゴリーの第1の閾値と比較される。比較結果に基づいて、カテゴリー誤配置が存在するかどうかが判定される。
本開示は、さらに、カテゴリー誤配置を識別するためのもう1つの方法も提供する。現在のカテゴリーの下での製品タイトル中の各語のTOP値が得られる。語のTOP値は、製品タイトル中のその語の単語頻度より高い単語頻度を持つ、現在のカテゴリーの下での語の単語頻度の合計である。TOP値と関連度値との予め決められたマッピング関係に基づき、各語のTOP値に対応する関連度値が得られる。語のTOP値に対応する関連度値を合計して、現在のカテゴリーの下での製品タイトルの全体関連度値を得る。現在のカテゴリーの下での製品タイトルの全体関連度値が第2の閾値と比較される。比較結果に基づいて、カテゴリー誤配置が存在するかどうかが判定される。
本開示は、カテゴリー誤配置を識別するためのデバイスを提供する。該デバイスには、単語頻度獲得モジュール、全体の単語頻度計算モジュール、およびカテゴリー誤配置判定モジュールが含まれる。単語頻度モジュールは、現在のカテゴリーの下での製品タイトル中の各語の単語頻度を求める。全体単語頻度計算モジュールは、現在のカテゴリーの下での各語の単語頻度に基づいて、製品タイトルの全体の単語頻度を計算する。カテゴリー誤配置判定モジュールは、製品タイトルの全体の単語頻度を現在のカテゴリーの第1の閾値と比較し、比較結果に基づいて、カテゴリー誤配置が存在するかどうかを判定する。
本開示は、カテゴリー誤配置を識別するためのもう1つのデバイスを提供する。該デバイスには、TOP値獲得モジュール、全体関連度値獲得モジュール、およびカテゴリー誤配置判定モジュールが含まれる。TOP値獲得モジュールは、現在のカテゴリーの下での製品タイトル中の各語のTOP値を得る。語のTOP値は、製品タイトル中の語の単語頻度よりも高い単語頻度を持つ、現在のカテゴリーの下での語の単語頻度の合計である。全体関連度値獲得モジュールは、TOP値と関連度値との予め決められたマッピング関係に基づいて、各語のTOP値に対応する関連度値を得、語のTOP値に対応する関連度値を合計して、現在のカテゴリーの下での製品タイトルの全体関連度値を得る。カテゴリー誤配置判定モジュールは、現在のカテゴリーの下での製品タイトルの全体関連度値を第2の閾値と比較し、比較結果に基づいて、カテゴリー誤配置が存在するかどうかを判定する。
本開示の方法およびデバイスは、製品タイトルの全体の単語頻度と第1の閾値との比較結果に基づいて、カテゴリー誤配置が存在するかどうかを判定することができる。さらに、TOP値は製品タイトルとカテゴリーとの合致度を反映することができる。したがって、TOP値によって決定される製品タイトルとカテゴリーとの全体的な関連度値も、製品タイトルとカテゴリーとの合致度を反映することができる。カテゴリーの下での製品タイトルの全体的な関連度値と第2の閾値との比較結果も、カテゴリー誤配置が存在しているかどうかを判定するために用いることができる。第2の閾値の設定は、カテゴリー誤配置を見逃す確率を減少することができる。例えば、第2の閾値がより低い値に設定される場合、大多数のカテゴリー誤配置を識別することができる。さらに、本開示で公開される技法は、TOP値および全体の関連度値を得ることに関する。現在の技法と比較すると、本開示で公開される技法は、必要とするシステム・リソースが少なく、計算効率が向上する。
以下は、本開示の実施形態または現在の技術の技法をより分かりやすく解説するために、実施形態の記述で使われる図の簡単な説明である。以下の図は、本開示のいくつかの実施形態にのみ関係していることは明白である。当業者は、創造的な努力をすることなく、本開示の図に従って、他の実施形態も得ることができる。
本開示の第1の例の実施形態に従って、カテゴリー誤配置を識別するための例示的方法のフローチャートを示す。 本開示の第2の例の実施形態に従って、カテゴリー誤配置を識別するための例示的方法のフローチャートを示す。 本開示の第3の例の実施形態に従って、カテゴリー誤配置を識別するための例示的方法のフローチャートを示す。 本開示の第4の例の実施形態に従って、カテゴリー誤配置を識別するための例示的方法のフローチャートを示す。 本開示の第5の例の実施形態に従って、カテゴリー誤配置を識別するための例示的デバイスの図表を示す。 本開示の第6の例の実施形態に従って、カテゴリー誤配置を識別するための例示的デバイスの図表を示す。 本開示の第7の例の実施形態に従って、カテゴリー誤配置を識別するための例示的デバイスの図表を示す。 本開示の第8の例の実施形態に従って、カテゴリー誤配置を識別するための例示的デバイスの図表を示す。 本開示の第9の例の実施形態に従って、カテゴリー誤配置を識別するための例示的デバイスの図表を示す。 例示的なTOP値獲得モジュールの図表である。
以下に、本開示の例示的な実施形態の詳しい記述を提供する。ここに記述される例示的な実施形態は、考察のための例としてのみ使われるものであり、本開示を制限するために使われるものではない。
製品はカテゴリーに基づいて配置される。各製品にはタイトルが付いており、これはその製品を記述する目的で使われる。カテゴリーおよびタイトルは、製品の2つの基本的な属性である。
タイトルは一般に、短い語句であり、セグメント分割により複数の語から成るセットに分割することができる。タイトルと語との関係は、以下の式(1)を使うことで表現することできる:
Figure 0005864614
上記の式(1)において、Tはタイトルを表し、タイトルTは語tが複数集まったもの(t、t、・・・tを含み、ここでnは正の整数である)から成る。
さらに、1つのカテゴリーの下にある製品の数が計算される。1つの実施形態においては、1つまたは複数の予め定義された規則に基づいて、製品は1つのカテゴリーの下に配置される。したがって、全てのカテゴリーの製品の総数は、全ての製品の総数と等しい。1つのカテゴリーの下での製品の数は、そのカテゴリーが出現する頻度を表すことができる。
カテゴリー誤配置を識別するために、製品タイトルがその製品に対する現在のカテゴリーと合致しているかどうかをまずチェックすることができる。言い換えれば、所与のカテゴリーの下にある異なる製品タイトルについて、製品タイトルの各々と現在のカテゴリーとの合致度をまず測定することができる。
図1は、本開示の第1の例示的な実施形態に従った、カテゴリー誤配置の識別のための例示的方法のフローチャートを示す。第1の例示的実施形態には、次の操作を含めることができる。
102では、現在のカテゴリーの下での製品タイトル中の各語の単語頻度が求められる。
1つまたは複数のカテゴリーを含むデータベースが提供される。データベース内の各カテゴリーは、少なくとも1つの語およびそのカテゴリーの下でのその語の単語頻度を含む。単語頻度は、各カテゴリーの下での語の確率値である。一般に、異なる複数のカテゴリーの下での語の単語頻度は異なる。単語頻度の概念をいくつかの具体例を参照しながら、以下に詳述する。
製品タイトルは1つまたは複数の語で構成され、異なる複数のカテゴリーの下での各語の出現頻度は同じではない。例えば、「Nike」という語は「sports shoes(スポーツシューズ)」というカテゴリーや「sports attire(スポーツ衣料)」というカテゴリー等、スポーツ製品のカテゴリーの下での製品タイトルに頻繁に出現するが、「Nokia」という語は、「mobile phone(携帯電話)」というカテゴリーの下で製品タイトルに頻繁に出現する。対照的に、「Nike」は、「mobile phone」のカテゴリーの下で製品タイトルに出現することは滅多になく、「Nokia」は「sports shoes」のカテゴリーの下で製品タイトルに出現することは滅多にない。カテゴリーが異なれば、特定の語の単語頻度も異なることが示されている。このような差異をカテゴリーを区別するのに利用することができる。
本開示の例示的な実施形態に基づいて、複数または全てのカテゴリーの下での全ての語の単語頻度を計算することができる。例えば、所与の語tおよび所与のカテゴリーCについて、単語頻度TFt,Cを得ることができる。TFt,Cは、カテゴリーCの下での語tの出現確率、すなわち、P(t|C)を表す。特定のカテゴリーの下での全ての製品タイトルの語の数に基づき、単語頻度TFt,Cは、(0,1)の間の数値として表すことができる。tとCの異なる組合せは、複数の単語頻度をもたらし得る。
実際のアプリケーションでは、異なるカテゴリーの下での様々な語の単語頻度を得て、データベースの構築に用いることができる。このような様々な語は、市場に出現する製品タイトルの全ての語を含むことができる。データベースは読取り専用メモリ(ROM)およびランダム・アクセス・メモリ(RAM)等のメモリを含む、コンピュータ読取り可能媒体に格納することができる。
104では、現在のカテゴリーの下での各語の単語頻度に基づいて、製品タイトルの全体の単語頻度が得られる。
製品タイトルの全体の単語頻度は、現在のカテゴリーの下での各語の得られた単語頻度に基づいて積算することができる。あるいは、重み値を製品タイトル中の各語の順番、その語が重複しているかどうか等の情報に基づいて、各語ごとに定義することができる。各語の重み値および単語頻度に基づき、製品タイトルの全体の単語頻度は重み付けされた計算を用いることにより求めることができる。
106では、製品タイトルの全体の単語頻度が現在のカテゴリーの第1の閾値と比較される。比較結果に基づいて、カテゴリー誤配置が存在するかどうかが判定される。
第1の閾値は、語とデータベース内の各カテゴリーの下でのそれらの語の頻度に基づいて定義することができる。現在のカテゴリーの下での全体の単語頻度が下がるほど、その製品タイトルが現在のカテゴリーの下に分類される確率は下がる。全体の単語頻度が定義された第1の閾値より低い場合、カテゴリー誤配置が存在すると見なされ得る。
第1の閾値は異なるカテゴリーで異なってよい。言い換えれば、異なるカテゴリーの下において、製品タイトル中の語の単語頻度の分布特性に基づき、異なる第1の閾値を異なるカテゴリーに対して予め定義してよく、データベースはそのような第1の閾値を格納してよい。第1の閾値を格納するデータベースは、単一データベースとしてカテゴリーを格納しているデータベースとマージすることができる。あるいは、これらの2つのデータベースを独立させて、各々を対応するコンピュータ記憶装置にそれぞれ別に格納することもできる。
例えば、「sports shoes」のカテゴリーの第1の閾値を0.6として定義し、「mobile phone」のカテゴリーの第1の閾値を3として定義することができる。「sports shoes」のカテゴリーの下での「Nike jogging shoes(Nikeジョギング・シューズ)」の全体の単語頻度を1.5、「mobile phone」のカテゴリーの下での「Nike jogging shoes」の全体の単語頻度を0.2と仮定すると、「sports shoes」のカテゴリーの下での「Nike jogging shoes」の全体の単語頻度は「sports shoes」のカテゴリーの第1の閾値である0.6より高いため、この製品タイトルが「sports shoes」のカテゴリーの下に分類される可能性は高い。「mobile phone」カテゴリーの下での「Nike jogging shoes」の全体の単語頻度は0.2であり、「mobile phone」カテゴリーの第1の閾値である0.6よりずっと低いため、この製品タイトルが「mobile phone」のカテゴリーの下に分類される可能性は低い。
加えて、単語頻度を計算するとき、「special offer(特価提供)」、「discount(ディスカウント)」、「hot selling(人気商品)」、記述的な記号、例えば「[ ]」等、および助語、例えば「of」「also」等、いくつかの語は複数のカテゴリーに多数出現する可能性がある。このような語はストップ・ワードと呼ばれる。複数のカテゴリーの下で製品タイトルにこれらのストップ・ワードが出現する頻度はあまり変動しないため、これらの単語頻度は、製品をカテゴリーに分類する上であまり役に立たない。単語頻度をこれらのストップ・ワードについて計算すれば、コンピューティング資源を浪費するだけでなく、時として、反作用もあるであろう。例えば、ある特定のストップ・ワードxがカテゴリAの下で製品タイトルに数多く出現し、カテゴリBの下では製品タイトルにほとんど出現しない場合、ストップ・ワードxを持つ製品タイトルをカテゴリAの下に配置することがあり得る。
カテゴリー誤配置の識別におけるストップ・ワードの影響を減少させるために、ストップ・ワードの表を予め設定し、製品タイトルにおいてストップ・ワードを取り除くことにより、計算の量を削減し、誤判定の率を低下させ得る。
以下は、ストップ・ワードを決定するための例示的な方法である。
ストップ・ワードの定義に基づき、ある語の単語頻度が複数のカテゴリーにより均等に分布しているほど、そのような語がストップ・ワードである可能性は高くなる。したがって、複数または全てのカテゴリーにおける各語の分布エントロピーを用いて、その語がストップ・ワードであるかを判定することができる。ストップ・ワードを判定するための技法は多数ある。以下は例示的な方法であり、本開示におけるストップ・ワードの判定を限定するものと見なされるべきではない。
以下の式(2)を、複数のカテゴリーの下での語の分布エントロピーの計算に使うことができる:
Figure 0005864614
式(2)において、Ent(t)は、全てのカテゴリーの下での語tの分布エントロピーを表す。関数P(t|C)は、カテゴリーCiの下での語tの単語頻度を表し、nは任意の整数を表す。
全ての語の分布エントロピーを計算後、それらの語は、それぞれの分布エントロピーに基づいて、最大から最小へと並べ替えられる。閾値は各語の並べ替え順序に基づいて決定される。特定の語の分布エントロピーが閾値より高い場合、そのような語はストップ・ワードになり、ストップ・ワード表に追加される。本開示の例示的な実施形態に基づいて、閾値は実際のデータ処理要件に基づいて決定することができる。
カテゴリー誤配置を識別するための第1の例示的実施形態ならびに以降の例示的実施形態において、ストップ・ワードは、計算量および誤判定の率を減少させ、データ処理速度を高めるためにフィルタリングすることができる。
図2は、本開示の第2の例示的な実施形態におけるカテゴリー誤配置を識別するための方法のフローチャートを示す。202において、製品タイトル中の各語につき、その各々の現在のカテゴリー下でのTOP値が得られる。この例示的な実施形態では、複数のカテゴリーを含むデータベースが提供される。データベース内の各カテゴリーは少なくとも1つの語および該カテゴリー中のそのTOP値を含んでいた。
この例示的な実施例は、TOP値を用いる。特定のカテゴリー中の語のTOP値は、単語頻度がその語よりも高い全ての語の単語頻度の合計である。例えば、カテゴリーCには、それぞれの最高から最低の単語頻度を有する3つの語、すなわち、t、tおよびtが存在する。これらの3つの語の各々の対応する単語頻度は、それぞれp、pおよびpである。t、tおよびtの対応するTOP値は、それぞれ0、p、p+pである。TOP値は、製品タイトル中の語とカテゴリーとの合致度を反映する。TOP値を使えば、カテゴリー誤配置を識別することの複雑さを単純化することができる。上記の例では、tの単語頻度pは最高であり、そのTOP値は0であるが、tの単語頻度pは最低であり、そのTOP値はp+pである。言い換えれば、特定のカテゴリーの下での製品タイトル中の語のTOP値が低いほど、カテゴリー内の製品タイトルの語の合致度は高くなる。一方、特定のカテゴリーの下での製品タイトル中の語のTOP値が高いほど、カテゴリー内の製品タイトルの語の合致度は低くなる。
各カテゴリーの下の各製品タイトル中の各語のTOP値を計算するとき、ストップ・ワードを最初にフィルタリングしてもよい。言い換えれば、ストップ・ワードのTOP値は計算されず、TOP値は製品タイトル中の語とカテゴリーとの合致度をより正確に反映できるようになる。
204では、TOP値と関連度値との予め決定されたマッピングに基づいて、各語のTOP値に対応する関連度値が得られる。製品タイトル中の全ての語のTOP値に対応する関連度値を加算し、製品タイトルの全体関連度値を得る。
表1は、TOP値とそれらの関連度値の例示的なマッピングを示す。
Figure 0005864614
表1の関連度値は、カテゴリーとある語のある特定のTOP値との関連度を示す。各語のTOP値を求めた後、各語の関連度を表1から読み出すことができる。
TOP値の確率値は複数の桁を持つ小さな数字であるため、TOP値を直接加算すると、計算量は膨大で、計算結果の差は小さくなり、対応するカテゴリーにおける製品タイトルの関連度の違いを適正に反映できない。したがって、本開示のこの例示的な実施形態では、TOP値と関連度値の関係表を使って、TOP値に対応する関連度値をTOP値の分布に基づいて定量化し、TOP値の計算を簡易化する。これは計算の複雑性を低減するだけでなく、対応するカテゴリーにおける製品タイトルの相関度をより正確に反映するようになる。
表1のTOP値と関連度値とのマッピング関係は、データ処理の実際の要件に基づいて設定することができる。表1はサンプルとなるリストのみを示しており、TOP値と関連度値とのマッピングは、表1の内容に限定されない。
製品タイトル中の全ての語のTOP値に対応する関連度の後、関連度値が加算され、製品タイトルと現在のカテゴリーとの間の全体的な関連度値が得られる。例えば、これは以下の式(3)を使って示すことができる:
Figure 0005864614
以上の式(3)において、RR(T,C)は、製品タイトルTとカテゴリーCとの全体関連度値を表し、TOP(t,C)は製品カテゴリーCの下の製品タイトルTの中の語tのTOP値を表し、FTRは各語のTOP値を関連度値にマップするマッピング関数を表し、nは任意の整数を表す。
例えば、3つの語t、tおよびtを含む製品タイトルTの場合、カテゴリーCの下でのこれら3つの語のTOP値は、それぞれ、TOP(t,C)、TOP(t,C)およびTOP(t,C)である。表1に基づき、3つのTOP値の各々の対応する関連度値を見つけることができる。例えば、3つのTOP値に対して見つかった関連度は、それぞれ、10、5および1である。これらの3つの関連度値が加算され、製品タイトルTおよびカテゴリーCの全体関連度値、すなわち10+5+1=16が求められる。
206において、現在のカテゴリーの下での製品タイトルの全体関連度値が第2の閾値と比較され、比較結果に基づき、製品タイトルが間違ったカテゴリーに配置されているかどうかが判定される。
例えば、現在のカテゴリーの下での製品タイトルの全体関連度値が第2の閾値より低い場合、製品タイトルと現在のカテゴリーとの関連度は低いことを意味し、カテゴリー誤配置が存在していると見なされ得る。現在のカテゴリーの下での製品タイトルの全体関連度値が、第2の閾値を超えるかまたは等しい場合、これは、現在のカテゴリーの下での製品タイトルの全体関連度値が要件を満たし得ることを意味し、カテゴリー誤配置が存在しないと見なされ得る。
第2の閾値は、製品タイトルの全体関連度値の分布状態に基づいて設定され得る。分類の対象とする製品の製品タイトルの全体関連度値が低いほど、その製品を現在のカテゴリーの下に分類する可能性は低くなる。製品タイトルの全体関連度値が、定義された第2の閾値より低い場合、カテゴリー誤配置が存在すると見なされ得る。例えば、第2の閾値が20に設定されていて、製品タイトルTとカテゴリーCとの全体関連度値が16で、第2の閾値である20より小さい場合、製品タイトルTは誤ってカテゴリーCの下に配置されていると見なされ得る。
第2の閾値はカテゴリーが異なれば、異なることもあり得る。言い換えれば、同じ1つの製品タイトルに対し、実践で得たデータに基づいて、異なる第2の閾値が異なるカテゴリーに予め定義され得、データベースはそのような第2の閾値を格納し得る。第2の閾値を格納しているデータベースは、単一のデータベースとしてカテゴリーを格納しているデータベースとマージされ得る。代わりに、この2つのデータベースは独立してもよく、各々が別々に対応するコンピュータ記憶装置に格納される。
加えて、異なる第2の閾値が、実際の要件に基づいて、同じ1つのカテゴリーに対して設定され得る。第2の閾値がより高いレベルで定義されている場合、カテゴリー誤配置を識別する確率は高くなる可能性があり、これは、撤回率の上昇に繋がる。言い換えれば、間違ったカテゴリーに配置されていると判定された製品を撤回して、正しいカテゴリーに配置することができる。このようにして、ユーザーに新しいカテゴリーを選択するか、または製品タイトル中の語を変更するように促し、それによって検索結果の正確さを高める。
計算量を削減するために、202において、現在のカテゴリーの下での製品タイトル中のストップ・ワードを除く各語のTOP値を求め得る。202において、製品タイトル中の各語のそれぞれのTOP値を求める動作は、製品タイトル中にストップ・ワードがあるかどうかを判定することを含み得る。次いで、ストップ・ワードが存在すると判定した場合の応答として、製品タイトルからのこのようなフィルター語がフィルタリングされる。次いで、ストップ・ワードがフィルタリングにより除去された後の現在のカテゴリーの下での各語のTOP値が求められる。
本開示の第2の例示的な実施形態で提供される技法では、TOP値は製品タイトルとカテゴリーとの合致度を反映し、全体関連度値はTOP値に基づいて決定されるため、TOP値に基づく製品タイトルとカテゴリーとの全体的な関連度値は、製品タイトルとカテゴリーとの合致度を反映することができる。現在のカテゴリーの下での製品タイトルの全体関連度値と第2の閾値との比較結果に基づき、カテゴリー誤配置が存在しているかどうかを判定され得る。第2の閾値の設定に基づき、カテゴリー誤配置を見逃す確率を低減することができる。加えて、TOP値と全体関連度値を求めることに関係した第2の例示的な実施形態の技法は、現在の技法と比較して、必要とするシステム・リソースが少なく、システム資源を節約し、計算効率を向上する。
以下では、第3の例示的な実施形態を記述する。第2の例示的な実施形態の方法では、現在のカテゴリーの下での製品タイトルの全体関連度値が第2の閾値より低い場合、カテゴリー誤配置が存在していると見なされ得る。しかしながら、場合によっては、現在のカテゴリーの下での製品タイトルの全体関連度値が第2の閾値より低い場合でも、カテゴリー誤配置は存在しない。例えば、第2の閾値があまりにも高く設定されていると、全体関連度値が第2の閾値より低い製品タイトルのいくつかは、間違ったカテゴリーに配置されていると見なされることがあるが、実際には、これらの製品タイトルは誤配置されていない。
カテゴリー誤配置を識別する正確度をさらに高めるために、本開示の第3の例示的な実施形態では、製品タイトルと現在のカテゴリーとの全体関連度値が、第2の閾値より小さく、カテゴリー誤配置が存在すると見なされるとき、本方法は予測カテゴリーをさらに含む。
図3は、本開示の第3の例示的な実施形態.におけるカテゴリー誤配置を識別するための例示的な方法のフローチャートを示す。
302において、製品タイトル中の各語ごとに、現在のカテゴリーの下でのその各々のTOP値が求められる。
304において、TOP値と関連度値との予め決められたマッピングに基づき、各語のTOP値に対応する関連度値が求められる。製品タイトル中の全ての語のTOP値に対応する関連度値が加算され、製品タイトルの全体関連度値が求められる。
306において、現在のカテゴリーの下での製品タイトルの全体関連度値が第2の閾値と比較される。現在のカテゴリーの下での製品タイトルの全体関連度値が第2の閾値より低い場合、異常なカテゴリー誤配置が存在すると判定され、308での動作が実行される。現在のカテゴリーの下での製品タイトルの全体関連度値が第2の閾値より低い場合、異常なカテゴリー配置は存在しないと判定される。
308において、製品タイトルに対して1つまたは複数の推奨カテゴリーが求められる。
310において、製品タイトルと製品タイトルの推奨カテゴリーに基づいて、前記製品タイトルに合致するターゲット・カテゴリーが求められる。
312において、ターゲット・カテゴリーの下での製品タイトルの事後確率および現在のカテゴリーの下での製品タイトルの事後確率が求められる。ターゲット・カテゴリーの下での製品タイトルの事後確率が現在のカテゴリーの下での製品タイトルの事後確率と比較される。ターゲット・カテゴリーの下での製品タイトルの事後確率と現在のカテゴリーの下での製品タイトルの事後確率との差または率が、第3の閾値を超えている場合、カテゴリー誤配置が存在していると判定される;それ以外の場合は、カテゴリー誤配置は存在してないと判定される。
306において、製品配置に異常が存在すると判定されるとき、それは現在のカテゴリーが最も適切なカテゴリーではない可能性があることを意味する。したがって、他のカテゴリーが取得されて、製品タイトルがこれら他のカテゴリーにより適切に合致するかを判定する動作が実施される。
308において、製品タイトルに合致する推奨カテゴリーを求めるためのプロセスの間、製品タイトルと全てのカテゴリーとの合致度が比較されて、製品タイトルに合致する推奨カテゴリーが求められ得る。製品タイトルとカテゴリーとの合致度を比較するために、様々な技法が存在する。例えば、製品タイトル中の語に基づいてカテゴリーが検索され得、製品タイトル中の語とカテゴリーとの比較結果を使って、推奨カテゴリーが求められ得る。詳細は本明細書中には記述しない。しかしながら、製品タイトルと全てのカテゴリーとの合致度を比較する方法は、計算量が膨大であるため、効率が比較的低い。
もう1つの例では、推奨カテゴリー・データベースが提供される。推奨カテゴリー・データベースは、製品タイトル中の様々な語および各語に対応する推奨カテゴリーを格納する。推奨カテゴリーのデータベースは、独立したデータベースとすることも、あるいは、第2の例示的な実施形態で記述したような異なるカテゴリーを含むデータベースと組み合わせて、単一のデータベースを形成することもあり得る。データベース中の各カテゴリーは少なくとも1つの語、そのカテゴリーでの各語のTOP値、および各語の対応する推奨カテゴリーを含む。各語の推奨カテゴリーは、異なるカテゴリーでのその語の出現確率に基づいて決定され得る。例えば、その語の出現確率が高い、少なくとも1つのカテゴリーが、推奨カテゴリーとして使われ得る。308において、製品タイトル中の各語の推奨カテゴリーが、推奨カテゴリー・データベースを通じて求められ得る。
例えば、310において、製品タイトル中の各語に対応する、求めた推奨カテゴリーに基づいて、各々の推奨カテゴリーにおける各語の対応する単語頻度が、各々の推奨カテゴリーの重みとして使われる。各推奨カテゴリーの重みの合計の計算後、重みの合計が最も高い推奨カテゴリーがターゲット・カテゴリーとして使われ得る。
例えば、表2は、本開示のこの例示的な実施例の例示的な推奨カテゴリーのリストを示す。例えば、製品タイトルが「Kongming Lantern(天灯)」の場合、「Kongming Lantern」という1つの語が含まれている。この製品タイトルに対する2つの推奨カテゴリーは、「Household Use(家庭用)/Receptions(レセプション)/Gifts(ギフト) >> Wedding Supplies Service Area(ウェディング用品サービスエリア)>> Kongming Lantern/Wishing lamp(天灯)」(カテゴリー番号:50014247)および「Toys(玩具)/Models(模型)/Dolls(人形)/Figures(フィギュア) >> Chinese Traditional Toys(中国の伝統的玩具) >> Kongming Lantern」(カテゴリー番号:50016031)である。「Household Use/Receptions/Gifts >> Wedding Supplies Service Area >> Kongming Lantern/Wishing lamp」のカテゴリーの「Kongming Lantern」の単語頻度は0.144263であり、したがって、この推奨カテゴリーの重みは0.144263である。「Toys/Models/Dolls/Figures >> Chinese Traditional Toys >> Kongming Lantern」のカテゴリーでの「Kongming Lantern」の単語頻度は0.139776であり、したがってこの推奨カテゴリーの重みは0.139776である。製品タイトルには1つの語しか含まれていないため、2つの推奨カテゴリーである「Household Use/Receptions/Gifts >> Wedding Supplies Service Area >> Kongming Lantern/Wishing lamp」および「Toys/Models/Dolls/Figures >> Chinese Traditional Toys >> Kongming Lantern」の重みの合計は、それぞれ、0.144263および0.139776である。最適なターゲット・カテゴリーとして「Household Use/Receptions/Gifts >> Wedding Supplies Service Area >> Kongming Lantern/Wishing lamp」という推奨カテゴリーが選択され得る。あるいは、この2つの推奨カテゴリーの両方がターゲット・カテゴリーの選択肢として使われてもよい。
Figure 0005864614
「Kongming Lantern」は、製品タイトルが単一の語を含む例である。以下は、複数の語を含む製品タイトルの例である。
例えば、ある製品は「Blue Cotton Shirt(青い綿のシャツ)」という製品タイトルを有する。製品タイトルのセグメント分割後、3つの語、すなわち「Blue(青)」、「Cotton(綿)」および「Shirt(シャツ)」が得られる。推奨カテゴリー・データベースから、この3つの語の各々の対応する推奨カテゴリーが取得され得る。各語は1つまたは複数の異なる推奨カテゴリーに対応することがあり得、重みは推奨カテゴリーが異なれば、異なり得る。重みの最大から最小への並び替え順に基づいて、重みが最も大きいカテゴリーが選択され得る。例えば、各語ごとに、最大の重みを持つ上位3つのカテゴリーが選択され得る。これらがカテゴリーで重複していないシナリオでは、この3つの語は合計9つのカテゴリーに対応する。これらの9つのカテゴリーでは、異なるカテゴリーでの3つの語の重みの合計の比較によって、重みが大きい方から1つまたは複数のカテゴリーが推奨カテゴリーとして選択され得る。
例えば、「Blue Cotton Shirt」という製品タイトルに関して、上記のプロセスに基づいて、推奨カテゴリー・データベースから求められる上位3つの推奨カテゴリーは、「Children’s Wear(子供服)/Children’s Shoes(子供用の靴)/Pregnant Women’s Wear(マタニティウェア) >> Shirt(シャツ)」、「Men’s Wear(紳士服) >> Shirt(シャツ)」および「Ladies’ Wear (婦人服)>> Ladies’ Boutique(女性用ブティック) >> Shirt(シャツ)」である。表3は、「Blue Cotton Shirt」に対する推奨カテゴリーの例を示す。
Figure 0005864614
表3では、3つの推奨カテゴリーにおける「Blue」の単語頻度は、それぞれ、0.00351304、0.00271352および0.00186753である。言い換えれば、「Blue」に対する3つの推奨カテゴリーの重みは、それぞれ、0.00351304、0.00271352および0.00186753である。同様に、「Cotton」に対する3つの推奨カテゴリーの重みは、それぞれ、0.0149095、0.0148579および0.00693222であり、「Shirt」の3つの推奨カテゴリーの重みは、それぞれ、0.097684、0.129388および 0.0905442である。
「Children’s Wear/Children’s Shoes/Pregnant Women’s Wear >> Shirt」という推奨カテゴリーの重みの合計は、0.00351304+0.0149095+0.0974684=0.11589094であり;「Men’s Wear >> Shirt」という推奨カテゴリーの重みの合計は、0.00271352+0.0148579+0.129388=0.14695942であり;「Ladies’ Wear >> Ladies’ Boutique >> Shirt」という推奨カテゴリーの重みの合計は、0.00186753+0.00693222+0.0905442=0.09934395である。この3つの中では、最も重みの合計が高いのは「Men’s Wear >> Shirt」のカテゴリーであり、したがって、「Men’s Wear >> Shirt」のカテゴリーを最適なターゲット・カテゴリーとして選択することができる。代わりに、この3つのカテゴリー全てをターゲット・カテゴリーの選択肢として使ってもよい。
上記の例に基づくと、310において、各推奨カテゴリーの重みの合計を計算することにより、ターゲット・カテゴリーが求められ得る。もう1つの例では、製品タイトル中での各語の出現確率が製品タイトル・ベクターとして形成され得る。ある特定のカテゴリーにおける各語の単語頻度は、カテゴリー・ベクターとして形成され得る。製品タイトル・ベクターとカテゴリー・ベクターの積を計算することにより、ターゲット・カテゴリーが決定され得る。
例えば、310において、製品タイトル・ベクターおよび予測されたカテゴリーのカテゴリー・ベクターが求められ得る。製品タイトル・ベクター中の要素は、製品タイトル中の各語の出現確率である。カテゴリー・ベクター中の要素は、予測されたカテゴリーの下での製品タイトルの各語の単語頻度である。各予測されたカテゴリーごとに、製品タイトル・ベクターとカテゴリー・ベクターの積が求められる。最大の積を持つ予測されたカテゴリーがターゲット・カテゴリーとして選択され得る。本開示のこの例示的な実施形態では、予測されたカテゴリーは、選択のための候補となるカテゴリーを指す。
以下はターゲット・カテゴリーを得るための方法を示す例である。
例えば、製品タイトル 「Mickey MP3 Fourth Generation Blinking Mickey (2G) Multiple Colors Choice(ミッキーMP3第4世代瞬きするミッキー(2G)複数の色の選択肢)」という製品タイトルは、8語、すなわち、「Mickey」、「MP3」、「Fourth Generation」、「Blinking」、「Mickey」、「2G」、「Multiple Colors」および「Choice」にセグメント分割され得る。製品タイトルでの「Mickey」の出現確率は0.25であり、残りの語の各々の出現確率は0.125である。したがって、製品タイトルの製品タイトル・ベクターは、次のように表現され得る:
Figure 0005864614
0.25Mickeyは、製品タイトル中に「Mickey」が出現する確率を表す。言い換えれば、これは8語から成る製品タイトル中に2回出現する。製品タイトル・ベクター中の他の要素にも同じまたは類似の定義が当てはまる。
加えて、このカテゴリーの各語は、異なる単語頻度を有し得る。したがって、各カテゴリーはカテゴリー・ベクターとして表現され得る。上記の製品タイトルのカテゴリーCに対するカテゴリー・ベクターは、以下のように表現され得る:
Figure 0005864614
TFMickey,Cは、カテゴリーCにおける「Mickey」の単語頻度を表す。このカテゴリー・ベクターの他の要素にも同一または類似の定義が当てはまる。
カテゴリーCに関して、製品タイトル・ベクターとカテゴリー・ベクターとの積は以下の通りである:
Figure 0005864614
上記の方法に基づき、予測されたカテゴリーの各々に対し、製品タイトル・ベクターとカテゴリー・ベクターとの積を計算することができる。最も高い積の値を持つ、予測されたカテゴリーが、ターゲット・カテゴリーとして選択され得る。
この例では、任意のカテゴリーの下での任意の語は単語頻度が0より大きいものと仮定している。しかし、現実にはそうではない場合もあり得る。ある語tがカテゴリーCに出現しない場合、カテゴリーCにおけるその語tの確率P(t|C)は0である。tの語を含む製品タイトルTの事後確率P(t|C)も0である。この種のシナリオをスムーズに処理するために、本開示の例示的な実施形態に基づくと、P(t|C)の計算が必要され、語tがカテゴリーCに出現していない場合、語tはカテゴリーCに1回出現すると見なされる。このシナリオでは、カテゴリーCでの語tの頻度は、以下の式を使って表現され得る:
Figure 0005864614
上の式(4)では、tはカテゴリーCに出現する任意の語を表し、#tはtがカテゴリーCに出現する回数を表し、nは任意の整数を表す。
カテゴリーの下にある語の数は非常に大きいため、出現していない語を1と数えることは、結果の正確度に影響しない。
例示的な実施形態の方法では、あるカテゴリーの下での語の単語頻度の計算において、その語がそのカテゴリーに出現していないとき、カテゴリー誤配置の識別の包括性を増加させるために、そのカテゴリーに1回出現すると見なすことができる。
306において、このカテゴリーにおける製品タイトルの事後確率は、以下に示すように、ベイズ式を用いて表現することができる:
Figure 0005864614
上記の式で、P(C|T)は、カテゴリーCにおける製品タイトルTの事後確率を表し、P(C)はカテゴリーCの下での全ての製品の数を表し、P(T)は任意のカテゴリーCに対して同一である定数を表す。
製品タイトル中の各語が独立した分布に従うと仮定すると、式(5)は次のように単純化することができる:
Figure 0005864614
式(6)において、P(t|C)はカテゴリーCにおける語tの事後確率を表す。
カテゴリーの下での語の単語頻度およびそのカテゴリーにおける製品の数が分かっている場合、式(6)に基づいて、そのカテゴリーにおける製品タイトルの事後確率を計算することができる。
312において、式(6)に基づき、現在のカテゴリーの下での製品タイトルの事後確率およびターゲット・カテゴリーの下での製品タイトルの事後確率を計算することができる。例えば、P(Cold|T)は現在のカテゴリーの下での製品タイトルの事後確率の計算を表し、P(Cnew|T)はターゲット・カテゴリーの下での製品タイトルの事後確率の計算を表す。P(Cold|T)とP(Cnew|T)との差または率が第3の閾値より大きい場合、それはターゲット・カテゴリーの方が現在のカテゴリーよりも、該製品タイトルに対してより良く一致していて、カテゴリー誤配置が存在していることを意味する。P(Cold|T) とP(Cnew|T)との差または率が第3の閾値以下である場合、それはターゲット・カテゴリーが現在のカテゴリーに比べて、製品タイトルに対してより良く合致しているわけではないことを意味し、カテゴリー誤配置は存在していない可能性がある。
第3の閾値の値は、データ処理の実際の要件に基づいて判定することができる。第3の閾値に対するデータベースは、対応する記憶装置に格納することができる。1つの例では、第3の閾値の値は、P(Cnew|T)がP(Cold|T)より遥かに大きくなるのに十分なだけ大きくなり得る。したがって、ターゲット・カテゴリーが製品タイトルに合致することをより正確に保証し、カテゴリー誤配置の識別における正確度を増加し得る。
第3の例示的な実施形態の302および304での動作は、第2の例示的な実施形態でのそれぞれ202および204の動作と類似しており、本明細書では詳述しない。
本開示の第3の例示的な実施形態の技法では、製品タイトルと現在のカテゴリーとの全体関連度値が第2の閾値より低い場合、カテゴリー配置に異常があるものと判定され得る。ターゲット・カテゴリーを求めた後、現在のカテゴリーの下での製品タイトルの事後確率がターゲット・カテゴリーの下での製品タイトルの事後確率と比較され、現在のカテゴリーよりも適切なカテゴリーが存在するかどうかがさらに判定される。本技法はカテゴリー誤配置の存在をより正確に識別するだけでなく、誤配置された製品タイトルを持つ製品に対してより適切なターゲット・カテゴリーを提供する。
第3の例示的な実施形態において、現在のカテゴリーの下での製品タイトルの事後確率がターゲット・カテゴリーの下での製品タイトルの事後確率と比較され、カテゴリー誤配置が存在するかどうかが判定される。代わりに、現在のカテゴリーの下での製品タイトルの全体関連度がターゲット・カテゴリーの下での製品タイトルの全体関連度と比較され、カテゴリー誤配置が存在するかどうかが判断される。図4は、本開示の第4の例示的な実施形態でのカテゴリー誤配置を識別するための例示的な方法のフローチャートを示す。
402において、製品タイトル中の各語ごとに、現在のカテゴリーの下でのそのそれぞれのTOP値が求められる。
404において、TOP値と関連度値との予め決められたマッピングに基づき、各語のTOP値に対応する関連度値が求められる。製品タイトル中の全ての語のTOP値に対応する関連度値を加算し、製品タイトルの全体関連度値を求める。
406において、現在のカテゴリーの下での製品タイトルの全体関連度値が第2の閾値と比較される。現在のカテゴリーの下での製品タイトルの全体関連度値が第2の閾値より低かった場合、異常なカテゴリー誤配置が存在すると判定され、404の動作が実行される。現在のカテゴリーの下での製品タイトルの全体関連度値が第2の閾値より低かった場合、異常なカテゴリー誤配置は存在しないと判定される。
408において、製品タイトルに対する推奨カテゴリーが求められる。
410において、製品タイトルと製品タイトルの推奨カテゴリーに基づいて、前記製品タイトルに合致するターゲット・カテゴリーが求められる。
402から410までの動作は、第3の例示的な実施形態の302から310と類似しているので、ここでは詳述しない。以下の考察では、第4の例示的な実施形態と第3の例示的な実施形態との違いについて記述する。
412において、ターゲット・カテゴリーの下での製品タイトルの全体関連度値が求められる。ターゲット・カテゴリーの下での製品タイトルの全体関連度値が現在のカテゴリーの下での製品タイトルの全体関連度値と比較される。ターゲット・カテゴリーの下での製品タイトルの全体関連度値と現在のカテゴリーの下での製品タイトルの全体関連度値の差または率が第4の閾値より大きい場合、カテゴリー誤配置が存在していると判定される。そうでない場合、カテゴリー誤配置は存在していないと判定される。動作はまた、ここで終了する。
412において、ターゲット・カテゴリーの下での製品タイトルの全体関連度値と現在のカテゴリーの下での製品タイトルの全体関連度値との比較を通して、ターゲット・カテゴリーの方が製品タイトルに対してより良く合致しているかどうかを判定することができる。第4の閾値は、データ処理の実際の要件に基づいて定義され得、第4の閾値に対するデータベースは対応する記憶装置に格納され得る。1つの例では、第4の閾値の値は、ターゲット・カテゴリーの下での製品タイトルの全体関連度値が現在のカテゴリーの下での製品タイトルの全体関連度値よりもずっと大きくなるのに十分なだけ大きい。したがって、ターゲット・カテゴリーは製品タイトルに合致することがより正確に保証され、カテゴリー誤配置の識別における正確度が増加し得る。
ターゲット・カテゴリーの下での製品タイトルの全体関連度値および現在のカテゴリーの下での製品タイトルの全体関連度値は、第2の例示的な実施形態で記述したような、カテゴリーの下での製品タイトルの全体関連度値を求めるための方法に基づいて求め、計算することができ、ここでは詳述しない。
本開示の第4の例示的な実施形態で論じた技法では、現在のカテゴリーの下での製品タイトルの関連度値が第2の閾値より低い場合、製品配置に異常が存在すると判定される。ターゲット・カテゴリーを求めた後、ターゲット・カテゴリーの下での製品タイトルの全体関連度値が現在のカテゴリーの下での製品タイトルの全体関連度値と比較され、現在のカテゴリーより適切なカテゴリーが存在するかどうかが判定されて、最終的にカテゴリー誤配置が存在するかどうかが判定される。これらの2つの判定を通じて、カテゴリー誤配置が存在するかどうかがより正確に判定され、カテゴリー誤配置を見逃す確率が減少する。第4の例示的な実施形態の技法は、主に、TOP値および全体関連度値の獲得、ならびにターゲット・カテゴリーの下での製品タイトルの全体関連度値と現在のカテゴリーの下での製品タイトルの全体関連度値との比較を伴う。現行の技術と比較して、これらの技法は必要とするシステム・リソースが少ないので、システム・リソースの節減になり、動作効率を向上する。
本開示におけるカテゴリー誤配置を識別するための方法は、コンピュータおよび他のハードウェア内の1つまたは複数のプロセッサにより実行されるコンピュータ読取り可能命令を使って実現され得る。
本開示の例示的な実施形態に基づき、C++プログラミング言語が、分散クラスター環境において、カテゴリー誤配置識別方法を実現するために使用され得る。分散クラスター環境は、ハードウェア・アーキテクチャの点で、例えば、ワークステーションのクラスター(COW)、大規模並列処理用プロセッサ(MPP)、対称マルチプロセッサ(SMP)、分散型異種コンピューティング・クラスタ(GRID等)を含むことができ、これらについてはここでは記述しない。
以下では、上述した方法を実現するためのカテゴリー誤配置を識別するための複数のデバイスを記述する。
図5は、本開示の第5の例示的な実施形態に従って、カテゴリー誤配置を識別するための例示的なデバイス500の図表を示す。
1つの例では、デバイス500は、以下に限定されないが、1または複数のプロセッサ502、およびメモリ504を含むことができる。メモリ504は、ランダム・アクセス・メモリ(RAM)等の揮発性メモリおよび/または読取り専用メモリ(ROM)もしくはフラッシュRAM等の不揮発性メモリの形式でコンピュータ読取り可能媒体を含むことができる。メモリ604はコンピュータ読取り可能媒体の一例である。
コンピュータ読取り可能媒体は、コンピュータ実行可能命令、データ構造、プログラム・モジュールまたはその他のデータ等、情報の記憶のための任意の方法または技術で実現される揮発性および不揮発性、取外し可能および取外し不可能な媒体を含む。コンピュータ記憶媒体の例としては、限定されないが、相変化メモリ(PRAM)、スタティックランダム・アクセス・メモリ(SRAM)、ダイナミック・ランダム・アクセス・メモリ(DRAM)、他の種類のランダム・アクセス・メモリ(RAM)、読取り専用メモリ(ROM)、プログラム可能型読取り専用メモリ(EEPROM)、フラッシュ・メモリもしくはその他のメモリ技術、コンパクト・ディスク読取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)もしくはその他の光学式記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくはその他の磁気記憶装置、またはコンピューティング装置によるアクセスのために情報を格納する目的に利用することのできる、任意のその他の非伝送媒体が挙げられる。本明細書に定義されるように、コンピュータ読取り可能媒体は、変調されたデータ信号および搬送波等の一時的な媒体は含まない。
メモリ504は、その中に、プログラム・ユニットまたはモジュールおよびプログラム・データを格納し得る。1つの実施形態において、該モジュールは、単語頻度獲得モジュール506、全体単語頻度計算モジュール508、およびカテゴリー誤配置判定モジュール510を含み得る。したがって、これらのモジュールは、該1つまたは複数のプロセッサ502によって実行することができるコンピュータ読取り可能命令で実現され得る。その他の実現形態では、該モジュールは、ファームウェア、ハードウェア、ソフトウェアまたはこれらの組合せで実現し得る。
1つの例では、全体単語頻度計算モジュール508および単語頻度獲得モジュール506が対応付けられ、カテゴリー誤配置判定モジュール510および全体単語頻度計算モジュール508が関連付けられる。カテゴリー誤配置を識別するためのデバイス500は第1の例示的な実施形態で記述したような方法を使用することができる。
単語頻度獲得モジュール506は、現在のカテゴリーの下での製品タイトルにおける各語の単語頻度を求める。
全体単語頻度計算モジュール508は、現在のカテゴリーの下での各語の単語頻度に基づいて、製品タイトルの全体の単語頻度を計算する。
カテゴリー誤配置判定モジュール510は、全体単語頻度計算モジュール508によって計算された製品タイトルの全体の単語頻度を現在のカテゴリーの第1の閾値と比較し、比較結果に基づいて、カテゴリー誤配置が存在するかどうかを判定する。
図6は、本開示の第6の例示的な実施形態に従って、カテゴリー誤配置を識別するための例示的なデバイス600の図表を示す。例えば、カテゴリー誤配置を識別するためのデバイス600は、第1の例示的な実施形態で記述したような方法を実現することもできる。
1つの実施形態では、デバイス500は以下に限定されないが、1または複数のプロセッサ502、およびメモリ504を含むことができる。メモリ504はその中にプログラム・ユニットまたはモジュールおよびプログラム・データを格納することができる。したがって、これらのモジュールは、その中に、プログラム・ユニットまたはモジュールおよびプログラム・データを格納し得る。したがって、該モジュールは、1または複数のプロセッサ502によって実行することができるコンピュータ読取り可能命令で実現され得る。他の実現形態では、該モジュールは、ファームウェア、ハードウェア、ソフトウェアまたはこれらの組合せで実現し得る。
1つの実施形態において、モジュールは単語頻度獲得モジュール602、全体単語頻度計算モジュール604、およびカテゴリー誤配置判定モジュール606を含み得る。これらのモジュールは、それぞれが同じ名称で図5に記述されているモジュールと同じまたは類似し得、ここでは詳述しない。
デバイス600内のモジュールは、単語頻度獲得モジュール602と関連付けられるストップ・ワード・フィルタリング・モジュール608をさらに含み得る。ストップ・ワード・フィルタリング・モジュール608は、単語頻度獲得モジュール602が現在のカテゴリーの下での製品タイトルにおける各語の単語頻度を求める前に、製品タイトル中の語のストップ・ワードをフィルタリングする。
図7は、本開示の第7の例示的な実施形態に従って、カテゴリー誤配置を識別するための例示的なデバイス700の図表である。例えば、カテゴリー誤配置を識別するためのデバイス700は、第2の例示的な実施形態で記述されている方法を実現し得る。
1つの実施形態において、デバイス700は、限定されないが、1または複数のプロセッサ502、およびメモリ504を含み得る。メモリ504は、その中にプログラム・ユニットまたはモジュールおよびプログラム・データを格納し得る。したがって、該モジュールは該1または複数基のプロセッサ502によって実行することができるコンピュータ実行可能命令で実装され得る。他の実現形態では、該モジュールはファームウェア、ハードウェア、ソフトウェアまたはこれらの組合せで実現され得る。
1つの実施形態において、該モジュールは、TOP値獲得モジュール702、全体関連度値獲得モジュール704、およびカテゴリー誤配置判定モジュール706を含み得る。全体関連度値獲得モジュール704は、TOP値獲得モジュール702に対応付けられ、カテゴリー誤配置判定モジュール706は、全体関連度値獲得モジュール704に関連付けられる。
TOP値獲得モジュール702は、現在のカテゴリーの下での製品タイトルの各語に対する各々のTOP値を求める。現在のカテゴリーの下の語のTOP値は、単語頻度がその語の単語頻度よりも高い全ての語の単語頻度の合計である。
全体関連度値獲得モジュール704は、TOP値と関連度値との予め決められたマッピングに基づき、各語のTOP値に対応する関連度値を求め、製品タイトル中の全ての語のTOP値に対応する関連度値を加算し、製品タイトルの全体関連度値を求める。
カテゴリー誤配置判定モジュール706は、現在のカテゴリーの下での製品タイトルの全体関連度値を、第2の閾値と比較し、比較結果に基づいて、製品タイトルが間違ったカテゴリーに配置されているかどうかを判定する。現在のカテゴリーの下での製品タイトルの全体関連度値が第2の閾値より低い場合、カテゴリー誤配置判定モジュール706は、カテゴリー誤配置が存在すると判定する。現在のカテゴリーの下での製品タイトルの全体関連度値が、第2の閾値以上である場合、カテゴリー誤配置判定モジュール706は、カテゴリー誤配置が存在しないと判定する。
図8は、本開示の第8の例示的な実施形態に従って、カテゴリー誤配置を識別するための例示的なデバイス800の図表を示す。例えば、カテゴリー誤配置を識別するためのデバイス800は、第3の例示的な実施形態で記述したような方法を実現し得る。
1つの実施形態において、デバイス800は、限定されないが、1または複数のプロセッサ502、およびメモリ504を含むことができる。メモリ504は、その中にプログラム・ユニットまたはモジュールおよびプログラム・データを格納し得る。したがって、該モジュールは、該1または複数のプロセッサ502によって実行することができるコンピュータ読取り可能命令で実現され得る。他の実現形態では、該モジュールは、ファームウェア、ハードウェア、ソフトウェアまたはこれらの組合せで実現され得る。
1つの実施形態において、該モジュールは、TOP値獲得モジュール702および全体関連度値獲得モジュール704を含むことができ、これらは第7の実施形態で記述したものと同一または類似しており、ここでは詳述しない。第7の例示的な実施形態とは異なり、これらのモジュールは、製品配置における異常判定ジュール802、ターゲット・カテゴリー獲得モジュール804、事後確率獲得モジュール806、およびカテゴリー誤配置の判定モジュール808を含むカテゴリー誤配置判定モジュール706をさらに含むことができる。1つの実施形態において、ターゲット・カテゴリー獲得モジュール804は、製品配置異常モジュール802と関連付けることができ、事後確率獲得モジュール806は、ターゲット・カテゴリー獲得モジュール804に関連付けることができ、カテゴリー誤配置の判定モジュール808は、事後確率獲得モジュール806に関連付けることができる。
製品配置異常判定モジュール802は、現在のカテゴリーの下での製品タイトルの全体関連度値を第2の閾値と比較する。現在のカテゴリーの下での製品タイトルの全体関連度値が、第2の閾値より低い場合、製品配置異常モジュール802は、製品配置に異常が存在すると判定する。
ターゲット・カテゴリー獲得モジュール804は、該製品配置異常モジュール802が製品配置に異常が存在すると判定した後、製品タイトルに対して1つまたは複数の推奨カテゴリーを得る。製品タイトルおよび製品タイトルに対する該1つまたは複数の推奨カテゴリーに基づいて、ターゲット・カテゴリー獲得モジュール804は、製品タイトルに合致するターゲット・カテゴリーを求める。
事後確率獲得モジュール806は、ターゲット・カテゴリーの下での製品タイトルの事後確率および現在のカテゴリーの下での製品タイトルの事後確率を求める。
カテゴリー誤配置判定モジュール808は、ターゲット・カテゴリーの下での製品タイトルの事後確率と現在のカテゴリーの下での製品タイトルの事後確率とを比較する。ターゲット・カテゴリーの下での製品タイトルの事後確率と現在のカテゴリーの下での製品タイトルの事後確率の差または率が第3の閾値より大きい場合、カテゴリー誤配置判定モジュール808は、カテゴリー誤配置が存在すると判定する。
図9は、本開示の第9の例示的な実施形態に従って、カテゴリー誤配置を識別するための例示的なデバイス900の図表を示す。例えば、カテゴリー誤配置を識別するためのデバイス900は、第4の例示的な実施形態で記述されたような方法を実現し得る。
1つの実施形態において、該デバイス900は、限定されないが、1または複数基のプロセッサ502、およびメモリ504を含むことができる。メモリ504は、その中に、プログラム・ユニットまたはモジュールおよびプログラム・データを格納することができる。したがって、モジュールは、該1または複数基のプロセッサ502によって実行することができるコンピュータ読取り可能命令で実現され得る。他の実現形態では、該モジュールはファームウェア、ハードウェア、ソフトウェアまたはこれらの組合せで実現することができる。
1つの実施形態において、該モジュールは、TOP値獲得モジュール702および全体関連度値獲得モジュール704を含むことができ、これらは第7の実施形態で記述したものと同一または類似しており、ここでは詳述しない。第7の例示的な実施形態とは異なり、該モジュールは、製品配置における異常判定モジュール902、ターゲット・カテゴリー獲得モジュール904、全体関連度値比較モジュール906、およびカテゴリー誤配置の判定モジュール908を含むカテゴリー誤配置判定モジュール706をさらに含み得る。
1つの実施形態において、ターゲット・カテゴリー獲得モジュール904は、製品配置異常モジュール902に関連付けることができ、全体関連度値比較モジュール906は、ターゲット・カテゴリー獲得モジュール904に関連付けることでき、カテゴリー誤配置判定モジュール908は全体関連度値比較モジュール906に関連付けることができる。
製品配置異常モジュール902は、現在のカテゴリーの下での製品タイトルの全体関連度値を第2の閾値と比較する。現在のカテゴリーの下での製品タイトルの全体関連度値が第2の閾値より低い場合、製品配置異常モジュール902は、製品配置に異常が存在するものと判定する。
ターゲット・カテゴリー獲得モジュール904は、製品配置異常モジュール902が、製品配置に異常が存在すると判定した後、製品タイトルに対して1つまたは複数の推奨カテゴリーを得る。製品タイトルおよび製品タイトルに対する1つまたは複数の推奨カテゴリーに基づき、ターゲット・カテゴリー獲得モジュール804は、製品タイトルに合致するターゲット・カテゴリーを求める。
全体関連度値比較モジュール906は、該ターゲット・カテゴリー獲得モジュール904により得られた、ターゲット・カテゴリーの下での製品タイトルの全体関連度値を現在のカテゴリーの下での製品タイトルの全体関連度値と比較する。
カテゴリー誤配置モジュール908の判定は、ターゲット・カテゴリーの下での製品タイトルの全体関連度値と現在のカテゴリーの下での製品タイトルの全体関連度値との差または率が第4の閾値を超える場合、カテゴリー誤配置が存在すると判定する。
図10に示すように、7番目の例示的な実施形態から9番目の例示的な実施形態では、TOP値獲得モジュール702は、TOP値の獲得モジュール1002、ストップ・ワード検索モジュール1004、およびストップ・ワード・フィルタリング・モジュール1006を含み得る。1つの実施形態において、ストップ・ワード・フィルタリング・モジュール1006は、該TOP値の獲得モジュール1002および該ストップ・ワード検索モジュール1004に関連付けられる。
該ストップ・ワード検索モジュール1004は、カテゴリーにおける語の分布エントロピーに基づいて、製品タイトルが1つまたは複数のストップ・ワードを含んでいるかを判定する。該ストップ・ワード・フィルタリング・モジュール1006は、該ストップ・ワード検索モジュール1004が1つまたは複数のストップ・ワードが存在していると判定した後、1つまたは複数のストップ・ワードをフィルタリングする。ストップ・ワードがフィルタリングにより除去された後、該TOP値獲得モジュール1002は、現在のカテゴリーの下での各語のTOP値を求める。
本開示のデバイスは、製品タイトルの全体の単語頻度と第1の閾値との比較結果に基づいて、カテゴリー誤配置が存在するかどうかを判定することができる。加えて、TOP値は、製品タイトルとカテゴリーとの合致度を反映することができる。したがって、TOP値により決定される製品タイトルとカテゴリーとの全体的な関連度値も、製品タイトルとカテゴリーとの合致度を反映することができる。カテゴリーの下での製品タイトルの全体的な関連度値と第2の閾値との比較結果も、カテゴリー誤配置が存在するかどうかを判定するのに使用することができる。第2の閾値の設定は、カテゴリー誤配置を見逃す確率を低減することができる。例えば、第2の閾値が低い値に設定されている場合、カテゴリー誤配置の大多数が識別され得る。加えて、本開示で公開される技法は、TOP値および全体関連度値の獲得に関する。現行の技法と比較して、かかる値を獲得するための本開示で公開されたデバイスは、必要とするシステム・リソースが少なく、計算効率を向上する。
第1の閾値は異なる例示的実施形態において同一であっても異なってもよく、第1の閾値は、異なるカテゴリーの下で同一であっても異なってもよいことが理解される。そのような原理は、第2の閾値、第3の閾値、および第4の閾値にも当てはまる。
上述の例示的な実施形態から、当業者は、開示された方法およびシステムは、ソフトウェアおよび汎用ハードウェア・プラットフォームを用いて実現し得ることを明確に理解することができる。この理解に基づき、本開示の技術的スキーム、または既存の技術に寄与する部分は、ROM/RAM、ハードドライブおよび光ディスク等の記憶媒体に格納されたソフトウェア製品の形式で実現され得る。該ソフトウェアには、本開示の例示的な実施形態に記述された方法を実行するためのコンピューティング・デバイス(例えば、パーソナル・コンピュータ、サーバーまたはネットワーク・デバイス)のためのコンピュータ実行可能命令が含まれる。
様々な例示的な実施形態を本開示では、漸進的に記述している。例示的な実施形態の同一または類似部分は、相互に参照可能である。各例示的な実施形態は、他の例示的な実施形態とは異なる焦点を有する。特に、例示的なデバイスの実施形態は、例示的な方法と基本的に一致しているため、比較的単純な形で記述している。その詳細は、例示的な方法の関連部分を参照することにより見出すことができる。上記の例示的なデバイスの記述は、解説の目的のみを意図している。その中で別個の構成要素として記述されたユニットまたはモジュールは物理的に分かれている場合もそうでない場合もあり得る。実施形態の中で記述された複数のモジュールは1つのモジュールに統合されることも、または複数のサブモジュールにさらに分割されることもあり得る、ユニットまたはモジュールの観点から示された構成要素は物理的なユニットである場合もない場合もあり得、例えば、1つの場所に位置していることも、あるいは複数のネットワーク・ユニットに分散されていることもあり得る。現実のニーズに応じて、例示的な実施形態の目標は、モジュールの部分または全部を選択することにより達成され得る。当業者は、何ら革新的な努力をすることなく、開示されたシステムを理解および実現することができる。
開示された方法およびシステムは、ソフトウェアを備えた汎用コンピュータ・システムまたは専門化コンピュータ・システムの環境または構成で使用され得る。例としては、パーソナル・コンピュータ、サーバー・コンピュータ、ハンドヘルド・デバイスまたは携帯デバイス、タブレット・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セットアップ・ボックス、プログラマブル・カスタマ電子装置、ネットワークPC、小規模コンピュータ、大規模コンピュータ、および上記の任意のシステムまたはデバイスを含む分散コンピューティング環境が挙げられる。
本開示は、プログラム・モジュール等、コンピュータによって実行されるコンピュータ実行可能命令の一般的なコンテキストの中で記述され得る。一般に、プログラム・モジュールは特定のタスクの実行または特定の抽象データ型の実現のためのルーチン、プログラム、オブジェクト、モジュール、データ構造、コンピュータ実行可能命令等を含む。開示された方法およびデバイスは、分散コンピューティング環境で実現することもできる。分散コンピューティング環境では、タスクは通信ネットワークを通じて接続されるリモート処理デバイスにより実行される。分散コンピューティング環境では、プログラム・モジュールはローカルおよび/またはリモート・コンピュータの記憶媒体(記憶装置も含む)に位置することができる。
上は本開示の例示的な実施形態である。しかしながら、本開示はこれらに限定されない。本明細書中で用いられる用語は解説を目的としたものであり、本開示を限定するためのものではない。本開示は本発明の精神および本質から逸脱することなく、数多くの形式を使って具体的に実現することが可能であるため、上記の例示的な実施形態は上で論じた詳細に制限されることはなく、特許請求の範囲で定義される本質および範囲の下で広義に解釈されるべきである。当業者は本開示の精神および範囲から逸脱することなく、本開示を多くの異なる方法で変更または改変できることを理解されるであろう。したがって、これらの改変および変化型は本開示の特許請求の範囲内であり、それらと同等であるものと見なされるべきである。

Claims (20)

  1. カテゴリー誤配置を識別する方法であって、コンピュータ実行可能命令とともに構成される1または複数のプロセッサによって実行され、
    現在のカテゴリーの下での製品タイトル中の各個別語の単語頻度を求めることと;
    現在のカテゴリーの下での各個別語の単語頻度に基づき、前記製品タイトルの全体単語頻度を計算することと;および
    前記製品タイトルの全体単語頻度を現在のカテゴリーの閾値と比較して、カテゴリー誤配置の有無を判定すること
    を含む方法。
  2. 前記製品タイトルから1つまたは複数のストップ・ワードを決定することをさらに含む、請求項1に記載の方法。
  3. 前記決定が複数のカテゴリーの下での各個別語の分布エントロピーに基づく、請求項2に記載の方法。
  4. 現在のカテゴリーの下での前記製品タイトル中の各個別語の単語頻度を求める前に、前記製品タイトル中の1つまたは複数の語から前記1つまたは複数のストップ・ワードをフィルタリングすることをさらに含む、請求項2に記載の方法。
  5. 前記閾値が異なるカテゴリーでは異なる、請求項1に記載の方法。
  6. カテゴリー誤配置を識別する方法であって、コンピュータ実行可能命令とともに構成される1または複数のプロセッサによって実行され、
    単語頻度が現在のカテゴリーの下での個別語の単語頻度よりも高い1つまたは複数の語の単語頻度を合計することにより、現在の製品カテゴリー中の各個別語のTOP値を求めることと;
    前記TOP値に対応する各個別語の関連度値を、前記TOP値と前記関連度値との予め決められたマッピングに基づいて計算することと;
    各個別語の関連度値を加算し、現在のカテゴリーの下での製品タイトルの全体関連度を求めることと;および
    現在のカテゴリーの下での製品タイトルの全体関連度を閾値と比較して、カテゴリー誤配置の有無を判定すること
    を含む方法。
  7. 現在のカテゴリーの下での製品タイトルの全体関連度値を比較して、カテゴリー誤配置の有無を判定することが、
    現在のカテゴリーの下での前記製品タイトルの前記全体関連度値が前記閾値より低い場合は、カテゴリー誤配置が存在すると判定すること;および
    現在のカテゴリーの下での前記製品タイトルの前記全体関連度値が前記閾値以上である場合は、カテゴリー誤配置が存在していないと判定すること
    を含む、請求項6に記載の方法。
  8. 複数のカテゴリーの下での各個別語の分布エントロピーに基づいて、前記製品タイトルから1つまたは複数のストップ・ワードを決定することと;および
    現在のカテゴリーの下での製品タイトル中の各語のTOP値を求める前に、前記製品タイトル中の前記1つまたは複数のストップ・ワードをフィルタリングすること
    をさらに含む、請求項6に記載の方法。
  9. 前記閾値が異なるカテゴリーでは異なる、請求項6に記載の方法。
  10. 現在のカテゴリーの下での製品タイトルの全体関連度値を前記閾値と比較して、カテゴリー誤配置の有無を判定することが、
    現在のカテゴリーの下での前記製品タイトルの全体関連度値を前記閾値と比較することと;
    現在のカテゴリーの前記製品タイトルの前記全体関連度値が前記閾値より低い場合は、カテゴリー誤配置の異常が存在すると判定することと;
    前記製品タイトルの1つまたは複数の推奨カテゴリーを求めることと;
    前記製品タイトルおよび前記1つまたは複数の推奨カテゴリーに基づいて、前記製品タイトルに合致するターゲット・カテゴリーを決定することと;
    現在のカテゴリーの下での前記製品タイトルの事後確率とターゲット・カテゴリーの下での前記製品タイトルの事後確率とを求めることと;
    現在のカテゴリーの下での前記製品タイトルの事後確率とターゲット・カテゴリーの下での前記製品タイトルの事後確率と比較することと;および
    現在のカテゴリーの下での前記製品タイトルの前記事後確率と前記ターゲット・カテゴリーの下での前記製品タイトルの前記事後確率との差または率がもう1つの閾値を超える場合は、カテゴリー誤配置が存在すると判定すること
    を含む、請求項6に記載の方法。
  11. 前記1つまたは複数の推奨カテゴリーを求めることが
    前記製品タイトルの各個別語の複数のカテゴリーとの合致度を求めることと;および
    前記合致度を比較して、前記1つまたは複数の推奨カテゴリーを見出すこと
    を含む、請求項10に記載の方法。
  12. 前記ターゲット・カテゴリーを求めることが、
    前記1つまたは複数の推奨カテゴリーの各々の下での各個別語の単語頻度を、個別推奨カテゴリーの重みとして用いることと;
    前記1つまたは複数の推奨カテゴリーの各々に対して各個別語の全部の重みの合計を計算して、前記1つまたは複数の推奨カテゴリーの各々の重みの合計を得ることと;および
    重みの合計が最も高い推奨カテゴリーを前記ターゲット・カテゴリーとして選ぶこと
    を含む、請求項10に記載の方法。
  13. 前記ターゲット・カテゴリーを求めることが、
    それぞれの推奨カテゴリーに対する製品タイトル・ベクターおよびカテゴリー・ベクターを求めることを含み、製品タイトル・ベクターの1つまたは複数の要素は前記製品タイトル中の各個別語の出現確率を含み、前記カテゴリー・ベクターの1つまたは複数の要素は前記それぞれのカテゴリーの下での各個別語の単語頻度を含むことと;
    前記ぞれぞれの推奨カテゴリーに対して、前記製品タイトル・ベクターと前記カテゴリー・ベクターとの積を求めることと;および
    最も高い積を有する推奨カテゴリーを前記ターゲット・カテゴリーとして選択すること
    を含む、請求項10に記載の方法。
  14. 前記もう1つの閾値が異なるカテゴリーの下では異なることを特徴とする、請求項10に記載の方法。
  15. 現在のカテゴリーの下での製品タイトルの全体関連度を閾値と比較して、カテゴリー誤配置の有無を判定することが
    現在のカテゴリーの下での前記製品タイトルの前記全体関連度値を前記閾値と比較することと;
    現在のカテゴリーの前記製品タイトルの前記関連度値が前記閾値より低い場合には、カテゴリー誤配置の異常が存在すると判定することと;
    前記製品タイトルの1つまたは複数の推奨カテゴリーを求めることと;
    前記製品タイトルおよび前記1つまたは複数の推奨カテゴリーに基づいて、前記製品タイトルに合致するターゲット・カテゴリーを決定することと;
    現在のカテゴリーの下での前記製品タイトルの前記全体関連度を、前記ターゲット・カテゴリーの下での前記製品タイトルの全体関連度と比較することと;および
    現在のカテゴリーの下での前記製品タイトルの前記全体関連度値と前記ターゲット・カテゴリーの下での前記製品タイトルの前記全体関連度値の差または率が別の第4の閾値を超えている場合は、カテゴリー誤配置が存在すると判定すること
    を含む、請求項6に記載の方法。
  16. カテゴリー誤配置を識別するためのデバイスであって、
    1または複数のプロセッサと;
    メモリであって、
    現在のカテゴリーの下での製品タイトル中の各個別語の単語頻度を求める単語頻度モジュールと;
    現在のカテゴリーの下での各個別語の単語頻度に基づき、現在のカテゴリーの下での前記製品タイトルの全体単語頻度を計算する全体単語頻度計算モジュールと;および
    前記製品タイトルの前記全体単語頻度を現在のカテゴリーの閾値と比較して、カテゴリー誤配置の有無を判定するカテゴリー誤配置判定モジュール
    を含む、
    前記1または複数のプロセッサによって実行可能な、複数のモジュールを格納するメモリ
    を含むデバイス。
  17. カテゴリー誤配置を識別するためのデバイスであって、
    1または複数のプロセッサと;
    メモリであって、
    現在のカテゴリーの下での製品タイトル中の各個別語のTOP値を求めるTOP値獲得モジュール(前記TOP値は、単語頻度が個別語の単語頻度よりも高い1つまたは複数の語の単語頻度の合計である)と;
    前記TOP値と前記関連度値との予め決定されたマッピングに基づき、前記TOP値に対応する各個別語の関連度値を計算し、各個別語の関連度値を加算し、現在のカテゴリーの下での前記製品タイトルの全体関連度値を求める、全体関連度値獲得モジュールと;および
    現在のカテゴリーの下での前記製品タイトルの前記全体関連度値を閾値と比較して、カテゴリー誤配置の有無を判定する、カテゴリー誤配置判定モジュール
    を含む、前記1または複数のプロセッサによって実行可能な複数のモジュールを格納するメモリ
    を含むデバイス。
  18. 前記カテゴリー誤配置判定モジュールが、
    現在のカテゴリーの下での製品タイトルの全体関連度値を閾値と比較し、現在のカテゴリーの下での前記製品タイトルの前記全体関連度値が前記閾値より小さい場合には、製品配置に異常が存在すると判定する、製品配置における異常判定モジュールと;
    製品配置に異常が存在すると判定した後、前記製品タイトルに対する1つまたは複数の推奨カテゴリーを求め、前記製品タイトルおよび前記1つまたは複数の推奨カテゴリーに基づいて、前記製品タイトルに合致するターゲット・カテゴリーを求める、ターゲット・カテゴリー獲得モジュールと;
    ターゲット・カテゴリーの下での前記製品タイトルの事後確率および現在のカテゴリーの下での前記製品タイトルの事後確率を求める、事後確率獲得モジュールと;および
    前記ターゲット・カテゴリーの下での前記製品タイトルの前記事後確率を、現在のカテゴリーの下での前記製品タイトルの前記事後確率と比較して、前記ターゲット・カテゴリーの下での前記製品タイトルの前記事後確率と現在のカテゴリーの下での前記製品タイトルの前記事後確率との差または率が別の閾値を超えている場合は、カテゴリー誤配置が存在すると判定する、カテゴリー誤配置判定モジュール
    を含む、請求項17に記載のデバイス。
  19. 前記カテゴリー誤配置判定モジュールが、
    現在のカテゴリーの下での前記製品タイトルの全体関連度値を閾値と比較し、現在のカテゴリーの下での前記製品タイトルの前記全体関連度値が前記閾値より小さい場合は、製品配置に異常が存在すると判定する、製品配置における異常判定モジュールと;
    製品配置に異常が存在すると判定した後、前記製品タイトルに対して1つまたは複数の推奨カテゴリーを求め、前記製品タイトルおよび前記1つまたは複数の推奨カテゴリーに基づいて、前記製品タイトルに合致するターゲット・カテゴリーを求める、ターゲット・カテゴリー獲得モジュールと;
    ターゲット・カテゴリーの下での製品タイトルの全体関連度値を現在のカテゴリーの下での製品タイトルの前記全体関連度値を比較する、全体関連度値比較モジュールと;および
    前記ターゲット・カテゴリーの下での前記製品タイトルの全体関連度値と現在のカテゴリーの下での製品タイトルの全体関連度値との差または率が別の閾値を超える場合、カテゴリー誤配置が存在すると判定する、カテゴリー誤配置判定モジュール
    を含む、請求項17に記載のデバイス。
  20. 前記TOP値獲得モジュールが、
    複数のカテゴリーにある語の分布エントロピーに基づき、前記製品タイトルが1つまたは複数のストップ・ワードを含むかを判定する、ストップ・ワード検索モジュールと;
    前記1つまたは複数のストップ・ワードをフィルタリングする、ストップ・ワード・フィルタリング・モジュールと;および
    前記1つまたは複数のストップ・ワードがフィルタリングされた後、現在のカテゴリーの下での各個別語のTOP値を求める、TOP値獲得モジュール
    を含む、請求項17に記載のデバイス。
JP2013550528A 2011-01-25 2012-01-17 分類された誤配置の識別 Expired - Fee Related JP5864614B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201110026733.9 2011-01-25
CN2011100267339A CN102609422A (zh) 2011-01-25 2011-01-25 类目错放识别方法和装置
PCT/US2012/021488 WO2012102898A1 (en) 2011-01-25 2012-01-17 Identifying categorized misplacement

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015251954A Division JP6109290B2 (ja) 2011-01-25 2015-12-24 分類された誤配置の識別

Publications (2)

Publication Number Publication Date
JP2014507716A JP2014507716A (ja) 2014-03-27
JP5864614B2 true JP5864614B2 (ja) 2016-02-17

Family

ID=46526804

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2013550528A Expired - Fee Related JP5864614B2 (ja) 2011-01-25 2012-01-17 分類された誤配置の識別
JP2015251954A Expired - Fee Related JP6109290B2 (ja) 2011-01-25 2015-12-24 分類された誤配置の識別

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2015251954A Expired - Fee Related JP6109290B2 (ja) 2011-01-25 2015-12-24 分類された誤配置の識別

Country Status (6)

Country Link
US (2) US8812420B2 (ja)
EP (1) EP2668590A4 (ja)
JP (2) JP5864614B2 (ja)
CN (2) CN107122980B (ja)
TW (1) TWI519976B (ja)
WO (1) WO2012102898A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122980B (zh) * 2011-01-25 2021-08-27 阿里巴巴集团控股有限公司 识别商品所属类目的方法和装置
CN102737057B (zh) * 2011-04-14 2015-04-01 阿里巴巴集团控股有限公司 一种商品类目信息的确定方法及装置
US20130339337A1 (en) * 2012-05-30 2013-12-19 Companyid Corporation Auto tagging method and system
CN103544264A (zh) * 2013-10-17 2014-01-29 常熟市华安电子工程有限公司 一种商品标题优化工具
US9959364B2 (en) * 2014-05-22 2018-05-01 Oath Inc. Content recommendations
JP6382139B2 (ja) * 2015-03-20 2018-08-29 ヤフー株式会社 情報処理装置、情報処理方法、及びプログラム
CN106204053A (zh) * 2015-05-06 2016-12-07 阿里巴巴集团控股有限公司 信息类目错放识别方法和装置
CN106503000B (zh) * 2015-09-03 2019-10-29 菜鸟智能物流控股有限公司 对网上交互平台上的物品进行移动的方法和装置
CN106294674A (zh) * 2016-08-02 2017-01-04 郑州悉知信息科技股份有限公司 一种信息检测方法及装置
US20180089309A1 (en) * 2016-09-28 2018-03-29 Linkedln Corporation Term set expansion using textual segments
CN111199439B (zh) * 2018-11-16 2023-04-14 阿里巴巴集团控股有限公司 一种商品信息处理方法及其装置
CN111353838A (zh) * 2018-12-21 2020-06-30 北京京东尚科信息技术有限公司 自动化校验商品类目的方法和装置
CN109992583A (zh) * 2019-03-15 2019-07-09 上海益普索信息技术有限公司 一种基于dmp标签的管理平台及方法
CN111833118A (zh) * 2019-04-10 2020-10-27 拉扎斯网络科技(上海)有限公司 商户信息确定方法、装置、电子设备和非易失性存储介质
CN110457699B (zh) * 2019-08-06 2023-07-04 腾讯科技(深圳)有限公司 一种停用词挖掘方法、装置、电子设备及存储介质
US11568425B2 (en) * 2020-02-24 2023-01-31 Coupang Corp. Computerized systems and methods for detecting product title inaccuracies
US11507603B2 (en) 2020-05-12 2022-11-22 Bayestree Intelligence Pvt Ltd. Identifying uncertain classifications
US11966434B2 (en) 2021-02-12 2024-04-23 Walmart Apollo, Llc System and method for determining item labels based on item images

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5828991A (en) * 1995-06-30 1998-10-27 The Research Foundation Of The State University Of New York Sentence reconstruction using word ambiguity resolution
JP3603392B2 (ja) * 1995-07-06 2004-12-22 株式会社日立製作所 文書分類支援方法および装置
US6697799B1 (en) 1999-09-10 2004-02-24 Requisite Technology, Inc. Automated classification of items using cascade searches
US7389252B2 (en) 2000-01-06 2008-06-17 Anne E. Robb Recursive method and system for accessing classification information
JP2001283184A (ja) * 2000-03-29 2001-10-12 Matsushita Electric Ind Co Ltd クラスタリング装置
US7376635B1 (en) * 2000-07-21 2008-05-20 Ford Global Technologies, Llc Theme-based system and method for classifying documents
US7130848B2 (en) * 2000-08-09 2006-10-31 Gary Martin Oosta Methods for document indexing and analysis
US20030217052A1 (en) * 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
US6640228B1 (en) * 2000-11-10 2003-10-28 Verizon Laboratories Inc. Method for detecting incorrectly categorized data
US7493315B2 (en) 2000-11-15 2009-02-17 Kooltorch, L.L.C. Apparatus and methods for organizing and/or presenting data
WO2002041170A2 (en) 2000-11-16 2002-05-23 Interlegis, Inc. System and method of managing documents
US6823323B2 (en) 2001-04-26 2004-11-23 Hewlett-Packard Development Company, L.P. Automatic classification method and apparatus
US6978275B2 (en) 2001-08-31 2005-12-20 Hewlett-Packard Development Company, L.P. Method and system for mining a document containing dirty text
CN1449931A (zh) * 2002-04-09 2003-10-22 台湾店讯工商黄页股份有限公司 店家资料的出版品及其店家资料分类的方法
JP4233836B2 (ja) * 2002-10-16 2009-03-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
WO2005033645A1 (en) 2003-09-30 2005-04-14 Intrinsic Marks International Llc Item monitoring system and methods
US7870039B1 (en) 2004-02-27 2011-01-11 Yahoo! Inc. Automatic product categorization
US7577709B1 (en) 2005-02-17 2009-08-18 Aol Llc Reliability measure for a classifier
JP4490876B2 (ja) * 2005-06-01 2010-06-30 日本電信電話株式会社 コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体
JP4368336B2 (ja) * 2005-07-13 2009-11-18 富士通株式会社 カテゴリ設定支援方法及び装置
JP4429236B2 (ja) * 2005-08-19 2010-03-10 富士通株式会社 分類ルール作成支援方法
JP4747752B2 (ja) * 2005-09-14 2011-08-17 日本電気株式会社 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム
CN100419753C (zh) * 2005-12-19 2008-09-17 株式会社理光 数字化数据集中按照分类信息搜索目标文档的方法和装置
CN100533441C (zh) * 2006-04-19 2009-08-26 中国科学院自动化研究所 基于概率主题词的两级组合文本分类方法
CN101079025B (zh) * 2006-06-19 2010-06-16 腾讯科技(深圳)有限公司 一种文档相关度计算系统和方法
US7724957B2 (en) * 2006-07-31 2010-05-25 Microsoft Corporation Two tiered text recognition
GB2442286A (en) * 2006-09-07 2008-04-02 Fujin Technology Plc Categorisation of data e.g. web pages using a model
CN101000627B (zh) * 2007-01-15 2010-05-19 北京搜狗科技发展有限公司 一种相关信息的发布方法和装置
US7809718B2 (en) 2007-01-29 2010-10-05 Siemens Corporation Method and apparatus for incorporating metadata in data clustering
CN101727636A (zh) 2008-10-23 2010-06-09 深圳富泰宏精密工业有限公司 商品信息管理系统及方法
US7996719B2 (en) * 2008-10-24 2011-08-09 Microsoft Corporation Expressing fault correlation constraints
US20100274584A1 (en) * 2009-04-23 2010-10-28 Kim Hyong S Method and system for presenting and processing multiple text-based medical reports
CN101625652B (zh) * 2009-08-04 2011-06-08 成都市华为赛门铁克科技有限公司 多磁盘容错系统及生成校验块、恢复数据块的方法
CN101673305B (zh) * 2009-09-29 2015-04-08 百度在线网络技术(北京)有限公司 行业分类方法、装置和服务器
WO2011105606A1 (ja) * 2010-02-26 2011-09-01 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用のプログラム、および、記録媒体
US20110238534A1 (en) 2010-03-29 2011-09-29 Ramanjaneyulu Yakkala Methods and systems for improving the categorization of items for which item listings are made by a user of an ecommerce system
TW201207751A (en) 2010-08-06 2012-02-16 Hometouch Co Ltd Television shopping system and its method
CN107122980B (zh) * 2011-01-25 2021-08-27 阿里巴巴集团控股有限公司 识别商品所属类目的方法和装置
CN103678335B (zh) * 2012-09-05 2017-12-08 阿里巴巴集团控股有限公司 商品标识标签的方法、装置及商品导航的方法

Also Published As

Publication number Publication date
US20140297577A1 (en) 2014-10-02
CN102609422A (zh) 2012-07-25
US20130304687A1 (en) 2013-11-14
US8812420B2 (en) 2014-08-19
US9104968B2 (en) 2015-08-11
EP2668590A1 (en) 2013-12-04
WO2012102898A1 (en) 2012-08-02
JP6109290B2 (ja) 2017-04-05
CN107122980B (zh) 2021-08-27
TW201232301A (en) 2012-08-01
CN107122980A (zh) 2017-09-01
TWI519976B (zh) 2016-02-01
EP2668590A4 (en) 2017-05-03
JP2016066376A (ja) 2016-04-28
JP2014507716A (ja) 2014-03-27

Similar Documents

Publication Publication Date Title
JP6109290B2 (ja) 分類された誤配置の識別
US10504120B2 (en) Determining a temporary transaction limit
JP5965911B2 (ja) オンライン取引プラットフォームに基づくデータ処理
TWI512653B (zh) Information providing method and apparatus, method and apparatus for determining the degree of comprehensive relevance
US8983930B2 (en) Facet group ranking for search results
CN110532479A (zh) 一种信息推荐方法、装置及设备
CN110428298A (zh) 一种店铺推荐方法、装置及设备
US20140258330A1 (en) Search result ranking using query clustering
CN111695023A (zh) 信息推荐方法、装置、存储介质及设备
US20190087859A1 (en) Systems and methods for facilitating deals
Suresh Kumar et al. A novel weight-optimized LSTM for dynamic pricing solutions in e-commerce platforms based on customer buying behaviour
CN107045700A (zh) 基于流式用户行为分析的产品推送方法和装置
WO2013029146A1 (en) System and method for identifying groups of entities
CN111695941A (zh) 商品交易网站数据分析方法、装置和电子设备
Sharma et al. Intelligent data analysis using optimized support vector machine based data mining approach for tourism industry
US10120929B1 (en) Systems and methods for automatic item classification
CN104794135B (zh) 一种对搜索结果进行排序的方法和装置
US11487964B2 (en) Comprehensive data science solution for segmentation analysis
US20240160628A1 (en) Data query apparatus, method and storage medium
EP2541409A1 (en) Parallelization of large scale data clustering analytics
US12111870B2 (en) Automatic discovery of related data records
JP6664580B2 (ja) 算出装置、算出方法および算出プログラム
JP5310196B2 (ja) 分類体系改正支援プログラム、分類体系改正支援装置、および分類体系改正支援方法
CN118093769B (zh) 一种基于erp业务的产品数据管理方法及系统
Mohamadi Golsefid International market segmentation and cross-export strategies development case study: Iranian furniture industry

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151224

R150 Certificate of patent or registration of utility model

Ref document number: 5864614

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees