JP6109290B2

JP6109290B2 - 分類された誤配置の識別

Info

Publication number: JP6109290B2
Application number: JP2015251954A
Authority: JP
Inventors: ユーリンワン
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2011-01-25
Filing date: 2015-12-24
Publication date: 2017-04-05
Anticipated expiration: 2032-01-17
Also published as: CN107122980A; TWI519976B; TW201232301A; EP2668590A1; WO2012102898A1; CN102609422A; US9104968B2; US20130304687A1; US20140297577A1; JP2014507716A; US8812420B2; CN107122980B; JP5864614B2; EP2668590A4; JP2016066376A

Description

関連する特許出願の相互参照
本出願は、参照によりその全内容が本明細書に組み込まれる、『カテゴリーの誤配置を識別するための方法およびデバイス（ＭＥＴＨＯＤＡＮＤＤＥＶＩＣＥＦＯＲＩＤＥＮＴＩＦＹＩＮＧＣＡＴＥＧＯＲＹＭＩＳＰＬＡＣＥＭＥＮＴ）』と題された、２０１１年１月２５日出願の中国特許出願第２０１１１００２６７３３．９号の外国優先権を主張する。

本開示は、データ処理技術の１つの分野に関し、より具体的には、カテゴリー誤配置を識別するための方法およびデバイスに関する。

ｅコマースの発展に伴い、オンラインストアおよびオンライントランザクションは、オンラインユーザーの間でますます一般的になってきている。オンライン・トレーディング・システムは、オンラインストアの製品がカテゴリーを基準にして管理されるオンライン・トレーディング・プラットフォームを提供する。広義のカテゴリーの各々はより小さな下位カテゴリーに分類されて、カテゴリー・ツリーを形成することができる。オンライン製品の数が増えるにつれ、カテゴリー・ツリーもより大きくなっていく。このため、オンラインストアを運営する販売者は、販売している製品を無意識または故意に、間違ったカテゴリーの下に配置してしまうことがあり、これはカテゴリー誤配置として知られている。

カテゴリー誤配置は不正確な検索結果に繋がる可能性があり、さらに、システム記憶およびコンピューティング資源を浪費し、不快なユーザー体験を与える可能性もある。例えば、ユーザーがカテゴリーＡの製品を見ようとしてカテゴリー・ツリーをクリックするが、カテゴリーＢの製品が提示される。カテゴリー誤配置は、さらに販売者にとって損失の原因ともなり得る。例えば、間違ったカテゴリーに誤配置された製品は見過ごされるかもしれない。間違ったカテゴリーに誤配置された製品を識別して、修正することができれば、上記のマイナス効果を除去し、それによりシステム記憶およびコンピューティング資源の利用率を増加し、購入者と販売者の両方により良いサービスを提供することができる。

誤配置された製品を識別するための１つの方法は、クリック辞書に基づく。クリック辞書は複数のレコードから構成され、各レコードはユーザーが、ユーザーが行ったクエリーの検索結果の中にある特定のカテゴリーをクリックする確率を表す。ユーザーのクエリーおよびクリック動作の記録に基づいて、特定のクエリーに対してそれまでユーザーがクリックした製品の分布を得ることができる。製品が間違ったカテゴリーに誤配置されているかどうかが判断されたら、その製品のタイトルがセグメント分割される。セグメント分割から生じる各語は１つのクエリーとして扱われ、そのクエリーのカテゴリー分布がクリック辞書を通して検索される。合致するカテゴリーが見つかった場合は、カテゴリー誤配置は存在しない；見つからなかった場合は、カテゴリー誤配置が存在する。

大量のデータ（例えば、数千万件または数十億件もの製品データ）に対して上記の方法を使うと、カテゴリー誤配置の識別を見逃す可能性が高くなる。このような方法は数万件のカテゴリー誤配置データのみを識別および撤回し得る。１つの理由はクリック辞書には、膨大な量のデータがあり、分布はわずかであり、カテゴリー誤配置のある製品の大多数は、クリック辞書のクエリーでカバーされていないことにある。もう１つの理由は、この方法は集中的なコンピュータの使用および複雑な処理を必要とし、高いシステム・リソース要件および長い計算時間に繋がることにある。したがって、上記の方法は、インターネット産業の要件を満足することはできない。

本開示は、カテゴリー誤配置を見逃す確率を減らすために、カテゴリー誤配置を識別するための方法およびデバイスを提供する。本開示は、カテゴリー誤配置を識別するためのシステム要件を下げ、システム・リソースを節約し、計算効率を向上することができる。

本開示は、カテゴリー誤配置を識別するための方法を提供する。現在のカテゴリーの下での製品タイトル中の各語の単語頻度が求められる。現在のカテゴリーの下での各語の単語頻度に基づいて、製品タイトルの全体の単語頻度が求められる。次に製品タイトルの全体の単語頻度が現在のカテゴリーの第１の閾値と比較される。比較結果に基づいて、カテゴリー誤配置が存在するかどうかが判定される。

本開示は、さらに、カテゴリー誤配置を識別するためのもう１つの方法も提供する。現在のカテゴリーの下での製品タイトル中の各語のＴＯＰ値が得られる。語のＴＯＰ値は、製品タイトル中のその語の単語頻度より高い単語頻度を持つ、現在のカテゴリーの下での語の単語頻度の合計である。ＴＯＰ値と関連度値との予め決められたマッピング関係に基づき、各語のＴＯＰ値に対応する関連度値が得られる。語のＴＯＰ値に対応する関連度値を合計して、現在のカテゴリーの下での製品タイトルの全体関連度値を得る。現在のカテゴリーの下での製品タイトルの全体関連度値が第２の閾値と比較される。比較結果に基づいて、カテゴリー誤配置が存在するかどうかが判定される。

本開示は、カテゴリー誤配置を識別するためのデバイスを提供する。該デバイスには、単語頻度獲得モジュール、全体の単語頻度計算モジュール、およびカテゴリー誤配置判定モジュールが含まれる。単語頻度モジュールは、現在のカテゴリーの下での製品タイトル中の各語の単語頻度を求める。全体単語頻度計算モジュールは、現在のカテゴリーの下での各語の単語頻度に基づいて、製品タイトルの全体の単語頻度を計算する。カテゴリー誤配置判定モジュールは、製品タイトルの全体の単語頻度を現在のカテゴリーの第１の閾値と比較し、比較結果に基づいて、カテゴリー誤配置が存在するかどうかを判定する。

本開示は、カテゴリー誤配置を識別するためのもう１つのデバイスを提供する。該デバイスには、ＴＯＰ値獲得モジュール、全体関連度値獲得モジュール、およびカテゴリー誤配置判定モジュールが含まれる。ＴＯＰ値獲得モジュールは、現在のカテゴリーの下での製品タイトル中の各語のＴＯＰ値を得る。語のＴＯＰ値は、製品タイトル中の語の単語頻度よりも高い単語頻度を持つ、現在のカテゴリーの下での語の単語頻度の合計である。全体関連度値獲得モジュールは、ＴＯＰ値と関連度値との予め決められたマッピング関係に基づいて、各語のＴＯＰ値に対応する関連度値を得、語のＴＯＰ値に対応する関連度値を合計して、現在のカテゴリーの下での製品タイトルの全体関連度値を得る。カテゴリー誤配置判定モジュールは、現在のカテゴリーの下での製品タイトルの全体関連度値を第２の閾値と比較し、比較結果に基づいて、カテゴリー誤配置が存在するかどうかを判定する。

本開示の方法およびデバイスは、製品タイトルの全体の単語頻度と第１の閾値との比較結果に基づいて、カテゴリー誤配置が存在するかどうかを判定することができる。さらに、ＴＯＰ値は製品タイトルとカテゴリーとの合致度を反映することができる。したがって、ＴＯＰ値によって決定される製品タイトルとカテゴリーとの全体的な関連度値も、製品タイトルとカテゴリーとの合致度を反映することができる。カテゴリーの下での製品タイトルの全体的な関連度値と第２の閾値との比較結果も、カテゴリー誤配置が存在しているかどうかを判定するために用いることができる。第２の閾値の設定は、カテゴリー誤配置を見逃す確率を減少することができる。例えば、第２の閾値がより低い値に設定される場合、大多数のカテゴリー誤配置を識別することができる。さらに、本開示で公開される技法は、ＴＯＰ値および全体の関連度値を得ることに関する。現在の技法と比較すると、本開示で公開される技法は、必要とするシステム・リソースが少なく、計算効率が向上する。

以下は、本開示の実施形態または現在の技術の技法をより分かりやすく解説するために、実施形態の記述で使われる図の簡単な説明である。以下の図は、本開示のいくつかの実施形態にのみ関係していることは明白である。当業者は、創造的な努力をすることなく、本開示の図に従って、他の実施形態も得ることができる。
本開示の第１の例の実施形態に従って、カテゴリー誤配置を識別するための例示的方法のフローチャートを示す。本開示の第２の例の実施形態に従って、カテゴリー誤配置を識別するための例示的方法のフローチャートを示す。本開示の第３の例の実施形態に従って、カテゴリー誤配置を識別するための例示的方法のフローチャートを示す。本開示の第４の例の実施形態に従って、カテゴリー誤配置を識別するための例示的方法のフローチャートを示す。本開示の第５の例の実施形態に従って、カテゴリー誤配置を識別するための例示的デバイスの図表を示す。本開示の第６の例の実施形態に従って、カテゴリー誤配置を識別するための例示的デバイスの図表を示す。本開示の第７の例の実施形態に従って、カテゴリー誤配置を識別するための例示的デバイスの図表を示す。本開示の第８の例の実施形態に従って、カテゴリー誤配置を識別するための例示的デバイスの図表を示す。本開示の第９の例の実施形態に従って、カテゴリー誤配置を識別するための例示的デバイスの図表を示す。例示的なＴＯＰ値獲得モジュールの図表である。

以下に、本開示の例示的な実施形態の詳しい記述を提供する。ここに記述される例示的な実施形態は、考察のための例としてのみ使われるものであり、本開示を制限するために使われるものではない。

製品はカテゴリーに基づいて配置される。各製品にはタイトルが付いており、これはその製品を記述する目的で使われる。カテゴリーおよびタイトルは、製品の２つの基本的な属性である。

タイトルは一般に、短い語句であり、セグメント分割により複数の語から成るセットに分割することができる。タイトルと語との関係は、以下の式（１）を使うことで表現することできる：

上記の式（１）において、Ｔはタイトルを表し、タイトルＴは語ｔが複数集まったもの（ｔ₁、ｔ₂、・・・ｔ_nを含み、ここでｎは正の整数である）から成る。

さらに、１つのカテゴリーの下にある製品の数が計算される。１つの実施形態においては、１つまたは複数の予め定義された規則に基づいて、製品は１つのカテゴリーの下に配置される。したがって、全てのカテゴリーの製品の総数は、全ての製品の総数と等しい。１つのカテゴリーの下での製品の数は、そのカテゴリーが出現する頻度を表すことができる。

カテゴリー誤配置を識別するために、製品タイトルがその製品に対する現在のカテゴリーと合致しているかどうかをまずチェックすることができる。言い換えれば、所与のカテゴリーの下にある異なる製品タイトルについて、製品タイトルの各々と現在のカテゴリーとの合致度をまず測定することができる。

図１は、本開示の第１の例示的な実施形態に従った、カテゴリー誤配置の識別のための例示的方法のフローチャートを示す。第１の例示的実施形態には、次の操作を含めることができる。

１０２では、現在のカテゴリーの下での製品タイトル中の各語の単語頻度が求められる。

１つまたは複数のカテゴリーを含むデータベースが提供される。データベース内の各カテゴリーは、少なくとも１つの語およびそのカテゴリーの下でのその語の単語頻度を含む。単語頻度は、各カテゴリーの下での語の確率値である。一般に、異なる複数のカテゴリーの下での語の単語頻度は異なる。単語頻度の概念をいくつかの具体例を参照しながら、以下に詳述する。

製品タイトルは１つまたは複数の語で構成され、異なる複数のカテゴリーの下での各語の出現頻度は同じではない。例えば、「Ｎｉｋｅ」という語は「ｓｐｏｒｔｓｓｈｏｅｓ（スポーツシューズ）」というカテゴリーや「ｓｐｏｒｔｓａｔｔｉｒｅ（スポーツ衣料）」というカテゴリー等、スポーツ製品のカテゴリーの下での製品タイトルに頻繁に出現するが、「Ｎｏｋｉａ」という語は、「ｍｏｂｉｌｅｐｈｏｎｅ（携帯電話）」というカテゴリーの下で製品タイトルに頻繁に出現する。対照的に、「Ｎｉｋｅ」は、「ｍｏｂｉｌｅｐｈｏｎｅ」のカテゴリーの下で製品タイトルに出現することは滅多になく、「Ｎｏｋｉａ」は「ｓｐｏｒｔｓｓｈｏｅｓ」のカテゴリーの下で製品タイトルに出現することは滅多にない。カテゴリーが異なれば、特定の語の単語頻度も異なることが示されている。このような差異をカテゴリーを区別するのに利用することができる。

本開示の例示的な実施形態に基づいて、複数または全てのカテゴリーの下での全ての語の単語頻度を計算することができる。例えば、所与の語ｔおよび所与のカテゴリーＣについて、単語頻度ＴＦ_t,Cを得ることができる。ＴＦ_t,Cは、カテゴリーＣの下での語ｔの出現確率、すなわち、Ｐ（ｔ｜Ｃ）を表す。特定のカテゴリーの下での全ての製品タイトルの語の数に基づき、単語頻度ＴＦ_t,Cは、（０，１）の間の数値として表すことができる。ｔとＣの異なる組合せは、複数の単語頻度をもたらし得る。

実際のアプリケーションでは、異なるカテゴリーの下での様々な語の単語頻度を得て、データベースの構築に用いることができる。このような様々な語は、市場に出現する製品タイトルの全ての語を含むことができる。データベースは読取り専用メモリ（ＲＯＭ）およびランダム・アクセス・メモリ（ＲＡＭ）等のメモリを含む、コンピュータ読取り可能媒体に格納することができる。

１０４では、現在のカテゴリーの下での各語の単語頻度に基づいて、製品タイトルの全体の単語頻度が得られる。

製品タイトルの全体の単語頻度は、現在のカテゴリーの下での各語の得られた単語頻度に基づいて積算することができる。あるいは、重み値を製品タイトル中の各語の順番、その語が重複しているかどうか等の情報に基づいて、各語ごとに定義することができる。各語の重み値および単語頻度に基づき、製品タイトルの全体の単語頻度は重み付けされた計算を用いることにより求めることができる。

１０６では、製品タイトルの全体の単語頻度が現在のカテゴリーの第１の閾値と比較される。比較結果に基づいて、カテゴリー誤配置が存在するかどうかが判定される。

第１の閾値は、語とデータベース内の各カテゴリーの下でのそれらの語の頻度に基づいて定義することができる。現在のカテゴリーの下での全体の単語頻度が下がるほど、その製品タイトルが現在のカテゴリーの下に分類される確率は下がる。全体の単語頻度が定義された第１の閾値より低い場合、カテゴリー誤配置が存在すると見なされ得る。

第１の閾値は異なるカテゴリーで異なってよい。言い換えれば、異なるカテゴリーの下において、製品タイトル中の語の単語頻度の分布特性に基づき、異なる第１の閾値を異なるカテゴリーに対して予め定義してよく、データベースはそのような第１の閾値を格納してよい。第１の閾値を格納するデータベースは、単一データベースとしてカテゴリーを格納しているデータベースとマージすることができる。あるいは、これらの２つのデータベースを独立させて、各々を対応するコンピュータ記憶装置にそれぞれ別に格納することもできる。

例えば、「ｓｐｏｒｔｓｓｈｏｅｓ」のカテゴリーの第１の閾値を０．６として定義し、「ｍｏｂｉｌｅｐｈｏｎｅ」のカテゴリーの第１の閾値を３として定義することができる。「ｓｐｏｒｔｓｓｈｏｅｓ」のカテゴリーの下での「Ｎｉｋｅｊｏｇｇｉｎｇｓｈｏｅｓ（Ｎｉｋｅジョギング・シューズ）」の全体の単語頻度を１．５、「ｍｏｂｉｌｅｐｈｏｎｅ」のカテゴリーの下での「Ｎｉｋｅｊｏｇｇｉｎｇｓｈｏｅｓ」の全体の単語頻度を０．２と仮定すると、「ｓｐｏｒｔｓｓｈｏｅｓ」のカテゴリーの下での「Ｎｉｋｅｊｏｇｇｉｎｇｓｈｏｅｓ」の全体の単語頻度は「ｓｐｏｒｔｓｓｈｏｅｓ」のカテゴリーの第１の閾値である０．６より高いため、この製品タイトルが「ｓｐｏｒｔｓｓｈｏｅｓ」のカテゴリーの下に分類される可能性は高い。「ｍｏｂｉｌｅｐｈｏｎｅ」カテゴリーの下での「Ｎｉｋｅｊｏｇｇｉｎｇｓｈｏｅｓ」の全体の単語頻度は０．２であり、「ｍｏｂｉｌｅｐｈｏｎｅ」のカテゴリーの第１の閾値である３よりずっと低いため、この製品タイトルが「ｍｏｂｉｌｅｐｈｏｎｅ」のカテゴリーの下に分類される可能性は低い。

加えて、単語頻度を計算するとき、「ｓｐｅｃｉａｌｏｆｆｅｒ（特価提供）」、「ｄｉｓｃｏｕｎｔ（ディスカウント）」、「ｈｏｔｓｅｌｌｉｎｇ（人気商品）」、記述的な記号、例えば「［］」等、および助語、例えば「ｏｆ」「ａｌｓｏ」等、いくつかの語は複数のカテゴリーに多数出現する可能性がある。このような語はストップ・ワードと呼ばれる。複数のカテゴリーの下で製品タイトルにこれらのストップ・ワードが出現する頻度はあまり変動しないため、これらの単語頻度は、製品をカテゴリーに分類する上であまり役に立たない。単語頻度をこれらのストップ・ワードについて計算すれば、コンピューティング資源を浪費するだけでなく、時として、反作用もあるであろう。例えば、ある特定のストップ・ワードｘがカテゴリＡの下で製品タイトルに数多く出現し、カテゴリＢの下では製品タイトルにほとんど出現しない場合、ストップ・ワードｘを持つ製品タイトルをカテゴリＡの下に配置することがあり得る。

カテゴリー誤配置の識別におけるストップ・ワードの影響を減少させるために、ストップ・ワードの表を予め設定し、製品タイトルにおいてストップ・ワードを取り除くことにより、計算の量を削減し、誤判定の率を低下させ得る。

以下は、ストップ・ワードを決定するための例示的な方法である。

ストップ・ワードの定義に基づき、ある語の単語頻度が複数のカテゴリーにより均等に分布しているほど、そのような語がストップ・ワードである可能性は高くなる。したがって、複数または全てのカテゴリーにおける各語の分布エントロピーを用いて、その語がストップ・ワードであるかを判定することができる。ストップ・ワードを判定するための技法は多数ある。以下は例示的な方法であり、本開示におけるストップ・ワードの判定を限定するものと見なされるべきではない。

以下の式（２）を、複数のカテゴリーの下での語の分布エントロピーの計算に使うことができる：

式（２）において、Ｅｎｔ（ｔ）は、全てのカテゴリーの下での語ｔの分布エントロピーを表す。関数Ｐ（ｔ｜Ｃ_i）は、カテゴリー^Ciの下での語ｔの単語頻度を表し、ｎは任意の整数を表す。

全ての語の分布エントロピーを計算後、それらの語は、それぞれの分布エントロピーに基づいて、最大から最小へと並べ替えられる。閾値は各語の並べ替え順序に基づいて決定される。特定の語の分布エントロピーが閾値より高い場合、そのような語はストップ・ワードになり、ストップ・ワード表に追加される。本開示の例示的な実施形態に基づいて、閾値は実際のデータ処理要件に基づいて決定することができる。

カテゴリー誤配置を識別するための第１の例示的実施形態ならびに以降の例示的実施形態において、ストップ・ワードは、計算量および誤判定の率を減少させ、データ処理速度を高めるためにフィルタリングすることができる。

図２は、本開示の第２の例示的な実施形態におけるカテゴリー誤配置を識別するための方法のフローチャートを示す。２０２において、製品タイトル中の各語につき、その各々の現在のカテゴリー下でのＴＯＰ値が得られる。この例示的な実施形態では、複数のカテゴリーを含むデータベースが提供される。データベース内の各カテゴリーは少なくとも１つの語および該カテゴリー中のそのＴＯＰ値を含んでいた。

この例示的な実施例は、ＴＯＰ値を用いる。特定のカテゴリー中の語のＴＯＰ値は、単語頻度がその語よりも高い全ての語の単語頻度の合計である。例えば、カテゴリーＣには、それぞれの最高から最低の単語頻度を有する３つの語、すなわち、ｔ₁、ｔ₂およびｔ₃が存在する。これらの３つの語の各々の対応する単語頻度は、それぞれｐ₁、ｐ₂およびｐ₃である。ｔ₁、ｔ₂およびｔ₃の対応するＴＯＰ値は、それぞれ０、ｐ₁、ｐ₁＋ｐ₂である。ＴＯＰ値は、製品タイトル中の語とカテゴリーとの合致度を反映する。ＴＯＰ値を使えば、カテゴリー誤配置を識別することの複雑さを単純化することができる。上記の例では、ｔ₁の単語頻度ｐ₁は最高であり、そのＴＯＰ値は０であるが、ｔ₃の単語頻度ｐ₃は最低であり、そのＴＯＰ値はｐ₁＋ｐ₂である。言い換えれば、特定のカテゴリーの下での製品タイトル中の語のＴＯＰ値が低いほど、カテゴリー内の製品タイトルの語の合致度は高くなる。一方、特定のカテゴリーの下での製品タイトル中の語のＴＯＰ値が高いほど、カテゴリー内の製品タイトルの語の合致度は低くなる。

各カテゴリーの下の各製品タイトル中の各語のＴＯＰ値を計算するとき、ストップ・ワードを最初にフィルタリングしてもよい。言い換えれば、ストップ・ワードのＴＯＰ値は計算されず、ＴＯＰ値は製品タイトル中の語とカテゴリーとの合致度をより正確に反映できるようになる。

２０４では、ＴＯＰ値と関連度値との予め決定されたマッピングに基づいて、各語のＴＯＰ値に対応する関連度値が得られる。製品タイトル中の全ての語のＴＯＰ値に対応する関連度値を加算し、製品タイトルの全体関連度値を得る。

表１は、ＴＯＰ値とそれらの関連度値の例示的なマッピングを示す。

表１の関連度値は、カテゴリーとある語のある特定のＴＯＰ値との関連度を示す。各語のＴＯＰ値を求めた後、各語の関連度を表１から読み出すことができる。

ＴＯＰ値の確率値は複数の桁を持つ小さな数字であるため、ＴＯＰ値を直接加算すると、計算量は膨大で、計算結果の差は小さくなり、対応するカテゴリーにおける製品タイトルの関連度の違いを適正に反映できない。したがって、本開示のこの例示的な実施形態では、ＴＯＰ値と関連度値の関係表を使って、ＴＯＰ値に対応する関連度値をＴＯＰ値の分布に基づいて定量化し、ＴＯＰ値の計算を簡易化する。これは計算の複雑性を低減するだけでなく、対応するカテゴリーにおける製品タイトルの相関度をより正確に反映するようになる。

表１のＴＯＰ値と関連度値とのマッピング関係は、データ処理の実際の要件に基づいて設定することができる。表１はサンプルとなるリストのみを示しており、ＴＯＰ値と関連度値とのマッピングは、表１の内容に限定されない。

製品タイトル中の全ての語のＴＯＰ値に対応する関連度の後、関連度値が加算され、製品タイトルと現在のカテゴリーとの間の全体的な関連度値が得られる。例えば、これは以下の式（３）を使って示すことができる：

以上の式（３）において、ＲＲ（Ｔ，Ｃ）は、製品タイトルＴとカテゴリーＣとの全体関連度値を表し、ＴＯＰ（ｔ_i，Ｃ）は製品カテゴリーＣの下の製品タイトルＴの中の語ｔ_iのＴＯＰ値を表し、Ｆ_TRは各語のＴＯＰ値を関連度値にマップするマッピング関数を表し、ｎは任意の整数を表す。

例えば、３つの語ｔ₁、ｔ₂およびｔ₃を含む製品タイトルＴの場合、カテゴリーＣの下でのこれら３つの語のＴＯＰ値は、それぞれ、ＴＯＰ（ｔ₁，Ｃ）、ＴＯＰ（ｔ₂，Ｃ）およびＴＯＰ（ｔ₃，Ｃ）である。表１に基づき、３つのＴＯＰ値の各々の対応する関連度値を見つけることができる。例えば、３つのＴＯＰ値に対して見つかった関連度は、それぞれ、１０、５および１である。これらの３つの関連度値が加算され、製品タイトルＴおよびカテゴリーＣの全体関連度値、すなわち１０＋５＋１＝１６が求められる。

２０６において、現在のカテゴリーの下での製品タイトルの全体関連度値が第２の閾値と比較され、比較結果に基づき、製品タイトルが間違ったカテゴリーに配置されているかどうかが判定される。

例えば、現在のカテゴリーの下での製品タイトルの全体関連度値が第２の閾値より低い場合、製品タイトルと現在のカテゴリーとの関連度は低いことを意味し、カテゴリー誤配置が存在していると見なされ得る。現在のカテゴリーの下での製品タイトルの全体関連度値が、第２の閾値を超えるかまたは等しい場合、これは、現在のカテゴリーの下での製品タイトルの全体関連度値が要件を満たし得ることを意味し、カテゴリー誤配置が存在しないと見なされ得る。

第２の閾値は、製品タイトルの全体関連度値の分布状態に基づいて設定され得る。分類の対象とする製品の製品タイトルの全体関連度値が低いほど、その製品を現在のカテゴリーの下に分類する可能性は低くなる。製品タイトルの全体関連度値が、定義された第２の閾値より低い場合、カテゴリー誤配置が存在すると見なされ得る。例えば、第２の閾値が２０に設定されていて、製品タイトルＴとカテゴリーＣとの全体関連度値が１６で、第２の閾値である２０より小さい場合、製品タイトルＴは誤ってカテゴリーＣの下に配置されていると見なされ得る。

第２の閾値はカテゴリーが異なれば、異なることもあり得る。言い換えれば、同じ１つの製品タイトルに対し、実践で得たデータに基づいて、異なる第２の閾値が異なるカテゴリーに予め定義され得、データベースはそのような第２の閾値を格納し得る。第２の閾値を格納しているデータベースは、単一のデータベースとしてカテゴリーを格納しているデータベースとマージされ得る。代わりに、この２つのデータベースは独立してもよく、各々が別々に対応するコンピュータ記憶装置に格納される。

加えて、異なる第２の閾値が、実際の要件に基づいて、同じ１つのカテゴリーに対して設定され得る。第２の閾値がより高いレベルで定義されている場合、カテゴリー誤配置を識別する確率は高くなる可能性があり、これは、撤回率の上昇に繋がる。言い換えれば、間違ったカテゴリーに配置されていると判定された製品を撤回して、正しいカテゴリーに配置することができる。このようにして、ユーザーに新しいカテゴリーを選択するか、または製品タイトル中の語を変更するように促し、それによって検索結果の正確さを高める。

計算量を削減するために、２０２において、現在のカテゴリーの下での製品タイトル中のストップ・ワードを除く各語のＴＯＰ値を求め得る。２０２において、製品タイトル中の各語のそれぞれのＴＯＰ値を求める動作は、製品タイトル中にストップ・ワードがあるかどうかを判定することを含み得る。次いで、ストップ・ワードが存在すると判定した場合の応答として、製品タイトルからのこのようなフィルター語がフィルタリングされる。次いで、ストップ・ワードがフィルタリングにより除去された後の現在のカテゴリーの下での各語のＴＯＰ値が求められる。

本開示の第２の例示的な実施形態で提供される技法では、ＴＯＰ値は製品タイトルとカテゴリーとの合致度を反映し、全体関連度値はＴＯＰ値に基づいて決定されるため、ＴＯＰ値に基づく製品タイトルとカテゴリーとの全体的な関連度値は、製品タイトルとカテゴリーとの合致度を反映することができる。現在のカテゴリーの下での製品タイトルの全体関連度値と第２の閾値との比較結果に基づき、カテゴリー誤配置が存在しているかどうかを判定され得る。第２の閾値の設定に基づき、カテゴリー誤配置を見逃す確率を低減することができる。加えて、ＴＯＰ値と全体関連度値を求めることに関係した第２の例示的な実施形態の技法は、現在の技法と比較して、必要とするシステム・リソースが少なく、システム資源を節約し、計算効率を向上する。

以下では、第３の例示的な実施形態を記述する。第２の例示的な実施形態の方法では、現在のカテゴリーの下での製品タイトルの全体関連度値が第２の閾値より低い場合、カテゴリー誤配置が存在していると見なされ得る。しかしながら、場合によっては、現在のカテゴリーの下での製品タイトルの全体関連度値が第２の閾値より低い場合でも、カテゴリー誤配置は存在しない。例えば、第２の閾値があまりにも高く設定されていると、全体関連度値が第２の閾値より低い製品タイトルのいくつかは、間違ったカテゴリーに配置されていると見なされることがあるが、実際には、これらの製品タイトルは誤配置されていない。

カテゴリー誤配置を識別する正確度をさらに高めるために、本開示の第３の例示的な実施形態では、製品タイトルと現在のカテゴリーとの全体関連度値が、第２の閾値より小さく、カテゴリー誤配置が存在すると見なされるとき、本方法は予測カテゴリーをさらに含む。

図３は、本開示の第３の例示的な実施形態におけるカテゴリー誤配置を識別するための例示的な方法のフローチャートを示す。

３０２において、製品タイトル中の各語ごとに、現在のカテゴリーの下でのその各々のＴＯＰ値が求められる。

３０４において、ＴＯＰ値と関連度値との予め決められたマッピングに基づき、各語のＴＯＰ値に対応する関連度値が求められる。製品タイトル中の全ての語のＴＯＰ値に対応する関連度値が加算され、製品タイトルの全体関連度値が求められる。

３０６において、現在のカテゴリーの下での製品タイトルの全体関連度値が第２の閾値と比較される。現在のカテゴリーの下での製品タイトルの全体関連度値が第２の閾値より低い場合、異常なカテゴリー誤配置が存在すると判定され、３０８での動作が実行される。現在のカテゴリーの下での製品タイトルの全体関連度値が第２の閾値より低い場合、異常なカテゴリー配置は存在しないと判定される。

３０８において、製品タイトルに対して１つまたは複数の推奨カテゴリーが求められる。

３１０において、製品タイトルと製品タイトルの推奨カテゴリーに基づいて、前記製品タイトルに合致するターゲット・カテゴリーが求められる。

３１２において、ターゲット・カテゴリーの下での製品タイトルの事後確率および現在のカテゴリーの下での製品タイトルの事後確率が求められる。ターゲット・カテゴリーの下での製品タイトルの事後確率が現在のカテゴリーの下での製品タイトルの事後確率と比較される。ターゲット・カテゴリーの下での製品タイトルの事後確率と現在のカテゴリーの下での製品タイトルの事後確率との差または率が、第３の閾値を超えている場合、カテゴリー誤配置が存在していると判定される；それ以外の場合は、カテゴリー誤配置は存在してないと判定される。

３０６において、製品配置に異常が存在すると判定されるとき、それは現在のカテゴリーが最も適切なカテゴリーではない可能性があることを意味する。したがって、他のカテゴリーが取得されて、製品タイトルがこれら他のカテゴリーにより適切に合致するかを判定する動作が実施される。

３０８において、製品タイトルに合致する推奨カテゴリーを求めるためのプロセスの間、製品タイトルと全てのカテゴリーとの合致度が比較されて、製品タイトルに合致する推奨カテゴリーが求められ得る。製品タイトルとカテゴリーとの合致度を比較するために、様々な技法が存在する。例えば、製品タイトル中の語に基づいてカテゴリーが検索され得、製品タイトル中の語とカテゴリーとの比較結果を使って、推奨カテゴリーが求められ得る。詳細は本明細書中には記述しない。しかしながら、製品タイトルと全てのカテゴリーとの合致度を比較する方法は、計算量が膨大であるため、効率が比較的低い。

もう１つの例では、推奨カテゴリー・データベースが提供される。推奨カテゴリー・データベースは、製品タイトル中の様々な語および各語に対応する推奨カテゴリーを格納する。推奨カテゴリーのデータベースは、独立したデータベースとすることも、あるいは、第２の例示的な実施形態で記述したような異なるカテゴリーを含むデータベースと組み合わせて、単一のデータベースを形成することもあり得る。データベース中の各カテゴリーは少なくとも１つの語、そのカテゴリーでの各語のＴＯＰ値、および各語の対応する推奨カテゴリーを含む。各語の推奨カテゴリーは、異なるカテゴリーでのその語の出現確率に基づいて決定され得る。例えば、その語の出現確率が高い、少なくとも１つのカテゴリーが、推奨カテゴリーとして使われ得る。３０８において、製品タイトル中の各語の推奨カテゴリーが、推奨カテゴリー・データベースを通じて求められ得る。

例えば、３１０において、製品タイトル中の各語に対応する、求めた推奨カテゴリーに基づいて、各々の推奨カテゴリーにおける各語の対応する単語頻度が、各々の推奨カテゴリーの重みとして使われる。各推奨カテゴリーの重みの合計の計算後、重みの合計が最も高い推奨カテゴリーがターゲット・カテゴリーとして使われ得る。

例えば、表２は、本開示のこの例示的な実施例の例示的な推奨カテゴリーのリストを示す。例えば、製品タイトルが「ＫｏｎｇｍｉｎｇＬａｎｔｅｒｎ（天灯）」の場合、「ＫｏｎｇｍｉｎｇＬａｎｔｅｒｎ」という１つの語が含まれている。この製品タイトルに対する２つの推奨カテゴリーは、「ＨｏｕｓｅｈｏｌｄＵｓｅ（家庭用）／Ｒｅｃｅｐｔｉｏｎｓ（レセプション）／Ｇｉｆｔｓ（ギフト） >> ＷｅｄｄｉｎｇＳｕｐｐｌｉｅｓＳｅｒｖｉｃｅＡｒｅａ（ウェディング用品サービスエリア）>> ＫｏｎｇｍｉｎｇＬａｎｔｅｒｎ／Ｗｉｓｈｉｎｇｌａｍｐ（天灯）」（カテゴリー番号：５００１４２４７）および「Ｔｏｙｓ（玩具）／Ｍｏｄｅｌｓ（模型）／Ｄｏｌｌｓ（人形）／Ｆｉｇｕｒｅｓ（フィギュア） >> ＣｈｉｎｅｓｅＴｒａｄｉｔｉｏｎａｌＴｏｙｓ（中国の伝統的玩具） >> ＫｏｎｇｍｉｎｇＬａｎｔｅｒｎ」（カテゴリー番号：５００１６０３１）である。「ＨｏｕｓｅｈｏｌｄＵｓｅ／Ｒｅｃｅｐｔｉｏｎｓ／Ｇｉｆｔｓ >> ＷｅｄｄｉｎｇＳｕｐｐｌｉｅｓＳｅｒｖｉｃｅＡｒｅａ >> ＫｏｎｇｍｉｎｇＬａｎｔｅｒｎ／Ｗｉｓｈｉｎｇｌａｍｐ」のカテゴリーの「ＫｏｎｇｍｉｎｇＬａｎｔｅｒｎ」の単語頻度は０．１４４２６３であり、したがって、この推奨カテゴリーの重みは０．１４４２６３である。「Ｔｏｙｓ／Ｍｏｄｅｌｓ／Ｄｏｌｌｓ／Ｆｉｇｕｒｅｓ >> ＣｈｉｎｅｓｅＴｒａｄｉｔｉｏｎａｌＴｏｙｓ >> ＫｏｎｇｍｉｎｇＬａｎｔｅｒｎ」のカテゴリーでの「ＫｏｎｇｍｉｎｇＬａｎｔｅｒｎ」の単語頻度は０．１３９７７６であり、したがってこの推奨カテゴリーの重みは０．１３９７７６である。製品タイトルには１つの語しか含まれていないため、２つの推奨カテゴリーである「ＨｏｕｓｅｈｏｌｄＵｓｅ／Ｒｅｃｅｐｔｉｏｎｓ／Ｇｉｆｔｓ >> ＷｅｄｄｉｎｇＳｕｐｐｌｉｅｓＳｅｒｖｉｃｅＡｒｅａ >> ＫｏｎｇｍｉｎｇＬａｎｔｅｒｎ／Ｗｉｓｈｉｎｇｌａｍｐ」および「Ｔｏｙｓ／Ｍｏｄｅｌｓ／Ｄｏｌｌｓ／Ｆｉｇｕｒｅｓ >> ＣｈｉｎｅｓｅＴｒａｄｉｔｉｏｎａｌＴｏｙｓ >> ＫｏｎｇｍｉｎｇＬａｎｔｅｒｎ」の重みの合計は、それぞれ、０．１４４２６３および０．１３９７７６である。最適なターゲット・カテゴリーとして「ＨｏｕｓｅｈｏｌｄＵｓｅ／Ｒｅｃｅｐｔｉｏｎｓ／Ｇｉｆｔｓ >> ＷｅｄｄｉｎｇＳｕｐｐｌｉｅｓＳｅｒｖｉｃｅＡｒｅａ >> ＫｏｎｇｍｉｎｇＬａｎｔｅｒｎ／Ｗｉｓｈｉｎｇｌａｍｐ」という推奨カテゴリーが選択され得る。あるいは、この２つの推奨カテゴリーの両方がターゲット・カテゴリーの選択肢として使われてもよい。

「ＫｏｎｇｍｉｎｇＬａｎｔｅｒｎ」は、製品タイトルが単一の語を含む例である。以下は、複数の語を含む製品タイトルの例である。

例えば、ある製品は「ＢｌｕｅＣｏｔｔｏｎＳｈｉｒｔ（青い綿のシャツ）」という製品タイトルを有する。製品タイトルのセグメント分割後、３つの語、すなわち「Ｂｌｕｅ（青）」、「Ｃｏｔｔｏｎ（綿）」および「Ｓｈｉｒｔ（シャツ）」が得られる。推奨カテゴリー・データベースから、この３つの語の各々の対応する推奨カテゴリーが取得され得る。各語は１つまたは複数の異なる推奨カテゴリーに対応することがあり得、重みは推奨カテゴリーが異なれば、異なり得る。重みの最大から最小への並び替え順に基づいて、重みが最も大きいカテゴリーが選択され得る。例えば、各語ごとに、最大の重みを持つ上位３つのカテゴリーが選択され得る。これらがカテゴリーで重複していないシナリオでは、この３つの語は合計９つのカテゴリーに対応する。これらの９つのカテゴリーでは、異なるカテゴリーでの３つの語の重みの合計の比較によって、重みが大きい方から１つまたは複数のカテゴリーが推奨カテゴリーとして選択され得る。

例えば、「ＢｌｕｅＣｏｔｔｏｎＳｈｉｒｔ」という製品タイトルに関して、上記のプロセスに基づいて、推奨カテゴリー・データベースから求められる上位３つの推奨カテゴリーは、「Ｃｈｉｌｄｒｅｎ’ｓＷｅａｒ（子供服）／Ｃｈｉｌｄｒｅｎ’ｓＳｈｏｅｓ（子供用の靴）／ＰｒｅｇｎａｎｔＷｏｍｅｎ’ｓＷｅａｒ（マタニティウェア） >> Ｓｈｉｒｔ（シャツ）」、「Ｍｅｎ’ｓＷｅａｒ（紳士服） >> Ｓｈｉｒｔ（シャツ）」および「Ｌａｄｉｅｓ’ Ｗｅａｒ（婦人服）>> Ｌａｄｉｅｓ’ Ｂｏｕｔｉｑｕｅ（女性用ブティック） >> Ｓｈｉｒｔ（シャツ）」である。表３は、「ＢｌｕｅＣｏｔｔｏｎＳｈｉｒｔ」に対する推奨カテゴリーの例を示す。

表３では、３つの推奨カテゴリーにおける「Ｂｌｕｅ」の単語頻度は、それぞれ、０．００３５１３０４、０．００２７１３５２および０．００１８６７５３である。言い換えれば、「Ｂｌｕｅ」に対する３つの推奨カテゴリーの重みは、それぞれ、０．００３５１３０４、０．００２７１３５２および０．００１８６７５３である。同様に、「Ｃｏｔｔｏｎ」に対する３つの推奨カテゴリーの重みは、それぞれ、０．０１４９０９５、０．０１４８５７９および０．００６９３２２２であり、「Ｓｈｉｒｔ」の３つの推奨カテゴリーの重みは、それぞれ、０．０９７６８４、０．１２９３８８および０．０９０５４４２である。

「Ｃｈｉｌｄｒｅｎ’ｓＷｅａｒ／Ｃｈｉｌｄｒｅｎ’ｓＳｈｏｅｓ／ＰｒｅｇｎａｎｔＷｏｍｅｎ’ｓＷｅａｒ >> Ｓｈｉｒｔ」という推奨カテゴリーの重みの合計は、０．００３５１３０４＋０．０１４９０９５＋０．０９７４６８４＝０．１１５８９０９４であり；「Ｍｅｎ’ｓＷｅａｒ >> Ｓｈｉｒｔ」という推奨カテゴリーの重みの合計は、０．００２７１３５２＋０．０１４８５７９＋０．１２９３８８＝０．１４６９５９４２であり；「Ｌａｄｉｅｓ’ Ｗｅａｒ >> Ｌａｄｉｅｓ’ Ｂｏｕｔｉｑｕｅ >> Ｓｈｉｒｔ」という推奨カテゴリーの重みの合計は、０．００１８６７５３＋０．００６９３２２２＋０．０９０５４４２＝０．０９９３４３９５である。この３つの中では、最も重みの合計が高いのは「Ｍｅｎ’ｓＷｅａｒ >> Ｓｈｉｒｔ」のカテゴリーであり、したがって、「Ｍｅｎ’ｓＷｅａｒ >> Ｓｈｉｒｔ」のカテゴリーを最適なターゲット・カテゴリーとして選択することができる。代わりに、この３つのカテゴリー全てをターゲット・カテゴリーの選択肢として使ってもよい。

上記の例に基づくと、３１０において、各推奨カテゴリーの重みの合計を計算することにより、ターゲット・カテゴリーが求められ得る。もう１つの例では、製品タイトル中での各語の出現確率が製品タイトル・ベクターとして形成され得る。ある特定のカテゴリーにおける各語の単語頻度は、カテゴリー・ベクターとして形成され得る。製品タイトル・ベクターとカテゴリー・ベクターの積を計算することにより、ターゲット・カテゴリーが決定され得る。

例えば、３１０において、製品タイトル・ベクターおよび予測されたカテゴリーのカテゴリー・ベクターが求められ得る。製品タイトル・ベクター中の要素は、製品タイトル中の各語の出現確率である。カテゴリー・ベクター中の要素は、予測されたカテゴリーの下での製品タイトルの各語の単語頻度である。各予測されたカテゴリーごとに、製品タイトル・ベクターとカテゴリー・ベクターの積が求められる。最大の積を持つ予測されたカテゴリーがターゲット・カテゴリーとして選択され得る。本開示のこの例示的な実施形態では、予測されたカテゴリーは、選択のための候補となるカテゴリーを指す。

以下はターゲット・カテゴリーを得るための方法を示す例である。

例えば、製品タイトル「ＭｉｃｋｅｙＭＰ３ＦｏｕｒｔｈＧｅｎｅｒａｔｉｏｎＢｌｉｎｋｉｎｇＭｉｃｋｅｙ（２Ｇ）ＭｕｌｔｉｐｌｅＣｏｌｏｒｓＣｈｏｉｃｅ（ミッキーＭＰ３第４世代瞬きするミッキー（２Ｇ）複数の色の選択肢）」という製品タイトルは、８語、すなわち、「Ｍｉｃｋｅｙ」、「ＭＰ３」、「ＦｏｕｒｔｈＧｅｎｅｒａｔｉｏｎ」、「Ｂｌｉｎｋｉｎｇ」、「Ｍｉｃｋｅｙ」、「２Ｇ」、「ＭｕｌｔｉｐｌｅＣｏｌｏｒｓ」および「Ｃｈｏｉｃｅ」にセグメント分割され得る。製品タイトルでの「Ｍｉｃｋｅｙ」の出現確率は０．２５であり、残りの語の各々の出現確率は０．１２５である。したがって、製品タイトルの製品タイトル・ベクターは、次のように表現され得る：

０．２５_Mickeyは、製品タイトル中に「Ｍｉｃｋｅｙ」が出現する確率を表す。言い換えれば、これは８語から成る製品タイトル中に２回出現する。製品タイトル・ベクター中の他の要素にも同じまたは類似の定義が当てはまる。

加えて、このカテゴリーの各語は、異なる単語頻度を有し得る。したがって、各カテゴリーはカテゴリー・ベクターとして表現され得る。上記の製品タイトルのカテゴリーＣに対するカテゴリー・ベクターは、以下のように表現され得る：

ＴＦ_Mickey,Cは、カテゴリーＣにおける「Ｍｉｃｋｅｙ」の単語頻度を表す。このカテゴリー・ベクターの他の要素にも同一または類似の定義が当てはまる。

カテゴリーＣに関して、製品タイトル・ベクターとカテゴリー・ベクターとの積は以下の通りである：

上記の方法に基づき、予測されたカテゴリーの各々に対し、製品タイトル・ベクターとカテゴリー・ベクターとの積を計算することができる。最も高い積の値を持つ、予測されたカテゴリーが、ターゲット・カテゴリーとして選択され得る。

この例では、任意のカテゴリーの下での任意の語は単語頻度が０より大きいものと仮定している。しかし、現実にはそうではない場合もあり得る。ある語ｔがカテゴリーＣに出現しない場合、カテゴリーＣにおけるその語ｔの確率Ｐ（ｔ｜Ｃ）は０である。ｔの語を含む製品タイトルＴの事後確率Ｐ（ｔ｜Ｃ）も０である。この種のシナリオをスムーズに処理するために、本開示の例示的な実施形態に基づくと、Ｐ（ｔ｜Ｃ）の計算が必要され、語ｔがカテゴリーＣに出現していない場合、語ｔはカテゴリーＣに１回出現すると見なされる。このシナリオでは、カテゴリーＣでの語ｔ_iの頻度は、以下の式を使って表現され得る：

上の式（４）では、ｔ_iはカテゴリーＣに出現する任意の語を表し、＃ｔ_iはｔ_iがカテゴリーＣに出現する回数を表し、ｎは任意の整数を表す。

カテゴリーの下にある語の数は非常に大きいため、出現していない語を１と数えることは、結果の正確度に影響しない。

例示的な実施形態の方法では、あるカテゴリーの下での語の単語頻度の計算において、その語がそのカテゴリーに出現していないとき、カテゴリー誤配置の識別の包括性を増加させるために、そのカテゴリーに１回出現すると見なすことができる。

３０６において、このカテゴリーにおける製品タイトルの事後確率は、以下に示すように、ベイズ式を用いて表現することができる：

上記の式で、Ｐ（Ｃ｜Ｔ）は、カテゴリーＣにおける製品タイトルＴの事後確率を表し、Ｐ（Ｃ）はカテゴリーＣの下での全ての製品の数を表し、Ｐ（Ｔ）は任意のカテゴリーＣに対して同一である定数を表す。

製品タイトル中の各語が独立した分布に従うと仮定すると、式（５）は次のように単純化することができる：

式（６）において、Ｐ（ｔ_i｜Ｃ）はカテゴリーＣにおける語ｔ_iの事後確率を表す。

カテゴリーの下での語の単語頻度およびそのカテゴリーにおける製品の数が分かっている場合、式（６）に基づいて、そのカテゴリーにおける製品タイトルの事後確率を計算することができる。

３１２において、式（６）に基づき、現在のカテゴリーの下での製品タイトルの事後確率およびターゲット・カテゴリーの下での製品タイトルの事後確率を計算することができる。例えば、Ｐ（Ｃ_old｜Ｔ）は現在のカテゴリーの下での製品タイトルの事後確率の計算を表し、Ｐ（Ｃ_new｜Ｔ）はターゲット・カテゴリーの下での製品タイトルの事後確率の計算を表す。Ｐ（Ｃ_old｜Ｔ）とＰ（Ｃ_new｜Ｔ）との差または率が第３の閾値より大きい場合、それはターゲット・カテゴリーの方が現在のカテゴリーよりも、該製品タイトルに対してより良く一致していて、カテゴリー誤配置が存在していることを意味する。Ｐ（Ｃ_old｜Ｔ）とＰ（Ｃ_new｜Ｔ）との差または率が第３の閾値以下である場合、それはターゲット・カテゴリーが現在のカテゴリーに比べて、製品タイトルに対してより良く合致しているわけではないことを意味し、カテゴリー誤配置は存在していない可能性がある。

第３の閾値の値は、データ処理の実際の要件に基づいて判定することができる。第３の閾値に対するデータベースは、対応する記憶装置に格納することができる。１つの例では、第３の閾値の値は、Ｐ（Ｃ_new｜Ｔ）がＰ（Ｃ_old｜Ｔ）より遥かに大きくなるのに十分なだけ大きくなり得る。したがって、ターゲット・カテゴリーが製品タイトルに合致することをより正確に保証し、カテゴリー誤配置の識別における正確度を増加し得る。

第３の例示的な実施形態の３０２および３０４での動作は、第２の例示的な実施形態でのそれぞれ２０２および２０４の動作と類似しており、本明細書では詳述しない。

本開示の第３の例示的な実施形態の技法では、製品タイトルと現在のカテゴリーとの全体関連度値が第２の閾値より低い場合、カテゴリー配置に異常があるものと判定され得る。ターゲット・カテゴリーを求めた後、現在のカテゴリーの下での製品タイトルの事後確率がターゲット・カテゴリーの下での製品タイトルの事後確率と比較され、現在のカテゴリーよりも適切なカテゴリーが存在するかどうかがさらに判定される。本技法はカテゴリー誤配置の存在をより正確に識別するだけでなく、誤配置された製品タイトルを持つ製品に対してより適切なターゲット・カテゴリーを提供する。

第３の例示的な実施形態において、現在のカテゴリーの下での製品タイトルの事後確率がターゲット・カテゴリーの下での製品タイトルの事後確率と比較され、カテゴリー誤配置が存在するかどうかが判定される。代わりに、現在のカテゴリーの下での製品タイトルの全体関連度がターゲット・カテゴリーの下での製品タイトルの全体関連度と比較され、カテゴリー誤配置が存在するかどうかが判断される。図４は、本開示の第４の例示的な実施形態でのカテゴリー誤配置を識別するための例示的な方法のフローチャートを示す。

４０２において、製品タイトル中の各語ごとに、現在のカテゴリーの下でのそのそれぞれのＴＯＰ値が求められる。

４０４において、ＴＯＰ値と関連度値との予め決められたマッピングに基づき、各語のＴＯＰ値に対応する関連度値が求められる。製品タイトル中の全ての語のＴＯＰ値に対応する関連度値を加算し、製品タイトルの全体関連度値を求める。

４０６において、現在のカテゴリーの下での製品タイトルの全体関連度値が第２の閾値と比較される。現在のカテゴリーの下での製品タイトルの全体関連度値が第２の閾値より低かった場合、異常なカテゴリー誤配置が存在すると判定され、４０４の動作が実行される。現在のカテゴリーの下での製品タイトルの全体関連度値が第２の閾値より低かった場合、異常なカテゴリー誤配置は存在しないと判定される。

４０８において、製品タイトルに対する推奨カテゴリーが求められる。

４１０において、製品タイトルと製品タイトルの推奨カテゴリーに基づいて、前記製品タイトルに合致するターゲット・カテゴリーが求められる。

４０２から４１０までの動作は、第３の例示的な実施形態の３０２から３１０と類似しているので、ここでは詳述しない。以下の考察では、第４の例示的な実施形態と第３の例示的な実施形態との違いについて記述する。

４１２において、ターゲット・カテゴリーの下での製品タイトルの全体関連度値が求められる。ターゲット・カテゴリーの下での製品タイトルの全体関連度値が現在のカテゴリーの下での製品タイトルの全体関連度値と比較される。ターゲット・カテゴリーの下での製品タイトルの全体関連度値と現在のカテゴリーの下での製品タイトルの全体関連度値の差または率が第４の閾値より大きい場合、カテゴリー誤配置が存在していると判定される。そうでない場合、カテゴリー誤配置は存在していないと判定される。動作はまた、ここで終了する。

４１２において、ターゲット・カテゴリーの下での製品タイトルの全体関連度値と現在のカテゴリーの下での製品タイトルの全体関連度値との比較を通して、ターゲット・カテゴリーの方が製品タイトルに対してより良く合致しているかどうかを判定することができる。第４の閾値は、データ処理の実際の要件に基づいて定義され得、第４の閾値に対するデータベースは対応する記憶装置に格納され得る。１つの例では、第４の閾値の値は、ターゲット・カテゴリーの下での製品タイトルの全体関連度値が現在のカテゴリーの下での製品タイトルの全体関連度値よりもずっと大きくなるのに十分なだけ大きい。したがって、ターゲット・カテゴリーは製品タイトルに合致することがより正確に保証され、カテゴリー誤配置の識別における正確度が増加し得る。

ターゲット・カテゴリーの下での製品タイトルの全体関連度値および現在のカテゴリーの下での製品タイトルの全体関連度値は、第２の例示的な実施形態で記述したような、カテゴリーの下での製品タイトルの全体関連度値を求めるための方法に基づいて求め、計算することができ、ここでは詳述しない。

本開示の第４の例示的な実施形態で論じた技法では、現在のカテゴリーの下での製品タイトルの関連度値が第２の閾値より低い場合、製品配置に異常が存在すると判定される。ターゲット・カテゴリーを求めた後、ターゲット・カテゴリーの下での製品タイトルの全体関連度値が現在のカテゴリーの下での製品タイトルの全体関連度値と比較され、現在のカテゴリーより適切なカテゴリーが存在するかどうかが判定されて、最終的にカテゴリー誤配置が存在するかどうかが判定される。これらの２つの判定を通じて、カテゴリー誤配置が存在するかどうかがより正確に判定され、カテゴリー誤配置を見逃す確率が減少する。第４の例示的な実施形態の技法は、主に、ＴＯＰ値および全体関連度値の獲得、ならびにターゲット・カテゴリーの下での製品タイトルの全体関連度値と現在のカテゴリーの下での製品タイトルの全体関連度値との比較を伴う。現行の技術と比較して、これらの技法は必要とするシステム・リソースが少ないので、システム・リソースの節減になり、動作効率を向上する。

本開示におけるカテゴリー誤配置を識別するための方法は、コンピュータおよび他のハードウェア内の１つまたは複数のプロセッサにより実行されるコンピュータ読取り可能命令を使って実現され得る。

本開示の例示的な実施形態に基づき、Ｃ＋＋プログラミング言語が、分散クラスター環境において、カテゴリー誤配置識別方法を実現するために使用され得る。分散クラスター環境は、ハードウェア・アーキテクチャの点で、例えば、ワークステーションのクラスター（ＣＯＷ）、大規模並列処理用プロセッサ（ＭＰＰ）、対称マルチプロセッサ（ＳＭＰ）、分散型異種コンピューティング・クラスタ（ＧＲＩＤ等）を含むことができ、これらについてはここでは記述しない。

以下では、上述した方法を実現するためのカテゴリー誤配置を識別するための複数のデバイスを記述する。

図５は、本開示の第５の例示的な実施形態に従って、カテゴリー誤配置を識別するための例示的なデバイス５００の図表を示す。

１つの例では、デバイス５００は、以下に限定されないが、１または複数のプロセッサ５０２、およびメモリ５０４を含むことができる。メモリ５０４は、ランダム・アクセス・メモリ（ＲＡＭ）等の揮発性メモリおよび／または読取り専用メモリ（ＲＯＭ）もしくはフラッシュＲＡＭ等の不揮発性メモリの形式でコンピュータ読取り可能媒体を含むことができる。メモリ６０４はコンピュータ読取り可能媒体の一例である。

コンピュータ読取り可能媒体は、コンピュータ実行可能命令、データ構造、プログラム・モジュールまたはその他のデータ等、情報の記憶のための任意の方法または技術で実現される揮発性および不揮発性、取外し可能および取外し不可能な媒体を含む。コンピュータ記憶媒体の例としては、限定されないが、相変化メモリ（ＰＲＡＭ）、スタティックランダム・アクセス・メモリ（ＳＲＡＭ）、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）、他の種類のランダム・アクセス・メモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、プログラム可能型読取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュ・メモリもしくはその他のメモリ技術、コンパクト・ディスク読取り専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）もしくはその他の光学式記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくはその他の磁気記憶装置、またはコンピューティング装置によるアクセスのために情報を格納する目的に利用することのできる、任意のその他の非伝送媒体が挙げられる。本明細書に定義されるように、コンピュータ読取り可能媒体は、変調されたデータ信号および搬送波等の一時的な媒体は含まない。

メモリ５０４は、その中に、プログラム・ユニットまたはモジュールおよびプログラム・データを格納し得る。１つの実施形態において、該モジュールは、単語頻度獲得モジュール５０６、全体単語頻度計算モジュール５０８、およびカテゴリー誤配置判定モジュール５１０を含み得る。したがって、これらのモジュールは、該１つまたは複数のプロセッサ５０２によって実行することができるコンピュータ読取り可能命令で実現され得る。その他の実現形態では、該モジュールは、ファームウェア、ハードウェア、ソフトウェアまたはこれらの組合せで実現し得る。

１つの例では、全体単語頻度計算モジュール５０８および単語頻度獲得モジュール５０６が対応付けられ、カテゴリー誤配置判定モジュール５１０および全体単語頻度計算モジュール５０８が関連付けられる。カテゴリー誤配置を識別するためのデバイス５００は第１の例示的な実施形態で記述したような方法を使用することができる。

単語頻度獲得モジュール５０６は、現在のカテゴリーの下での製品タイトルにおける各語の単語頻度を求める。

全体単語頻度計算モジュール５０８は、現在のカテゴリーの下での各語の単語頻度に基づいて、製品タイトルの全体の単語頻度を計算する。

カテゴリー誤配置判定モジュール５１０は、全体単語頻度計算モジュール５０８によって計算された製品タイトルの全体の単語頻度を現在のカテゴリーの第１の閾値と比較し、比較結果に基づいて、カテゴリー誤配置が存在するかどうかを判定する。

図６は、本開示の第６の例示的な実施形態に従って、カテゴリー誤配置を識別するための例示的なデバイス６００の図表を示す。例えば、カテゴリー誤配置を識別するためのデバイス６００は、第１の例示的な実施形態で記述したような方法を実現することもできる。

１つの実施形態では、デバイス５００は以下に限定されないが、１または複数のプロセッサ５０２、およびメモリ５０４を含むことができる。メモリ５０４はその中にプログラム・ユニットまたはモジュールおよびプログラム・データを格納することができる。したがって、これらのモジュールは、その中に、プログラム・ユニットまたはモジュールおよびプログラム・データを格納し得る。したがって、該モジュールは、１または複数のプロセッサ５０２によって実行することができるコンピュータ読取り可能命令で実現され得る。他の実現形態では、該モジュールは、ファームウェア、ハードウェア、ソフトウェアまたはこれらの組合せで実現し得る。

１つの実施形態において、モジュールは単語頻度獲得モジュール６０２、全体単語頻度計算モジュール６０４、およびカテゴリー誤配置判定モジュール６０６を含み得る。これらのモジュールは、それぞれが同じ名称で図５に記述されているモジュールと同じまたは類似し得、ここでは詳述しない。

デバイス６００内のモジュールは、単語頻度獲得モジュール６０２と関連付けられるストップ・ワード・フィルタリング・モジュール６０８をさらに含み得る。ストップ・ワード・フィルタリング・モジュール６０８は、単語頻度獲得モジュール６０２が現在のカテゴリーの下での製品タイトルにおける各語の単語頻度を求める前に、製品タイトル中の語のストップ・ワードをフィルタリングする。

図７は、本開示の第７の例示的な実施形態に従って、カテゴリー誤配置を識別するための例示的なデバイス７００の図表である。例えば、カテゴリー誤配置を識別するためのデバイス７００は、第２の例示的な実施形態で記述されている方法を実現し得る。

１つの実施形態において、デバイス７００は、限定されないが、１または複数のプロセッサ５０２、およびメモリ５０４を含み得る。メモリ５０４は、その中にプログラム・ユニットまたはモジュールおよびプログラム・データを格納し得る。したがって、該モジュールは該１または複数基のプロセッサ５０２によって実行することができるコンピュータ実行可能命令で実装され得る。他の実現形態では、該モジュールはファームウェア、ハードウェア、ソフトウェアまたはこれらの組合せで実現され得る。

１つの実施形態において、該モジュールは、ＴＯＰ値獲得モジュール７０２、全体関連度値獲得モジュール７０４、およびカテゴリー誤配置判定モジュール７０６を含み得る。全体関連度値獲得モジュール７０４は、ＴＯＰ値獲得モジュール７０２に対応付けられ、カテゴリー誤配置判定モジュール７０６は、全体関連度値獲得モジュール７０４に関連付けられる。

ＴＯＰ値獲得モジュール７０２は、現在のカテゴリーの下での製品タイトルの各語に対する各々のＴＯＰ値を求める。現在のカテゴリーの下の語のＴＯＰ値は、単語頻度がその語の単語頻度よりも高い全ての語の単語頻度の合計である。

全体関連度値獲得モジュール７０４は、ＴＯＰ値と関連度値との予め決められたマッピングに基づき、各語のＴＯＰ値に対応する関連度値を求め、製品タイトル中の全ての語のＴＯＰ値に対応する関連度値を加算し、製品タイトルの全体関連度値を求める。

カテゴリー誤配置判定モジュール７０６は、現在のカテゴリーの下での製品タイトルの全体関連度値を、第２の閾値と比較し、比較結果に基づいて、製品タイトルが間違ったカテゴリーに配置されているかどうかを判定する。現在のカテゴリーの下での製品タイトルの全体関連度値が第２の閾値より低い場合、カテゴリー誤配置判定モジュール７０６は、カテゴリー誤配置が存在すると判定する。現在のカテゴリーの下での製品タイトルの全体関連度値が、第２の閾値以上である場合、カテゴリー誤配置判定モジュール７０６は、カテゴリー誤配置が存在しないと判定する。

図８は、本開示の第８の例示的な実施形態に従って、カテゴリー誤配置を識別するための例示的なデバイス８００の図表を示す。例えば、カテゴリー誤配置を識別するためのデバイス８００は、第３の例示的な実施形態で記述したような方法を実現し得る。

１つの実施形態において、デバイス８００は、限定されないが、１または複数のプロセッサ５０２、およびメモリ５０４を含むことができる。メモリ５０４は、その中にプログラム・ユニットまたはモジュールおよびプログラム・データを格納し得る。したがって、該モジュールは、該１または複数のプロセッサ５０２によって実行することができるコンピュータ読取り可能命令で実現され得る。他の実現形態では、該モジュールは、ファームウェア、ハードウェア、ソフトウェアまたはこれらの組合せで実現され得る。

１つの実施形態において、該モジュールは、ＴＯＰ値獲得モジュール７０２および全体関連度値獲得モジュール７０４を含むことができ、これらは第７の実施形態で記述したものと同一または類似しており、ここでは詳述しない。第７の例示的な実施形態とは異なり、これらのモジュールは、製品配置における異常判定ジュール８０２、ターゲット・カテゴリー獲得モジュール８０４、事後確率獲得モジュール８０６、およびカテゴリー誤配置の判定モジュール８０８を含むカテゴリー誤配置判定モジュール７０６をさらに含むことができる。１つの実施形態において、ターゲット・カテゴリー獲得モジュール８０４は、製品配置異常モジュール８０２と関連付けることができ、事後確率獲得モジュール８０６は、ターゲット・カテゴリー獲得モジュール８０４に関連付けることができ、カテゴリー誤配置の判定モジュール８０８は、事後確率獲得モジュール８０６に関連付けることができる。

製品配置異常判定モジュール８０２は、現在のカテゴリーの下での製品タイトルの全体関連度値を第２の閾値と比較する。現在のカテゴリーの下での製品タイトルの全体関連度値が、第２の閾値より低い場合、製品配置異常モジュール８０２は、製品配置に異常が存在すると判定する。

ターゲット・カテゴリー獲得モジュール８０４は、該製品配置異常モジュール８０２が製品配置に異常が存在すると判定した後、製品タイトルに対して１つまたは複数の推奨カテゴリーを得る。製品タイトルおよび製品タイトルに対する該１つまたは複数の推奨カテゴリーに基づいて、ターゲット・カテゴリー獲得モジュール８０４は、製品タイトルに合致するターゲット・カテゴリーを求める。

事後確率獲得モジュール８０６は、ターゲット・カテゴリーの下での製品タイトルの事後確率および現在のカテゴリーの下での製品タイトルの事後確率を求める。

カテゴリー誤配置判定モジュール８０８は、ターゲット・カテゴリーの下での製品タイトルの事後確率と現在のカテゴリーの下での製品タイトルの事後確率とを比較する。ターゲット・カテゴリーの下での製品タイトルの事後確率と現在のカテゴリーの下での製品タイトルの事後確率の差または率が第３の閾値より大きい場合、カテゴリー誤配置判定モジュール８０８は、カテゴリー誤配置が存在すると判定する。

図９は、本開示の第９の例示的な実施形態に従って、カテゴリー誤配置を識別するための例示的なデバイス９００の図表を示す。例えば、カテゴリー誤配置を識別するためのデバイス９００は、第４の例示的な実施形態で記述されたような方法を実現し得る。

１つの実施形態において、該デバイス９００は、限定されないが、１または複数基のプロセッサ５０２、およびメモリ５０４を含むことができる。メモリ５０４は、その中に、プログラム・ユニットまたはモジュールおよびプログラム・データを格納することができる。したがって、モジュールは、該１または複数基のプロセッサ５０２によって実行することができるコンピュータ読取り可能命令で実現され得る。他の実現形態では、該モジュールはファームウェア、ハードウェア、ソフトウェアまたはこれらの組合せで実現することができる。

１つの実施形態において、該モジュールは、ＴＯＰ値獲得モジュール７０２および全体関連度値獲得モジュール７０４を含むことができ、これらは第７の実施形態で記述したものと同一または類似しており、ここでは詳述しない。第７の例示的な実施形態とは異なり、該モジュールは、製品配置における異常判定モジュール９０２、ターゲット・カテゴリー獲得モジュール９０４、全体関連度値比較モジュール９０６、およびカテゴリー誤配置の判定モジュール９０８を含むカテゴリー誤配置判定モジュール７０６をさらに含み得る。

１つの実施形態において、ターゲット・カテゴリー獲得モジュール９０４は、製品配置異常モジュール９０２に関連付けることができ、全体関連度値比較モジュール９０６は、ターゲット・カテゴリー獲得モジュール９０４に関連付けることでき、カテゴリー誤配置判定モジュール９０８は全体関連度値比較モジュール９０６に関連付けることができる。

製品配置異常モジュール９０２は、現在のカテゴリーの下での製品タイトルの全体関連度値を第２の閾値と比較する。現在のカテゴリーの下での製品タイトルの全体関連度値が第２の閾値より低い場合、製品配置異常モジュール９０２は、製品配置に異常が存在するものと判定する。

ターゲット・カテゴリー獲得モジュール９０４は、製品配置異常モジュール９０２が、製品配置に異常が存在すると判定した後、製品タイトルに対して１つまたは複数の推奨カテゴリーを得る。製品タイトルおよび製品タイトルに対する１つまたは複数の推奨カテゴリーに基づき、ターゲット・カテゴリー獲得モジュール９０４は、製品タイトルに合致するターゲット・カテゴリーを求める。

全体関連度値比較モジュール９０６は、該ターゲット・カテゴリー獲得モジュール９０４により得られた、ターゲット・カテゴリーの下での製品タイトルの全体関連度値を現在のカテゴリーの下での製品タイトルの全体関連度値と比較する。

カテゴリー誤配置モジュール９０８の判定は、ターゲット・カテゴリーの下での製品タイトルの全体関連度値と現在のカテゴリーの下での製品タイトルの全体関連度値との差または率が第４の閾値を超える場合、カテゴリー誤配置が存在すると判定する。

図１０に示すように、７番目の例示的な実施形態から９番目の例示的な実施形態では、ＴＯＰ値獲得モジュール７０２は、ＴＯＰ値の獲得モジュール１００２、ストップ・ワード検索モジュール１００４、およびストップ・ワード・フィルタリング・モジュール１００６を含み得る。１つの実施形態において、ストップ・ワード・フィルタリング・モジュール１００６は、該ＴＯＰ値の獲得モジュール１００２および該ストップ・ワード検索モジュール１００４に関連付けられる。

該ストップ・ワード検索モジュール１００４は、カテゴリーにおける語の分布エントロピーに基づいて、製品タイトルが１つまたは複数のストップ・ワードを含んでいるかを判定する。該ストップ・ワード・フィルタリング・モジュール１００６は、該ストップ・ワード検索モジュール１００４が１つまたは複数のストップ・ワードが存在していると判定した後、１つまたは複数のストップ・ワードをフィルタリングする。ストップ・ワードがフィルタリングにより除去された後、該ＴＯＰ値獲得モジュール１００２は、現在のカテゴリーの下での各語のＴＯＰ値を求める。

本開示のデバイスは、製品タイトルの全体の単語頻度と第１の閾値との比較結果に基づいて、カテゴリー誤配置が存在するかどうかを判定することができる。加えて、ＴＯＰ値は、製品タイトルとカテゴリーとの合致度を反映することができる。したがって、ＴＯＰ値により決定される製品タイトルとカテゴリーとの全体的な関連度値も、製品タイトルとカテゴリーとの合致度を反映することができる。カテゴリーの下での製品タイトルの全体的な関連度値と第２の閾値との比較結果も、カテゴリー誤配置が存在するかどうかを判定するのに使用することができる。第２の閾値の設定は、カテゴリー誤配置を見逃す確率を低減することができる。例えば、第２の閾値が低い値に設定されている場合、カテゴリー誤配置の大多数が識別され得る。加えて、本開示で公開される技法は、ＴＯＰ値および全体関連度値の獲得に関する。現行の技法と比較して、かかる値を獲得するための本開示で公開されたデバイスは、必要とするシステム・リソースが少なく、計算効率を向上する。

第１の閾値は異なる例示的実施形態において同一であっても異なってもよく、第１の閾値は、異なるカテゴリーの下で同一であっても異なってもよいことが理解される。そのような原理は、第２の閾値、第３の閾値、および第４の閾値にも当てはまる。

上述の例示的な実施形態から、当業者は、開示された方法およびシステムは、ソフトウェアおよび汎用ハードウェア・プラットフォームを用いて実現し得ることを明確に理解することができる。この理解に基づき、本開示の技術的スキーム、または既存の技術に寄与する部分は、ＲＯＭ／ＲＡＭ、ハードドライブおよび光ディスク等の記憶媒体に格納されたソフトウェア製品の形式で実現され得る。該ソフトウェアには、本開示の例示的な実施形態に記述された方法を実行するためのコンピューティング・デバイス（例えば、パーソナル・コンピュータ、サーバーまたはネットワーク・デバイス）のためのコンピュータ実行可能命令が含まれる。

様々な例示的な実施形態を本開示では、漸進的に記述している。例示的な実施形態の同一または類似部分は、相互に参照可能である。各例示的な実施形態は、他の例示的な実施形態とは異なる焦点を有する。特に、例示的なデバイスの実施形態は、例示的な方法と基本的に一致しているため、比較的単純な形で記述している。その詳細は、例示的な方法の関連部分を参照することにより見出すことができる。上記の例示的なデバイスの記述は、解説の目的のみを意図している。その中で別個の構成要素として記述されたユニットまたはモジュールは物理的に分かれている場合もそうでない場合もあり得る。実施形態の中で記述された複数のモジュールは１つのモジュールに統合されることも、または複数のサブモジュールにさらに分割されることもあり得る、ユニットまたはモジュールの観点から示された構成要素は物理的なユニットである場合もない場合もあり得、例えば、１つの場所に位置していることも、あるいは複数のネットワーク・ユニットに分散されていることもあり得る。現実のニーズに応じて、例示的な実施形態の目標は、モジュールの部分または全部を選択することにより達成され得る。当業者は、何ら革新的な努力をすることなく、開示されたシステムを理解および実現することができる。

開示された方法およびシステムは、ソフトウェアを備えた汎用コンピュータ・システムまたは専門化コンピュータ・システムの環境または構成で使用され得る。例としては、パーソナル・コンピュータ、サーバー・コンピュータ、ハンドヘルド・デバイスまたは携帯デバイス、タブレット・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セットアップ・ボックス、プログラマブル・カスタマ電子装置、ネットワークＰＣ、小規模コンピュータ、大規模コンピュータ、および上記の任意のシステムまたはデバイスを含む分散コンピューティング環境が挙げられる。

本開示は、プログラム・モジュール等、コンピュータによって実行されるコンピュータ実行可能命令の一般的なコンテキストの中で記述され得る。一般に、プログラム・モジュールは特定のタスクの実行または特定の抽象データ型の実現のためのルーチン、プログラム、オブジェクト、モジュール、データ構造、コンピュータ実行可能命令等を含む。開示された方法およびデバイスは、分散コンピューティング環境で実現することもできる。分散コンピューティング環境では、タスクは通信ネットワークを通じて接続されるリモート処理デバイスにより実行される。分散コンピューティング環境では、プログラム・モジュールはローカルおよび／またはリモート・コンピュータの記憶媒体（記憶装置も含む）に位置することができる。

上は本開示の例示的な実施形態である。しかしながら、本開示はこれらに限定されない。本明細書中で用いられる用語は解説を目的としたものであり、本開示を限定するためのものではない。本開示は本発明の精神および本質から逸脱することなく、数多くの形式を使って具体的に実現することが可能であるため、上記の例示的な実施形態は上で論じた詳細に制限されることはなく、特許請求の範囲で定義される本質および範囲の下で広義に解釈されるべきである。当業者は本開示の精神および範囲から逸脱することなく、本開示を多くの異なる方法で変更または改変できることを理解されるであろう。したがって、これらの改変および変化型は本開示の特許請求の範囲内であり、それらと同等であるものと見なされるべきである。

Claims

コンピュータ実行可能命令で構成された１つまたは複数のプロセッサによって実行される方法であって、
第１のカテゴリーの下での製品タイトル中の１つまたは複数の単語の単語頻度、および第２のカテゴリーの下での前記製品タイトル中の前記１つまたは複数の単語の他の単語頻度を求めることと、
前記第１のカテゴリーの下での前記製品タイトル中の前記１つまたは複数の単語の前記単語頻度に基づいて、前記第１のカテゴリーの下での前記製品タイトルの第１の全体単語頻度、および前記第２のカテゴリーの下での前記製品タイトル中の前記１つまたは複数の単語の前記単語頻度に基づいて、前記第２のカテゴリーの下での前記製品タイトルの第２の全体単語頻度を計算することと、
前記第１のカテゴリーに関する第１の閾値、および前記第２のカテゴリーに関する第２の閾値を設定することと、
記憶装置に前記第１の閾値および前記第２の閾値を記憶することと、
前記製品タイトルのカテゴリーを決定するために、前記製品タイトルの前記第１の全体単語頻度と前記第１の閾値、および前記製品タイトルの前記第２の全体単語頻度と前記第２の閾値を比較すること
を含むことを特徴とする方法。
前記製品タイトルの前記第１の全体単語頻度が前記第１の閾値よりも高い場合に、前記製品タイトルの前記カテゴリーは前記第１のカテゴリーであると判定することをさらに含むことを特徴とする請求項１に記載の方法。
前記製品タイトルから１つまたは複数のストップ・ワードを判定することと、
前記第１のカテゴリーの下での前記製品タイトル中の前記１つまたは複数の単語の前記単語頻度、および前記第２のカテゴリーの下での前記製品タイトル中の前記１つまたは複数の単語の他の単語頻度を求める前に、前記製品タイトルから前記１つまたは複数のストップ・ワードをフィルタリングすることであって、前記製品タイトル中の前記１つまたは複数の単語は前記１つまたは複数のストップ・ワードを含まない、ことと
をさらに含むことを特徴とする請求項１に記載の方法。
前記製品タイトルから前記１つまたは複数のストップ・ワードを判定することは、ストップ・ワードの表を予め設定することを含むことを特徴とする請求項３に記載の方法。
複数のカテゴリーの下での単語の分布エントロピーを判定することと、
前記単語の前記分布がストップ・ワードに関する閾値よりも高い場合に、前記単語はストップ・ワードであると判定することと、
ストップ・ワードの前記表に前記単語を追加することと
をさらに含むことを特徴とする請求項４に記載の方法。
前記複数のカテゴリーの下でのそれぞれの分布エントロピーに基づいて、複数の単語を並び替えることと、
前記並び替えの順序に基づいて、ストップ・ワードに関する前記閾値を決定することと
をさらに含むことを特徴とする請求項５に記載の方法。
前記第１の閾値は、前記第２の閾値と異なることを特徴とする請求項１に記載の方法。
前記第１のカテゴリーの下での前記製品タイトル中の前記１つまたは複数の単語の前記単語頻度、および前記第２のカテゴリーの下での前記製品タイトル中の前記１つまたは複数の単語の他の単語頻度を求めることとは、それぞれの単語が前記第１のカテゴリーに出現しない場合に、前記それぞれの単語は、前記第１のカテゴリーにおいて１回、出現していると数えることを含むことを特徴とする請求項１に記載の方法。
請求項１乃至８のいずれか一項に記載の方法をコンピュータに実行させることを特徴とするプログラム。
請求項１乃至８のいずれか一項に記載の方法をコンピュータに実行させるコンピュータ実行可能命令を記憶したことを特徴とするコンピュータ可読記憶媒体。
プロセッサと、請求項１乃至８のいずれか一項に記載の方法を前記プロセッサに実行させるコンピュータ実行可能命令を記憶したメモリと、を含むことを特徴とするコンピュータデバイス。