JP5714702B2 - 商品情報の乱雑さの解析 - Google Patents

商品情報の乱雑さの解析 Download PDF

Info

Publication number
JP5714702B2
JP5714702B2 JP2013512600A JP2013512600A JP5714702B2 JP 5714702 B2 JP5714702 B2 JP 5714702B2 JP 2013512600 A JP2013512600 A JP 2013512600A JP 2013512600 A JP2013512600 A JP 2013512600A JP 5714702 B2 JP5714702 B2 JP 5714702B2
Authority
JP
Japan
Prior art keywords
product information
product
information
words
randomness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013512600A
Other languages
English (en)
Other versions
JP2013543154A5 (ja
JP2013543154A (ja
Inventor
リン・フオン
チャン・ショウソーン
チャン・チン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2013543154A publication Critical patent/JP2013543154A/ja
Publication of JP2013543154A5 publication Critical patent/JP2013543154A5/ja
Application granted granted Critical
Publication of JP5714702B2 publication Critical patent/JP5714702B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0281Customer communication at a business location, e.g. providing product or service information, consulting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

[他の出願の相互参照]
本願は、すべての目的のために参照により本明細書に組み込まれる、2010年5月27日出願の発明の名称を「A METHOD AND DEVICE FOR PUBLISHING MERCHANDISE INFORMATION(商品情報を公開するための方法および装置)」とする中国特許出願第201010187445.7号に基づく優先権を主張する。当該出願は、
本願は、オンラインウェブサイト技術に関し、特に、商品情報を公開する技術に関する。
電子商取引の分野において、商品の説明情報(例えば、商品タイトル)は、その製品に関する重要情報を含む。例えば、図1の例に見られるように、表示された商品のタイトルは、「&New arrived&Fashion wind coat,ladies’ coat,fashion coat,women’s wind coat(Wholesale price+Do dropship)」である。この例において、商品タイトルは、女性用ウィンドコートとしてユーザに商品を正確に提示できる。しかしながら、この商品タイトルは、冗長な情報を含んでおり、単語の使い方が「乱雑」である。例えば、「Fashion wind coat」、「fashion coat」、「ladies’ coat」、および、「women’s wind coat」という単語は、少なくとも部分的に意味が重複している。これらの意味の重複および単語利用の冗長性は、ウェブサイトでの商品情報の簡潔さ、そして、正確さまで損ないうる。さらに、例えば、ユーザによるウェブサイトでの商品情報の検索に応答して、ユーザに対して冗長および/または乱雑な商品情報を表示すると、検索処理の効率が低下しうる。
以下の詳細な説明と添付の図面において、本発明の様々な実施形態を開示する。
ウェブページでの商品情報の表示の一例を示す図。
商品情報を解析するためのシステムの一実施形態を示す図。
商品情報解析サーバの一実施形態を示す図。
乱雑さ分類器の一実施形態を示す図。
商品情報を解析するための処理の一実施形態を示すフローチャート。
本発明は、処理、装置、システム、物質の組成、コンピュータ読み取り可能な格納媒体上に具現化されたコンピュータプログラム製品、および/または、プロセッサ(プロセッサに接続されたメモリに格納および/またはそのメモリによって提供される命令を実行するよう構成されたプロセッサ)を含め、様々な形態で実装されうる。本明細書では、これらの実装または本発明が取りうる任意の他の形態を、技術と呼ぶ。一般に、開示された処理の工程の順序は、本発明の範囲内で変更されてもよい。特に言及しない限り、タスクを実行するよう構成されるものとして記載されたプロセッサまたはメモリなどの構成要素は、ある時間にタスクを実行するよう一時的に構成された一般的な構成要素として、または、タスクを実行するよう製造された特定の構成要素として実装されてよい。本明細書では、「プロセッサ」という用語は、1または複数のデバイス、回路、および/または、コンピュータプログラム命令などのデータを処理するよう構成された処理コアを指すものとする。
以下では、本発明の原理を示す図面を参照しつつ、本発明の1または複数の実施形態の詳細な説明を行う。本発明は、かかる実施形態に関連して説明されているが、どの実施形態にも限定されない。本発明の範囲は、特許請求の範囲によってのみ限定されるものであり、多くの代替物、変形物、および、等価物を含む。以下の説明では、本発明の完全な理解を提供するために、多くの具体的な詳細事項が記載されている。これらの詳細事項は、例示を目的としたものであり、本発明は、これらの具体的な詳細事項の一部または全てがなくとも特許請求の範囲に従って実施可能である。簡単のために、本発明に関連する技術分野で周知の技術事項については、本発明が必要以上にわかりにくくならないように、詳細には説明していない。
商品情報の乱雑さの解析が開示されている。いくつかの実施形態において、ユーザによって入力された商品情報が受信される。いくつかの実施形態において、1または複数の特性属性に対応する値が商品情報から取得され、1または複数の特性属性に対応する値は、商品情報が乱雑であるか否かを判定するために用いられる。いくつかの実施形態において、商品情報に関連する乱雑さの信頼水準が、1または複数の特性属性に対応する取得された値の最大エントロピ原理に少なくとも部分的に基づいて決定される。いくつかの実施形態において、最大エントロピ原理は、入力された商品情報に関連する特性属性の値の関数に基づいて乱雑さの信頼水準を決定する式である。いくつかの実施形態において、乱雑さの信頼水準が、事前設定された閾値を超えるか否かが判定される。事前設定された閾値を超える場合、商品情報の公開を停止する旨の示唆が送信される。事前設定された閾値を超えない場合、商品情報の公開を停止する旨の示唆は送信されない。いくつかの実施形態において、信頼水準が、事前設定された閾値を超える場合、商品情報は乱雑であるとみなされ、それに応じてイベントがトリガされる(例えば、商品情報の公開を停止する旨の示唆の送信)。
いくつかの実施形態において、「乱雑さ」の概念は、同じ製品の「羅列」および異なる製品の「積み重ね」の概念によって説明することができる。本明細書で用いられているように、同じ製品の「羅列」とは、特定の製品の商品情報内に、互いに冗長であるかまたは実質的に同じ意味を表す単語が存在するという概念を指す。同じ製品の「羅列」の一例は、特定の製品の商品タイトル内で、多くの用語またはフレーズが互いに同義であるか、もしくは、特定のキーワードがタイトル内に数回出現することである(例えば、「coat(コート)」、「jacket(ジャケット)」、「outerwear(アウターウェア)」、「red(赤)」、および、2回目の「coat」を含む商品タイトル)。本明細書で用いられているように、異なる製品の「積み重ね」とは、商品情報内に、複数の異なる製品の商品名が含まれるという概念を指す。異なる製品の「積み重ね」の一例は、異なる製品を指す様々なキーワードを含む商品タイトルである(例えば、「mp3 player」、「mp4 player」、「ipod」、および、「walkman」というキーワードを含む商品タイトル)。本明細書で用いられているように、「乱雑さ」の程度とは、商品情報が「羅列」および/または「積み重ね」られている程度である。様々な実施形態において、乱雑である商品情報は、電子商取引ウェブサイトなどのウェブサイトで公開されることが望ましくない(例えば、閲覧者を誤解させる可能性がある不必要な情報を含みうるため)。
いくつかの実施形態において、商品タイトルに加えて、商品情報は、1または複数の他のコンテンツを含みうる。例えば、商品説明情報、商品紹介情報、商品レビュー、商品の製品仕様。商品情報は、上記のもののみに限定されない。
図2は、商品情報を解析するためのシステムの一実施形態を示す図である。システム200は、デバイス202、ネットワーク204、および、商品情報解析サーバ206を備える。ネットワーク204は、様々な高速データネットワークおよび/または遠隔通信ネットワークを含む。いくつかの実施形態において、デバイス202は、ネットワーク204を介して商品情報解析サーバ206と通信する。
デバイス202はラップトップとして図示されているが、デバイス202の例としては、デスクトップコンピュータ、スマートフォン、携帯デバイス、または、タブレットデバイスが挙げられる。デバイス202は、ウェブブラウザ(例えば、マイクロソフトインターネットエクスプローラまたはグーグルクローム)を実行することができる。例えば、ユーザは、ウェブブラウザを介して電子商取引ウェブサイト(例えば、www.alibaba.com)にアクセスするためにデバイス202を用いることができる。ウェブサイトは、ウェブサイト上で製品を宣伝したいユーザがウェブインターフェースを介して情報を送信できるように対話型インターフェースを備えうる。
商品情報解析サーバ206は、ユーザが送信した情報(例えば、商品情報)を受信し、情報が乱雑か否かを判定する。いくつかの実施形態において、商品情報解析サーバ206は、商品情報に関連する信頼水準を決定する。いくつかの実施形態において、信頼水準が、事前設定された閾値に達するかまたは超える場合、商品情報は乱雑であるとみなされる。しかし、信頼水準が、事前設定された閾値に達しないかまたは超えない場合、商品情報は乱雑でないとみなさる。いくつかの実施形態において、商品情報が乱雑であると見なされた場合、情報解析サーバ206は、(例えば、関連ウェブサイトでの)商品情報の公開を停止する、および/または、関連する示唆をユーザに対して表示する。いくつかの実施形態において、商品情報が乱雑であると判定された場合、ウェブサイト情報解析サーバ206は、商品情報の修正をユーザに促す。
図3は、商品情報解析サーバの一実施形態を示す図である。いくつかの実施形態において、図2の商品情報解析サーバ206は、少なくとも部分的に図3の例を用いて実装できる。図3に示すように、商品情報解析サーバ206は、通信要素10、解析要素11、第1の解析要素12、および、第2の解析要素13を備える。様々な実施形態において、商品情報解析サーバ206は、ウェブサイト(例えば、電子商取引ウェブサイトなど)をサポートするサーバと関連して(例えば、組み合わせて、構成要素として、または、通信するように)実装される。
上述の要素は、1または複数の汎用プロセッサ上で実行されるソフトウェアコンポーネントとして、特定の機能を実行するよう設計されたプログラム可能論理デバイスおよび/または特定用途向け集積回路などのハードウェアとして、もしくは、それらの組み合わせとして実装することができる。いくつかの実施形態において、要素は、コンピュータデバイス(パーソナルコンピュータ、サーバ、ネットワーク装置など)に本発明の実施形態に記載された方法を実行させるための複数の命令など、不揮発性記憶媒体(光学ディスク、フラッシュ記憶装置、携帯用ハードディスクなど)に格納することができるソフトウェア製品の形態で具現化されてよい。要素は、単一のデバイス上に実装されてもよいし、複数のデバイスにわたって分散されてもよい。要素の機能は、互いに統合されてもよいし、複数のサブ要素にさらに分割されてもよい。
通信要素10は、ユーザによって入力された商品情報を受信する。いくつかの実施形態において、通信要素10は、ユーザが情報を閲覧するおよび/または相互作用することを可能にする対話型インターフェース(例えば、電子商取引ウェブサイトのウェブページにあるもの)をサポートする。
解析要素11は、商品情報を解析し、商品情報の特性属性値を取得する。いくつかの実施形態において、特性属性は、商品情報に含まれる単語の乱雑さを決定するために用いられる。
計算要素12は、特性属性の値および最大エントロピ原理に基づいて、商品情報が乱雑な情報である信頼水準を計算する。乱雑さの信頼水準とは、どれだけの可能性で商品情報が乱雑な情報であるのかを意味する。
いくつかの実施形態では、図3の例に示すように、計算要素12は、さらに、第1の計算サブ要素120および第2の計算サブ要素121を備えうる。
第1の計算サブ要素120は、最大エントロピ原理に基づいた条件付き確率モデルのための入力情報として特性属性の値を取得するために用いられる。
第2の計算サブ要素121は、条件付き確率モデルを用いて、商品情報が乱雑な情報である事後確率を入力情報で計算し、事後確率を、商品情報が乱雑な情報である信頼水準とするよう構成される。いくつかの実施形態において、ランダムな事象の事後確率は、関連する証拠を考慮した後にランダムな事象に割り当てられる条件付き確率であると説明できる。
実行要素13は、信頼水準が、事前設定された閾値に達した、または、超えたと判定された時に、商品情報の公開を停止するよう構成される。
いくつかの実施形態において、任意選択的に、戦略要素14が商品情報解析サーバ206に備えられる。戦略要素14は、商品情報が乱雑であると判定された場合(例えば、関連する信頼水準が、事前設定された閾値に達したかまたは超えた場合)に、商品情報に含まれる単語の乱雑さを引き起こしていると思われる少なくとも1つのキーワードを決定する。いくつかの実施形態において、1つのかかるキーワードは、商品情報内に最も頻繁に現れる単語である。いくつかの実施形態において、戦略要素14は、特定したキーワードを通信要素10を介してユーザに送信し、最初に送信された商品情報を修正するようユーザに促す。いくつかの実施形態において、戦略要素14は、さらに、商品情報のための任意選択的な修正オプションを含む。
いくつかの実施形態において、商品情報解析サーバ206は、機械学習に基づいた乱雑さ特定方法を採用するよう構成される。商品情報解析サーバ206は、ユーザが公開に向けて(例えば、電子商取引ウェブサイトで製品の提供に関連するウェブページに)送信する商品情報をテストするために、乱雑さ特定方法を用いる。公開に向けてユーザが送信した商品情報が乱雑さを含むと見なされた場合(例えば、商品情報に含まれる単語の乱雑さの信頼水準が、事前設定された閾値に達するかまたは超えると判定された場合)、商品情報の公開は停止される。いくつかの実施形態において、商品情報の公開が停止された場合、このイベントの示唆がユーザに(例えば、通信要素10によってサポートされるディスプレイを介して)送信される。
いくつかの実施形態において、信頼水準は、最大エントロピ原理に基づいた条件付き確率モデルを用いて計算される。ユーザが送信した商品情報に含まれる1または複数の単語の信頼水準を計算するために用いられる式の一例は、以下の通りである。
Figure 0005714702
ここで、y∈{タイトルが乱雑である、タイトルが乱雑でない}は、yが2つの値「タイトルが乱雑である」および「タイトルが乱雑でない」を持ちうることを示す。どちらの値(「タイトルが乱雑である」または「タイトルが乱雑でない」)をyに割り当てるかについての決定は、事前設定されたパラメータに基づく。例えば、yの値が「タイトルが乱雑である」である場合、計算されたp(y|x)は、タイトルが乱雑な情報を含む事後確率(すなわち、信頼水準)であり、xは商品情報の特性属性である。いくつかの実施形態において、各特性属性に関連したyの値は、その特性属性の値に従う。fjは、最大エントロピモデルに基づく各特性属性の特性値である。λjは、現行の商品情報の特性属性jに対応する加重である。いくつかの実施形態において、λjは事前に設定されうる(例えば、経験的な値に基づいて)。z(x)は、正規化因子であり、事前に設定することもできる(例えば、経験的な値に基づいて)。
いくつかの実施形態において、商品情報解析によって用いられる機械学習モデルは、条件付き確率モデルを確立するための線形回帰モデルであってよい。いくつかの実施形態において、商品情報解析によって用いられる機械学習モデルは、サポートベクターマシンモデルであってもよく、そのモデルは条件付き確率モデルではないが、それによって計算された比は信頼水準として用いることができる。
いくつかの実施形態において、上述の式1などの式を用いることによって、商品情報乱雑さ分類器が構築される。商品情報乱雑さ分類器の入力は商品情報を含み、分類器の出力は分類結果を含む。いくつかの実施形態において、分類結果の出力は、信頼水準の値であり、信頼水準の値が、事前設定された閾値より大きい場合、入力された商品情報は乱雑であると見なされると判定されるが、信頼水準が、事前設定された閾値より小さい場合、入力された商品情報は乱雑でないと判定される。
図4は、乱雑さ分類器の一実施形態を示す図である。図4の例に示すように、商品情報402は、乱雑さ分類器404に入力され、乱雑さ分類器404は、以下の2つの可能な分類結果の一方を出力する。クラス1、信頼水準1、または、クラス2、信頼水準2。いくつかの実施形態において、図4の出力領域に示すように、「タイトルが乱雑である」という分類結果をクラス1と呼び、「タイトルが乱雑でない」という分類結果をクラス2と呼ぶことができる。
いくつかの実施形態において、機械学習ベースの乱雑さ特定方法が用いられる場合、商品情報から取得された特性属性は、形態的特性属性および/または構文的特性属性に分けられる。これら2つの種類の特性属性(形態的または構文的)については、解析された商品情報の商品タイトルの例において以下で説明する。以下の例では、商品情報(例えば、商品タイトル)は、最初に形態的特性属性について、2番目に構文的特性属性について解析されるが、いくつかの実施形態において、商品情報は、形態的特性属性の前に構文的特性属性について解析されてもよいし、同時に解析されてもよい。
最初に、形態的特性属性が商品タイトルから取得される。形態的特性属性に対応する値の例は、以下に挙げる値の内の1または複数を含みうるが、それらに限定されない。
1.商品タイトルに含まれるコンマの数
商品タイトルに含まれるコンマの数は、商品タイトルに含まれる単語が乱雑である(結果として、商品タイトルが乱雑である)可能性を、ある程度反映しうると考えられる。一般に、商品タイトル内のコンマの数が多いほど、商品タイトルに含まれる単語が乱雑である可能性が高くなる。
例えば、「#24 Baseball Jersey, Baseball Jerseys, Jerseys, Sports Jerseys, Sport Jersey, Jersey, 24# Baseball Jersey」という商品タイトルには、6つのコンマがある。
2.商品タイトルの文の長さ(例えば、単語数+コンマ数)
一般に、乱雑な商品タイトルは、より冗長な情報を含んでいるため、商品タイトルの文長が長いほど、商品タイトルの単語が乱雑である可能性が高くなる。
例えば、商品タイトル「100% Original Asus P6T7 WS SuperComputer Motherboard, ASUS Motherboard, Computer Motherboard, Computer Mainboard, Motherboard」の文長は、18である。
3.商品タイトル内の総単語数に対する、反復単語を除去した後に商品タイトルに含まれる単語数の比
一般に、語幹抽出を受けた商品タイトルについて、商品タイトル内の総単語数に対する、反復単語を除去した後の単語数の比が小さくなるほど、タイトルが乱雑である可能性が高くなる。「語幹抽出」の意味するところは、英単語からの接尾辞の除去および語幹の保持である。語幹抽出の一例は、複数形に関連するすべての接尾辞の除去である(例えば、「laptops」から「s」を除去)。しかしながら、商品タイトルが中国語である時、「語幹抽出」工程は省略される。
例えば、商品タイトル「100% Original Asus P6T7 WS SuperComputer Motherboard, ASUS Motherboard, Computer Motherboard, Computer Mainboard, Motherboard」が、接尾辞「er」の除去を含む語幹抽出を受けた後、対応する単語列は、「100% Origin Asus P6T7 WS SuperComput Motherboard ASUS Motherboard Comput Motherboard Comput Mainboard Motherboard」(14単語)になる。反復する単語が除去された後、文は「100% Origin Asus P6T7 WS SuperComput Motherboard Comput Mainboard」(9単語)となる。したがって、この例では、反復単語を除去した後の商品タイトル内の単語数の総単語数に対する比は、9/14である。
4.商品タイトル内の最頻出単語の出現回数
一般に、或る単語が商品タイトル内に出現する頻度が高くなるほど、商品タイトルが乱雑になる可能性が高くなる。いくつかの実施形態では、最頻出単語が、商品情報の乱雑さの主な原因になる単語であると見なされる。
例えば、商品タイトル「09 branded handbag, designer handbag, new style handbag, fashion handbag, ladies≡ handbag, elegant handbag」が語幹抽出を受けた後、最も出現頻度の高い単語は、「handbag」であり、6回出現している。この例において、この商品タイトルは、単語「handbag」に関して乱雑であると決定される。
5.事前設定されたルールに基づいて商品タイトルがセグメント(セグメントとは、元の商品タイトルのすべての単語/句のサブセットを指す)に分割された後に各セグメント内の特定の位置にある単語で構成されたセット内の総単語数に対する、反復する単語を除去した後の単語数の比
一般に、上述の事前設定されたルールは、以下を含むがそれらに限定されない。商品タイトル中のコンマの位置に基づいて商品タイトルをセグメントに分割する、および/または、商品タイトルにおける最頻出単語の位置に基づいて商品タイトルをセグメントに分割する。上述の2つの方法は、単に例示であって、商品タイトルを分割する他の方法を除外するものではない。
a)セグメント化の形態としてコンマに基づく分割の一例を用いると、商品タイトルが、タイトルに含まれるコンマの位置に基づいてセグメントに分割された後、各セグメント内の最後の単語/句(例えば、分割が行われた商品タイトル内の位置の直前の単語/句)が、セットの要素として指定される。かかるセットにおいて、(反復単語を含む)セット内の総単語数に対する、セットから反復単語を除去した後の単語数の比が小さいほど、商品タイトルに含まれる単語が乱雑である可能性が高くなる。
例えば、商品タイトル「Paypal-Fashion sunglasses, ED sunglasses,CA sunglasses, Brand name sunglasses, designer sunglasses」について、単語が語幹抽出を受けて、タイトルがコンマに基づいて分割された後、結果として得られるセグメントのセットは、{“Paypal-Fashion sunglass”,“ED sunglass”,“CA sunglass”,“Brand nam sunglass”,“design sunglass”}であり、各セグメントの最後の単語のセットは、{“sunglass”,“sunglass”,“sunglass”,“sunglass”,“sunglass”}である。反復する単語を除去した後、セットに残る唯一の単語は、{“sunglass”}である。したがって、各セグメント内の最後の単語で構成された単語のセットにおいて、セット内の総単語数に対する、反復単語を除去した後の単語数の比は、1/5である。
b)セグメント化の形態としてコンマに基づく分割の別の例を用いると、商品タイトルが、タイトルに含まれるコンマの位置に基づいて特定の数のセグメントに分割された後、各セグメントの最後の2つの単語/句(例えば、分割が行われた商品タイトル内の位置の直前の最後の2つの単語/句)が、セットの要素として指定される。(反復単語を含む)セット内のバイグラム(各セグメント内の最後の2つの単語からなる単語)の総数に対する、反復単語を除去した後のバイグラムの数の比が小さいほど、商品タイトルに含まれる単語が乱雑である可能性が高くなる。
例えば、商品タイトル「Degree name card holder, business card holder, name card case, business card case, card holder credit card holder」が語幹抽出とコンマに基づく分割を受けた後、結果として得られるセグメントのセットは、{“Degree nam card hold”,“busi card hold”,“nam card cas”,“busi card cas”,“card hold”,“credit card hold”}である。各セグメントの最後の2つの単語/句からなるセットは、{“card hold”,“card hold”,“card cas”,“card cas”,“card hold”,“card hold”}である。反復単語を除去した後のセットは、{“card hold”,“card cas”}である。したがって、反復単語を除去した後のバイグラムの全バイグラムに対する比は、1/3である。
c)最頻出単語に基づいて商品タイトルをセグメントに分割する一例を用いると、商品タイトルが、タイトル内に含まれる最頻出単語に基づいてセグメントに分割された後、各セグメントの最後の単語/句が、セットの要素として指定される。一般に、(反復単語を含む)セット内の総単語数に対する、反復単語を除去した後の単語数の比が小さいほど、タイトルに含まれる単語が乱雑である可能性が高くなる。
例えば、商品タイトルが、「New style Brand tshirt Polo tshirt Fashion tshirt mens Top quality tshirt Paypal」であるとする。商品タイトルは、語幹抽出された後、「New styl Brand tshirt Polo tshirt Fashion tshirt men Top qualiti tshirt Payp」となり、最頻出単語は「tshirt」である。文は、「tshirt」を区切り記号として用いて分割される。したがって、結果として得られるセグメントセットは、{“New styl Brand tshirt”,“Polo tshirt”,“Fashion tshirt”,“men Top qualiti tshirt”,“Payp”}である。各セグメントの最後の単語が要素に指定されたセットは、{“tshirt”, “tshirt”,“tshirt”,“tshirt”,“Payp”}である。反復単語を除去した後のセットは、{“Payp”}のみを含む。したがって、各セグメント内の最後の単語で構成されたセットにおいて、セット内の(反復単語を含む)総単語数に対する、反復単語を除去した後の単語数の比は、1/5である。
いくつかの実施形態において、上のa)、b)、および、c)に記載したセグメント分割方法の内の1または複数、ならびに、それらに対応する比の計算方法が用いられる。計算結果の精度を高めるために、セグメント分割方法a)、b)、および、c)の組み合わせを実施してもよい。
6.商品タイトルが、事前設定されたルールに基づいてセグメントに分割された後の各セグメントの分散
コンマに基づく分割の別の例を用いると、商品タイトルがコンマの位置に基づいてセグメントに分割された後、各セグメントは、セグメント長(すなわち、セグメントが含む単語数)に関連付けられる。一般に、商品タイトルから得られたこれらのセグメントのセットについて、セット内でのセグメント長の分散が小さいほど、商品タイトルに含まれる単語が乱雑である可能性が高くなる。
例えば、商品タイトル「Paypal-Fashion sunglasses, ED sunglasses, CA sunglasses, Brand name sunglasses, designer sunglasses」が語幹抽出とコンマに基づく分割を受けた後、結果として得られるセグメントセットは、{“Paypal-Fashion sunglass”,“ED sunglass”,“CA sunglass”,“Brand nam sunglass”,“design sunglass”}である。セグメントに対応する長さのセットは、{2,2,2,3,2}であり、セグメント長の分散は0.2である。
第2に、商品タイトルの構文的特性属性が、商品情報から取得される。この処理は、最初に、商品タイトルの品詞タグ付け、すなわち、商品タイトルに含まれる各単語を、対応する品詞(名詞、動詞、形容詞、または、副詞など)でタグ付けすることを含む。品詞のカテゴリは比較的少数である(例えば、ペン・ツリーバンクは、36の品詞を定義している)。したがって、品詞特性に基づく特徴の方が語彙特性に基づく特徴よりも一般化しやすいため、この技術的スキームの適用範囲を広く解釈できる。いくつかの実施形態において、一般化のレベルをさらに高めるために、品詞の上位カテゴリが定義される。いくつかの実施形態において、品詞の上位カテゴリは、以下のカテゴリで品詞を規定する。名詞(N)、動詞(V)、形容詞(JJ)、副詞(ADV)、前置詞(TO)、数詞(DT)。上記の構文的特性属性の説明に関連して、構文的特性属性に対応する値の例は、以下の内の1または複数を含みうるが、それらに限定されない。
1.商品タイトルの単語の総品詞数に対する、反復品詞の除去後に商品タイトルに含まれる単語の品詞数の比
一般に、商品タイトルの単語の総品詞数に対する、反復品詞の除去後に商品タイトルに含まれる単語の品詞数の比が小さいほど、商品タイトルに含まれる単語が乱雑である可能性が高くなる。
例えば、商品タイトルが「100% Original Asus P6T7 WS SuperComputer Motherboard,ASUS Motherboard, Computer Motherboard,Computer Mainboard, Motherboard」であると仮定すると、対応する品詞は、「DT JJ N DT N N N,N N,N N,N N,N」になる。反復する品詞を除去すると、品詞のセットは、{“DT”,“JJ”,“N”}となる。したがって、商品タイトル内の単語の総品詞数に対する、反復品詞を除去した後の品詞数の比は、3/14である。
2.名詞の総単語数に対する、反復単語を除去した後の商品タイトル内の名詞の単語数の比
電子商取引の分野において、商品タイトル内の名詞は、より重要な商品情報を記述するため、より豊富な情報を含む傾向がある。一般に、商品名(例えば、製品名)は名詞である。したがって、一般に、名詞の総数に対する、商品タイトルから反復単語を除去した後の名詞の数の比が小さいほど、商品タイトルに含まれる単語が乱雑である可能性が高くなる。
例えば、商品タイトル「100% Original Asus P6T7 WS SuperComputer Motherboard,ASUS Motherboard, Computer Motherboard,Computer Mainboard, Motherboard」において、名詞は、「Asus WS SuperComputer Motherboard ASUS Motherboard Computer Motherboard Computer Mainboard Motherboard」であり、反復する単語を除去した後の名詞のセットは、{“Asus”,“WS”,“SuperComputer”,“Motherboard,“Mainboard”}である。したがって、商品タイトル内の総名詞数に対する、反復単語の除去後の名詞数の比は、5/11である。
3.最頻出品詞の出現回数
句読点のない乱雑な商品タイトルの特定を改善するために、いくつかの実施形態では、1つの品詞が連続して(すなわち、バイグラムとして)出現する頻度が考慮される。一般に、品詞の連続の頻度が高いほど、商品タイトルに含まれる単語が乱雑である可能性が高くなる。
例えば、商品タイトル「Power Amplifier Audio Amplifier Professional Power Amplifier Karaoke Amplifier Pa Pro Amplifier」について、対応する品詞列は「JJ N JJ N JJ N N N N N N N」であり、そこから抽出されたバイグラム品詞のセットは、{“JJ N”,“N JJ”,“JJ N”,“N JJ”,“JJ N”,“N N”,“N N”,“N N”,“N N”,“N N”,“N N”}であり、最も頻繁に(7回)出現するバイグラム配列は、“N N”である。
4.事前設定されたルールに基づいて商品情報がセグメント(例えば、商品情報の単語/句のサブセット)に分割された後に各セグメント内の1または複数の特定の位置にある単語に対応する品詞を含むセット内の総品詞数に対する、反復単語を除去した後の品詞数の比
いくつかの実施形態において、事前設定されたルールに基づいた商品情報のセグメントへの分割は、以下を含むがそれらに限定されない。商品情報(例えば、商品タイトルなど)を商品タイトル内のコンマの位置に基づいてセグメントに分割すること、および/または、商品タイトルにおける最頻出単語の位置に基づいて商品タイトルを分割すること。
一般に、商品タイトルがセグメントに分割された後、各セグメント内の最後の2つの単語(バイグラム)に対応する品詞が、セットの要素として指定される。このセットにおいて、セット内のバイグラム品詞の総数に対する、反復品詞を除去した後のバイグラム品詞の数の比が小さいほど、商品タイトルに含まれる単語が乱雑である可能性が高くなる。
例えば、商品タイトルが「100% Original Asus P6T7 WS SuperComputer Motherboard, ASUS Motherboard, Computer Motherboard, Computer Mainboard, Motherboard」であると仮定すると、各セグメント内の最後の2つの単語の品詞からなるセットは、{“N N”,“N N”,“N N”,“N”}である。(最後のセグメントが1単語しか含まないため、そのバイグラム品詞配列は、“N”である)。反復単語の除去後、セットは、{“N N”,“N”}となる。したがって、反復品詞を除去した後のバイグラム品詞と、セット内のバイグラム品詞の総数との比は、2/4である。
図5は、商品情報を解析するための処理の一実施形態を示すフローチャートである。いくつかの実施形態では、処理500は、少なくとも部分的にシステム200を用いることによって実施されうる。
工程502:ユーザによって入力された商品情報が受信される。
いくつかの実施形態において、商品情報は、電子商取引ウェブサイトでユーザ(例えば、アカウントを持つ個人)によって入力される。いくつかの実施形態において、1または複数のユーザは、電子商取引ウェブサイトのウェブページで製品を宣伝することよって電子商取引ウェブサイトで製品を販売することができる。例えば、各ユーザは、電子商取引ウェブサイトに1または複数のウェブページを持つことができ、そこで、自らが提供する1または複数の製品を宣伝する。ユーザは、それらの製品に関する商品情報を入力して送信することも可能であり、かかる情報は適切なウェブサイトで公開されうる。例えば、ユーザは、電子商取引ウェブサイトのユーザインターフェースウェブページでユーザが販売している製品の内の1または複数のための商品情報を送信できる。
工程504:商品情報から1または複数の特性属性に対応する値を取得することを少なくとも含む、商品情報の解析が実行される。1または複数の特性属性に対応する取得された値は、商品情報が乱雑であるか否かを判定するために用いられる。
いくつかの実施形態において、特性属性は、形態的特性属性および/または構文的特性属性を含む。
いくつかの実施形態において、形態的特性属性の例は、以下の内の任意の1または複数を含む:商品情報に含まれるコンマの数;商品情報の文の長さ;商品情報内の総単語数に対する、反復単語の除去後の商品情報に含まれる単語数の比;商品情報における最頻出単語の出現回数;事前設定されたルールに基づいて商品情報がセグメントに分割された後に各セグメント内の特定の位置にある単語で構成されたセット内の総単語数に対する、反復単語を除去した後の単語数の比;事前設定されたルールに基づいて商品情報がセグメントに分割された後の各セグメントの分散。
いくつかの実施形態において、構文的特性属性の例は、以下の内の任意の1または複数を含む。商品情報内の単語に対応する品詞の総数に対する反復品詞の除去後に商品情報に含まれる単語に対応する品詞の数の比、名詞の総単語数に対する反復品詞を除去した後の商品情報内の名詞の単語数の比、最頻出品詞の出現回数、事前設定されたルールに基づいて商品情報がセグメントに分割された後に各セグメント内の特定の位置にある単語に対応する品詞からなるセット内の総品詞数に対する、反復品詞を除去した後の品詞数の比。
工程506:商品情報に関連する乱雑さの信頼水準が、1または複数の特性属性に対応する取得された値の最大エントロピ原理に少なくとも部分的に基づいて決定される。
いくつかの実施形態において、取得された1または複数の特性属性の最大エントロピ原理に少なくとも部分的に基づいて、商品情報に関連する乱雑さの信頼水準を決定する工程は、取得された特性属性の値を最大エントロピ原理に基づいた条件付き確率モデル
Figure 0005714702
の入力情報とし、次いで、条件付き確率モデルを用いて、商品タイトルが乱雑な情報である事後確率p(y|x)を、与えられた入力情報について計算することを含む。事後確率p(y|x)は、商品情報に関連する信頼水準と見なされる。
工程508:商品情報に関連する信頼水準が、事前設定された閾値を超えるか否かが判定される。信頼水準が、事前設定された閾値を超えると判定された場合、商品情報の公開を停止する旨の示唆が送信され、信頼水準が、事前設定された閾値を超えないと判定された場合、商品情報の公開を停止する旨の示唆は送信されない。
いくつかの実施形態において、信頼水準の閾値は、システム200のオペレータによって事前に設定される。いくつかの実施形態において、信頼水準が閾値を超えた場合、商品情報は乱雑であると見なされ、信頼水準が閾値を超えない場合、商品情報は乱雑でないと見なされる。信頼水準が、事前設定された閾値を超えると判定されると、商品情報の(例えば、関連するウェブページでの)公開が停止され、いくつかの実施形態では、商品情報の乱雑さの原因となっているキーワードを決定するために解析が行われる。いくつかの実施形態では、キーワードが、商品情報内での最頻出単語である場合に、商品情報の乱雑さの主な理由と見なされる。いくつかの実施形態において、商品情報の乱雑さの主な理由と見なされたキーワードは、(例えば、ユーザインターフェースウェブページで表示することにより)ユーザに返される。次に、ユーザは、このキーワードに関して商品情報を修正するよう促される。例えば、ユーザは、より少ない単語を含む情報および/またはキーワードの反復がより少ない情報など、新たな商品情報を送信できる。いくつかの実施形態において、ユーザは、商品情報の自動修正案を提示されてもよく、ユーザは、公開に向けて送信するために1つを選択するか、または、公開に向けて送信すべき新たな商品情報を作成する際にそれらを参照することができる。
処理500は、以下の実験データの例を用いてさらに説明されうる。
いくつかの実施形態において、各特性属性の値は、0から1の間の値に正規化され、次いで、正規化された値は、後の計算処理を単純化するために整数に写像される。例えば、値「6」は、0.3(すなわち、6/20、20は正規化パラメータであり、正規化されたデータの値に基づきうる)に正規化され、整数「3」に写像される。一例において、正規化された値と整数との間の写像関係は、以下の通りである:0−>0,(0,0.05]−>1,(0.05,0.15]−>2,(0.15,0.3]−>3,(0.3,0.5]−>4,(0.5,1]−>5
したがって、例えば、商品タイトルが「#24 Baseball Jersey,Baseball Jerseys,Jerseys,Sports Jerseys,Sport Jersey, Jersey,24# Baseball Jersey」である場合、商品タイトルの解析結果に基づいて取得された特性属性は、以下の値であり、上述のように、式1で用いられる。
商品タイトルに含まれるコンマの数は6であり、正規化によって0.3に変換され、次いで、写像によって3に変換される。これは、λ11(x,y)に対応しており、ここで、λ1の仮説値は、0.0653117であり、f1(x,y)の値は、以下の通りである。
Figure 0005714702
商品タイトルの文章の長さは20であり、正規化によって0.20に変換され、次いで、写像によって整数2に変換される。これは、λ22(x,y)に対応する。λ2の仮説値は、0.853789であり、f2(x,y)の値は、以下の通りである。
Figure 0005714702
商品タイトル内の単語の総数に対する、反復単語を除去した後の商品タイトルに含まれる単語数の比は、4/14であり、正規化によって0.28に変換され、次いで、写像によって整数3に変換される。これは、λ33(x,y)に対応する。λ3の値は、−0.177941であり、f3(x,y)の値は、以下のように仮定される。
Figure 0005714702
商品タイトル内の最頻出単語の出現回数は7であり、正規化によって0.35に変換され、次いで、写像によって3に変換される。これは、λ44(x,y)に対応する。λ4の仮説値は、0.457743であり、f4(x,y)の値は、以下の通りである。
Figure 0005714702
(事前設定されたルールに基づいて商品タイトルがセグメントに分割された後に)各セグメント内の特定の位置にある単語で構成されたセット内の総単語数に対する、反復単語を除去した後の単語数の比。これは、3つの状況に分けられる。
タイトルに含まれるコンマの位置に従って商品タイトルが特定の数のセグメントに分割された後に各セグメント内の最後の単語で構成されたセット内の総単語数に対する、反復単語の除去後の単語数の比は、1/7であり、正規化によって0.14に変換され、次いで、写像によって整数2に変換される。これは、λ55(x,y)に対応する。λ5の仮説値は、1.7743であり、f5(x,y)の値は、以下の通りである。
Figure 0005714702
(タイトルに含まれるコンマの位置に基づいて商品タイトルがセグメントに分割された後に)各セグメント内の最後の2つの単語で構成されたセット内の総単語数に対する、反復単語の除去後の単語数の比は、3/7であり、正規化によって0.42に変換され、次いで、写像によって整数4に変換される。これは、λ66(x,y)に対応する。
λ6の仮説値は、−0.24332であり、f6(x,y)の値は、以下の通りである。
Figure 0005714702
(タイトルに含まれる最頻出単語に基づいて商品タイトルがセグメントに分割された後に)各セグメント内の最後の単語で構成されたセット内の総単語数に対する、反復単語の除去後の単語数の比は、2/7であり、正規化によって0.29に変換され、次いで、写像によって整数3に変換される。これは、λ77(x,y)に対応する。λ7の仮説値は、0.410227であり、f7(x,y)の値は、以下の通りである。
Figure 0005714702
商品タイトルが、事前設定されたルールに基づいてセグメントに分割された後、各セグメントの分散は0.28であり、2に写像される。これは、λ88(x,y)に対応する。λ8の仮説値は、−0.188554であり、f8(x,y)の値は、以下の通りである。
Figure 0005714702
商品タイトル内の単語に対応する品詞の総数に対する、反復品詞の除去後に商品タイトルに含まれる単語に対応する品詞の数の比は、2/14であり、正規化によって0.14に変換され、次いで、写像によって整数2に変換される。これは、λ99(x,y)に対応する。λ9の仮説値は、−0.0397724であり、f9(x,y)の値は、以下の通りである。
Figure 0005714702
名詞である単語の総数に対する、反復品詞の除去後の商品タイトル内の名詞の単語数の比は、3/15であり、正規化によって0.2に変換され、次いで、写像によって整数2に変換される。これは、λ99(x,y)に対応する。λ10の仮説値は、0.305969であり、f10(x,y)の値は、以下の通りである。
Figure 0005714702
最頻出品詞の出現回数は12であり、正規化によって0.6に変換され、次いで、写像によって整数6に変換される。これは、λ1111(x,y)に対応する。λ11の仮説値は、0.105729であり、f11(x,y)の値は、以下の通りである。
Figure 0005714702
(商品情報がセグメントに分割された後に)各セグメント内の特定の位置にある品詞で構成されたセット内の品詞の総数に対する、反復品詞の除去後の品詞数の比は、2/7であり、正規化によって0.28に変換され、次いで、写像によって整数3に変換される。これは、λ1212(x,y)に対応する。λ12の仮説値は、−0.174333であり、f12(x,y)の値は、以下の通りである。
Figure 0005714702
式1に与えられた入力情報として上述の特性属性に基づくと、事後確率p(y|x)は0.989271であり、仮説閾値は0.7である。信頼水準として機能する事後確率は、閾値を超えている。したがって、ユーザによって入力された商品タイトルに含まれる単語は乱雑であり、公開を停止すべきであると判定される。特性属性の利用に関する上述の説明は、一例にすぎず、特性属性の任意のサブセットを用いて、商品情報の信頼水準(例えば、事後確率)を計算することができる。
当業者は、本願の精神および範囲から逸脱することなく、開示された実施形態を変形および変更することができる。したがって、本願のこれらの変形例および変更例が、特許請求の範囲および等価の技術の範囲内にある場合、本願は、これらの変形例および変更例をも網羅するものである。
上述の実施形態は、理解しやすいようにいくぶん詳しく説明されているが、本発明は、提供された詳細事項に限定されるものではない。本発明を実施する多くの代替方法が存在する。開示された実施形態は、例示であり、限定を意図するものではない。
適用例1:商品情報を解析する方法であって、ユーザによって入力された商品情報を受信し、前記商品情報から1または複数の特性属性に対応する値を取得することを少なくとも含む、前記商品情報の解析を実行し、1または複数の特性属性に対応する前記値は、前記商品情報が乱雑であるか否かを判定するために用いられ、1または複数の特性属性に対応する前記取得された値に少なくとも部分的に基づいて、前記商品情報に関連する乱雑さの信頼水準を決定し、前記商品情報に関連する前記乱雑さの信頼水準が、事前設定された閾値を超えるか否かを判定し、前記乱雑さの信頼水準が前記事前設定された閾値を超えた場合には、前記商品情報の公開を停止する旨の示唆を送信し、前記乱雑さの信頼水準が前記事前設定された閾値を超えていない場合には、前記商品情報の公開を停止する旨の示唆を送信しない、こと、を備える、方法。
適用例2:適用例1に記載の方法であって、前記商品情報は、電子商取引ウェブサイトに関連して受信される、方法。
適用例3:適用例1に記載の方法であって、前記商品情報は、商品タイトル、商品説明情報、商品紹介情報、商品レビュー、および、商品の製品仕様の内の1または複数を含む、方法。
適用例4:適用例1に記載の方法であって、1または複数の特性属性に対応する前記取得された値に少なくとも部分的に基づいて、前記商品情報に関連する乱雑さの信頼水準を決定することは、1または複数の特性属性に対応する前記取得された値を条件付き確率モデルに入力し、1または複数の特性属性に対応する前記取得された値と、前記条件付き確率モデルとを少なくとも用いて、前記商品情報が乱雑である可能性に関連する事後確率を計算すること、を含み、前記乱雑さの信頼水準は、前記事後確率を含む、方法。
適用例5:適用例1に記載の方法であって、前記1または複数の特性属性は、少なくとも1つの形態的特性属性を含む、方法。
適用例6:適用例5に記載の方法であって、前記少なくとも1つの形態的特性属性は、前記商品情報に含まれるコンマの数、前記商品情報の文の長さ、前記商品情報内の総単語数に対する反復単語の除去後の前記商品情報に含まれる単語数の比、前記商品情報における最頻出単語の出現回数、事前設定されたルールに基づいて前記商品情報がセグメントに分割された後に各セグメント内の特定の位置にある単語で構成されたセット内の総単語数に対する反復単語の除去後の単語数の比、事前設定されたルールに基づいて前記商品情報がセグメントに分割された後の各セグメントの分散、の内の1または複数を含む、方法。
適用例7:適用例1に記載の方法であって、前記1または複数の特性属性は、少なくとも1つの構文的特性属性を含む、方法。
適用例8:適用例7に記載の方法であって、前記少なくとも1つの構文的特性属性は、前記商品情報内の単語に対応する品詞の総数に対する反復品詞の除去後の前記商品情報に含まれる単語に対応する品詞の数の比、名詞の総単語数に対する反復単語を除去した後の前記商品情報内の名詞の単語数の比、最頻出品詞の出現回数、事前設定されたルールに基づいて前記商品情報がセグメントに分割された後に各セグメント内の特定の位置にある単語に対応する品詞で構成されたセット内の総品詞数に対する、反復品詞を除去した後の品詞数の比、の内の1または複数を含む、方法。
適用例9:適用例6に記載の方法であって、さらに、事前設定されたルールに基づいて前記商品情報をセグメントに分割することを備え、前記ルールは、前記商品情報内のコンマの位置に基づいて前記商品情報を分割して、前記商品情報に含まれる単語のサブセットを含む1または複数のセグメントを形成すること、および/または、前記商品情報における最頻出単語の位置に基づいて前記商品情報を分割して、1または複数のセグメントを形成することを含む、方法。
適用例10:適用例8に記載の方法であって、さらに、事前設定されたルールに基づいて前記商品情報をセグメントに分割することを備え、前記ルールは、前記商品情報内のコンマの位置に基づいて前記商品情報を分割して、前記商品情報に含まれる単語のサブセットを含む1または複数のセグメントを形成すること、および/または、前記商品情報における最頻出単語の位置に基づいて前記商品情報を分割して、1または複数のセグメントを形成することを含む、方法。
適用例11:適用例1に記載の方法であって、前記乱雑さの信頼水準が前記事前設定された閾値を超えた場合に、前記商品情報が乱雑な商品情報を含むと判定することを備える、方法。
適用例12:適用例11に記載の方法であって、前記乱雑さの信頼水準が前記事前設定された閾値を超えた場合に、前記商品情報に関連する乱雑さを引き起こした可能性のある前記商品情報のキーワードを決定し、前記ユーザによってアクセス可能なインターフェース要素を介して前記キーワードに関する示唆を提示すること、をさらに備える、方法。
適用例13:適用例12に記載の方法であって、さらに、前記インターフェース要素を介して前記商品情報への修正を入力することを前記ユーザに促すことを備える、方法。
適用例14:商品情報を解析するためのシステムであって、プロセッサであって、ユーザによって入力された商品情報を受信し、前記商品情報から1または複数の特性属性に対応する値を取得することを少なくとも含む、前記商品情報の解析を実行し、1または複数の特性属性に対応する前記値は、前記商品情報が乱雑であるか否かを判定するために用いられ、1または複数の特性属性に対応する前記取得された値に少なくとも部分的に基づいて、前記商品情報に関連する乱雑さの信頼水準を決定し、前記商品情報に関連する前記乱雑さの信頼水準が、事前設定された閾値を超えるか否かを判定し、前記乱雑さの信頼水準が前記事前設定された閾値を超えた場合には、前記商品情報の公開を停止する旨の示唆を送信し、前記乱雑さの信頼水準が前記事前設定された閾値を超えていない場合には、前記商品情報の公開を停止する旨の示唆を送信しないように構成されているプロセッサと、前記プロセッサに接続され、前記プロセッサに命令を提供するよう構成されているメモリと、を備える、システム。
適用例15:適用例14に記載のシステムであって、前記商品情報は、電子商取引ウェブサイトに関連して受信される、システム。
適用例16:適用例14に記載のシステムであって、前記商品情報は、商品タイトル、商品説明情報、商品紹介情報、商品レビュー、および、商品の製品仕様の内の1または複数を含む、システム。
適用例17:適用例14に記載のシステムであって、1または複数の特性属性に対応する前記取得された値に少なくとも部分的に基づいて、前記商品情報に関連する乱雑さの信頼水準を決定するように構成されている前記プロセッサは、1または複数の特性属性に対応する前記取得された値を条件付き確率モデルに入力し、1または複数の特性属性に対応する前記取得された値と、前記条件付き確率モデルとを少なくとも用いて、前記商品情報が乱雑である可能性に関連する事後確率を計算するように構成されているプロセッサを含み、前記乱雑さの信頼水準は、前記事後確率を含む、システム。
適用例18:適用例14に記載のシステムであって、前記1または複数の特性属性は、少なくとも1つの形態的特性属性を含む、システム。
適用例19:適用例14に記載のシステムであって、前記1または複数の特性属性は、少なくとも1つの構文的特性属性を含む、システム。
適用例20:適用例14に記載のシステムであって、前記乱雑さの信頼水準が前記事前設定された閾値を超えた場合に、前記プロセッサは、前記商品情報が乱雑な商品情報を含むと判定するように構成されている、システム。
適用例21:適用例20に記載のシステムであって、前記乱雑さの信頼水準が前記事前設定された閾値を超えた場合に、前記プロセッサは、さらに、前記商品情報に関連する乱雑さを引き起こした可能性のある前記商品情報のキーワードを決定し、前記ユーザによってアクセス可能なインターフェース要素を介して前記キーワードに関する示唆を提示するように構成されている、システム。
適用例22:適用例21に記載のシステムであって、前記プロセッサは、さらに、前記インターフェース要素を介して前記商品情報への修正を入力することを前記ユーザに促すように構成されている、システム。
適用例23:商品情報を解析するためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、コンピュータ読み取り可能な記憶媒体内に具現化され、ユーザによって入力された商品情報を受信するためのコンピュータ命令と、前記商品情報から1または複数の特性属性に対応する値を取得することを少なくとも含む、前記商品情報の解析を実行するためのコンピュータ命令と、1または複数の特性属性に対応する前記値は、前記商品情報が乱雑であるか否かを判定するために用いられ、1または複数の特性属性に対応する前記取得された値に少なくとも部分的に基づいて、前記商品情報に関連する乱雑さの信頼水準を決定するためのコンピュータ命令と、前記商品情報に関連する前記乱雑さの信頼水準が、事前設定された閾値を超えるか否かを判定するためのコンピュータ命令と、前記乱雑さの信頼水準が前記事前設定された閾値を超えた場合に、前記商品情報の公開を停止する旨の示唆を送信し、前記乱雑さの信頼水準が前記事前設定された閾値を超えていない場合に、前記商品情報の公開を停止する旨の示唆を送信しないコンピュータ命令と、を備える、コンピュータプログラム製品。

Claims (23)

  1. 商品情報を解析する方法であって、
    ユーザによって入力された商品情報を受信し、
    前記商品情報から1または複数の特性属性に対応する値を取得することを少なくとも含む、前記商品情報の解析を実行し、1または複数の特性属性に対応する前記値は、前記商品情報が乱雑であるか否かを判定するために用いられ、
    1または複数の特性属性に対応する前記取得された値に少なくとも部分的に基づいて、前記商品情報に関連する乱雑さの信頼水準を決定し、
    前記商品情報に関連する前記乱雑さの信頼水準が、事前設定された閾値を超えるか否かを判定し、前記乱雑さの信頼水準が前記事前設定された閾値を超えた場合には、前記商品情報の公開を停止する旨の示唆を送信し、前記乱雑さの信頼水準が前記事前設定された閾値を超えていない場合には、前記商品情報の公開を停止する旨の示唆を送信しない、こと、
    を備える、方法。
  2. 請求項1に記載の方法であって、前記商品情報は、電子商取引ウェブサイトに関連して受信される、方法。
  3. 請求項1に記載の方法であって、前記商品情報は、商品タイトル、商品説明情報、商品紹介情報、商品レビュー、および、商品の製品仕様の内の1または複数を含む、方法。
  4. 請求項1に記載の方法であって、1または複数の特性属性に対応する前記取得された値に少なくとも部分的に基づいて、前記商品情報に関連する乱雑さの信頼水準を決定することは、
    1または複数の特性属性に対応する前記取得された値を条件付き確率モデルに入力し、
    1または複数の特性属性に対応する前記取得された値と、前記条件付き確率モデルとを少なくとも用いて、前記商品情報が乱雑である可能性に関連する事後確率を計算すること、
    を含み、
    前記乱雑さの信頼水準は、前記事後確率を含む、方法。
  5. 請求項1に記載の方法であって、前記1または複数の特性属性は、少なくとも1つの形態的特性属性を含む、方法。
  6. 請求項5に記載の方法であって、前記少なくとも1つの形態的特性属性は、
    前記商品情報に含まれるコンマの数、前記商品情報の文の長さ、前記商品情報内の総単語数に対する反復単語の除去後の前記商品情報に含まれる単語数の比、前記商品情報における最頻出単語の出現回数、事前設定されたルールに基づいて前記商品情報がセグメントに分割された後に各セグメント内の特定の位置にある単語で構成されたセット内の総単語数に対する反復単語の除去後の単語数の比、事前設定されたルールに基づいて前記商品情報がセグメントに分割された後の各セグメントの分散、の内の1または複数を含む、方法。
  7. 請求項1に記載の方法であって、前記1または複数の特性属性は、少なくとも1つの構文的特性属性を含む、方法。
  8. 請求項7に記載の方法であって、前記少なくとも1つの構文的特性属性は、
    前記商品情報内の単語に対応する品詞の総数に対する反復品詞の除去後の前記商品情報に含まれる単語に対応する品詞の数の比、名詞の総単語数に対する反復単語を除去した後の前記商品情報内の名詞の単語数の比、最頻出品詞の出現回数、事前設定されたルールに基づいて前記商品情報がセグメントに分割された後に各セグメント内の特定の位置にある単語に対応する品詞で構成されたセット内の総品詞数に対する、反復品詞を除去した後の品詞数の比、の内の1または複数を含む、方法。
  9. 請求項6に記載の方法であって、さらに、事前設定されたルールに基づいて前記商品情報をセグメントに分割することを備え、前記ルールは、
    前記商品情報内のコンマの位置に基づいて前記商品情報を分割して、前記商品情報に含まれる単語のサブセットを含む1または複数のセグメントを形成すること、
    および/または、
    前記商品情報における最頻出単語の位置に基づいて前記商品情報を分割して、1または複数のセグメントを形成することを含む、方法。
  10. 請求項8に記載の方法であって、さらに、事前設定されたルールに基づいて前記商品情報をセグメントに分割することを備え、前記ルールは、
    前記商品情報内のコンマの位置に基づいて前記商品情報を分割して、前記商品情報に含まれる単語のサブセットを含む1または複数のセグメントを形成すること、
    および/または、
    前記商品情報における最頻出単語の位置に基づいて前記商品情報を分割して、1または複数のセグメントを形成することを含む、方法。
  11. 請求項1に記載の方法であって、前記乱雑さの信頼水準が前記事前設定された閾値を超えた場合に、前記商品情報が乱雑な商品情報を含むと判定することを備える、方法。
  12. 請求項11に記載の方法であって、前記乱雑さの信頼水準が前記事前設定された閾値を超えた場合に、
    前記商品情報に関連する乱雑さを引き起こした可能性のある前記商品情報のキーワードを決定し、
    前記ユーザによってアクセス可能なインターフェース要素を介して前記キーワードに関する示唆を提示すること、
    をさらに備える、方法。
  13. 請求項12に記載の方法であって、さらに、前記インターフェース要素を介して前記商品情報への修正を入力することを前記ユーザに促すことを備える、方法。
  14. 商品情報を解析するためのシステムであって、
    プロセッサであって、
    ユーザによって入力された商品情報を受信し、
    前記商品情報から1または複数の特性属性に対応する値を取得することを少なくとも含む、前記商品情報の解析を実行し、1または複数の特性属性に対応する前記値は、前記商品情報が乱雑であるか否かを判定するために用いられ、
    1または複数の特性属性に対応する前記取得された値に少なくとも部分的に基づいて、前記商品情報に関連する乱雑さの信頼水準を決定し、
    前記商品情報に関連する前記乱雑さの信頼水準が、事前設定された閾値を超えるか否かを判定し、前記乱雑さの信頼水準が前記事前設定された閾値を超えた場合には、前記商品情報の公開を停止する旨の示唆を送信し、前記乱雑さの信頼水準が前記事前設定された閾値を超えていない場合には、前記商品情報の公開を停止する旨の示唆を送信しないように構成されているプロセッサと、
    前記プロセッサに接続され、前記プロセッサに命令を提供するよう構成されているメモリと、
    を備える、システム。
  15. 請求項14に記載のシステムであって、前記商品情報は、電子商取引ウェブサイトに関連して受信される、システム。
  16. 請求項14に記載のシステムであって、前記商品情報は、商品タイトル、商品説明情報、商品紹介情報、商品レビュー、および、商品の製品仕様の内の1または複数を含む、システム。
  17. 請求項14に記載のシステムであって、1または複数の特性属性に対応する前記取得された値に少なくとも部分的に基づいて、前記商品情報に関連する乱雑さの信頼水準を決定するように構成されている前記プロセッサは、
    1または複数の特性属性に対応する前記取得された値を条件付き確率モデルに入力し、
    1または複数の特性属性に対応する前記取得された値と、前記条件付き確率モデルとを少なくとも用いて、前記商品情報が乱雑である可能性に関連する事後確率を計算するように構成されているプロセッサを含み、
    前記乱雑さの信頼水準は、前記事後確率を含む、システム。
  18. 請求項14に記載のシステムであって、前記1または複数の特性属性は、少なくとも1つの形態的特性属性を含む、システム。
  19. 請求項14に記載のシステムであって、前記1または複数の特性属性は、少なくとも1つの構文的特性属性を含む、システム。
  20. 請求項14に記載のシステムであって、前記乱雑さの信頼水準が前記事前設定された閾値を超えた場合に、前記プロセッサは、前記商品情報が乱雑な商品情報を含むと判定するように構成されている、システム。
  21. 請求項20に記載のシステムであって、前記乱雑さの信頼水準が前記事前設定された閾値を超えた場合に、前記プロセッサは、さらに、
    前記商品情報に関連する乱雑さを引き起こした可能性のある前記商品情報のキーワードを決定し、
    前記ユーザによってアクセス可能なインターフェース要素を介して前記キーワードに関する示唆を提示するように構成されている、システム。
  22. 請求項21に記載のシステムであって、前記プロセッサは、さらに、前記インターフェース要素を介して前記商品情報への修正を入力することを前記ユーザに促すように構成されている、システム。
  23. 商品情報を解析するためのコンピュータプログラムであって、
    ユーザによって入力された商品情報を受信するための機能と、
    前記商品情報から1または複数の特性属性に対応する値を取得することを少なくとも含む、前記商品情報の解析を実行するための機能と、1または複数の特性属性に対応する前記値は、前記商品情報が乱雑であるか否かを判定するために用いられ、
    1または複数の特性属性に対応する前記取得された値に少なくとも部分的に基づいて、前記商品情報に関連する乱雑さの信頼水準を決定するための機能と、
    前記商品情報に関連する前記乱雑さの信頼水準が、事前設定された閾値を超えるか否かを判定するための機能と、前記乱雑さの信頼水準が前記事前設定された閾値を超えた場合に、前記商品情報の公開を停止する旨の示唆を送信し、前記乱雑さの信頼水準が前記事前設定された閾値を超えていない場合に、前記商品情報の公開を停止する旨の示唆を送信しない機能と、
    をコンピュータによって実現させる、コンピュータプログラム。
JP2013512600A 2010-05-27 2011-05-25 商品情報の乱雑さの解析 Expired - Fee Related JP5714702B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN201010187445.7A CN102262765B (zh) 2010-05-27 2010-05-27 一种发布商品信息的方法及装置
CN201010187445.7 2010-05-27
US13/068,976 2011-05-24
US13/068,976 US20110295650A1 (en) 2010-05-27 2011-05-24 Analyzing merchandise information for messiness
PCT/US2011/000932 WO2011149527A1 (en) 2010-05-27 2011-05-25 Analyzing merchandise information for messiness

Publications (3)

Publication Number Publication Date
JP2013543154A JP2013543154A (ja) 2013-11-28
JP2013543154A5 JP2013543154A5 (ja) 2014-02-13
JP5714702B2 true JP5714702B2 (ja) 2015-05-07

Family

ID=45009383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013512600A Expired - Fee Related JP5714702B2 (ja) 2010-05-27 2011-05-25 商品情報の乱雑さの解析

Country Status (6)

Country Link
US (1) US20110295650A1 (ja)
EP (1) EP2577585A4 (ja)
JP (1) JP5714702B2 (ja)
CN (1) CN102262765B (ja)
HK (1) HK1159830A1 (ja)
WO (1) WO2011149527A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544138B (zh) * 2012-07-11 2016-04-06 阿里巴巴集团控股有限公司 识别异常输入信息的方法与装置
CN103870960B (zh) * 2012-12-10 2019-02-15 腾讯科技(深圳)有限公司 一种商品发布方法、终端、服务器及系统
CN103544264A (zh) * 2013-10-17 2014-01-29 常熟市华安电子工程有限公司 一种商品标题优化工具
CN104715374A (zh) * 2013-12-11 2015-06-17 世纪禾光科技发展(北京)有限公司 一种电子商务平台重复产品的治理方法和系统
CN104714969B (zh) * 2013-12-16 2018-04-27 阿里巴巴集团控股有限公司 一种属性值的检测方法和检测装置
CN104391983A (zh) * 2014-12-10 2015-03-04 郑州悉知信息技术有限公司 一种批量发布产品信息的方法及系统
CN106469184B (zh) * 2015-08-20 2019-12-27 阿里巴巴集团控股有限公司 数据对象标签处理、显示方法及服务器和客户端
US11244349B2 (en) * 2015-12-29 2022-02-08 Ebay Inc. Methods and apparatus for detection of spam publication
US10585898B2 (en) * 2016-05-12 2020-03-10 International Business Machines Corporation Identifying nonsense passages in a question answering system based on domain specific policy
US9842096B2 (en) * 2016-05-12 2017-12-12 International Business Machines Corporation Pre-processing for identifying nonsense passages in documents being ingested into a corpus of a natural language processing system
US10169328B2 (en) * 2016-05-12 2019-01-01 International Business Machines Corporation Post-processing for identifying nonsense passages in a question answering system
CN111429183A (zh) * 2020-03-26 2020-07-17 中国联合网络通信集团有限公司 一种商品分析方法及装置
CN113836904B (zh) * 2021-09-18 2023-11-17 唯品会(广州)软件有限公司 商品信息校验方法
CN116308650B (zh) * 2023-03-13 2024-02-06 北京农夫铺子技术研究院 基于人工智能的智慧社区商品大数据沉浸式团购系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0746359B2 (ja) * 1988-03-11 1995-05-17 富士通株式会社 日本語文章処理方式
JPH0721201A (ja) * 1993-06-18 1995-01-24 Ricoh Co Ltd 電子ファイリング装置
US7526466B2 (en) * 1998-05-28 2009-04-28 Qps Tech Limited Liability Company Method and system for analysis of intended meaning of natural language
US8677505B2 (en) * 2000-11-13 2014-03-18 Digital Doors, Inc. Security system with extraction, reconstruction and secure recovery and storage of data
US20030063779A1 (en) * 2001-03-29 2003-04-03 Jennifer Wrigley System for visual preference determination and predictive product selection
US7689431B1 (en) * 2002-04-17 2010-03-30 Winway Corporation Context specific analysis
US7899915B2 (en) * 2002-05-10 2011-03-01 Richard Reisman Method and apparatus for browsing using multiple coordinated device sets
US7035841B2 (en) * 2002-07-18 2006-04-25 Xerox Corporation Method for automatic wrapper repair
US9818136B1 (en) * 2003-02-05 2017-11-14 Steven M. Hoffberg System and method for determining contingent relevance
US7840448B2 (en) * 2003-05-07 2010-11-23 Cbs Interactive Inc. System and method for automatically generating a narrative product summary
US7551780B2 (en) * 2005-08-23 2009-06-23 Ricoh Co., Ltd. System and method for using individualized mixed document
JP5217041B2 (ja) * 2006-10-10 2013-06-19 日立情報通信エンジニアリング株式会社 オンライン商取引システム
US20080215571A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Product review search
US20090063247A1 (en) * 2007-08-28 2009-03-05 Yahoo! Inc. Method and system for collecting and classifying opinions on products
US20090083096A1 (en) * 2007-09-20 2009-03-26 Microsoft Corporation Handling product reviews
US8271483B2 (en) * 2008-09-10 2012-09-18 Palo Alto Research Center Incorporated Method and apparatus for detecting sensitive content in a document
KR101550886B1 (ko) * 2009-03-27 2015-09-08 삼성전자 주식회사 동영상 콘텐츠에 대한 부가 정보 생성 장치 및 방법
US20110276513A1 (en) * 2010-05-10 2011-11-10 Avaya Inc. Method of automatic customer satisfaction monitoring through social media

Also Published As

Publication number Publication date
EP2577585A1 (en) 2013-04-10
US20110295650A1 (en) 2011-12-01
EP2577585A4 (en) 2016-04-20
WO2011149527A1 (en) 2011-12-01
CN102262765B (zh) 2014-08-06
JP2013543154A (ja) 2013-11-28
CN102262765A (zh) 2011-11-30
HK1159830A1 (en) 2012-08-03

Similar Documents

Publication Publication Date Title
JP5714702B2 (ja) 商品情報の乱雑さの解析
US10255354B2 (en) Detecting and combining synonymous topics
Bafna et al. Feature based summarization of customers’ reviews of online products
Patel et al. A survey on fake review detection using machine learning techniques
JP6022056B2 (ja) 検索結果の生成
US20130060769A1 (en) System and method for identifying social media interactions
US20150310116A1 (en) Providing search results corresponding to displayed content
US20230177360A1 (en) Surfacing unique facts for entities
Wang et al. Targeted disambiguation of ad-hoc, homogeneous sets of named entities
US20200042508A1 (en) Artificial intelligence system and method for auto-naming customer tree nodes in a data structure
CN110399614B (zh) 用于真产品词识别的系统、方法和计算机可读介质
US20120316865A1 (en) Information processing apparatus, information processing method, and program
Piryani et al. Generating aspect-based extractive opinion summary: Drawing inferences from social media texts
WO2016191912A1 (en) Comment-centered news reader
US10262063B2 (en) Method and system for providing alternative result for an online search previously with no result
Duque et al. Can multilinguality improve biomedical word sense disambiguation?
US11803796B2 (en) System, method, electronic device, and storage medium for identifying risk event based on social information
Fuchs et al. Intent-driven similarity in e-commerce listings
US10303745B2 (en) Pagination point identification
Rodrigues et al. Konkani text summarization by sentence extraction
TWI518613B (zh) How to publish product information and website server
WO2012124213A1 (ja) 要約作成装置、要約作成方法、およびコンピュータ読み取り可能な記録媒体
JP5191554B2 (ja) 理解度計算装置、理解度計算方法、及びプログラム
JP6153262B2 (ja) 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ
Zhao et al. Hierarchical Online Comment Classification for Internet Word of Mouth Management

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131218

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150311

R150 Certificate of patent or registration of utility model

Ref document number: 5714702

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees