JP2020042403A - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP2020042403A
JP2020042403A JP2018167855A JP2018167855A JP2020042403A JP 2020042403 A JP2020042403 A JP 2020042403A JP 2018167855 A JP2018167855 A JP 2018167855A JP 2018167855 A JP2018167855 A JP 2018167855A JP 2020042403 A JP2020042403 A JP 2020042403A
Authority
JP
Japan
Prior art keywords
product
information
category
unit
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018167855A
Other languages
English (en)
Other versions
JP7082014B2 (ja
Inventor
圭一郎 永島
Keiichiro Nagashima
圭一郎 永島
村上 知子
Tomoko Murakami
知子 村上
智大 田中
Tomohiro Tanaka
智大 田中
立石 健二
Kenji Tateishi
健二 立石
弘樹 藤田
Hiroki Fujita
弘樹 藤田
鈴木 雅彦
Masahiko Suzuki
雅彦 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LY Corp
Original Assignee
Z Holdings Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Z Holdings Corp filed Critical Z Holdings Corp
Priority to JP2018167855A priority Critical patent/JP7082014B2/ja
Publication of JP2020042403A publication Critical patent/JP2020042403A/ja
Application granted granted Critical
Publication of JP7082014B2 publication Critical patent/JP7082014B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

【課題】より広範に仕様情報を補完することができる情報処理装置、情報処理方法、及びプログラムを提供することである。【解決手段】情報処理装置は、ネットワークを介して販売される商品に関するデータであって、フォーマットとして複数の情報種別の仕様情報が規定されている商品データを取得する取得部と、前記取得部により取得された一以上の情報種別の前記仕様情報から他の情報種別の仕様情報を推定する際に、前記他の情報種別に対応した推定手段により推定を行う推定部と、を備える。【選択図】図6

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。
ショッピングサイトなどで商品を販売する場合、販売者がそれらの商品に関する仕様情報を入力し、入力された仕様情報がサイトに表示される場合がある。販売者が仕様情報を十分に入力しない場合、購買者は、自身が購入する商品を適切に検索できない場合があった。これに対し、特定マッピング関係に基づいて、入力されていない仕様情報を補完する技術が知られている(例えば、特許文献1参照)。
特表2015−531126号公報
しかしながら、従来の技術では、特定マッピング関係が確立されていない仕様情報を補完することができない場合があった。
本発明は、上記の課題に鑑みてなされたものであり、より広範に仕様情報を補完することができる情報処理装置、情報処理方法、及びプログラムを提供することを目的としている。
本発明の一態様は、ネットワークを介して販売される商品に関するデータであって、フォーマットとして複数の情報種別の仕様情報が規定されている商品データを取得する取得部と、前記取得部により取得された一以上の情報種別の前記仕様情報から他の情報種別の仕様情報を推定する際に、前記他の情報種別に対応した推定手段により推定を行う推定部と、を備える情報処理装置である。
本発明の一態様によれば、より広範に仕様情報を補完することができることができる。
本実施形態に係る情報処理装置の機能を含む情報処理システム1の一例を示す図である。 ショッピングサーバ20により提供されるウェブページをブラウザが再生することによって表示される画面の一例を示す図である。 入稿管理装置30により提供されるウェブページをブラウザが再生することによって表示される画面の一例を示す図である。 カテゴリ選択に係るウェブページをブラウザが再生することによって表示される画面の一例を示す図である。 入稿管理装置30に入稿された商品に関する情報の一例を示す図である。 本実施形態に係るショッピングサーバ20の構成の一例を示す図である。 欠落商品データリスト404の内容の一例を示す図である。 NN処理部306により実行される処理の流れの一例を示すフローチャートである。 分類器500の構成の一例を示す図である。 時間経過に応じたRNN550の処理内容を並列に展開した図である。 カテゴリの推定結果の一例を示す図である。 ブランドマッチング処理部308により実行されるの処理の流れの一例を示すフローチャートである。 ブランド商品辞書情報408の内容の一例を示す図である。 セット情報410の内容の一例を示す図である。 ロジスティック回帰処理部310により実行される性能情報の推定処理の流れの一例を示すフローチャートである。 ロジスティック回帰処理部310により実行されるロジスティック回帰モデルの学習処理の流れの一例を示すフローチャートである。 ロジスティック回帰モデルの学習に用いられる教師データ412の内容の一例を示す図である。 JANコードマッチング処理部312により実行される処理の流れの一例を示すフローチャートである。 JANコード辞書情報414の内容の一例を示す図である。 商品名のテキストの一例を示す図である。 販売サイトに商品を登録する際の商品登録画面の一例を示す図である。 販売サイトに商品を登録する際の商品登録画面の他の例を示す図である。
以下、本発明を適用した情報処理装置、情報処理方法、及びプログラムを、図面を参照して説明する。
[概要]
情報処理装置は、一以上のプロセッサにより実現される。情報処理装置は、ネットワークを介して販売される商品又はサービス(以下、商品等)に関するデータであって、フォーマットとして複数の情報種別を含んで構成される仕様情報が規定されている商品データを取得する。以下、商品、又はサービスをまとめて単に「商品」と称して説明する。情報種別とは、例えば、商品名、商品説明、カテゴリ、商品の性能情報、商品を識別可能な識別情報(例えば、JAN(Japanese Article Number)コード)等である。情報処理装置は、取得された一以上の情報種別の仕様情報から、他の情報種別の仕様情報を推定する際に、推定する他の情報種別に対応した推定手段により推定を行う。ここで、情報種別は、特徴がそれぞれ異なるため、推定手段もそれぞれ異なるものを使用した方が、より適切に推定することができる。これによって、情報処理装置は、従来の方法では困難であった仕様情報の補完をすることができ、より広範に仕様情報を補完することができる。情報処理装置は、例えば、ショッピングサーバの一機能として実現される。これに限らず、情報処理装置は、ショッピングサーバに情報提供する装置であってもよい。また、情報処理装置は、ショッピングサーバではなく、検索サイトやSNS(Social Networking Service)、メールサービスなどの各種サービスを提供するサーバに内蔵され、またはこれらに情報提供する装置であってもよい。
<実施形態>
[全体構成]
図1は、本実施形態に係る情報処理装置の機能を含む情報処理システム1の一例を示す図である。本実施形態に係る情報処理システム1は、例えば、ショッピングサーバ20と、入稿管理装置30と、一以上の端末装置10とを備える。これらの装置は、ネットワークNWを介して接続される。また、これらの装置のうち一部は、他の装置に仮想的な装置として包含されてもよく、例えば、入稿管理装置30の機能の一部、又は全部が、ショッピングサーバ20の機能によって実現される仮想マシンであってもよい。
図1に示す各装置は、ネットワークNWを介して種々の情報を送受信する。ネットワークNWは、例えば、インターネット、WAN(Wide Area Network)、LAN(Local Area Network)、プロバイダ端末、無線通信網、無線基地局、専用回線などを含む。なお、図1に示す各装置の全ての組み合わせが相互に通信可能である必要はなく、ネットワークNWは、一部にローカルなネットワークを含んでもよい。
端末装置10は、例えば、スマートフォンなどの携帯電話、タブレット端末、各種パーソナルコンピュータなどの、入力装置、表示装置、通信装置、記憶装置、および演算装置を備える端末装置である。通信装置は、NIC(Network Interface Card)などのネットワークカード、無線通信モジュールなどを含む。端末装置10では、ウェブブラウザやアプリケーションプログラムなどのUA(User Agent)が起動する。端末装置10には、購買者端末装置10aと販売者端末装置10bがある。購買者端末装置10aは、販売サイトの購買者の入力に応じたリクエストを、ショッピングサーバ20に送信する。また、UAが起動された購買者端末装置10aは、ショッピングサーバ20から取得した情報に基づいて、購買者端末装置10aが備える表示装置に各種画像を表示させる。販売者端末装置10bは、販売サイトの販売者の入力に応じたリクエストを、ショッピングサーバ20、又は入稿管理装置30に送信する。また、UAが起動された販売者端末装置10bは、ショッピングサーバ20、又は入稿管理装置30から取得した情報に基づいて、販売者端末装置10bが備える表示装置に各種画像を表示させる。但し、購買者端末装置10aと販売者端末装置10bの間にハードウェア的な相違は無くてもよく、利用者の属性に応じて便宜上、名称を分けているだけである。
ショッピングサーバ20は、例えば、UAとして起動されたウェブブラウザからのリクエストに応じてウェブページを購買者端末装置10aに提供するウェブサーバである。また、ショッピングサーバ20は、UAとして起動されたアプリケーションからのリクエストに応じてコンテンツを端末装置10に提供することで、販売サイトなどの各種ウェブサイトと同様のサービスを提供するアプリケーションサーバであってもよい。ウェブページは、例えば、インターネット上において商品を販売するショッピングサイトやオークションサイト、フリーマーケットサイト等のウェブサイト(以下、総称して「販売サイト」と称する)を構成するウェブページであってよい。また、ショッピングサーバ20は、情報処理装置としての機能を有する。情報処理装置の詳細については、後述する。
図2は、ショッピングサーバ20により提供されるウェブページをブラウザが再生することによって表示される画面の一例を示す図である。販売サイトのウェブページには、例えば、商品の画像(図中R1)、商品のタイトルを表すテキスト(図中R2)、商品の仕様情報(又は、商品の性能情報)を表すテキスト(図中R3)、商品のカテゴリを表すテキスト(図中R4)、商品説明を表すテキスト(図中R5)などが含まれる。この画面は、例えば、販売サイトにクエリを入力して行う検索の結果、表示されるお奨め商品の中から一つの商品が選択されることで表示される。
図1に戻り、入稿管理装置30は、販売者端末装置10bにウェブページその他のインターフェースを提供する。ウェブページは、販売サイトにおいて販売される商品に関する情報を入稿(登録)するウェブサイト(以下、「入稿サイト」)を構成するウェブページであってよい。
図3は、入稿管理装置30により提供されるウェブページをブラウザが再生することによって表示される画面の一例を示す図である。入稿サイトのウェブページには、例えば、商品の画像をアップロードするドラッグ・アンド・ドロップ欄(図中R6)、商品名を入力する入力欄(図中R7)、商品を識別可能な識別情報(以下、JANコード)を入力する入力欄(図中R8)、商品説明を入力する入力欄(図中R9)、カテゴリを選択するカテゴリ選択ウェブページに進むボタン(図中B1)などが含まれる。
図4は、カテゴリ選択に係るウェブページをブラウザが再生することによって表示される画面の一例を示す図である。図4は、図3においてボタンB1をクリックすることによって入稿管理装置30により提供されるウェブページをブラウザが再生することによって表示される画像である。カテゴリ選択に係るウェブページには、商品のカテゴリを選択する選択欄(図中R10)と、選択欄R9によって選択されたカテゴリを、商品のカテゴリとして決定するボタン(図中B2)といったコンテンツが含まれる。販売者は、ウェブページに商品を登録する時に併せて、登録する商品に対して階層的なカテゴリを設定する。
販売サイトでは、一般的に、最も上位の階層には、「ファッション」のような最も抽象的なカテゴリが設定され、2番目に上位の階層には、「ファッション」よりも具体的な「レディースシューズ」のようなカテゴリが設定され、3番目に上位の階層には、「レディースシューズ」よりも具体的な「ローファー、モカシン」のようなカテゴリが設定され、4番目に上位の階層には、「ローファー、モカシン」よりも具体的なサイズなどがカテゴリとして設定される。本実施形態において、カテゴリの階層構造は、最上位階層から最下位階層までの階層数が最大で4つである場合について説明する。
図5は、入稿管理装置30に入稿された商品に関する情報(以下、商品データ)の一例を示す図である。商品データには、販売サイトにおいて商品を識別する識別情報(図示する商品ID)と、商品名と、商品説明と、商品の画像と、商品のカテゴリと、商品のブランド名と、商品の性能情報と、商品のJANコードとを示す情報が、互いに対応付けられた情報である。入稿管理装置30は、入稿された商品データを、ネットワークNWを介してショッピングサーバ20に送信する。商品名と、商品説明と、商品の画像と、商品のカテゴリと、商品のブランド名と、性能情報と、JANコードとのそれぞれは、「情報種別」の一例である。情報種別に対応して入力される各種情報は、仕様情報の一部である。
ここで、商品データに含まれる仕様情報の一部が欠落していると、図2に示すような販売サイトのウェブページに表される情報が少なくなり、購買者による商品の検索精度を高めることが困難である。本実施形態の情報処理装置は、複数の情報種別の仕様情報が含まれる商品データから、欠落している情報種別の仕様情報を、当該欠落している情報種別に対応した推定手段により推定を行い、欠落した情報種別の仕様情報をより広範に補完する。
[ショッピングサーバ20の構成]
図6は、本実施形態に係るショッピングサーバ20の構成の一例を示す図である。ショッピングサーバ20は、例えば、ショッピングサイト提供部200と、記憶部210と、商品データ処理部300と、記憶部400と、を備える。ショッピングサイト提供部200は、例えば、販売管理部202を備える。商品データ処理部300は、例えば、取得部302と、欠落商品データ抽出部304と、NN処理部(ニューラルネットワーク処理部)306と、ブランドマッチング処理部308と、ロジスティック回帰処理部310と、JANコードマッチング処理部312と、商品データ更新部314とを備える。ショッピングサイト提供部200及び商品データ処理部300の各部は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部、又は全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD−ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。また、ショッピングサイト提供部200と商品データ処理部300は、一体のプロセッサによって実現されてもよく、別体のプロセッサによって実現されてもよい。商品データ処理部300と、記憶部400とを合わせたものは、「情報処理装置」の一例である。
記憶部210には、例えば、取扱商品データベース212が記憶される。記憶部400には、例えば、補完前取扱商品データベース402と、欠落商品データリスト404とが記憶される。記憶部210、及び記憶部400は、例えば、RAM(Random Access Memory)、HDD、フラッシュメモリ、SDカード等によって実現される。取扱商品データベース212は、販売サイトにおいて取り扱われる商品の商品データを示す情報である。取扱商品データベース212には、商品の商品データであり、補完後の商品データを1レコードとし、一以上のレコードが含まれる。補完前取扱商品データベース402には、入稿管理装置30から受信した商品の商品データであり、補完前の商品データを1レコードとする、一以上のレコードが含まれる。欠落商品データリスト404の詳細については、後述する。
[ショッピングサイト提供部200について]
販売管理部202は、販売サイトが提供するサービスのうち販売に関する部分の処理を行う。販売管理部202は、例えば、販売サイトのインターフェースとなる各種画面を購買者端末装置10aに提供する。
販売管理部202は、販売サイトのクエリ入力欄に入力されたクエリを検索キーにして取扱商品データベース212を検索し、当該クエリが仕様情報として対応付けられた商品に関するウェブページ(例えば、図2のウェブぺージ)を購買者端末装置10aに提供する。また、販売管理部202は、購買者端末装置10aのユーザ(つまり、購買者)の入力装置に対する操作に応じて画面を遷移させる。販売管理部202は、例えば、購買者端末装置10aに対して購買者によって商品の購入を実行する操作が行われた際に、この取引に係る決済の処理を行う。決済の処理は、例えば、決済の処理を実行する決済サーバ(不図示)に、この売買に係る決済の情報を送信し、決済の処理を依頼する処理である。
[商品データ処理部300について]
取得部302は、入稿管理装置30から入稿された商品データを示す情報を取得する。取得部302は、取得した商品データを1レコードとして補完前取扱商品データベース402に追加し、記憶部400に記憶させる。
欠落商品データ抽出部304は、補完前取扱商品データベース402に含まれるレコードのうち、仕様情報が欠落しているレコード(つまり、商品データ)を抽出する。欠落商品データ抽出部304は、例えば、補完前取扱商品データベース402に含まれるレコードのうち、1つ、又は複数の情報種別の仕様情報が欠落しているレコードを抽出し、欠落商品データリスト404に追加する。
図7は、欠落商品データリスト404の内容の一例を示す図である。図7に示される通り、欠落商品データリスト404は、商品データと同様の情報種別の仕様情報が互いに対応付けられた情報である。欠落商品データリスト404のレコードは、仕様情報のうち、1つ、又は複数の情報種別の仕様情報が欠落している。図7に示される一例では、商品ID「item_A」のレコードが、「カテゴリ」の仕様情報が欠落し、商品ID「item_B」のレコードが、「ブランド名」の仕様情報が欠落し、商品ID「item_C」のレコードが、「性能情報」の仕様情報が欠落し、商品ID「item_C」のレコードが、「JANコード」の仕様情報が欠落している。
図6に戻り、NN処理部306は、情報種別が「商品名」の仕様情報、又は情報種別が「商品説明」の仕様情報に少なくとも欠落がなく、且つ情報種別が「カテゴリ」の仕様情報が欠落している商品データについて、ニューラルネットを用いて「カテゴリ」を推定する。
ブランドマッチング処理部308は、情報種別が「商品名」の仕様情報、又は情報種別が「商品説明」の仕様情報に少なくとも欠落がなく、且つ情報種別が「ブランド名」の仕様情報が欠落している商品データについて、マッチング処理によって「ブランド名」を推定する。
ロジスティック回帰処理部310は、情報種別が「商品名」の仕様情報、又は情報種別が「商品説明」の仕様情報と、情報種別が「カテゴリ」の仕様情報とに少なくとも欠落がなく、且つ情報種別が「性能情報」の仕様情報が欠落している商品データについて、ロジスティック回帰を用いてによって「性能情報」を推定する。
JANコードマッチング処理部312は、情報種別が「商品名」の仕様情報、又は情報種別が「商品説明」の仕様情報に少なくとも欠落がなく、且つ情報種別が「JANコード」の仕様情報が欠落している商品データについて、形態素解析によって「JANコード」を推定する。
商品データ更新部314は、上述したNN処理部306、ブランドマッチング処理部308、ロジスティック回帰処理部310、及びJANコードマッチング処理部312の少なくともいずれかによって推定された仕様情報を、補完前取扱商品データベース402の対応するレコードに反映させ、補完前取扱商品データベース402を更新する。そして、商品データ更新部314は、更新した補完前取扱商品データベース402を取扱商品データベース212として、取扱商品データベース212に記憶させ、取扱商品データベース212を更新する。
NN処理部306、ブランドマッチング処理部308、ロジスティック回帰処理部310、及びJANコードマッチング処理部312のうち一部または全部、或いはこれらの組み合わせは、「推定部」の一例である。以下、NN処理部306、ブランドマッチング処理部308、ロジスティック回帰処理部310、及びJANコードマッチング処理部312の処理の詳細について説明する。
[NN処理部306について]
NN処理部306は、例えば、情報種別が「カテゴリ」の仕様情報が欠落している商品データについて、当該商品データに含まれる商品名と、商品説明とのうち、少なくとも一方をニューラルネットワークに入力することによって、カテゴリを推定する。以降の説明では、NN処理部306が商品データに含まれる商品名、及び商品説明に加えて、商品の画像をカテゴリの推定に用いる場合について説明する。
図8は、NN処理部306により実行される処理の流れの一例を示すフローチャートである。まず、NN処理部306は、欠落商品データリスト404のうち、情報種別が「カテゴリ」の仕様情報が欠落している商品データを取得する(S100)。
次に、NN処理部306は、取得した商品データのうち、ある商品データについて、当該商品データに含まれる商品名と、商品説明とを形態素解析し、商品名と、商品説明とのそれぞれを、複数の形態素に分割する(S102)。形態素解析は、例えばMeCABなどの形態素解析エンジンを利用して行われる。NN処理部306は、形態素として分割した複数の単語(ワード)、又は語句(フレーズ)のそれぞれをベクトル化する。
NN処理部306は、例えば、ワンホット表現と呼ばれる手法を用いて、単語や語句をベクトル化してもよいし、word2vecやGloVeのような分散表現、又は単語埋め込み表現(Word Embedding(s))と呼ばれる手法を用いて、単語や語句をベクトル化してもよい。
ワンホット表現とは、予め用意された単語、又は語句のリスト(辞書)と、形態素解析で得られた単語、又は語句とを比較して、形態素解析で得られた単語、又は語句のうち、リストに出現した単語、又は語句の要素値が1、他の単語、又は語句の要素値が0となるような多次元のベクトルを生成する手法である。
また、分散表現は、形態素解析で得られた単語、又は語句と、その単語、又は語句の前後で出現する単語、又は語句との共起性に基づいて、単語や語句をベクトル化する手法であり、例えば、予め用意された複数の単語や語句を含むコーパスに基づいて、形態素解析で得られた単語、又は語句の前後に出現する単語、又は語句の出現確率を求め、その出現確率を要素値とする多次元のベクトルを生成する手法である。
例えば、NN処理部306は、Countinuous Bag-of-WordsおよびSkip-gramの双方の学習モデルを適用したニューラルネットワークに形態素解析で得られた単語、又は語句を入力することで、その単語や語句が分散表現されたベクトルを生成してよい。
NN処理部306は、ベクトル化した単語、又は語句(以下、単語ベクトルと称する)を行ベクトルとした2階テンソルの行列(以下、単語行列と称する)を生成する。例えば、NN処理部306は、形態素解析によってタイトルを10個の単語に分割した場合、10個の単語ベクトルの其々を行ベクトルとした単語行列(10行×n列の行列:nは単語ベクトルの次元数)を生成する。
次に、NN処理部306は、分類器情報406を参照して、分類器500を構築(生成)し、NN処理部306が生成した単語行列を、構築した分類器500に入力する(S104)。
分類器情報406は、分類器500を定義した情報(プログラム、又はデータ構造)である。分類器500は、例えば、コンボリューショナルニューラルネットワーク(Convolutional Neural Network:CNN)や、リカレントネットワーク(Reccurent Neural Network:RNN)などの種々のニューラルネットワークによって実現される。
分類器情報406には、例えば、各ニューラルネットワークを構成する入力層、一以上の隠れ層(中間層)、出力層の其々に含まれるニューロン(ユニット)が互いにどのように結合されるのかという結合情報や、結合されたニューロン間で入出力されるデータに付与される結合係数などの各種情報が含まれる。結合情報とは、例えば、各層に含まれるニューロン数や、各ニューロンの結合先のニューロンの種類を指定する情報、各ニューロンを実現する活性化関数、隠れ層のニューロン間に設けられたゲートなどの情報を含む。ニューロンを実現する活性化関数は、例えば、正規化線形関数(ReLU関数)であってもよいし、シグモイド関数や、ステップ関数、その他の関数などであってもよい。ゲートは、例えば、活性化関数によって返される値(例えば1、又は0)に応じて、ニューロン間で伝達されるデータを選択的に通過させたり、重み付けたりする。結合係数は、活性化関数のパラメータであり、例えば、ニューラルネットワークの隠れ層において、ある層のニューロンから、より深い層のニューロンにデータが出力される際に、出力データに対して付与される重みを含む。また、結合係数は、各層の固有のバイアス成分などを含んでもよい。
図9は、分類器500の構成の一例を示す図である。本実施形態における分類器500は、例えば、第1CNN510と、第2CNN520と、第3CNN530と、FCNN(Fully-Connected Neural Network)240と、RNN550とによって実現される。
第1CNN510および第2CNN520は、単語行列が入力されると、次元数が所定数のベクトルを出力するように学習されたコンボリューショナルニューラルネットワークである。
例えば、単語行列を、各要素値が画素値に置き換わった画像とした場合、第1CNN510および第2CNN520は、入力された単語行列に相当する画像と所定のフィルタとを畳み込み(内積を求め)、所定のフィルタと重なる複数の画素を含む画像領域を、一つの単位領域に圧縮する。この単位領域には、畳み込みにより得られた単変量値が特徴量として対応付けられている。第1CNN510および第2CNN520は、画像上で所定のフィルタをシフト移動させながら畳み込み処理を繰り返し、複数の単位領域により形成されたコンボリューショナルレイヤと呼ばれる畳み込みの特徴量を画素値とした特徴画像を生成する。第1CNN510および第2CNN520は、各特徴画像のサイズ(次元数)をプーリング(例えばGlobal Average Pooling)などによって圧縮し、この結果を出力する。圧縮した特徴画像の其々には、単変量の特徴量が対応付けられているため、畳み込み処理の回数分だけ、畳み込みの特徴量を要素としてもつ多次元ベクトル(1階テンソル)が出力される。
第3CNN530は、画像が入力されると、次元数が所定数のベクトルを出力するように学習されたコンボリューショナルニューラルネットワークである。第3CNN530は、第1CNN510および第2CNN520と同様に、畳み込み処理の回数分の要素をもち、それらの要素が畳み込みの特徴量である多次元ベクトル(1階テンソル)を出力する。
例えば、NN処理部306は、商品タイトルから得られた単語行列を第1CNN510に入力し、商品概要から得られた単語行列を第2CNN520に入力し、商品画像を第3CNN530に入力する。これによって、各CNNは、入力されたデータを所定の次元数のベクトルに変換してFCNN540に出力する。
FCNN540は、各層のユニットの其々が、より階層の深い次の層のユニットの其々と接続されたニューラルネットワークである。なお、FCNN540は、中間層がない入力層のユニットの其々と出力層のユニットの其々とが互いに接続された2つの層であってもよい。例えば、FCNN540は、第1CNN510から出力されたベクトルの次元数が500、第2CNN520から出力されたベクトルの次元数が500、第3CNN530から出力されたベクトルの次元数が200である場合、それらの全てのベクトルの次元数の総和である1200次元の一つのベクトルを出力する。
RNN550は、例えば、ネットワークの中間層がLSTM(Long short-term memory)であるRNNであり、1階テンソルであるベクトルが入力されると、そのベクトルの元になったタイトルや概要、画像に対応する商品の分類先とするカテゴリの確からしさ(尤もらしさ)を表すスコアを階層ごとに出力するように学習されたニューラルネットワークである。例えば、LSTMは、重みと状態変数との内積を計算する。式(1)は、LSTMのゲートおよびニューロンの計算式を表している。状態変数とは、各ゲートによって求められるベクトルである。
Figure 2020042403
tは、RNN550によって繰り返し行われる再帰処理の処理周期(処理時刻)を表しており、xは、処理周期tにおいてFCNN540から入力されるベクトル(以下、入力ベクトル)を表し、hは、処理周期tにおいてRNN550により出力されるベクトル(以下、出力ベクトル)を表している。再帰処理とは、過去の処理周期で求めた出力ベクトルを、今回の処理周期での出力ベクトルの導出に利用することである。
は、LSTMに含まれるインプットゲートによって出力されるベクトル(以下、インプットゲートベクトル)を表しており、σは、ゲートの活性化関数がシグモイド関数であることを表しており、Wは、入力ベクトルxを線形変換するための重みを表しており、Rは、前回の処理周期t−1の出力ベクトルht−1を線形変換するための重みを表しており、Qは、メモリーセルに記憶された前回の処理周期t−1の内部演算ベクトルct−1を線形変換するための重みを表しており、bは、インプットゲートのバイアス成分を表している。メモリーセルとは、一時的に内部演算ベクトルcを記憶させておくための記憶領域(LSTMブロック)である。
例えば、RNN550は、重みWと入力ベクトルxとの内積値と、重みRと前回の出力ベクトルht−1との内積値と、重みQと前回の内部演算ベクトルct−1とのアダマール積(要素ごとの積)と、バイアス成分bとの和を変数としたシグモイド関数σを解くことで、処理周期tのインプットゲートベクトルiを導出する。
は、LSTMに含まれるフォーゲットゲートによって出力されるベクトル(以下、フォーゲットゲートベクトル)を表しており、Wは、重みWと同様に、入力ベクトルxを線形変換するための重みを表しており、Rは、重みRと同様に、前回の処理周期t−1の出力ベクトルht−1を線形変換するための重みを表しており、Qは、重みQと同様に、メモリーセルに記憶された前回の処理周期t−1の内部演算ベクトルct−1を線形変換するための重みを表しており、bは、フォーゲットゲートのバイアス成分を表している。
例えば、RNN550は、重みWと入力ベクトルxとの内積値と、重みRと前回の出力ベクトルht−1との内積値と、重みQと前回の内部演算ベクトルct−1とのアダマール積と、バイアス成分bとの和を変数としたシグモイド関数σを解くことで、処理周期tのフォーゲットゲートベクトルfを導出する。
は、LSTMに含まれるメモリーセルに記憶させる内部演算ベクトルを表している。
例えば、RNN550は、処理周期tのフォーゲットゲートベクトルfおよび後述するベクトルzのアダマール積と、処理周期t−1の内部演算ベクトルct‐1および処理周期tのフォーゲットゲートベクトルfのアダマール積との和を、処理周期tの内部演算ベクトルcとして導出する。
は、重みWと入力ベクトルxとの内積値と、重みRと前回の出力ベクトルht−1との内積値と、バイアス成分bとの和を変数としたハイパポリックタンジェント関数tanhを解くことで導出される。Wは、重みWやWと同様に、入力ベクトルxを線形変換するための重みを表しており、Rは、重みRやRと同様に、前回の処理周期t−1の出力ベクトルht−1を線形変換するための重みを表しており、bは、メモリーセルのバイアス成分を表している。
は、LSTMに含まれるアウトプットゲートによって出力されるベクトル(以下、アウトプットゲートベクトル)を表しており、Wは、重みWなどと同様に、入力ベクトルxを線形変換するための重みを表しており、Rは、重みRなどと同様に、前回の処理周期t−1の出力ベクトルht−1を線形変換するための重みを表しており、Qは、メモリーセルに記憶された今回の処理周期tの内部演算ベクトルcを線形変換するための重みを表しており、bは、アウトプットゲートのバイアス成分を表している。
例えば、RNN550は、重みWと入力ベクトルxとの内積値と、重みRと前回の出力ベクトルht−1との内積値と、重みQと今回の内部演算ベクトルcとのアダマール積と、バイアス成分bとの和を変数としたシグモイド関数σを解くことで、処理周期tのアウトプットゲートベクトルoを導出する。
RNN550は、アウトプットゲートベクトルoを導出すると、アウトプットゲートベクトルoと、内部演算ベクトルcを変数としたハイパポリックタンジェント関数tanhの解とのアダマール積を、処理周期tの出力ベクトルhとして導出する。
出力ベクトルhの各要素値は、階層ごとのカテゴリのスコアを表している。例えば、h={e1,e2,e3,…e9,e10}であった場合、要素e1は、商品がカテゴリ1であることの確からしさを示すスコア(確率)を表し、要素e2は、商品がカテゴリ2であることの確からしさを示すスコアを表し、要素e3は、商品がカテゴリ3であることの確からしさを示すスコアを表し、以下、同様に、e4〜e10の各要素が、対応するカテゴリのスコアを表している。RNN550は、上述した数式に基づく計算を繰り返すことで、出力ベクトルを繰り返し導出する。
図10は、時間経過に応じたRNN550の処理内容を並列に展開した図である。例えば、FCNN540から入力ベクトルxt1が入力された初回の処理周期t1では、RNN550は、出力ベクトルht1を出力する。初回の処理周期t1の出力ベクトルht1は、最も上位階層のカテゴリのスコアを要素として含んでおり、各要素は、例えば、ファッションや食品、家電、インテリア、スポーツ、ヘルスケア、自動車といったような各カテゴリのスコアである。
次の処理周期t2では、RNN550は、初回の処理周期t1に入力された入力ベクトルxt1と、前回の処理周期t1の出力ベクトルht1とに基づいて、出力ベクトルht2を出力する。処理周期t2の出力ベクトルht2は、2番目の階層のカテゴリのスコアを要素として含んでいる。例えば、最上位階層のカテゴリのスコアのうち、「ファッション」のスコアが最も大きい場合、「ファッション」のスコアが出力ベクトルht2に最も反映されるため、出力ベクトルht2の各要素は、コートやジャケット、トップス、ボトムス、レディースシューズ、レディースバッグといったように、「ファッション」というカテゴリの下位階層のカテゴリのスコアとなる。
次の処理周期t3では、RNN550は、初回の処理周期t1に入力された入力ベクトルxt1と、前回の処理周期t2の出力ベクトルht2とに基づいて、出力ベクトルht3を出力する。処理周期t3の出力ベクトルht3は、3番目の階層のカテゴリのスコアを要素として含んでいる。例えば、2番目の階層のカテゴリのスコアのうち、「レディースシューズ」のスコアが最も大きい場合、「レディースシューズ」のスコアが出力ベクトルht3に最も反映されるため、出力ベクトルht3の各要素は、スリッポンやパンプス、スニーカー、モカシン、サンダルといったように、「レディースシューズ」というカテゴリの下位階層のカテゴリのスコアとなる。
このように、RNN550は、再帰処理を繰り返すことで、より階層が深いカテゴリのスコアを要素とする出力ベクトルを導出する。なお、RNN550は、最下層のカテゴリのスコアを要素とする出力ベクトルを導出するまで、再帰的に出力ベクトルを導出することを繰り返すものとする。例えば、RNN550の学習時に、最下層のカテゴリに対して所定の付加的情報(以下、エンドラベルと称する)が付与された商品データが利用された場合、RNN550は、エンドラベルが付与されたカテゴリのスコアを要素とする出力ベクトルを導出するまで再帰処理を繰り返す。これによって、例えば、「ファッション」のカテゴリの下位のカテゴリに「レディースシューズ」と「レディースバッグ」というカテゴリが存在し、それらのカテゴリから最下層のカテゴリまでに存在する階層数が互いに異なる場合でも、エンドラベルが付与されたカテゴリの階層までの階層数と同じ回数だけ再帰処理を繰り返すため、RNN550の再帰処理の回数(図10中のk)というハイパーパラメータを調整せずとも、各カテゴリの種類に応じて再帰処理の回数を動的に変更しながらスコアを求めることができる。
図8に戻り、次に、NN処理部306は、分類器500からカテゴリの推定結果を取得し、その推定結果に基づいて商品のカテゴリを推定する(S106)。カテゴリの推定結果には、RNN550が再帰処理ごとに出力した出力ベクトルが含まれており、その出力ベクトルには、最上層から最下層までの各階層のカテゴリのスコアの結果が要素として含まれている。NN処理部306は、S100において取得されたすべての商品データについて、S102〜S106の処理が行われるまでの間、処理を繰り返し(S108)、処理を終了する。
図11は、カテゴリの推定結果の一例を示す図である。図示のように、商品IDごとに、各階層のカテゴリが対応付けられた情報が推定結果として取得される。図中Cijの「i」は、階層の深さ(最上位の階層から数えて何番目の階層であるのか)を表し、「j」は、各階層のカテゴリの種類を表し、且つ出力ベクトルの各要素のうち最も値が大きい要素に対応したカテゴリを表している。すなわち、種類jのカテゴリは、最もスコアが大きく、商品の分類先として最も確からしいカテゴリを表している。
例えば、商品IDが「item_A」の商品に関する商品データを分類器500に入力したときに得られた出力ベクトルhが{e1,e2,e3,…e9,e10}であり、要素e1〜e10の其々が「1」〜「10」の其々のカテゴリのスコアに対応しているとする。このような場合に、要素e1が最も大きい場合、NN処理部306は、最上位の階層のカテゴリとして「1」というカテゴリが最も確からしいため、その商品の最上位の階層のカテゴリを「1」に決定する。また、2回目の再帰処理の出力ベクトルht+1が{e1,e2,e3,…e9,e10}であり、その中で要素e5が最も大きい場合、NN処理部306は、2番目の階層のカテゴリとして「5」というカテゴリが最も確からしいため、その商品の2番目の階層のカテゴリを「5」と推定する。
[ブランドマッチング処理部308について]
ブランドマッチング処理部308は、例えば、情報種別が「ブランド名」の仕様情報が欠落している商品データについて、当該商品データに含まれる商品名と、商品説明とのうち、少なくとも一方と、ブランド商品辞書情報408とに基づいて、マッチング処理を行い、ブランド名を推定する。以降の説明では、ブランドマッチング処理部308が、商品データに含まれる商品名、及び商品説明をブランド名の推定に用いる場合について説明する。
図12は、ブランドマッチング処理部308により実行されるの処理の流れの一例を示すフローチャートである。まず、ブランドマッチング処理部308は、欠落商品データリスト404のうち、情報種別が「ブランド名」の仕様情報が欠落している商品データを取得する(S200)。次に、ブランドマッチング処理部308は、取得した商品データのうち、ある商品データについて、当該商品データに含まれる商品名と、商品説明とを形態素解析し、商品名と、商品説明とのそれぞれを複数の形態素に分割する(S202)。ブランドマッチング処理部308による商品名と商品説明との形態素解析処理は、NN処理部306による商品名と商品説明との形態素解析処理と同様であるため、説明を省略する。次に、ブランドマッチング処理部308は、形態素解析で得られた単語、又は語句と、ブランド商品辞書情報408に含まれる商品名とが一致、又は合致するか否かを判定する(S204)。
図13は、ブランド商品辞書情報408の内容の一例を示す図である。図13に示される通り、ブランド商品辞書情報408は、ブランド商品辞書を示す情報である。ブランド商品辞書には、ブランド名と、当該ブランド名のブランドの商品の商品名とが互いに対応付けられる。ブランド商品辞書は、例えば、各ブランドによって予め生成されてもよく、販売サイトに予め定められてもよい。なお、ブランド商品辞書には、同一の商品の商品名として複数の商品名(例えば、カタカナや英語等の異なる文字表記)が含まれていてもよい。ブランドマッチング処理部308は、形態素解析で得られた単語、又は語句を検索キーにしてブランド商品辞書を検索し、当該単語、又は語句が商品名として対応付けられたブランド名を特定する。
図12に戻り、ブランドマッチング処理部308は、特定したブランド名を、当該商品データのブランド名と推定する(S206)。ブランドマッチング処理部308は、S200において取得されたすべての商品データについて処理が行われるまでの間、S202〜S206の処理を繰り返し(S208)、処理を終了する。
[ロジスティック回帰処理部310について]
ロジスティック回帰処理部310は、例えば、情報種別が「性能情報」の仕様情報が欠落している商品データについて、当該商品データに含まれるカテゴリに基づいて、性能情報のセットを特定し、当該商品データに含まれる商品名、又は商品説明に基づくロジスティック回帰を行って、性能情報のセットを補完するように、性能情報を推定する。以降の説明では、ロジスティック回帰処理部310が商品データに含まれる商品名、及び商品説明を性能情報の推定に用いる場合について説明する。
ここで、性能情報のセットについて説明する。図14は、セット情報410の内容の一例を示す図である。セット情報410は、性能情報のセットを示す情報である。性能情報のセットは、ある商品の性能情報を一以上組み合わせたセットである。性能情報のセットは、カテゴリ毎に組み合わせられる性能情報がそれぞれ異なる。性能情報のセットとして組み合わせられる性能情報は、例えば、予め販売サイトによって規定される。図14において、セット情報410には、最上位階層のカテゴリと、当該カテゴリに対応する性能情報とが互いに対応付けられた、最上位階層のカテゴリ毎の性能情報のセットが含まれる。性能情報のセットに含まれる性能情報は、例えば、2値によって選択可能な情報である。例えば、図14において、最上位階層のカテゴリである「時計」には、「時計」の性能を示す際に用いられる性能情報のセットとして、「GPS(Global Positioning System)機能 有/無」、「動力 (電池/自動巻き)」、及び「防水機能 有/無」の性能情報が組み合わせられる。
なお、2値によって選択することが困難な性能情報(カテゴリが「時計」であれば、例えば、色、寿命、素材等)については、選択肢のそれぞれを性能情報としてもよい。選択肢のそれぞれを性能情報とする場合、色の性能情報でれば、例えば、「茶 正/否」、「黒 正/否」、或いは「ゴールド 正/否」等である。以降の説明において、性能情報の2値の情報(例えば、有無、電池/自動巻き等)を、正否とも記載する。
以下、ロジスティック回帰モデルを用いた性能情報の推定処理について説明し、次にロジスティック回帰モデルの学習(生成)方法について説明する。本実施形態では、ロジスティック回帰処理部310が教師データに基づいてジスティック回帰モデルを学習する処理を行う場合について説明する。
図15は、ロジスティック回帰処理部310により実行される性能情報の推定処理の流れの一例を示すフローチャートである。まず、ロジスティック回帰処理部310は、欠落商品データリスト404のうち、情報種別が「性能情報」の仕様情報が欠落している商品データを取得する(S300)。次に、ロジスティック回帰処理部310は、取得した商品データのうち、ある商品データ(以下、対象商品データ)について、当該商品データに含まれるカテゴリに基づいて、性能情報のセットを特定する。(S302)。次に、ロジスティック回帰処理部310は、対象商品データに含まれる商品名と、商品説明とのそれぞれを、複数の形態素に分割する(S304)。ロジスティック回帰処理部310による商品名と商品説明との形態素解析処理は、NN処理部306、及びブランドマッチング処理部308による商品名と商品説明との形態素解析処理と同様であるため、説明を省略する。
次に、ロジスティック回帰処理部310は、S302において特定された性能情報のセットのうち、推定対象の性能情報(以下、対象性能情報)の第1ロジスティック回帰モデルに、S304の形態素解析によって得た単語、又は語句を入力し、出力として性能情報が正である確率(以下、正側目的変数y1)を取得する(S306)。第1ロジスティック回帰モデルは、性能情報のセットが正であることを推定する際に用いられるロジスティック回帰モデルである。次に、ロジスティック回帰処理部310は、第2ロジスティック回帰モデルに、S304の形態素解析によって得た単語、又は語句を入力し、出力として性能情報が否である確率(以下、否側目的変数y2)を取得する(S308)。第2ロジスティック回帰モデルは、性能情報が否であることを推定する際に用いられるロジスティック回帰モデルである。各性能情報に対応する第1ロジスティック回帰モデル、及び第2ロジスティック回帰モデルは、後述するロジスティック回帰処理部310の処理によって学習され、記憶部400に記憶される。以降の説明において、正側目的変数y1、及び否側目的変数y2を互いに区別しない場合には、総称して目的変数yと記載する。目的変数yの導出方法は、式(2)によって示される。
Figure 2020042403
式(2)において、eは、自然対数の底である。回帰係数{α、α、…α}は、性能情報毎に値が異なり、ロジスティック回帰モデルの学習によって値が定められる。説明変数{β、β、…β}は、目的変数yに影響を及ぼす変数であり、説明変数{β、β、…β}の各要素には、形態素解析によって得た単語、又は語句が対応する。例えば、説明変数の要素βが、「衛星」という単語に対応する場合、S304の形態素解析によって得た単語、又は語句に「衛星」が含まれる場合、要素βは「1」の値をとり、含まれない場合、要素βは「0」の値をとる。
次に、ロジスティック回帰処理部310は、取得した正側目的変数y1と、否側目的変数y2とに基づいて、性能情報を推定する(S310)。例えば、ロジスティック回帰処理部310は、正側目的変数y1が第1閾値より大きく、且つ否側目的変数y2が、第2閾値未満である場合に、対象性能情報が正であると推定し、正側目的変数y1が第3閾値未満であり、且つ否側目的変数y2が第4閾値閾値より大きい場合に、対象性能情報が否であると推定する。各閾値は、第1閾値>第2閾値、第3閾値<第4閾値の関係である。第1閾値及び第3閾値と、第2閾値及び第4閾値とは、それぞれ同じ値であってもよく、異なる値であってもよい。
ロジスティック回帰処理部310は、S302において特定された性能情報のセットのうち、すべての性能情報について処理が行われるまでの間、S304〜S310の処理を繰り返し(S312)、S300において取得されたすべての商品データについて処理が行われるまでの間、S302〜S312の処理を繰り返し(S314)、処理を終了する。
図16は、ロジスティック回帰処理部310により実行されるロジスティック回帰モデルの学習処理の流れの一例を示すフローチャートである。まず、ロジスティック回帰処理部310は、ロジスティック回帰モデルの学習対象の性能情報を決定する(S400)。次に、ロジスティック回帰処理部310は、決定した性能情報(以下、学習性能情報)が性能情報のセットに含まれる商品データであり、且つ当該学習性能情報と、商品名、又は商品説明とが欠落していない商品データを抽出する(S402)。次に、ロジスティック回帰処理部310は、抽出した商品データのうち、ある商品データについて、当該商品データに含まれる商品名と、商品説明とを形態素解析し、商品名と、商品説明とのそれぞれを複数の形態素に分割する(S404)。S404の処理において、ロジスティック回帰処理部310は、形態素解析で得られた単語、又は語句のうち、重複する単語、又は語句をフィルタリングする。したがって、ロジスティック回帰処理部310の形態素解析で得られた単語、又は語句には、重複する単語、又は語句が存在しないものとする。ロジスティック回帰処理部310は、S402において抽出されたすべての商品データについてS404の処理を繰り返す(S406)。
次に、ロジスティック回帰処理部310は、形態素解析で得られた単語、又は語句に基づいて、ロジスティック回帰モデルの教師データ412を生成する(S408)。図17は、ロジスティック回帰モデルの学習に用いられる教師データ412の内容の一例を示す図である。図17に示される教師データ412は、学習対象性能情報が「GPS機能 有/無」を推定する際に用いられるロジスティック回帰モデルを学習するためのデータである。図17において、教師データ412は、商品IDと、説明変数{β、β、…β}とが互いに対応付けられたレコードを、一以上含むデータである。ロジスティック回帰処理部310は、例えば、教師データ412を生成し、記憶部400に記憶させる。
図17において、補完前取扱商品データベース402には、性能情報として「GPS機能 有/無」が含まれる商品データとして、商品IDが「item_V」〜「item_Z」の5つの商品の商品データが含まれており、ロジスティック回帰処理部310は、S400において当該5つの商品の商品データを抽出する。「item_V」〜「item_Z」の商品の中で、「item_V」〜「item_X」の商品が、「GPS機能 有」の商品であり、「item_Y」〜「item_Z」の商品が、「GPS機能 無」の商品である。
説明変数{β、β、…β}の各要素は、形態素解析で得られた単語、又は語句にそれぞれ対応する。なお、図中iは、ステップS304の形態素解析で得られた単語、又は語句の数(ただし、重複する単語、又は語句を除く)である。図16において、説明変数の要素βは、「衛星」という単語に対応し、要素βは、「ソーラー」という単語に対応し、要素βは、「長時間」という単語に対応する。
ロジスティック回帰処理部310は、各商品データを形態素解析で得られた単語、又は語句に基づいて、各商品IDに対応する説明変数{β、β、…β}の各要素に値を付す。ロジスティック回帰処理部310は、例えば、形態素解析で得られた単語、又は語句に、説明変数{β、β、…β}のある要素に対応する単語、又は語句が含まれる場合、当該要素の値として「1」を付し、含まれない場合、当該要素の値として「0」を付す。
図16に戻り、ロジスティック回帰処理部310は、生成した教師データ412に基づいて、第1ロジスティック回帰モデルの回帰係数{α、α、…α}と、及び第2ロジスティック回帰モデルの回帰係数{α、α、…α}とをそれぞれ学習する(S410)。ロジスティック回帰処理部310は、上述した式(2)の説明変数{β、β、…β}として、S408において生成した教師データ412のレコードを代入し、且つ目的変数yに当該レコードの性能情報の正否(つまり、「1」又は「0」)を代入することによって、回帰係数{α、α、…α}を導出する。そして、ロジスティック回帰処理部310は、導出された複数の回帰係数{α、α、…α}を最小二乗法や、最尤推定によって推定することにより、ロジスティック回帰モデルを学習する。ロジスティック回帰処理部310は、すべての性能情報について、S400〜S410の処理が行われるまでの間、処理を繰り返し(S412)、学習したロジスティック回帰モデルを400に記憶させ、処理を終了する。
[JANコードマッチング処理部312について]
JANコードマッチング処理部312は、例えば、情報種別が「JANコード」の仕様情報が欠落している商品データについて、当該商品データに含まれる商品名と、商品説明とのうち、少なくとも一方と、JANコード辞書情報414とに基づいて、マッチング処理を行い、JANコードを推定する。以降の説明では、JANコードマッチング処理部312が、商品データに含まれる商品名、及び商品説明をJANコードの推定に用いる場合について説明する。
図18は、JANコードマッチング処理部312により実行される処理の流れの一例を示すフローチャートである。まず、JANコードマッチング処理部312は、欠落商品データリスト404のうち、情報種別が「JANコード」の仕様情報が欠落している商品データを取得する(S500)。次に、JANコードマッチング処理部312は、取得した商品データのうち、ある商品データについて、当該商品データに含まれる商品名と、商品説明とを形態素解析し、商品名と、商品説明とのそれぞれを複数の形態素に分割する(S502)。JANコードマッチング処理部312による商品名と商品説明との形態素解析処理は、NN処理部306、ブランドマッチング処理部308、及びロジスティック回帰処理部310による商品名と商品説明との形態素解析処理と同様であるため、説明を省略する。次に、JANコードマッチング処理部312は、形態素解析で得られた単語、又は語句と、JANコード辞書に含まれる商品名とが一致、又は合致するか否かを判定する(S504)。
図19は、JANコード辞書情報414の内容の一例を示す図である。図19に示される通り、JANコード辞書情報414は、JANコード辞書を示す情報である。JANコード辞書には、JANコードと、当該JANコードのブランドの商品の商品名とが互いに対応付けられる。なお、JANコードには、同一の商品の商品名として複数の商品名(例えば、カタカナや英語等の異なる文字表記)が含まれていてもよい。JANコードマッチング処理部312は、形態素解析で得られた単語、又は語句を検索キーにしてJANコード辞書を検索し、当該単語、又は語句が商品名として対応付けられたJANコードを特定する。
JANコードマッチング処理部312は、例えば、補完前取扱商品データベース402のうち、JANコードが欠落していない商品データに含まれる商品名や商品説明に基づいて、予めJANコード辞書を生成してもよい。また、JANコード辞書は、JANコードを申請する企業(例えば、商品の製造者や販売者)から提供されるものであってもよい。
図18に戻り、ロジスティック回帰処理部310は、特定したJANコードを、当該商品のJANコードと推定する(S506)。JANコードマッチング処理部312は、S500において取得されたすべての商品データについて処理が行われるまでの間、S502〜S508の処理を繰り返し(S508)、処理を終了する。
なお、上述では、JANコードマッチング処理部312が商品名、及び商品説明を形態素解析する場合について説明したが、これに限られない。JANコードマッチング処理部312は、商品名、及び商品名に形態素解析とは異なる処理を行い、商品名に対応する単語、又は語句を取得してもよい。図20は、商品名のテキストの一例を示す図である。図20に示される通り、販売サイトでは、一般的に、商品名や商品説明として、商品に関するテキストがスペース区切りによって入力される。JANコードマッチング処理部312は、商品名、及び商品説明の、スペースによって区切られる1つのブロックを、単語、及び語句として取得してもよい。なお、この場合、JANコードマッチング処理部312は、商品そのものの特徴に関するテキスト以外のテキスト(例えば、「明日着」や「10%OFF」等)をフィルタリングしてもよい。
[実施形態のまとめ]
以上説明したように、本実施形態のショッピングサイト提供部200は、複数の情報種別の仕様情報が規定されている商品データについて、一以上の情報種別(この一例では、商品名、商品説明、商品の画像、商品のカテゴリ、商品のブランド名、性能情報、及びJANコード)の仕様情報から、他の情報種別の仕様情報を推定する際に、推定対象の情報種別に対応した推定手段(この一例では、ニューラルネットワーク、マッチング処理、ロジスティック回帰、及び形態素解析)に対応した推定手段により推定を行うことにより、商品データの仕様情報をより広範に補完することができ、その結果、商品の検索精度を向上させることができる。
[変形例]
以下、上述した実施形態の変形例について説明する。実施形態では、商品データのうち、欠落している仕様情報を推定し、補完する場合について説明した。変形例では、販売者が、販売サイトに商品を入稿する際に、仕様情報が誤っている場合には、仕様情報の変更を促す場合について説明する。なお、上述した実施形態と同様の構成については、同一の符号を付し、説明を省略する。
図21は、販売サイトに商品を登録する際の商品登録画面の一例を示す図である。図示のような商品登録画面は、販売者端末装置10bの表示装置に表示される。以下、販売者が入力する仕様情報が、「カテゴリ」である場合を一例に説明する。例えば、販売者が、商品登録画面に対して販売対象の商品のカテゴリを入力した場合、入稿管理装置30は、入力されたカテゴリを表すテキスト(テキスト)をショッピングサーバ20に送信する。この際、入稿管理装置30は、商品登録画面を介して、商品の画像や、商品の概要を表すテキスト、商品のタイトルを表すテキストのうち一部または全部がカテゴリの入力以前に既に登録(アップロード)されている場合、カテゴリを表すテキストと共に、これ(これら)の情報を商品データとしてショッピングサーバ20に送信する。
ショッピングサーバ20は、入稿管理装置30から商品データを受信すると、NN処理部306は、分類器500に商品のカテゴリを分類させ、その分類結果を入稿管理装置30に返す。入稿管理装置30は、分類器500によるカテゴリの分類結果を受信すると、入力されたカテゴリと、分類器500により分類されたカテゴリとが異なるか否かを判定し、カテゴリが異なる場合、販売者にカテゴリを変更するように促すため、図中R1に示すように、販売者が入力したカテゴリが間違っていることを示す文字や画像と共に、正しいと推定されるカテゴリの候補を商品登録画面に表示させる。例えば、入稿管理装置30は、カテゴリの分類結果に含まれるカテゴリのスコアに基づいて、スコアの高い順にカテゴリの候補を商品登録画面に表示させる。図示の例では、商品登録画面に、「アイスクリーム」というカテゴリが入力されており、これに対して、「レディースシューズ」、「メンズシューズ」、「レディースバッグ」、「レディースアクセサリー」、「財布、ファッション小物」という同じ階層に属するカテゴリの候補と共に、それらのカテゴリの候補の其々のスコアが正解確率として提示されている。このように、商品登録画面において分類器500によって分類されたカテゴリをスコア(正解確率)と共に表示することで、カテゴリの入力時点で販売者にカテゴリを変更させるように促すことができる。
また、販売サイトにおいて販売者が商品にカテゴリを設定するタイミングで、その商品のカテゴリの設定間違いを検出することに加えて、或いは代えて、販売者が商品にカテゴリを設定するよりも前に、その商品のカテゴリを提示(サジェスト)してもよい。
図22は、販売サイトに商品を登録する際の商品登録画面の他の例を示す図である。例えば、商品登録画面において、販売者が商品のカテゴリを入力するよりも前に、商品の画像や、商品の概要を表すテキスト、商品のタイトルを表すテキストのうち一部または全部を既に入力している場合、入稿管理装置30は、商品の画像や、商品の概要、商品のタイトルを含む商品データをショッピングサーバ20に送信する。
ショッピングサーバ20は、入稿管理装置30から商品データを受信すると、分類器500に商品のカテゴリを分類させ、その分類結果を入稿管理装置30に返す。入稿管理装置30は、分類器500によるカテゴリの分類結果を受信すると、その分類結果に含まれる商品のカテゴリを、商品登録画面の商品カテゴリの入力欄に表示させる。この際、ショッピングサーバ20は、図中R2に示すように、分類器500を用いて商品のタイトルを自動的に決定したことを表す文字や画像を商品登録画面に表示させてよい。このように、販売者がカテゴリを入力するよりも前に、その商品の商品データからカテゴリを予測し、その予測結果であるカテゴリをサジェストすることで、販売サイトに商品を登録する際の利便性を向上させることができる。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
1…情報処理システム、10…端末装置、10a…購買者端末装置、10b…販売者端末装置、20…ショッピングサーバ、30…入稿管理装置、200…ショッピングサイト提供部、202…販売管理部、210…記憶部、212…取扱商品データベース、300…商品データ処理部、302…取得部、304…欠落商品データ抽出部、306…NN処理部、308…ブランドマッチング処理部、310…ロジスティック回帰処理部、312…コードマッチング処理部、314…商品データ更新部、400…記憶部、402…補完前取扱商品データベース、404…欠落商品データリスト、406…分類器情報、408…ブランド商品辞書情報、410…セット情報、412…教師データ、414…コード辞書情報、500…分類器

Claims (10)

  1. ネットワークを介して販売される商品に関するデータであって、フォーマットとして複数の情報種別の仕様情報が規定されている商品データを取得する取得部と、
    前記取得部により取得された一以上の前記情報種別の前記仕様情報から他の情報種別の仕様情報を推定する際に、前記他の情報種別に対応した推定手段により推定を行う推定部と、
    を備える情報処理装置。
  2. 前記情報種別には、前記商品の商品名と、商品説明と、カテゴリとが含まれ、
    前記カテゴリに対応した推定手段は、ニューラルネットワークを用いる推定手段であり、
    前記推定部は、前記商品データに含まれる前記商品の商品名と、商品説明とのうち、少なくとも一方を前記ニューラルネットワークに入力することによって、前記カテゴリを推定する、
    請求項1に記載の情報処理装置。
  3. 前記情報種別には、前記商品のブランド名が含まれ、
    前記ブランド名に対応した推定手段は、ブランド名と商品の商品名を対応付けたブランド商品辞書に基づくマッチング処理を用いる推定手段であり、
    前記推定部は、前記商品データに含まれる前記商品の商品名とのうち少なくとも一方の少なくとも一部と、前記ブランド商品辞書に含まれる商品名とが一致する場合、当該ブランド商品辞書における前記一致した商品名に対応付けられたブランド名を、前記商品のブランド名と推定する、
    請求項1又は請求項2に記載の情報処理装置。
  4. 前記情報種別には、前記商品の一以上の性能情報と、商品名、又は商品説明と、カテゴリとが含まれ、
    前記性能情報に対応した推定手段は、ロジスティック回帰を用いる推定手段であり、
    前記推定部は、前記カテゴリから前記性能情報のセットを特定し、前記商品名、又は商品説明に基づくロジスティック回帰を行って、前記特定した前記性能情報のセットを補完するように前記性能情報を推定する、
    請求項1から請求項3のうちいずれか一項に記載の情報処理装置。
  5. 前記情報種別には、前記商品の商品名と、商品説明と、前記商品を識別可能な商品識別情報とが含まれ、
    前記商品識別情報に対応した推定手段は、形態素解析を用いる推定手段であり、
    前記推定部は、前記商品の商品名と、商品説明とのうち少なくとも一方を形態素解析し、解析結果と合致する前記商品識別情報が既に付されている前記商品名を、前記商品の商品識別情報と推定する、
    請求項1から請求項4のうちいずれか一項に記載の情報処理装置。
  6. 前記商品の中から、前記推定部によって推定された前記仕様情報と、予め販売者によって設定された前記仕様情報とが異なる前記商品を抽出する抽出部と、
    前記抽出部により抽出された前記商品を販売する前記販売者の端末装置に、仕様情報を変更するように促す情報を提供する情報提供部と、を更に備える、
    請求項1から5のうちいずれか1項に記載の情報処理装置。
  7. 前記商品の販売時に販売者が仕様情報を設定した際に、前記販売者によって設定された仕様情報と前記推定部によって推定された仕様情報とが異なる場合、前記販売者が設定した仕様情報を、前記推定部によって推定された仕様情報に変更するように促す情報を、前記販売者の端末装置に提供する情報提供部を更に備える、
    請求項1から6のうちいずれか1項に記載の情報処理装置。
  8. 前記商品の販売時に、前記推定部によって推定された仕様情報を、販売対象の前記商品の仕様情報として提示する情報提供部を更に備える、
    請求項1から7のうちいずれか1項に記載の情報処理装置。
  9. コンピュータが、
    ネットワークを介して販売される商品に関するデータであって、フォーマットとして複数の情報種別の仕様情報が規定されている商品データを取得し、
    取得された一以上の情報種別の前記仕様情報から他の情報種別の仕様情報を推定する際に、前記他の情報種別に対応した推定手段により推定する、
    情報処理方法。
  10. コンピュータに、
    ネットワークを介して販売される商品に関するデータであって、フォーマットとして複数の情報種別の仕様情報が規定されている商品データを取得させ、
    取得された一以上の情報種別の前記仕様情報から他の情報種別の仕様情報を推定する際に、前記他の情報種別に対応した推定手段により推定させる、
    プログラム。
JP2018167855A 2018-09-07 2018-09-07 情報処理装置、情報処理方法、及びプログラム Active JP7082014B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018167855A JP7082014B2 (ja) 2018-09-07 2018-09-07 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018167855A JP7082014B2 (ja) 2018-09-07 2018-09-07 情報処理装置、情報処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020042403A true JP2020042403A (ja) 2020-03-19
JP7082014B2 JP7082014B2 (ja) 2022-06-07

Family

ID=69799362

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018167855A Active JP7082014B2 (ja) 2018-09-07 2018-09-07 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP7082014B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022185529A1 (ja) * 2021-03-05 2022-09-09 日本電気株式会社 学習装置、学習方法、推論装置、推論方法、及び、記録媒体
JP2023043129A (ja) * 2021-09-15 2023-03-28 ネイバー コーポレーション ターゲット情報生成方法及びシステム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012089014A (ja) * 2010-10-21 2012-05-10 Nippon Telegr & Teleph Corp <Ntt> 購買行動分析装置、購買行動分析方法及び購買行動分析プログラム
JP5542251B1 (ja) * 2013-10-30 2014-07-09 楽天株式会社 処理装置、処理方法、プログラム、及び記録媒体
JP2018101339A (ja) * 2016-12-21 2018-06-28 ヤフー株式会社 推定装置、推定方法及び推定プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012089014A (ja) * 2010-10-21 2012-05-10 Nippon Telegr & Teleph Corp <Ntt> 購買行動分析装置、購買行動分析方法及び購買行動分析プログラム
JP5542251B1 (ja) * 2013-10-30 2014-07-09 楽天株式会社 処理装置、処理方法、プログラム、及び記録媒体
JP2018101339A (ja) * 2016-12-21 2018-06-28 ヤフー株式会社 推定装置、推定方法及び推定プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丸井 淳己: "Category2Vec:単語・段落・カテゴリに対するベクトル分散表現", 言語処理学会第21回年次大会 発表論文集 [ONLINE] PROCEEDINGS OF THE TWENTY-FIRST ANNUAL M, JPN6021038807, 9 March 2015 (2015-03-09), JP, pages 680 - 683, ISSN: 0004607582 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022185529A1 (ja) * 2021-03-05 2022-09-09 日本電気株式会社 学習装置、学習方法、推論装置、推論方法、及び、記録媒体
JP2023043129A (ja) * 2021-09-15 2023-03-28 ネイバー コーポレーション ターゲット情報生成方法及びシステム
JP7334230B2 (ja) 2021-09-15 2023-08-28 ネイバー コーポレーション ターゲット情報生成方法及びシステム

Also Published As

Publication number Publication date
JP7082014B2 (ja) 2022-06-07

Similar Documents

Publication Publication Date Title
JP6884116B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20200311798A1 (en) Search engine use of neural network regressor for multi-modal item recommendations based on visual semantic embeddings
CN111784455B (zh) 一种物品推荐方法及推荐设备
CN106355449B (zh) 用户选取方法和装置
CN107369075B (zh) 商品的展示方法、装置和电子设备
TWI557664B (zh) Product information publishing method and device
US9600581B2 (en) Personalized recommendations on dynamic content
CN113508378A (zh) 推荐模型的训练方法、推荐方法、装置及计算机可读介质
CN109584006B (zh) 一种基于深度匹配模型的跨平台商品匹配方法
CN114201621A (zh) 基于图文协同注意力的跨模态检索模型构建及检索方法
CN113256367B (zh) 用户行为历史数据的商品推荐方法、系统、设备及介质
CN110209922A (zh) 对象推荐方法、装置、存储介质及计算机设备
CN108846097B (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN112487199B (zh) 一种基于用户购买行为的用户特征预测方法
JP6976207B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US8793201B1 (en) System and method for seeding rule-based machine learning models
US11682060B2 (en) Methods and apparatuses for providing search results using embedding-based retrieval
Yan et al. Implementation of a product-recommender system in an IoT-based smart shopping using fuzzy logic and apriori algorithm
CN116308684B (zh) 一种网购平台店铺信息推送方法及系统
JP7082014B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN112488781A (zh) 搜索推荐方法、装置、电子设备及可读存储介质
CN115129994A (zh) 商品推荐方法、装置、电子设备及可读存储介质
CN115641179A (zh) 信息推送方法、装置及电子设备
CN112818088B (zh) 商品搜索数据处理方法、装置、设备及存储介质
CN117112775A (zh) 自动填写输入表单以生成列表的技术

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220526

R150 Certificate of patent or registration of utility model

Ref document number: 7082014

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350