JP2009026195A - Article classification apparatus, article classification method and program - Google Patents
Article classification apparatus, article classification method and program Download PDFInfo
- Publication number
- JP2009026195A JP2009026195A JP2007190834A JP2007190834A JP2009026195A JP 2009026195 A JP2009026195 A JP 2009026195A JP 2007190834 A JP2007190834 A JP 2007190834A JP 2007190834 A JP2007190834 A JP 2007190834A JP 2009026195 A JP2009026195 A JP 2009026195A
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- product
- classification
- feature
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、商品分類装置、商品分類方法及びプログラムに関する。 The present invention relates to a product classification device, a product classification method, and a program.
近年、インターネット等の通信ネットワークを利用したネットオークションやオンラインショッピング等により、商品を購入する機会が増えてきている。ネットオークションやオンラインショッピングでは、階層構造を有する商品カテゴリーに従って商品を検索したり、商品の属性情報をキーワードとして商品を検索したりしている。例えば、ユーザが洋服を購入したい場合、希望する商品の属性(「色」、「サイズ」等)又は属性の内容を示す属性値(「色」であれば「赤」、「黄」等、「サイズ」であれば「L」、「M」等)に基づいて商品情報を検索する。 In recent years, opportunities to purchase products have increased due to online auctions and online shopping using communication networks such as the Internet. In an online auction or online shopping, a product is searched according to a product category having a hierarchical structure, or a product is searched using attribute information of the product as a keyword. For example, when the user wants to purchase clothes, the attribute of the desired product (“color”, “size”, etc.) or the attribute value indicating the content of the attribute (“color” is “red”, “yellow”, etc.) If “size”, the product information is searched based on “L”, “M”, etc.).
商品の検索に関する技術としては、次のような技術が知られている。例えば、商品の色によって検索を行う例として、商品の色をその商品の属性データとして記憶管理しておき、ユーザが購買用画面において入力した色に基づいて該当する商品を検索するインターネットショッピングシステムが提案されている(特許文献1参照)。 The following techniques are known as techniques for searching for products. For example, as an example of performing a search based on the color of a product, an Internet shopping system that stores and manages the color of a product as attribute data of the product and searches for the corresponding product based on the color input by the user on the purchase screen. It has been proposed (see Patent Document 1).
また、オンラインショップの運営会社が、商品のメーカーに商品の属性情報を報告してもらい、予め属性情報を登録したデータベースを作成しておき、商品の属性に基づいて検索を行う商品検索システムが提案されている(特許文献2参照)。
ところで、一般的に、ネットオークションやオンラインショッピングにおいては、商品が属するカテゴリーが階層的に構築されており、そのカテゴリー毎に分類されて商品情報が管理されている。従って、ユーザは、所望の商品が属するカテゴリーを絞った後に、そのカテゴリー内で検索を行うのが一般的である。 By the way, in general, in online auctions and online shopping, categories to which products belong are hierarchically constructed, and product information is classified and managed for each category. Therefore, after the user narrows down the category to which the desired product belongs, the user generally performs a search within that category.
例えば、ユーザが赤い色の商品を希望して「赤」というキーワードで検索した場合、「赤」を含む商品情報が検索されることとなる。このとき、「赤」を含む人名や店名、品名(「赤井」、「赤西」等)が商品情報に含まれている場合には、そのような商品情報まで検索されるおそれがあり、カテゴリーが複数になればなるほど、そのような結果が顕著になりえる。即ち、ユーザが所望する色やサイズ等の属性で商品検索を行った場合、単純なキーワード検索では、そのキーワードを含む商品情報が検索されるために、所望の商品情報を得ることが難しかった。 For example, when a user searches for a red-colored product and searches with a keyword “red”, product information including “red” is searched. At this time, if the product information includes names, store names, or product names (including “Akai”, “Akanishi”, etc.) that contain “red”, there is a risk that even such product information may be searched. The more you have, the more prominent that result. That is, when a product search is performed with attributes such as colors and sizes desired by the user, it is difficult to obtain desired product information because a simple keyword search searches for product information including the keyword.
また、上記特許文献1,2に記載されている技術においては、予め商品情報毎に属性情報を登録しておくため、精度のよい検索が可能にはなる。しかし、その属性情報を予め人手で入力・登録しておく必要があり作業が煩雑であると共に、その技術を商品検索のシステムに採用するのは運用上現実的ではなかった。
Further, in the techniques described in
本発明は、上記の従来技術における問題に鑑みてなされたものであって、商品情報から商品の属性情報を精度良く抽出して商品検索の使い勝手を向上させることを課題とする。 The present invention has been made in view of the above problems in the prior art, and an object of the present invention is to improve the usability of product search by accurately extracting product attribute information from product information.
上記課題を解決するために、請求項1に記載の発明は、商品説明文に基づいてその商品を属性及び/又は当該属性の内容を示す属性値毎に分類する商品分類装置であって、予め商品説明文に記載されている商品の属性及び属性値に対して属性タグ及び属性値タグが付与されている複数の学習用文書を素性展開する第1素性展開手段と、前記第1素性展開手段により素性展開された各素性を前記属性タグ又は属性値タグと関連付けることにより、前記学習用文書を分類する分類手段と、を備える。
In order to solve the above-mentioned problem, the invention described in
請求項2に記載の発明は、請求項1に記載の商品分類装置において、入力された抽出対象となる商品情報文書を素性展開する第2素性展開手段と、前記分類手段による分類結果に基づいて前記第2素性展開手段が素性展開した商品情報文書から属性及び/又は属性値のデータを抽出する抽出手段と、を更に備える。 According to a second aspect of the present invention, in the commodity classification apparatus according to the first aspect, a second feature expansion unit that expands the input product information document to be extracted and a classification result by the classification unit. The apparatus further comprises extraction means for extracting attribute and / or attribute value data from the product information document developed by the second feature development means.
請求項3に記載の発明は、請求項2に記載の商品分類装置において、前記抽出手段により抽出された属性及び/又は属性値のデータを、当該データを抽出した商品情報文書と関連付けて記憶する記憶手段と、クライアント端末から受信した属性及び/又は属性値のデータが関連付けられた商品情報文書を前記記憶手段から検索して前記クライアント端末に送信する検索手段と、を更に備える。 According to a third aspect of the present invention, in the commodity classification device according to the second aspect, the attribute and / or attribute value data extracted by the extracting means is stored in association with the commodity information document from which the data is extracted. Storage means, and search means for searching the product information document associated with the attribute and / or attribute value data received from the client terminal from the storage means and transmitting to the client terminal.
請求項4に記載の発明は、請求項1〜3の何れか一項に記載の商品分類装置において、前記素性展開において用いる素性のうちの一つは、当該素性展開された各展開単位が含まれる単語を、その意味の類似性によって分類した分類情報である。 According to a fourth aspect of the present invention, in the commodity classification apparatus according to any one of the first to third aspects, one of the features used in the feature development includes each development unit in which the feature development is performed. This is classification information in which words are classified according to similarity in meaning.
請求項5に記載の発明は、請求項1〜4の何れか一項に記載の商品分類装置において、前記分類手段の分類手法として、SVM(Support Vector Machine)を用いる。 According to a fifth aspect of the present invention, in the commodity classification apparatus according to any one of the first to fourth aspects, an SVM (Support Vector Machine) is used as a classification method of the classification means.
請求項6に記載の発明は、商品説明文に基づいてその商品を属性及び/又は当該属性の内容を示す属性値毎に分類する商品分類方法であって、予め商品説明文に記載されている商品の属性及び属性値に対して属性タグ及び属性値タグが付与されている複数の学習用文書を素性展開する第1素性展開工程と、前記第1素性展開工程において素性展開された各素性を前記属性タグ又は属性値タグと関連付けることにより、前記学習用文書を分類する分類工程と、を含む。 The invention according to claim 6 is a product classification method for classifying the product for each attribute and / or attribute value indicating the content of the attribute based on the product description, which is described in the product description in advance. A first feature development step of developing a plurality of learning documents to which attribute tags and attribute value tags are assigned to product attributes and attribute values, and each feature developed in the first feature development step. A classification step of classifying the learning document by associating with the attribute tag or the attribute value tag.
請求項7に記載の発明は、商品説明文に基づいてその商品を属性及び/又は当該属性の内容を示す属性値毎に分類するコンピュータを、予め商品説明文に記載されている商品の属性及び属性値に対して属性タグ及び属性値タグが付与されている複数の学習用文書を素性展開する第1素性展開手段、前記第1素性展開手段により素性展開された各素性を前記属性タグ又は属性値タグと関連付けることにより、前記学習用文書を分類する分類手段、として機能させるためのプログラムである。 The invention according to claim 7 is a computer that classifies the product for each attribute value indicating the attribute and / or the content of the attribute based on the product description, and the attribute of the product described in the product description and A first feature development unit that develops a plurality of learning documents to which an attribute tag and an attribute value tag are attached to an attribute value, and each feature expanded by the first feature development unit is the attribute tag or attribute. This is a program for functioning as classification means for classifying the learning document by associating with a value tag.
請求項1、6、7に記載の発明によれば、学習用文書を素性展開して得られた各素性を属性タグ又は属性値タグと関連付けておくので、商品情報文書から商品の属性情報を抽出する際に精度良く抽出を行うことができ、抽出された属性情報を利用して商品検索の使い勝手を向上させることができる。 According to the first, sixth, and seventh aspects of the present invention, each feature obtained by developing the feature of the learning document is associated with the attribute tag or the attribute value tag. Extraction can be performed with high accuracy, and usability of product search can be improved using the extracted attribute information.
請求項2に記載の発明によれば、分類手段による分類結果に基づいて、入力した商品情報文書から商品の属性情報を精度良く抽出することができる。 According to the second aspect of the present invention, product attribute information can be accurately extracted from the input product information document based on the classification result by the classifying means.
請求項3に記載の発明によれば、商品情報文書から抽出された属性及び/又は属性値のデータを、当該データを抽出した商品情報文書と関連付けておくので、商品情報文書から商品の属性情報を精度良く抽出して商品検索の使い勝手を向上させることができる。 According to the third aspect of the invention, the attribute and / or attribute value data extracted from the product information document is associated with the product information document from which the data is extracted. Can be extracted with high accuracy and the usability of product search can be improved.
請求項4に記載の発明によれば、意味の類似性によって分類した分類情報を素性として用いることにより、意味が近い単語を、同じ属性又は属性値を示す単語として抽出することができる。 According to the fourth aspect of the invention, by using the classification information classified based on the similarity of meanings as features, words having similar meanings can be extracted as words indicating the same attribute or attribute value.
請求項5に記載の発明によれば、分類手法として、SVMを用いることができる。 According to the invention described in claim 5, SVM can be used as a classification method.
以下、本発明に係る商品分類装置の一実施の形態について図面を参照して説明する。 Hereinafter, an embodiment of a product classification device according to the present invention will be described with reference to the drawings.
[システム構成]
図1に、オークションシステム100のシステム構成を示す。図1に示すように、オークションシステム100は、商品分類装置としてのサーバ装置10と、PC(Personal Computer)20a,20b,20c,・・・,20n(以下、PC20という。)とが通信ネットワークNを介して接続されて構成されている。通信ネットワークNは、インターネットや電気通信事業者等の通信網であり、当該通信ネットワークNに接続する装置間をデータ通信可能に接続する。
[System configuration]
FIG. 1 shows a system configuration of the
サーバ装置10は、PCやWS(Work Station)等の情報処理端末装置であり、商品説明文に基づいてその商品を属性及び/又は属性値毎に分類するものである。また、サーバ装置10は、商品情報を管理する商品情報DB(Data Base)14を備える。サーバ装置10は、HTTP(HyperText Transfer Protocol)等を用いたPC20との通信セッションにおいて、Webサーバとしての機能を有する。例えば、サーバ装置10は、PC20からネットオークションに出品する商品の商品情報を受け付け、商品情報文書として商品情報DB14に格納する。また、サーバ装置10は、商品の購入を希望するユーザによるPC20からの要求に基づいて、商品情報DB14に格納された商品情報文書の検索を行って検索結果を返信する。
The
PC20は、各ユーザが使用するクライアント端末である。PC20は、Webブラウザとしての機能を有し、ユーザがオークションに商品を出品する際には、サーバ装置10が提供する入力画面において商品情報の入力を受け付け、入力された商品情報をサーバ装置10に送信する。また、PC20は、ユーザが商品を購入する際には、サーバ装置10が提供する検索画面においてキーワードの入力を受け付け、入力されたキーワードをサーバ装置10に送信する。
The PC 20 is a client terminal used by each user. The PC 20 has a function as a Web browser. When a user places a product for auction, the PC 20 accepts input of product information on an input screen provided by the
[サーバ装置の構成]
図2に、サーバ装置10の構成を示す。図2に示すように、サーバ装置10は、CPU(Central Processing Unit)11、RAM(Random Access Memory)12、記憶部13、商品情報DB14、操作部15、表示部16、通信部17等を備え、各部はバス18により接続されている。
[Configuration of server device]
FIG. 2 shows the configuration of the
CPU11は、サーバ装置10の各部の処理動作を統括的に制御する。具体的には、CPU11は、操作部15から入力される操作信号又は通信部17により受信される指示信号に応じて、記憶部13に記憶されている各種処理プログラムを読み出し、RAM12内の作業領域に展開し、当該プログラムとの協働により各種処理を行う。
The
RAM12は、CPU11により実行される各種処理において、記憶部13から読み出された各種プログラムやデータ、及びパラメータ等を一時的に記憶する。
The
記憶部13は、ハードディスクや不揮発性の半導体メモリ等により構成され、CPU11で実行される各種処理プログラム、各種データ等を記憶する。例えば、記憶部13には、学習用文書が記憶されている。
The
商品情報DB14は、ユーザがオークションに出品した商品に関する商品情報を管理するためのデータベースである。商品情報DB14には、出品商品毎に、商品情報文書、属性、属性値等が関連付けられて格納される。商品情報文書は、商品に関する説明文を含むテキストデータである。属性とは、商品が有する特徴をいい、例えば、「色」、「サイズ」等をいう。また、属性値とは、属性の内容を示す値をいい、例えば、属性「色」については「黄」、属性「サイズ」については「M」等をいう。商品情報DB14の属性、属性値には、後述する属性情報抽出処理(図7参照)において商品情報文書から抽出された属性情報(属性・属性値)が格納される。商品検索時には、属性又は属性値をキーワードとして商品情報文書を検索することができる。
The
操作部15は、カーソルキー、数字入力キー、及び各種機能キー等を備えたキーボードと、マウス等のポインティングデバイスを備えて構成され、キーボードに対するキー操作やマウス操作により入力された指示信号をCPU11に出力する。
The
表示部16は、LCD(Liquid Crystal Display)により構成され、CPU11から入力される表示信号の指示に従って、画面表示を行う。
The display unit 16 is configured by an LCD (Liquid Crystal Display), and performs screen display in accordance with an instruction of a display signal input from the
通信部17は、CPU11の制御の下、通信ネットワークNと接続するための通信インターフェースであり、外部機器との間でデータの送受信を行う。
The
図3は、サーバ装置10の機能ブロック図である。図3に示すように、サーバ装置10は、学習用コーパス入力部31、機械学習器32、商品情報入力部33、自動抽出器34、商品情報DB14、クエリ受信部35、商品情報検索部36、検索結果送信部37を有する。なお、学習用コーパス入力部31、機械学習器32、商品情報入力部33、自動抽出器34、商品情報検索部36の各部は、CPU11と、記憶部13に記憶されている各種処理プログラムとの協働により実現される。また、クエリ受信部35及び検索結果送信部37は、通信部17により実現される。
FIG. 3 is a functional block diagram of the
学習用コーパス入力部31は、記憶部13に記憶されている学習用文書(以下、学習用コーパスという。)を入力し、取得する機能部である。学習用コーパスは、機械学習に用いるためのテキストデータであり、予め商品説明文に記載されている商品の属性及び属性値の前後にそれぞれ属性タグ及び属性値タグが付与されている。
The learning
ここで、学習用コーパスを作成する際の商品説明文への注釈付けについて説明する。注釈付けとは、属性情報学習処理(図6参照)の準備段階として、予め学習用コーパス中の属性情報(属性及び属性値)に対してタグを付与しておく処理である。 Here, the annotation to the product description when creating the learning corpus will be described. Annotation is a process of adding a tag to attribute information (attributes and attribute values) in the learning corpus in advance as a preparation stage for the attribute information learning process (see FIG. 6).
表1に、注釈付けを行う属性及び属性値の例を示す。
表1に示すように、属性としては、色、素材、サイズ、形状、状態、定価、製造場所、シーズン/モデル、デザイン、その他を採用する。これらの情報を選んだ理由としては、学習用コーパスを作成する際の注釈付けを行う者の間の差を少なくすること、ユーザが検索の対象として必要だと感じていることが挙げられる。本実施の形態では、ファッションのカテゴリーを例に説明する。 As shown in Table 1, as attributes, color, material, size, shape, state, list price, manufacturing place, season / model, design, etc. are adopted. The reasons for selecting these pieces of information include reducing the difference between those who perform annotation when creating a learning corpus, and the fact that users feel that they are necessary for search. In the present embodiment, a fashion category will be described as an example.
図4に、属性タグ(<attr>,</attr>)及び属性値タグ(<val>,</val>)が付与された学習用コーパスのデータ例を示す。図4に示すように、「色」、「サイズ」等の属性に対しては、<attr>色</attr>、<attr>サイズ</attr>等のように、属性の前後に属性タグが付与され、「色」の属性値である「黄」、「サイズ」の属性値である「M」等に対しては、<val>黄</val>、<val>M</val>等のように、属性値の前後に属性値タグが付与される。 FIG. 4 shows a data example of a learning corpus to which attribute tags (<attr>, </ attr>) and attribute value tags (<val>, </ val>) are assigned. As shown in FIG. 4, for attributes such as “color” and “size”, attribute tags before and after the attribute, such as <attr> color </ attr>, <attr> size </ attr>, etc. Are attached to the "color" attribute value "yellow", the "size" attribute value "M", etc. <val> yellow </ val>, <val> M </ val> As described above, an attribute value tag is added before and after the attribute value.
なお、注釈付けを行う際に、属性と属性値が組として現れない場合は、単独でも注釈付けを行うこととする。また、属性と属性値が一つの複合語になっている場合は、分解し、個別に注釈付けを行う(例:<val>黄</val><attr>色</attr>)。複合語になっている場合には、属性値−属性の順で現れることが多い。また、属性が階層構造を持つ場合には、階層を考慮せずに、個別に注釈付けを行う(例えば、<attr>サイズ</attr>、<attr>肩幅</attr>、<attr>着丈</attr>、<attr>身幅</attr>等)。 When annotating, if an attribute and an attribute value do not appear as a pair, the annotation is performed alone. If the attribute and attribute value are a single compound word, it is decomposed and annotated separately (eg <val> yellow </ val> <attr> color </ attr>). In the case of compound words, they often appear in the order of attribute value-attribute. Also, if the attribute has a hierarchical structure, annotate it individually without considering the hierarchy (for example, <attr> size </ attr>, <attr> shoulder width </ attr>, <attr> length) </ attr>, <attr> Width </ attr>, etc.).
機械学習器32は、学習用コーパス入力部31により取得された複数の学習用コーパスに基づいて機械学習を行う機能部であり、素性展開部321、商品分類部322及び属性学習DB323を有する。
The
素性展開部321は、複数の学習用コーパスを素性展開する。具体的には、素性展開部321は、学習用コーパスを文字単位で分割し、分割された各文字について素性を抽出する。本実施の形態では、素性として、表層文字、文字種、品詞、シソーラス上の分類番号を用いる。
The
図5に、素性展開の例を示す。図5に示す例では、「素材はレーヨン。」という文字列に対して、対象文字の前後2文字ずつ計5文字を用いて、左向き(文末から文頭へ)に解析を行っている。 FIG. 5 shows an example of feature development. In the example shown in FIG. 5, the character string “material is rayon” is analyzed leftward (from the end of the sentence to the beginning of the sentence) using a total of five characters before and after the target character.
表層文字は、文字単位で分割された文字そのものである。
文字種は、文字が漢字であるか(KANJI)、平仮名であるか(HIRAG)、片仮名であるか(KATAK)、その他であるか(OTHER)を示すものである。
A surface character is a character itself divided in character units.
The character type indicates whether the character is kanji (KANJI), hiragana (HIRAG), katakana (KATAK), or other (OTHER).
品詞は、その文字が属する単語の品詞を示しており、「名詞」の場合には、更に詳細に分類した「普通名詞」、「固有名詞」等を含む。素性展開部321は、予め記憶部13に記憶されている単語−品詞変換辞書を参照して、その文字が属する単語の品詞を抽出する。また、素性展開部321は、対象文字の単語内での位置を示す記号を素性の先頭に付与する。単語内の先頭文字には「B」、最終文字には「E」、それらの間の文字には「I」を付与する。また、1文字からなる単語については「S」を付与する。
The part of speech indicates the part of speech of the word to which the character belongs, and in the case of “noun”, it includes “common noun”, “proprietary noun” and the like classified in more detail. The
分類番号は、各文字が含まれる単語を、その意味の類似性によって分類した分類情報の一種である。素性展開部321は、予め記憶部13に記憶されている単語−分類番号変換辞書を参照して、その文字が属する単語の分類番号を抽出する。本実施の形態では、分類番号として、角川類語新辞典(角川書店(登録商標))において各単語に付与されている番号を使用する。角川類語新辞典の語彙分類構造は、十進分類になっており、大項目・中項目・小項目の3階層における各項目番号を連結した3桁の数字が分類番号となっている。例えば、「紫」、「赤」、「グリーン」、「カラー」等、「色」に関する単語には「143」という分類番号が付与される。分類番号を素性として用いる場合には、意味が近い単語には同じ分類番号が付与されるので、表層文字が異なっていても同じ素性を持つ事例として考慮される。
The classification number is a type of classification information in which words including each character are classified based on similarity in meaning. The
商品分類部322は、素性展開部321により素性展開された各素性を、属性タグ又は属性値タグと関連付けることにより、学習用コーパスを分類する。具体的には、商品分類部322は、学習用コーパスに付与されている属性タグ又は属性値タグに基づいて、学習用コーパスを文字単位で分割した各文字が属性又は属性値に含まれる文字であることを示す分類タグを付与する。分類タグは、対応する文字のチャンク内での位置を表す記号と、チャンクの種類(属性であれば「attr」、属性値であれば「val」)をハイフンで結んだもので表される。本実施の形態で用いる、チャンクの符号化手法の一つであるIOE2法では、チャンクの最終文字には「E」、それ以前の文字には「I」が付与される。要素以外の文字には「O」が付与される。図5に示す例では、「レーヨン」の「レ」、「ー」、「ヨ」、に対しては「I-val」が付与され、「ン」に対しては「E-val」が付与される。
The
商品分類部322は、学習用コーパスを素性展開して各文字について得られた各素性を、付与された分類タグと関連付けて属性学習DB323に格納する。この関連付けが、機械学習器32における学習内容であり、学習用コーパスの分類に該当する。具体的には、商品分類部322は、分類手法としてSVM(Support Vector Machine)等を用いて、図5に示す破線で囲まれた情報から、対象文字「レ」に対応する分類タグ「I-val」を得るような分類器を生成する。なお、商品分類部322の分類手法としては、SVMに限らず、ニューラルネットワーク等を用いてもよい。
The
属性学習DB323は、複数の学習用コーパスに基づいて得られた各素性と、分類タグとが関連付けられたデータベースである。属性学習DB323は、記憶部13に記憶されている。
The
商品情報入力部33は、各PC20から送信され、通信部17により受信された、ネットオークションに新たに出品された商品情報文書を入力し、取得する機能部である。
The merchandise
自動抽出器34は、機械学習器32により得られた属性学習DB323に基づいて、新たに入力された商品情報文書から属性・属性値を自動的に抽出するための機能部であり、素性展開部341及びタギング部342を有する。
The
素性展開部341は、商品情報入力部33により取得された商品情報文書を素性展開する。具体的には、素性展開部341は、商品情報文書を文字単位で分割し、分割された各文字について素性(表層文字、文字種、品詞、分類番号)を抽出する。素性展開処理の詳細については、素性展開部321と同様であるため、省略する。
The
タギング部342は、商品分類部322による分類結果、即ち、属性学習DB323に基づいて、素性展開部341が素性展開した商品情報文書から属性及び/又は属性値のデータを抽出する。具体的には、タギング部342は、商品情報文書を素性展開した各文字について得られた各素性及び属性学習DB323に基づいて、当該各素性に対して、各素性と関連付けられた分類タグを付与する。例えば、タギング部342は、対象文字が属性に含まれる文字であると推定した場合には、そのチャンク内での位置に応じて「I-attr」又は「E-attr」を付与し、対象文字が属性値に含まれる文字であると推定した場合には、そのチャンク内での位置に応じて「I-val」、「E-val」を付与し、対象文字が属性にも属性値にも該当しない文字であると推定した場合には、「O」を付与する。タギング部342として、SVM等を用いる。
The
また、タギング部342は、付与された分類タグに基づいて、商品情報文書から属性及び/又は属性値を抽出する。具体的には、タギング部342は、「I-attr」又は「E-attr」が付与された単語を属性として、「I-val」又は「E-val」が付与された単語を属性値として抽出し、その抽出された属性及び/又は属性値を、当該属性及び/又は属性値を抽出した商品情報文書と関連付けて商品情報DB14に記憶させる。
Further, the
なお、タギング部342により分類タグを付与して属性及び属性値を商品説明文中で識別可能にすることまでを、属性・属性値の抽出として扱ってもよい。
Note that the process up to adding a classification tag by the
クエリ受信部35は、PC20から送信された検索クエリを受信する。検索クエリには、商品情報文書を検索するためのキーワードとして、属性及び/又は属性値が含まれる。
The
商品情報検索部36は、クエリ受信部35により受信された検索クエリに含まれる属性又は属性値に基づいて、商品情報DB14に記憶されている商品情報文書の検索を行い、検索キーワード(属性又は属性値)に関連付けられている商品情報文書を商品情報DB14から抽出し、検索結果を検索結果送信部37に出力する。
The product
検索結果送信部37は、商品情報検索部36により検索された検索結果をPC20へ送信する。
The search
[サーバ装置の動作]
次に、サーバ装置10の動作を説明する。
図6は、属性情報学習処理を示すフローチャートである。属性情報学習処理は、サーバ装置10がオークションシステム100を提供する前に、予め行われる処理であり、CPU11と、記憶部13に記憶されているプログラムとの協働によるソフトウェア処理によって実現される。
[Operation of server device]
Next, the operation of the
FIG. 6 is a flowchart showing the attribute information learning process. The attribute information learning process is a process that is performed in advance before the
まず、学習用コーパス入力部31により、記憶部13に記憶されている学習用コーパスが入力され、取得される(ステップS1)。次に、素性展開部321により、学習用コーパスが文字単位で素性展開される(ステップS2)。具体的には、素性展開部321により、学習用コーパスが文字単位で分割され(ステップS21)、分割された各文字について素性として表層文字、文字種、品詞、分類番号が抽出される(ステップS22)。
First, the learning
次に、商品分類部322により、素性展開された各素性を、属性タグ又は属性値タグと関連付けることにより、学習用コーパスが分類される(ステップS3)。具体的には、商品分類部322により、学習用コーパスに付与されている属性タグ又は属性値タグに基づいて、学習用コーパスを文字単位で分割した各文字に対して分類タグが付与される。
Next, the learning corpus is classified by associating each feature-expanded feature with an attribute tag or attribute value tag by the product classification unit 322 (step S3). Specifically, based on the attribute tag or attribute value tag assigned to the learning corpus, the
次に、商品分類部322により、学習用コーパスを素性展開して各文字について得られた各素性が分類タグと関連付けられて属性学習DB323に格納される(ステップS4)。
以上で属性情報学習処理が終了する。
Next, the
This completes the attribute information learning process.
次に、図7を参照して、属性情報抽出処理を説明する。属性情報抽出処理は、オークションに出品を希望するユーザの操作によって、PC20から商品の商品情報が送信され、通信部17により受信された際に行われる処理であり、CPU11と、記憶部13に記憶されているプログラムとの協働によるソフトウェア処理によって実現される。
Next, attribute information extraction processing will be described with reference to FIG. The attribute information extraction process is a process performed when product information of a product is transmitted from the
まず、商品情報入力部33により、抽出対象となる商品情報文書が入力され、取得される(ステップS5)。次に、素性展開部341により、商品情報文書が文字単位で素性展開される(ステップS6)。具体的には、素性展開部341により、商品情報文書が文字単位で分割され(ステップS61)、分割された各文字について素性として表層文字、文字種、品詞、分類番号が抽出される(ステップS62)。
First, a product information document to be extracted is input and acquired by the product information input unit 33 (step S5). Next, the
次に、タギング部342により、商品分類部322による分類結果、即ち、属性学習DB323に基づいて、素性展開された商品情報文書から属性及び/又は属性値のデータが抽出される(ステップS7)。具体的には、タギング部342により、商品情報文書を素性展開した各文字について得られた各素性及び属性学習DB323に基づいて、当該各素性に対して、各素性と関連付けられた分類タグが付与され、付与された分類タグに基づいて、商品情報文書から属性及び/又は属性値が抽出される。属性又は属性値として抽出された単語は、タギング部342により、商品情報文書と関連付けられて、商品情報DB14に格納される(ステップS8)。
以上で属性情報抽出処理が終了する。
Next, the
This completes the attribute information extraction process.
以上説明したように、サーバ装置10は、学習用コーパスを素性展開して得られた各素性を属性タグ又は属性値タグ(属性タグに相当する分類タグ「I-attr」「E-attr」又は属性値タグに相当する分類タグ「I-val」「E-val」)と関連付けておくので、商品情報文書から商品の属性情報を抽出する際に精度良く抽出を行うことができ、抽出された属性情報を利用して商品検索の使い勝手を向上させることができる。
As described above, the
また、学習用コーパスを用いて機械学習器32により分類された分類結果に基づいて、自動抽出器34により商品情報文書から商品の属性情報を精度良く抽出することができる。また、ネットオークションやオンラインショッピングにおいてユーザが記入した商品説明文に分類手法を適用して、商品を自動分類することができる。
Further, based on the classification result classified by the
また、素性として分類番号を用いることにより、意味が近い単語を、同じ属性又は属性値を示す単語として抽出することができる。機械学習による文字列に対する系列ラベリングに基づく属性名、属性値の抽出、類語辞典の情報の利用により、抽出対象となる商品情報文書が学習した際とは異なるカテゴリーとなっている場合の抽出精度の低下を軽減することができる。 Further, by using the classification number as a feature, words having similar meanings can be extracted as words indicating the same attribute or attribute value. Extraction accuracy when the product information document to be extracted is in a different category by using attribute name, attribute value extraction, and synonym dictionary information based on sequence labeling for character strings by machine learning Reduction can be reduced.
また、商品情報文書から抽出された属性及び/又は属性値のデータを、当該データを抽出した商品情報文書と関連付けておくので、商品検索の使い勝手を向上させることができる。 Further, since the attribute and / or attribute value data extracted from the product information document is associated with the product information document from which the data is extracted, the usability of product search can be improved.
例えば、商品情報文書から属性、属性値を抽出することにより、複数の商品カテゴリーを横断して属性情報検索を行うことができ、正確に抽出した属性、属性値をインデクスとして検索システムに登録して検索することができる。 For example, by extracting attributes and attribute values from a product information document, you can perform attribute information searches across multiple product categories, and register the extracted attributes and attribute values as indexes in the search system. You can search.
また、カテゴリーに応じて決まる出品物の属性情報(色,素材,サイズ,形状等)を属性名(「色」等)と属性値(「赤」等)の組としてとらえ、個々の商品情報から機械学習手法を用いてそれらを抽出しておく。このため、例えば、「赤」という検索クエリで検索する際には、「赤色」の属性及び属性値を持つ商品情報を検索することができ、「赤色」と「シャツ」という検索クエリを用いて複数のカテゴリーから赤色のシャツを検索するように、複数のカテゴリーに亘る商品情報の検索が可能となる。 In addition, the attribute information (color, material, size, shape, etc.) of the exhibit determined according to the category is taken as a set of attribute name (“color”, etc.) and attribute value (“red”, etc.) Extract them using machine learning techniques. For this reason, for example, when searching with the search query “red”, product information having the attribute “red” and the attribute value can be searched, and the search queries “red” and “shirt” are used. It is possible to search for product information across a plurality of categories so as to search for red shirts from a plurality of categories.
なお、上記実施の形態における記述は、本発明に係る商品分類装置の例であり、これに限定されるものではない。装置を構成する各部の細部構成及び細部動作に関しても本発明の趣旨を逸脱することのない範囲で適宜変更可能である。 The description in the above embodiment is an example of the product classification device according to the present invention, and the present invention is not limited to this. The detailed configuration and detailed operation of each part constituting the apparatus can be changed as appropriate without departing from the spirit of the present invention.
例えば、上記実施の形態では、学習用文書及び抽出対象となる商品情報文書を文字単位で素性展開することとしたが、文法上の最小単位である形態素単位で素性展開することとしてもよい。 For example, in the above embodiment, the learning document and the product information document to be extracted are expanded in character units. However, the feature expansion may be performed in morpheme units, which is the minimum grammatical unit.
また、商品の特徴を示す属性として表1に示すものを例として挙げたが、例えば、商品が所属するカテゴリーを属性として捉えて属性名及び/又は属性値を抽出することとしてもよい。これにより、様々なカテゴリーの学習コーパスを入力して、カテゴリーに関する属性及び属性値を学習して、例えば、属性名「カテゴリー」、属性値「ファッション」といったカテゴリーを商品情報に関連付けることができる。従って、属性としてカテゴリーを指定した商品検索も可能になり、複数のカテゴリーに所属する商品情報をカテゴリーの指定により検索することもできるようになる。 Moreover, although what was shown in Table 1 as an attribute which shows the characteristic of goods was mentioned as an example, it is good also as, for example, catching the category to which goods belong as an attribute, and extracting an attribute name and / or an attribute value. Thereby, learning corpus of various categories can be input to learn attributes and attribute values related to the categories, and for example, categories such as attribute name “category” and attribute value “fashion” can be associated with the product information. Accordingly, it is possible to search for a product specifying a category as an attribute, and to search for product information belonging to a plurality of categories by specifying the category.
また、上記実施の形態では、商品分類装置をオークションシステム100に適用した場合について説明したが、通信ネットワークを利用して商品を提供するオンラインショッピングシステムに適用することとしてもよい。
Moreover, although the said embodiment demonstrated the case where the goods classification apparatus was applied to the
[実験例]
商品情報文書からの属性情報の抽出精度を調べるために、実験1〜4を行った。
なお、チャンキングについては、SVMに基づく汎用チャンカーであるYamChaを使用した。素性展開の際には文字を単位とし、チャンキングの解析方向は左向き解析で行った。また、属性、属性値のチャンクの符号化手法にはIOE2法を利用し、文脈長は対象文字の前後2文字ずつ計5文字とした。
[Experimental example]
For chunking, Yamacha, a general-purpose chunker based on SVM, was used. When developing the feature, the character was used as a unit, and the analysis direction of chunking was performed by left-facing analysis. In addition, the IOE2 method is used for the encoding method of attribute and attribute value chunks, and the context length is set to 5 characters in total, 2 characters before and after the target character.
実験データとして、Yahoo!(登録商標)オークションに出品された商品の商品情報のうち、ファッションカテゴリーのものを用いた。この際、出品者に固有の記述様式による影響を排除するために、出品者が重複した商品情報は用いないように考慮した。これに用いたデータの詳細を以下に示す。 As the experiment data, the fashion category of product information of products exhibited at the Yahoo! (registered trademark) auction was used. At this time, in order to eliminate the influence of the description style unique to the exhibitor, consideration was given to not using the product information that the exhibitor duplicated. Details of the data used for this are shown below.
(A)アパレル(男性用)−トップス−シャツ−半袖 150ページ
属性:総数1422個/異なり数149個
属性値:総数1794個/異なり数512個
(B)アパレル(女性用)−トップス−タンクトップ,キャミソール 150ページ
属性:総数723個/異なり数91個
属性値:総数1245個/異なり数381個
(A) Apparel (for men)-Tops-Shirt-Short sleeves 150 pages Attribute: Total 1422 / Different 149 Attribute value: Total 1794 / Different 512 (B) Apparel (Women)-Tops-Tank top , Camisole 150 pages Attribute: Total number 723 / Different number 91 Attribute value: Total number 1245 / Different number 381
学習用文書(以下、学習データという。)として用いる場合には、上記の商品情報(実験データ(A)又は(B))に対し、前述した方法に従って注釈付けをした文書(テキストデータ)を用いた。 When used as a learning document (hereinafter referred to as learning data), a document (text data) that has been annotated in accordance with the above-described method is used for the product information (experiment data (A) or (B)). It was.
<実験1>
実験1では、実験データとして(A)「アパレル(男性用)−トップス−シャツ−半袖」を対象とし、分類番号以外の素性、即ち、表層文字・文字種・品詞を用いて実験を行った。評価に際しては、商品情報を単位とした、5分割交差検定を行い、それらの平均の適合率、再現率を求めた。ここで、
適合率=正しく抽出できた属性情報の数/サーバ装置が抽出した属性情報の数
再現率=正しく抽出できた属性情報の数/データ中の属性情報の数
で定義される。
<
In
Relevance rate = number of attribute information successfully extracted / number of attribute information extracted by server apparatus Reproducibility = number of attribute information successfully extracted / number of attribute information in data.
表2に、実験1における抽出精度を示す。
表2に示すように、属性に関しては適合率、再現率ともに80%以上であり、ある程度の精度で属性情報を抽出することができたと考えられる。また、属性値については、70%台に留まったが、属性と比較して抽出する対象の種類が多いため、抽出精度が抑制されたことによるものと考えられる。これは、学習データの量を増やすことで解決することが可能であると考えられる。 As shown in Table 2, regarding the attributes, both the relevance ratio and the recall ratio are 80% or more, and it is considered that the attribute information could be extracted with a certain degree of accuracy. In addition, although the attribute value remained in the 70% range, it is considered that the extraction accuracy is suppressed because there are many types of objects to be extracted compared to the attribute. It is considered that this can be solved by increasing the amount of learning data.
<実験2>
実験2では、機械学習による属性情報の抽出に対して、表層文字を素性として用いた場合の影響、素性として角川類語新辞典の分類番号を用いた場合の効果を検討するために、実験データとして(A)「アパレル(男性用)−トップス−シャツ−半袖」を対象とし、以下の条件に従った素性を用いて実験を行った。
<
In
条件(ア):表層文字・文字種・品詞
条件(イ):表層文字・文字種・品詞・分類番号
条件(ウ):文字種・品詞
条件(エ):文字種・品詞・分類番号
Condition (A): Surface character / character type / part of speech Condition (A): Surface character / character type / part of speech / classification number Condition (U): Character type / part of speech Condition (D): Character type / part of speech / classification number
なお、評価に際しては、商品情報を単位とした、5分割交差検定を行い、それらの平均の適合率、再現率を求めた。 In the evaluation, a 5-fold cross-validation was performed with the product information as a unit, and the average precision and recall were obtained.
表3に、実験2における抽出精度を示す。
条件(ア)と条件(イ)の結果を比較すると、分類番号を素性として用いたことの効果を僅かだが確認することができた。しかし、表層文字への依存が高いため、分類番号の効果が少ないことも同時に確認できる。 Comparing the results of condition (a) and condition (b), we were able to confirm the effects of using classification numbers as features. However, since the dependence on surface characters is high, it can be confirmed at the same time that the effect of the classification number is small.
条件(ウ)と条件(エ)の結果を比較すると、表層文字を素性として用いない場合には、分類番号は精度の向上に非常に有効に働いているといえる。つまり、表層表現に依存しない素性だけでもある程度の抽出精度を保つことができるので、既存のシソーラスに現れる表現であれば、学習データに現れない新しい属性、属性値であっても、抽出可能であることが期待される。特に、新しい分野の商品に関する商品情報における属性、属性値の抽出において有効であると考えられる。 Comparing the results of the condition (c) and the condition (d), it can be said that the classification number works very effectively in improving accuracy when the surface character is not used as a feature. In other words, it is possible to maintain a certain level of extraction accuracy with only features that do not depend on the surface representation, so it is possible to extract even new attributes and attribute values that do not appear in the learning data as long as the expression appears in the existing thesaurus. It is expected. In particular, it is considered effective in extracting attributes and attribute values in product information related to products in a new field.
<実験3>
実験3では、学習データに用いるデータ量と抽出精度との関係を調べるための実験を行った。実験データとしては、(A)「アパレル(男性用)−トップス−シャツ−半袖」を用い、素性には、表層文字・文字種・品詞・分類番号を用いた。評価に際しては、商品情報を単位とした5分割交差検定法を用い、学習データとして用いる4つのグループに含まれるデータ全てから徐々にデータを取り出して、使用する学習データを増やしていき、それらの平均の適合率、再現率を求めた。
<Experiment 3>
In Experiment 3, an experiment was conducted to examine the relationship between the amount of data used for learning data and the extraction accuracy. As experimental data, (A) "apparel (for men)-tops-shirt-short sleeve" was used, and surface characters, character types, parts of speech, and classification numbers were used as features. When evaluating, use the 5-fold cross-validation method with product information as a unit, gradually extract data from all the data included in the four groups used as learning data, increase the learning data to be used, and average their The precision and recall were calculated.
図8に、属性の抽出におけるデータ量と精度の関係を示し、図9に、属性値の抽出におけるデータ量と精度の関係を示す。図8、図9において、横軸は、学習データとして用いる商品情報文書のページ数、縦軸は、適合率又は再現率である。 FIG. 8 shows the relationship between data amount and accuracy in attribute extraction, and FIG. 9 shows the relationship between data amount and accuracy in attribute value extraction. 8 and 9, the horizontal axis represents the number of product information document pages used as learning data, and the vertical axis represents the relevance ratio or the recall ratio.
図8、図9に示すように、適合率については、少ないデータ量である程度の精度を得ることができるが、再現率については、データ量を増加させることにより精度を向上させることができることが確認できた。再現率については、精度の上昇が飽和していないため、更にデータを増やすと、精度の向上が見込める可能性がある。 As shown in FIG. 8 and FIG. 9, it is confirmed that the precision can be obtained with a certain degree of accuracy with a small amount of data, but the accuracy can be improved with respect to the recall by increasing the amount of data. did it. Regarding the recall rate, the increase in accuracy is not saturated, and if the data is further increased, the accuracy may be improved.
<実験4>
実験4では、学習データと、新たな抽出対象として用いる商品情報文書(以下、テストデータという。)とに異なるグループに属する商品情報を用いて自動抽出を行った場合の精度を検討するために、以下の条件で平均の適合率、再現率を求めた。
<Experiment 4>
In Experiment 4, in order to examine the accuracy when automatic extraction was performed using product information belonging to different groups for learning data and a product information document (hereinafter referred to as test data) used as a new extraction target, The average precision and recall were obtained under the following conditions.
条件(ア):学習データ:実験データ(A)
テストデータ:実験データ(B)
使用素性:表層文字・文字種・品詞
条件(イ):学習データ:実験データ(A)
テストデータ:実験データ(B)
使用素性:文字種・品詞・分類番号
条件(ウ):学習データ:実験データ(B)
テストデータ:実験データ(A)
使用素性:表層文字・文字種・品詞
条件(エ):学習データ:実験データ(B)
テストデータ:実験データ(A)
使用素性:文字種・品詞・分類番号
Condition (A): Learning data: Experimental data (A)
Test data: Experimental data (B)
Usage features: Surface characters, character types, parts of speech Condition (b): Learning data: Experimental data (A)
Test data: Experimental data (B)
Use feature: Character type, part of speech, classification number Condition (c): Learning data: Experimental data (B)
Test data: Experimental data (A)
Features used: Surface characters, character types, parts of speech Condition (d): Learning data: Experimental data (B)
Test data: Experimental data (A)
Use features: Character type, part of speech, classification number
なお、実験データ(A)「アパレル(男性用)−トップス−シャツ−半袖」と実験データ(B)「アパレル(女性用)−トップス−タンクトップ,キャミソール」は、「アパレル−トップス」の中では、出現する属性情報の類似性が低い関係にある。 Experimental data (A) "Apparel (for men)-Tops-shirt-short sleeve" and experimental data (B) "Apparel (for women)-Tops-Tank top, camisole" are among "Apparel-Tops" , The similarity of the appearing attribute information is low.
表4に、実験4における抽出精度を示す。
実験1や実験2等のように、同じグループ内の商品情報(アパレル(男性用)−トップス−シャツ−半袖)を用いて自動抽出を行った場合と比べると、全体的に精度が低いことがわかる。これは、文書内に出現する属性情報の類似性が低くなったからである。
As in
また、条件(ア)と条件(イ)、条件(ウ)と条件(エ)をそれぞれ比較してわかるように、表層文字を用いた方が分類番号を用いた場合よりも抽出精度が高いといえる。ただし、同類の商品情報を用いた場合よりも、表層文字を用いた場合と分類番号を用いた場合の精度の差が小さくなっていることから、出現する属性情報の類似性がより低い場合においては、分類番号の効果がより大きくなると考えられる。 Also, as can be seen by comparing the conditions (a) and (b) and the conditions (c) and (d), the extraction accuracy is higher when using surface characters than when using classification numbers. I can say that. However, in the case where the similarity of appearing attribute information is lower because the difference in accuracy between using surface characters and using classification numbers is smaller than when using similar product information It is considered that the effect of the classification number becomes larger.
10 サーバ装置
11 CPU
12 RAM
13 記憶部
14 商品情報DB
15 操作部
16 表示部
17 通信部
18 バス
20 PC
31 学習用コーパス入力部
32 機械学習器
321 素性展開部
322 商品分類部
323 属性学習DB
33 商品情報入力部
34 自動抽出器
341 素性展開部
342 タギング部
35 クエリ受信部
36 商品情報検索部
37 検索結果送信部
100 オークションシステム
N 通信ネットワーク
10
12 RAM
13
15 Operation unit 16
31 Learning
33 Product
Claims (7)
予め商品説明文に記載されている商品の属性及び属性値に対して属性タグ及び属性値タグが付与されている複数の学習用文書を素性展開する第1素性展開手段と、
前記第1素性展開手段により素性展開された各素性を前記属性タグ又は属性値タグと関連付けることにより、前記学習用文書を分類する分類手段と、
を備える商品分類装置。 A product classification device that classifies the product for each attribute value indicating the attribute and / or the content of the attribute based on the product description,
First feature development means for developing a plurality of learning documents to which attribute tags and attribute value tags are assigned to the attributes and attribute values of the products described in advance in the product description;
Classification means for classifying the learning document by associating each feature developed by the first feature development means with the attribute tag or attribute value tag;
A product classification apparatus comprising:
前記分類手段による分類結果に基づいて前記第2素性展開手段が素性展開した商品情報文書から属性及び/又は属性値のデータを抽出する抽出手段と、
を更に備える請求項1に記載の商品分類装置。 Second feature expansion means for expanding the input product information document to be extracted;
Extraction means for extracting attribute and / or attribute value data from the product information document that the second feature development means has developed based on the classification result by the classification means;
The product classification device according to claim 1, further comprising:
クライアント端末から受信した属性及び/又は属性値のデータが関連付けられた商品情報文書を前記記憶手段から検索して前記クライアント端末に送信する検索手段と、
を更に備える請求項2に記載の商品分類装置。 Storage means for storing the attribute and / or attribute value data extracted by the extraction means in association with the product information document from which the data is extracted;
Search means for searching for product information documents associated with attribute and / or attribute value data received from the client terminal from the storage means and transmitting to the client terminal;
The product classification device according to claim 2, further comprising:
予め商品説明文に記載されている商品の属性及び属性値に対して属性タグ及び属性値タグが付与されている複数の学習用文書を素性展開する第1素性展開工程と、
前記第1素性展開工程において素性展開された各素性を前記属性タグ又は属性値タグと関連付けることにより、前記学習用文書を分類する分類工程と、
を含む商品分類方法。 A product classification method for classifying the product into attributes and / or attribute values indicating the contents of the attribute based on the product description,
A first feature development step for feature development of a plurality of learning documents to which an attribute tag and an attribute value tag are attached to an attribute and an attribute value of a product described in advance in a product description;
A classification step of classifying the learning document by associating each feature developed in the first feature development step with the attribute tag or the attribute value tag;
Product classification method including
予め商品説明文に記載されている商品の属性及び属性値に対して属性タグ及び属性値タグが付与されている複数の学習用文書を素性展開する第1素性展開手段、
前記第1素性展開手段により素性展開された各素性を前記属性タグ又は属性値タグと関連付けることにより、前記学習用文書を分類する分類手段、
として機能させるためのプログラム。 A computer that classifies the product into attributes and / or attribute values indicating the contents of the attribute based on the product description.
First feature expansion means for expanding a plurality of learning documents to which an attribute tag and an attribute value tag are assigned to an attribute and an attribute value of a product described in advance in a product description;
A classifying unit that classifies the learning document by associating each feature developed by the first feature development unit with the attribute tag or the attribute value tag;
Program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007190834A JP2009026195A (en) | 2007-07-23 | 2007-07-23 | Article classification apparatus, article classification method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007190834A JP2009026195A (en) | 2007-07-23 | 2007-07-23 | Article classification apparatus, article classification method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009026195A true JP2009026195A (en) | 2009-02-05 |
Family
ID=40397927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007190834A Pending JP2009026195A (en) | 2007-07-23 | 2007-07-23 | Article classification apparatus, article classification method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009026195A (en) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2492317A2 (en) | 2008-03-07 | 2012-08-29 | FUJIFILM Corporation | Azo compound, azo pigment, dispersion containing the azo compound or azo pigment, coloring composition, ink for inkjet recording, ink tank for inkjet recording, inkjet recording method and recorded material |
WO2013011785A1 (en) * | 2011-07-20 | 2013-01-24 | 楽天株式会社 | Search device, search program, computer-readable recording medium in which search program is recorded, and search method |
WO2013036688A2 (en) * | 2011-09-06 | 2013-03-14 | Google Inc. | Identifying product variants |
JP5324018B1 (en) * | 2012-10-19 | 2013-10-23 | 楽天株式会社 | Corpus generation device, corpus generation method, and corpus generation program |
WO2014061285A1 (en) * | 2012-10-19 | 2014-04-24 | 楽天株式会社 | Corpus generating device, corpus generating method, and corpus generating program |
JP5576003B1 (en) * | 2013-09-30 | 2014-08-20 | 楽天株式会社 | Corpus generation device, corpus generation method, and corpus generation program |
JP2015528173A (en) * | 2012-08-17 | 2015-09-24 | インテル コーポレイション | How to handle data using data relations |
JP2015529901A (en) * | 2012-07-30 | 2015-10-08 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | Information classification based on product recognition |
US9734503B1 (en) | 2011-06-21 | 2017-08-15 | Google Inc. | Hosted product recommendations |
KR101851675B1 (en) * | 2016-11-03 | 2018-05-17 | 네모커머스(주) | System for automatic goods classification using heterogeneous data |
CN108491873A (en) * | 2018-03-19 | 2018-09-04 | 广州建翎电子技术有限公司 | A kind of commodity classification method based on data analysis |
US10169308B1 (en) | 2010-03-19 | 2019-01-01 | Google Llc | Method and system for creating an online store |
JP2019503541A (en) * | 2016-01-27 | 2019-02-07 | オラクル・インターナショナル・コーポレイション | An annotation system for extracting attributes from electronic data structures |
JP6560843B1 (en) * | 2018-03-16 | 2019-08-14 | 楽天株式会社 | SEARCH SYSTEM, SEARCH METHOD, AND PROGRAM |
JP2020046792A (en) * | 2018-09-18 | 2020-03-26 | Zホールディングス株式会社 | Information processor, information processing method and program |
JP2022082524A (en) * | 2020-11-23 | 2022-06-02 | エムロ・カンパニー・リミテッド | Method and apparatus for providing information using learning model through machine learning |
-
2007
- 2007-07-23 JP JP2007190834A patent/JP2009026195A/en active Pending
Non-Patent Citations (2)
Title |
---|
CSNG200701093025; 西村純、外8名: 'ネットオークションにおける属性検索のための出品情報文書からの属性抽出' 電子情報通信学会技術研究報告 第107巻, 20070717, pp.157〜162, 社団法人電子情報通信学会 * |
JPN6012035519; 西村純、外8名: 'ネットオークションにおける属性検索のための出品情報文書からの属性抽出' 電子情報通信学会技術研究報告 第107巻, 20070717, pp.157〜162, 社団法人電子情報通信学会 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2492317A2 (en) | 2008-03-07 | 2012-08-29 | FUJIFILM Corporation | Azo compound, azo pigment, dispersion containing the azo compound or azo pigment, coloring composition, ink for inkjet recording, ink tank for inkjet recording, inkjet recording method and recorded material |
US10169308B1 (en) | 2010-03-19 | 2019-01-01 | Google Llc | Method and system for creating an online store |
US9734503B1 (en) | 2011-06-21 | 2017-08-15 | Google Inc. | Hosted product recommendations |
WO2013011785A1 (en) * | 2011-07-20 | 2013-01-24 | 楽天株式会社 | Search device, search program, computer-readable recording medium in which search program is recorded, and search method |
JP2013025522A (en) * | 2011-07-20 | 2013-02-04 | Rakuten Inc | Search device, search program, computer-readable recording medium with search program recorded therein and search method |
WO2013036688A2 (en) * | 2011-09-06 | 2013-03-14 | Google Inc. | Identifying product variants |
WO2013036688A3 (en) * | 2011-09-06 | 2013-05-10 | Google Inc. | Identifying product variants |
US8700494B2 (en) | 2011-09-06 | 2014-04-15 | Google Inc. | Identifying product variants |
JP2015529901A (en) * | 2012-07-30 | 2015-10-08 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | Information classification based on product recognition |
JP2015528173A (en) * | 2012-08-17 | 2015-09-24 | インテル コーポレイション | How to handle data using data relations |
JP5324018B1 (en) * | 2012-10-19 | 2013-10-23 | 楽天株式会社 | Corpus generation device, corpus generation method, and corpus generation program |
WO2014061285A1 (en) * | 2012-10-19 | 2014-04-24 | 楽天株式会社 | Corpus generating device, corpus generating method, and corpus generating program |
JP5576003B1 (en) * | 2013-09-30 | 2014-08-20 | 楽天株式会社 | Corpus generation device, corpus generation method, and corpus generation program |
WO2015045155A1 (en) * | 2013-09-30 | 2015-04-02 | 楽天株式会社 | Corpus generation device, corpus generation method, and corpus generation program |
JP2019503541A (en) * | 2016-01-27 | 2019-02-07 | オラクル・インターナショナル・コーポレイション | An annotation system for extracting attributes from electronic data structures |
KR101851675B1 (en) * | 2016-11-03 | 2018-05-17 | 네모커머스(주) | System for automatic goods classification using heterogeneous data |
JP6560843B1 (en) * | 2018-03-16 | 2019-08-14 | 楽天株式会社 | SEARCH SYSTEM, SEARCH METHOD, AND PROGRAM |
CN108491873A (en) * | 2018-03-19 | 2018-09-04 | 广州建翎电子技术有限公司 | A kind of commodity classification method based on data analysis |
CN108491873B (en) * | 2018-03-19 | 2019-05-14 | 广州蓝深科技有限公司 | A kind of commodity classification method based on data analysis |
JP2020046792A (en) * | 2018-09-18 | 2020-03-26 | Zホールディングス株式会社 | Information processor, information processing method and program |
JP7043373B2 (en) | 2018-09-18 | 2022-03-29 | ヤフー株式会社 | Information processing equipment, information processing methods, and programs |
JP2022082524A (en) * | 2020-11-23 | 2022-06-02 | エムロ・カンパニー・リミテッド | Method and apparatus for providing information using learning model through machine learning |
JP7287699B2 (en) | 2020-11-23 | 2023-06-06 | エムロ・カンパニー・リミテッド | Information provision method and device using learning model through machine learning |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009026195A (en) | Article classification apparatus, article classification method and program | |
US8589429B1 (en) | System and method for providing query recommendations based on search activity of a user base | |
JP5721818B2 (en) | Use of model information group in search | |
US9798820B1 (en) | Classification of keywords | |
US20090248707A1 (en) | Site-specific information-type detection methods and systems | |
CN108763223B (en) | Method for constructing Chinese-English Mongolian Tibetan language multilingual parallel corpus | |
WO2019153685A1 (en) | Text processing method, apparatus, computer device and storage medium | |
JP6462970B1 (en) | Classification device, classification method, generation method, classification program, and generation program | |
CN110909536A (en) | System and method for automatically generating articles for a product | |
CN112989208B (en) | Information recommendation method and device, electronic equipment and storage medium | |
US20160299951A1 (en) | Processing a search query and retrieving targeted records from a networked database system | |
US20220121668A1 (en) | Method for recommending document, electronic device and storage medium | |
CN111160007B (en) | Search method and device based on BERT language model, computer equipment and storage medium | |
JP2017045196A (en) | Ambiguity evaluation device, ambiguity evaluation method, and ambiguity evaluation program | |
Padmaja et al. | Text processing of Telugu–English code mixed languages | |
TWI674511B (en) | Product information display system, product information display method, and program product | |
WO2014196063A1 (en) | Product search system and product search program | |
JP6621514B1 (en) | Summary creation device, summary creation method, and program | |
CN110688559A (en) | Retrieval method and device | |
US20220083736A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
WO2022198747A1 (en) | Triplet information extraction method and apparatus, electronic device and storage medium | |
US10474726B2 (en) | Generation of digital documents | |
CN112783410B (en) | Information processing method, medium, device and computing equipment | |
US9530094B2 (en) | Jabba-type contextual tagger | |
WO2015159702A1 (en) | Partial-information extraction system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100713 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100713 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120702 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120710 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121127 |