JP2019101959A

JP2019101959A - 抽出装置、抽出方法、抽出プログラム及びモデル

Info

Publication number: JP2019101959A
Application number: JP2017234985A
Authority: JP
Inventors: 毅司増山; Takeshi Masuyama; 小林　健; Takeshi Kobayashi; 健小林
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2019-06-24
Anticipated expiration: 2037-12-07
Also published as: JP6501855B1

Abstract

【課題】高精度なモデルを生成するための適切な学習データを抽出すること。【解決手段】本願に係る抽出装置は、取得部と、抽出部とを有する。取得部は、所定の事象における正例データ及び負例データを取得する。抽出部は、取得部によって取得された正例データと負例データを構成する個々の負例との類似度に基づいて、所定の事象における分類処理のための学習データを抽出する。例えば、抽出部は、取得部によって取得された正例データと各負例データの類似度に基づいて、取得部によって取得された負例データの中から、学習データにおける負例データとなる学習用負例データを抽出する。【選択図】図１

Description

本発明は、抽出装置、抽出方法、抽出プログラム及びモデルに関する。

近年、ネットワークサービスを利用するユーザやネットワーク上の文書等の分類を自動的に行うための学習済み分類モデルが盛んに利用されている。

このようなモデルに関する技術の一例として、ネットワーク上のユーザの購買履歴等を学習することにより、所定の行動をすることが予測される対象のユーザを抽出する技術が知られている。また、学習処理において、学習データの正例と負例のバランスを調整することで、レビュー文書であるか否かを精度よく分類するためのモデルを生成する技術が知られている。

特開２０１５−２３０７１７号公報特開２０１３−１３１０７４号公報

しかしながら、モデル生成のための学習データの抽出処理には、さらに改善の余地がある。例えば、事象によっては、正例又は負例のデータ数が極めて少数であり、学習データを抽出することが難しい場合がある。また、学習に用いる正例又は負例のデータ数が偏ると、精度の高いモデルを生成することが困難になる。

本願は、上記に鑑みてなされたものであって、高精度なモデルを生成するための適切な学習データを抽出することができる抽出装置、抽出方法、抽出プログラム及びモデルを提供することを目的とする。

本願に係る抽出装置は、所定の事象における正例データ及び負例データを取得する取得部と、前記取得部によって取得された正例データと前記負例データを構成する個々の負例との類似度に基づいて、前記所定の事象における分類処理のための学習データを抽出する抽出部と、を備えたことを特徴とする。

実施形態の一態様によれば、高精度なモデルを生成するための適切な学習データを抽出することができるという効果を奏する。

図１は、実施形態に係る抽出処理の一例を示す図である。図２は、実施形態に係る抽出処理の一例を説明する図である。図３は、実施形態に係る抽出システムの構成例を示す図である。図４は、実施形態に係る抽出装置の構成例を示す図である。図５は、実施形態に係る規約情報記憶部の一例を示す図である。図６は、実施形態に係る属性テーブルの一例を示す図である。図７は、実施形態に係る出品テーブルの一例を示す図である。図８は、実施形態に係る類似度算出要素記憶部の一例を示す図である。図９は、実施形態に係るユーザ分類モデル記憶部の一例を示す図である。図１０は、実施形態に係る処理手順を示すフローチャート（１）である。図１１は、実施形態に係る処理手順を示すフローチャート（２）である。図１２は、変形例に係る抽出処理の一例を説明する図である。図１３は、抽出装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る抽出装置、抽出方法、抽出プログラム及びモデルを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る抽出装置、抽出方法、抽出プログラム及びモデルが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．抽出処理の一例〕
まず、図１を用いて、実施形態に係る抽出処理の一例について説明する。図１は、実施形態に係る抽出処理の一例を示す図である。具体的には、図１では、実施形態に係る抽出装置１００によって、所定の事象における正例データ及び負例データの中から、正例データに対する個々の負例の類似度に基づいて当該所定の事象における分類処理のための学習データを抽出する処理が行われる例を示す。実施形態では、所定の事象として、ネットワーク上で提供されるオークションサービスにおける不正ユーザの抽出（分類）を例に挙げる。

図１に示す抽出装置１００は、ユーザにオークションサービスを提供するサーバ装置である。また、抽出装置１００は、オークションサービスを利用するユーザが不正ユーザであるか否かを分類する。具体的には、抽出装置１００は、オークションサービスを利用するユーザが不正ユーザであるか否かを分類するためのユーザ分類モデル（以下、単に「モデル」と表記する）を生成し、生成したモデルを利用してユーザの分類を行う。すなわち、実施形態に係る事象の学習では、オークションサービスにおける不正ユーザが正例に該当し、オークションサービスにおける非不正ユーザ（以下、「正規ユーザ」と表記する）が負例に該当する。抽出装置１００は、例えば、不正ユーザと判定されたユーザに対してオークションサービスの利用を制限する等の処理を行う。なお、以下の説明では、事象における個々の事例を「正例」又は「負例」、事象における正例の集合を「正例データ」、事象における負例の集合を「負例データ」とそれぞれ表記する。また、個々の事例か事例の集合かを特に区別する必要のない場合には、正例データ又は負例データとのみ表記する。

図１に示すユーザ端末１０_１、１０_２及び１０_３は、スマートフォン等の情報処理端末である。実施形態において、ユーザ端末１０_１はユーザＵ０１によって利用され、ユーザ端末１０_２はユーザＵ０２によって利用され、ユーザ端末１０_３はユーザＵ０３によって利用される。ユーザ端末１０_１、１０_２及び１０_３は、抽出装置１００にアクセスし、取得したコンテンツ（例えば、オークションサービスに係るウェブページ等）を取得したり、ユーザの操作に応じて出品や落札に関する処理を行ったりする。なお、以下では、ユーザ端末１０_１、１０_２及び１０_３等を区別する必要のないときは、「ユーザ端末１０」と総称する。また、ユーザＵ０１、Ｕ０２及びＵ０３等を区別する必要のないときは、「ユーザ」と総称する。

ネットワーク上で提供されるオークションサービス等の商取引サービスでは、サービスの規約に沿わないような行動をとるユーザを不正ユーザとして検知し、検知したユーザに対して何らかの対策をとることが望ましい。しかし、オークションサービスを利用するユーザは膨大であり、全てのユーザを監視し、人為的に不正ユーザを抽出することは現実的に困難である。このため、サービス提供者側（図１の例では抽出装置１００の管理者等）は、例えば人為的に検知した不正ユーザに関する情報（例えば、不正ユーザの属性情報や行動履歴等）を学習データとして、新たに検証の対象となるユーザが不正ユーザであるか否かを判定するモデルを生成する。そして、サービス提供者側は、生成したモデルを利用して不正ユーザを検出する。

しかしながら、上記のような事象では、モデル生成のための適切な学習データが得られない場合がある。一般に、オークションサービスを利用する全ユーザ数と比較して、不正ユーザとして検知されるユーザの数は極めて少数である。このため、かかる事象では、少数の正例データと比較して、極めて多数の負例データが存在する。一般に、学習処理においては正例データと負例データの数を略同一にすることが望ましいが、正例データと数を合わせるために負例データをランダムにサンプリングした場合、適切な学習データが得られない場合がある。例えば、多数の負例データの中には、極めて正例データに近い負例（例えば、不正を行っているにも関わらずサービスの監視者によって検知されなかったユーザ）や、一方で、正例データからかけ離れた負例（例えば、不正行為と疑われるような行為を全く行っていないユーザ）等が混在する。このような学習データに基づいて学習が行われたモデルは、オークションサービスを利用する様々なユーザの情報を学習データとして万遍なく取り込んでいるとは限らないため、不正ユーザを適切に抽出できないおそれがある。すなわち、学習データは、単に正例データと負例データの数を揃えるだけでなく、オークションサービスを利用する様々なユーザの情報を過不足なく網羅していることが望ましい。

そこで、実施形態に係る抽出装置１００は、正例データに対する個々の負例の類似度を算出し、算出した類似度に基づいて、全負例データのうち学習に用いる負例データ（以下、「学習用負例データ」と表記する）を抽出する。一例として、抽出装置１００は、類似度に応じて負例データをグループに分け、各グループから略同一の割合で負例データを抽出する。これにより、抽出装置１００は、サービスを利用する全ユーザからバランスよく学習データを抽出することができるため、処理対象となるユーザが正例であるか否かを精度よく判定するためのモデルを生成することができる。

以下、図１を用いて、抽出装置１００によって行われる抽出処理の一例を流れに沿って説明する。

図１に示すように、オークションサービスへの出品を行う出品者には、不正な取引を行うユーザであるユーザＵ０１や、規約に沿った取引を行うユーザであるユーザＵ０２が存在する。図１において、ユーザＵ０１は正例データとして扱われるユーザであり、ユーザＵ０２は負例データとして扱われるユーザである。

まず、抽出装置１００は、提供するオークションサービスを利用する各ユーザの取引に関する情報等を取得する（ステップＳ１１）。例えば、抽出装置１００は、ユーザＵ０１やユーザＵ０２がオークションサービスに登録した属性情報（性別や年齢等）や、出品した商品に係る情報等を取得する。具体的には、抽出装置１００は、ユーザＵ０１の操作に従ってユーザ端末１０_１から送信された出品情報（例えば、出品される商品カテゴリや、商品画像や、商品の説明文等）を取得する。また、抽出装置１００は、ユーザＵ０２の操作に従ってユーザ端末１０_２から送信された出品情報を取得する。抽出装置１００は、取得した情報をユーザ情報記憶部１２２に格納する。なお、図１では図示を省略しているが、オークションサービスを利用するユーザは、実施形態に係る抽出処理を行うのに充分な、相当数が存在するものとする。

ここで、抽出装置１００は、オークションサービスにおける規約を示した情報である規約情報を記憶する規約情報記憶部１２１を有する。規約は、例えば、抽出装置１００を管理する管理者等によって予め抽出装置１００に入力される。規約は、オークションサービスにおいて不正ユーザを判定するための規則（ルール）と読み替えてもよい。

抽出装置１００は、取得した各ユーザのうち、規約に基づいて正例データとなるユーザを抽出する（ステップＳ１２）。かかる抽出処理は、例えばオークションサービスの取引を監視する監視者等によって人為的に行われてもよい。すなわち、監視者は、オークションに出品される商品を監視し、出品された商品が法律により禁止されている物品であったり、同種商品の平均的な金額を遥かに超える値付けがされていたり、規約に沿わない金額（例えば、送料以外の手数料や、平均的な送料を遥かに超える送料等）の要求が記載されていたりした場合に、その出品を行ったユーザを不正ユーザとして検知する。

そして、監視者は、不正ユーザであると検知したユーザの識別情報等を抽出装置１００に入力する。抽出装置１００は、監視者から入力された情報に基づいて、正例データとなるユーザを抽出する。図１の例では、抽出装置１００は、正例データとしてユーザＵ０１を抽出する。また、抽出装置１００は、正例データとして抽出されないユーザを負例データとして取り扱う。図１の例では、抽出装置１００は、正例データとして抽出されなかったユーザＵ０２を負例データとして取り扱う。

その後、モデルの生成処理に充分な正例データと負例データが蓄積された場合、抽出装置１００は、モデル生成処理を開始する。まず、抽出装置１００は、正例データに対する個々の負例の類似度を算出する（ステップＳ１３）。算出処理の詳細は後述するが、例えば、抽出装置１００は、類似度の算出の要素となる情報を記憶した類似度算出要素記憶部１２３を有し、類似度算出要素記憶部１２３に保持された要素に基づいて、個々の負例の正例データに対する類似度を算出する。具体的には、抽出装置１００は、正例データに対する負例の類似度を、０以上１以下の数値で算出する。例えば、抽出装置１００は、正例データに近い性質を有する負例ほど類似度の値を高く算出するものとする。

仮に、図１に示すオークションサービスでは、当該サービスが提供されている国で流通する現金を出品することが規約により禁じられているものとする。この場合、抽出装置１００は、類似度算出要素記憶部１２３に、規約により禁じられている商品（この例では現金）を判定するための画像データやテキストデータを保持する。そして、抽出装置１００は、例えば既知の画像認識技術を用いて、ユーザが出品においてアップロードした商品画像と、規約により禁じられている商品の画像との類似度を算出する。

例えば、ユーザがアップロードした商品画像が現金を撮像したものである場合、抽出装置１００は、双方の画像の類似度を比較的高く算出する。なお、抽出装置１００は、２つの画像を比較した場合の類似度の算出について、種々の既知の技術を利用してもよい。そして、抽出装置１００は、算出した画像の類似度に基づいて、商品画像をアップロードしたユーザと、正例データとの類似度を算出する。具体的には、抽出装置１００は、当該ユーザの正例データに対する類似度を「０．９」と算出する。これは、当該ユーザが、極めて正例データに類似する行動をとっている（この例では、当該ユーザが現金を出品しようとしている可能性が高い）と機械的に判定されたことを意味する。

なお、ユーザがアップロードした商品画像が現時点では流通していない貨幣（古銭等）である場合であっても、双方が貨幣の特徴量を有する画像であることから、抽出装置１００は、画像解析の結果として、双方の画像の類似度を比較的高く算出すると想定される。例えば、この例では、抽出装置１００が、当該ユーザの正例データに対する類似度を「０．８」と算出するものとする。これは、当該ユーザが、正例データではないものの、正例データに類似する行動をとっている（この例では、当該ユーザが「現金のようなもの」を出品しようとしている可能性が高い）と判定されたことを意味する。

一方、ユーザがアップロードした商品画像が貨幣とは無関係の画像である場合、抽出装置１００は、双方の画像の類似度を比較的低く算出する。具体的には、抽出装置１００は、当該ユーザの正例データに対する類似度を「０．２」と算出する。これは、当該ユーザが、正例データではなく、また、正例データと非類似の行動をとっていると判定されたことを意味する。

なお、抽出装置１００は、上記のような画像解析のみならず、出品商品に付されたテキストデータ（商品のカテゴリや説明文等）の解析によって、類似度を算出してもよい。例えば、抽出装置１００は、「現金」や「一万円札」や「キャッシュ」等、出品が正例データと相関性が高いと判定するための要素となりうるテキスト群を類似度算出要素記憶部１２３に保持する。そして、抽出装置１００は、ユーザが出品した商品のテキストデータと、類似度算出要素記憶部１２３に保持されたテキスト群との一致率や一致数に基づいて、当該ユーザの類似度を算出してもよい。また、抽出装置１００は、各ユーザの一の出品情報に基づいて類似度を算出してもよいし（この場合、抽出装置１００は、例えば複数の出品のうち最も高く算出された類似度を当該ユーザの類似度として採用する）、各ユーザの複数の出品情報の統計（例えば、複数の出品に対して算出された類似度の合計値）に基づいて類似度を算出してもよい。また、抽出装置１００は、出品情報のみならず、ユーザの属性情報等の種々の情報を利用して類似度を算出してもよい。

このように、抽出装置１００は、類似度算出要素記憶部１２３に記憶されている種々の要素に基づいて、個々の負例の類似度を算出する。その後、抽出装置１００は、算出した類似度に基づいて、実際のモデル生成に用いる学習データを抽出する（ステップＳ１４）。

ここで、学習データの抽出について図２を用いて説明する。図２は、実施形態に係る抽出処理の一例を説明する図である。図２に示す例では、抽出装置１００は、負例データとなるユーザ群に含まれる各ユーザに対して類似度を算出したものとする。

続けて、抽出装置１００は、正例データとの類似度に応じて負例データをグルーピング（グループ分け）する（ステップＳ２１）。図２に示すように、抽出装置１００は、例えば類似度が１以下０．９以上の負例データをグループＧＲ０１に分類する。同様に、抽出装置１００は、類似度が０．９未満０．８以上の負例データをグループＧＲ０２に分類し、類似度が０．８未満０．７以上の負例データをグループＧＲ０３に分類し、類似度が０．７未満０．６以上の負例データをグループＧＲ０４に分類し、類似度が０．６未満０．５以上の負例データをグループＧＲ０５に分類する。なお、図２での図示は省略するが、抽出装置１００は、類似度が０．５未満の負例データについても、適宜、グループに分類する。

そして、抽出装置１００は、各グループから所定の割合で負例を抽出する（ステップＳ２２）。例えば、抽出装置１００は、各グループから抽出される負例の数が略同一となるような割合で、全体として正例データと同程度の数となるよう負例データを抽出する。そして、抽出装置１００は、抽出した負例データをモデル生成のための学習データ（学習用負例データ）とする。

このように、抽出装置１００は、正例データと負例データとの数を揃える際に、オークションサービスにおける全負例データからランダムにサンプリングを行うのではなく、類似度に基づいて分類された各グループから負例データを抽出するようにする。これにより、抽出装置１００は、正例データと高い類似度を有する負例から、正例データと低い類似度を有する負例までを過不足なく網羅した学習用負例データを抽出することができる。

図１に戻って説明を続ける。学習データを抽出したのち、抽出装置１００は、抽出した学習データを利用してユーザ分類モデルを生成する（ステップＳ１５）。例えば、実施形態に係るモデルは、新規ユーザの情報が入力された場合に、当該新規ユーザが、ステップＳ１２において人為的に抽出された正例データ群とどのくらいの相関性を示すかの指標値（スコア）を出力するモデルである。抽出装置１００は、生成したモデルをユーザ分類モデル記憶部１２４に格納する。

その後、抽出装置１００は、オークションサービスに新たに行われる出品に関する情報等を取得する（ステップＳ１６）。具体的には、抽出装置１００は、新たにオークションサービスに出品を行うユーザであるユーザＵ０３の操作に従って、ユーザ端末１０_３からオークションサービスへの出品要求が送信されたことを契機として、ユーザＵ０３が行った出品の情報を取得する。なお、抽出装置１００は、出品に関する情報のみならず、ユーザＵ０３の属性情報等の種々の情報を取得してもよい。

抽出装置１００は、ユーザ分類モデル記憶部１２４に記憶されたモデルを用いて、新たに出品を行ったユーザ（この例ではユーザＵ０３）が不正ユーザであるか正規ユーザであるか否かを判定する（ステップＳ１７）。例えば、抽出装置１００は、モデルから出力されたスコアが所定閾値を超えている場合にはユーザＵ０３を不正ユーザと判定し、スコアが所定閾値以下である場合にはユーザＵ０３を正規ユーザと判定する。

図１及び図２を用いて説明したように、実施形態に係る抽出装置１００は、所定の事象における正例データ及び負例データを取得し、取得した正例データと負例データを構成する個々の負例との類似度に基づいて、所定の事象における分類処理のための学習データを抽出する。

すなわち、実施形態に係る抽出装置１００は、例えば正例データと負例データの数が大きく異なる事象において、例えば負例データからランダムに学習データを抽出するのではなく、正例データとの類似度に基づいて負例データを抽出する。これにより、抽出装置１００は、正例データと類似する負例データから、正例データと非類似の負例データまで、事象における様々な負例データをバランスよく学習データとして抽出することができる。

仮に、正例データと、正例データとの類似度の低い負例データのみで学習処理が行われる場合、そのモデルは、「極めて正例データと類似するが負例データである」といった対象を精度よく分類できない可能性がある。また、仮に、正例データと、正例データとの類似度の高い負例データのみで学習処理が行われる場合、正例データと負例データの特徴の相違がわずかであることからユーザ分類のための特徴量の検出が難しく、モデル生成に時間がかかったり、精度よく分類ができなかったりするモデルが生成される可能性がある。

一方、実施形態に係る抽出処理では、正例データに対する類似度という変数を導入することで、学習データとして利用する負例データのバランスを整えることができる。すなわち、抽出装置１００は、正例データと負例データとの数が大きく乖離しているような事象であっても、高精度なモデルを生成するための適切な学習データを抽出することができる。以下、このような処理を行う抽出装置１００、及び、抽出装置１００を含む抽出システム１の構成等について、詳細に説明する。

〔２．抽出システムの構成〕
図３を用いて、実施形態に係る抽出装置１００が含まれる抽出システム１の構成について説明する。図３は、実施形態に係る抽出システム１の構成例を示す図である。図３に例示するように、実施形態に係る抽出システム１には、ユーザ端末１０と、抽出装置１００とが含まれる。これらの各種装置は、ネットワークＮ（例えば、インターネット）を介して、有線又は無線により通信可能に接続される。なお、図３に示した抽出システム１には、複数台のユーザ端末１０が含まれてもよい。

ユーザ端末１０は、例えば、スマートフォンや、デスクトップ型ＰＣ（Personal Computer）や、ノート型ＰＣや、タブレット型端末や、携帯電話機、ＰＤＡ（Personal Digital Assistant）、ウェアラブルデバイス（Wearable Device）等の情報処理装置である。ユーザ端末１０は、ユーザによる操作に従って、抽出装置１００にアクセスすることで、抽出装置１００から提供されるオークションサービスからコンテンツを取得する。そして、ユーザ端末１０は、取得したコンテンツを表示装置（例えば、液晶ディスプレイ）に表示する。なお、本明細書中においては、ユーザとユーザ端末１０とを同一視する場合がある。例えば、「ユーザにコンテンツを提供する」とは、実際には、「ユーザが利用するユーザ端末１０にコンテンツを提供する」ことを意味する場合がある。

抽出装置１００は、実施形態に係る抽出処理を実行するサーバ装置である。また、抽出装置１００は、ユーザ端末１０からアクセスを受け付けた場合に、ユーザ端末１０にオークションサービスを提供する。

なお、抽出装置１００は、ユーザ端末１０を識別したり、ユーザ端末１０を利用するユーザの情報を取得したりする。例えば、抽出装置１００は、ユーザ端末１０のウェブブラウザや、ユーザ端末１０にインストールされたアプリと、抽出装置１００との間でやり取りされるクッキー等を利用して、ユーザの識別情報を取得する。また、抽出装置１００は、オークションサービスの利用に際してユーザが登録した属性情報や、出品の際に登録した商品情報等に基づいて、ユーザに関する情報を取得する。ただし、ユーザの情報を取得する手法は上記に限られない。例えば、抽出装置１００は、ユーザ端末１０に専用のプログラムを設定し、かかる専用プログラムからユーザの情報を抽出装置１００に送信させてもよい。

〔３．抽出装置の構成〕
次に、図４を用いて、実施形態に係る抽出装置１００の構成について説明する。図４は、実施形態に係る抽出装置１００の構成例を示す図である。図４に示すように、抽出装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、抽出装置１００は、抽出装置１００を利用する管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

（通信部１１０について）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１０は、ネットワークＮと有線又は無線で接続され、ネットワークＮを介して、ユーザ端末１０との間で情報の送受信を行う。

（記憶部１２０について）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、規約情報記憶部１２１と、ユーザ情報記憶部１２２と、類似度算出要素記憶部１２３と、ユーザ分類モデル記憶部１２４とを有する。

（規約情報記憶部１２１について）
規約情報記憶部１２１は、サービスに係る規約を記憶する。ここで、図５に、実施形態に係る規約情報記憶部１２１の一例を示す。図５は、実施形態に係る規約情報記憶部１２１の一例を示す図である。図５に示した例では、規約情報記憶部１２１は、「規約項目ＩＤ」、「内容」といった項目を有する。

「規約項目ＩＤ」は、規約として設定された項目を識別するための識別情報を示す。なお、本明細書中では、図５に示したような識別情報を参照符号として用いる場合がある。例えば、規約項目ＩＤ「Ｔ０１」によって識別される規約項目を「規約項目Ｔ０１」と表記する場合がある。

「内容」は、規約として設定された内容を示す。例えば、抽出装置１００は、規約項目として設定された内容に基づいて、ユーザが不正ユーザであるか否かを判定する。なお、ユーザが規約に違反したユーザであるか否かの判定は、サービスの監視者等によって人為的に行われてもよい。

すなわち、図５に示したデータの一例は、規約項目ＩＤ「Ｔ０１」によって識別される規約項目Ｔ０１には、「違法商品の出品」がサービスの規約に違反するものであるという内容が設定されていることを示している。また、規約項目Ｔ０２には、「所定閾値を超えた金額の設定」がサービスの規約に違反するものであるという内容が設定されている。規約項目Ｔ０２は、例えば、同種の商品が出品された際の平均額に対して、極めて高額な価格が設定されている商品（例えば、高額な転売商品）等が不正な出品に該当することを規定している。

また、規約項目Ｔ０３には、「商品画像と説明の齟齬」がサービスの規約に違反するものであるという内容が設定されている。規約項目Ｔ０３は、例えば、説明文を詳細に読まなければ出品している商品が画像に撮像されているものであるか否かを判別し難いような、落札者を騙す意図のある出品が不正な出品に該当することを規定している。また、規約項目Ｔ０４には、「不当な手数料の要求」がサービスの規約に違反するものであるという内容が設定されている。規約項目Ｔ０４は、例えば、法外な送料を要求したり、サービスにおいて禁止されている手数料を要求したりする出品が不正な出品に該当することを規定している。

また、規約項目Ｔ０５には、「落札後の連絡の不備」がサービスの規約に違反するものであるという内容が設定されている。規約項目Ｔ０５は、例えば、商品が落札されたにも関わらず、その後、落札者が出品者と連絡がとれなくなるような取引において、当該出品者が不正ユーザに該当することを規定している。また、規約項目Ｔ０６には、「落札された商品の未発送」がサービスの規約に違反するものであるという内容が設定されている。規約項目Ｔ０６は、例えば、商品が落札されたにも関わらず、その後、出品者から落札者に商品が発送されないといった取引において、当該出品者が不正ユーザに該当することを規定している。

また、規約項目Ｔ０７には、「属性データの虚偽登録」がサービスの規約に違反するものであるという内容が設定されている。規約項目Ｔ０７は、例えば、オークションに登録しているユーザの属性情報（年齢、性別、住所等）に虚偽がある場合に、当該出品者が不正ユーザに該当することを規定している。また、規約項目Ｔ０８には、「不自然な言葉使いの説明文」がサービスの規約に違反するものであるという内容が設定されている。規約項目Ｔ０８は、例えば、商品に付される説明文が不自然な翻訳文であるような取引において、当該説明文を付して商品を出品した出品者が不正ユーザに該当することを規定している。

なお、図５で示した規約項目は一例であり、抽出装置１００は、図５で示した規約項目以外にも、オークションサービスの管理者等の入力に従い、種々の規約項目の内容を保持してもよい。

（ユーザ情報記憶部１２２について）
ユーザ情報記憶部１２２は、オークションサービスを利用するユーザ及びユーザ端末１０に関する情報を記憶する。図４に示すように、ユーザ情報記憶部１２２は、情報を記憶するデータテーブルとして、属性テーブル１２２Ａと、出品テーブル１２２Ｂとを含む。

（属性テーブル１２２Ａについて）
図６に、実施形態に係る属性テーブル１２２Ａの一例を示す。図６は、実施形態に係る属性テーブル１２２Ａの一例を示す図である。属性テーブル１２２Ａは、ユーザ端末１０を利用するユーザの属性に関する情報を記憶する。図６に示した例では、属性テーブル１２２Ａは、「ユーザＩＤ」、「性別」、「年齢」、「居住地」、「評価値」、「学習データ情報」といった項目を有する。また、学習データ情報は、「分類結果」と「類似度」の小項目を有する。

「ユーザＩＤ」は、ユーザを識別する識別情報である。「性別」は、ユーザ端末１０を利用するユーザの性別を示す。「年齢」は、ユーザ端末１０を利用するユーザの年齢を示す。「居住地」は、ユーザ端末１０を利用するユーザの居住地を示す。なお、「居住地」には、具体的な住所ではなく、ユーザの居住地に対応する一定の範囲を示す地域名（関東地方など）や、最寄りの駅名などが記憶されてもよい。

「評価値」は、オークションサービスにおいて、ユーザに対して他のユーザ（例えば、落札者）から付された評価値である。例えば、評価値は、５段階の数値で示され、「５」が最も評価が高く、「１」が最も評価が低いものとする。一般に、不正ユーザと判定されるユーザは、評価値が低くなる傾向を示す。なお、オークションサービスへの出品数が充分でなく、有効な評価値がまだ付されていないユーザ（図６の例ではユーザＵ０３）に関しては、評価値の項目は空欄となる。

「学習データ情報」は、当該ユーザが学習データとして利用される際の情報を示す。「分類結果」は、当該ユーザが不正ユーザ（学習における正例）に該当するか、正規ユーザ（学習における負例）に該当するかを示す。なお、分類結果に示される情報は、モデル生成に先立って、例えば人為的に判定された結果を示す。「類似度」は、正例データを「１」と仮定した場合の、正例データに対する負例データの類似度を示す。例えば、類似度は、０以上１以下の数値で示される。なお、学習データとして用いられないユーザ（図６の例ではユーザＵ０３）に関しては、学習データ情報の項目は空欄となる。

すなわち、図６に示したデータの一例は、ユーザＩＤ「Ｕ０１」によって識別されるユーザＵ０１の性別が「男性」であり、年齢が「３０歳」であり、居住地が「Ａ県」であり、評価値が「１」であることを示す。また、図６では、ユーザＵ０１が、学習データ情報における分類結果が「不正ユーザ（正例）」であることを示している。また、図６では、ユーザＵ０２が、学習データ情報における分類結果が「正規ユーザ（負例）」であり、正例データとの類似度が「０．４」であることを示している。

なお、属性テーブル１２２Ａに記憶される属性情報は、必ずしも正確な情報でなくともよい。例えば、抽出装置１００は、ユーザのネットワーク上の行動履歴や、アプリのインストール情報や、使用しているユーザ端末１０の特徴等から推定される「推定性別」や「推定年齢」等を属性テーブル１２２Ａに記憶してもよい。

（出品テーブル１２２Ｂについて）
続いて、図７に、実施形態に係る出品テーブル１２２Ｂの一例を示す。図７は、実施形態に係る出品テーブル１２２Ｂの一例を示す図である。出品テーブル１２２Ｂは、ユーザがオークションサービスに行った出品に関する情報を記憶する。図７に示した例では、出品テーブル１２２Ｂは、「ユーザＩＤ」、「出品ＩＤ」、「商品情報」、「画像」、「説明文」、「取引情報」といった項目を有する。

「ユーザＩＤ」は、図６に示した同様の項目と対応する。「出品ＩＤ」は、ユーザが行った出品を識別するための識別情報を示す。

「商品情報」は、出品された商品に関する情報を示す。なお、図７に示した例では、商品情報を「Ｂ０１」といった概念で表記しているが、実際には、商品情報の項目には、商品名や、商品のメーカー名や、商品が属するカテゴリや、出品価格や、落札希望価格等の種々の情報が記憶される。

「画像」は、出品された商品を撮像した画像を示す。なお、図７に示した例では、画像を「Ｃ０１」といった概念で表記しているが、実際には、画像の項目には、ユーザが商品を撮像してオークションサービスにアップロードしたり、メーカーから提供される画像をアップロードしたりした画像のデータであって、出品された商品とともにユーザ端末１０に表示される画像のデータが記憶される。

「説明文」は、出品された商品に対して出品したユーザが付与した説明文を示す。なお、図７に示した例では、説明文を「Ｄ０１」といった概念で表記しているが、実際には、説明文の項目には、実際にユーザがアップロードしたテキストデータが記憶される。なお、説明文の項目には、例えばユーザがアップロードしたテキストデータを形態素に解析したデータが記憶されてもよい。また、説明文の項目には、説明文を形態素解析した場合に、説明文に含まれる単語（語句）の出現数等に基づいて算出される各単語の重要度が記憶されてもよい。例えば、抽出装置１００は、取得した説明文に関する単語のｔｆ−ｉｄｆ（Term Frequency−Inverse Document Frequency）等の指標値を記憶してもよい。

「取引情報」は、出品された商品の取引に関する情報を示す。なお、図７に示した例では、取引情報を「Ｅ０１」といった概念で表記しているが、実際には、取引情報の項目には、商品が落札された日時や、商品を落札したユーザの識別情報や、落札されるまでの出品者と落札希望者とのメッセージのやりとりや、実際に落札された価格や、落札された後の商品の発送に関する情報や、出品者に対する落札者からの感想（評価）やメッセージ等の種々の情報が記憶される。

すなわち、図７に示したデータの一例では、ユーザＵ０１は、出品ＩＤ「Ａ０１」で識別される出品Ａ０１を行っており、その商品情報は「Ｂ０１」であり、画像は「Ｃ０１」であり、説明文は「Ｄ０１」であり、取引情報は「Ｅ０１」であることを示している。

なお、出品テーブル１２２Ｂには、図７で示した以外にも、種々の情報が記憶されてもよい。例えば、出品テーブル１２２Ｂには、ユーザの出品回数又は落札回数や、ユーザが出品を始めてから経過した期間等が記憶されてもよい。

（類似度算出要素記憶部１２３について）
類似度算出要素記憶部１２３は、正例データに対する負例データの類似度を算出する際に用いられる要素に関する情報を記憶する。ここで、図８に、実施形態に係る類似度算出要素記憶部１２３の一例を示す。図８は、実施形態に係る類似度算出要素記憶部１２３の一例を示す図である。図８に示した例では、類似度算出要素記憶部１２３は、「算出要素ＩＤ」、「算出要素」、「利用データ」、「内容」といった項目を有する。

「算出要素ＩＤ」は、算出要素を識別するための識別情報を示す。「算出要素」は、算出要素の内容を示す。「利用データ」は、類似度の算出において利用されるデータの種別を示す。「内容」は、類似度を算出する際に利用されるデータの具体的な内容を示す。

すなわち、図８に示したデータの一例では、算出要素ＩＤ「Ｊ０１」で識別される算出要素Ｊ０１は、「違法商品の出品」がされているか否かを類似度の算出に利用するものであり、その利用データは「商品情報データ」や「画像データ」であり、算出処理は、例えば「テキストの一致、画像認識」等によって行われることを示している。具体的には、抽出装置１００は、出品された商品の商品名やカテゴリが法に違反する内容（例えば、法律で禁止されている物品の販売に係るものであったり、現金等を取引することを暗示するものであったりする場合）であるか否かをテキスト解析によって検証する。そして、抽出装置１００は、商品情報において違反する用語が含まれる数や割合等に基づいて、類似度を算出する。

（ユーザ分類モデル記憶部１２４について）
ユーザ分類モデル記憶部１２４は、ユーザ分類のために生成されるモデルに関する情報を記憶する。ここで、図９に、実施形態に係るユーザ分類モデル記憶部１２４の一例を示す。図９は、実施形態に係るユーザ分類モデル記憶部１２４の一例を示す図である。図９に示した例では、ユーザ分類モデル記憶部１２４は、「モデルＩＤ」、「学習データ」といった項目を有する。また、学習データは、「正例データ」と「負例データ」の小項目を有する。

「モデルＩＤ」は、モデルを識別する識別情報を示す。「学習データ」は、モデルの生成（学習）に用いられた学習データを示す。「正例データ」は、事象における正例データのうち、学習に用いられた正例データ（以下、「学習用正例データ」と表記する）を示す。「負例データ」は、事象における負例データのうち、学習に用いられた負例データ（学習用負例データ）を示す。なお、図９に示した例では、正例データや負例データを「Ｆ０１」や「Ｇ０１」といった概念で示しているが、実際には、正例データや負例データの項目には、学習データとして利用された各ユーザの情報（あるいは、どのユーザの情報を学習データとして利用したかを示したユーザの識別情報）が記憶される。

すなわち、図９に示したデータの一例では、モデルＩＤ「Ｍ０１」によって識別されるモデルＭ０１は、正例データ「Ｆ０１」と負例データ「Ｇ０１」とを学習データとして生成されたモデルであることを示している。

なお、モデルＭ０１は、例えば、新たな出品を行うユーザに関する情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、を含む。そして、モデルＭ０１は、入力層に入力された情報に対し、出力層以外の各層に属する各要素を第１要素として、第１要素と第１要素の重みとに基づく演算を行うことにより、ユーザが正例に属するか負例に属するかの判定に用いられるスコアの値を出力層から出力するよう、コンピュータを機能させる。

また、モデルＭ０１が回帰モデルで実現される場合、各モデルが含む第１要素とは、ユーザに関する情報の個々の素性（説明変数）に対応し、第１要素の重みとは、それぞれの素性の係数に対応する。また、回帰モデルは、入力層と出力層とを有する単純パーセプトロンと見做すことができるが、各モデルを単純パーセプトロンと見做した場合、第１要素は、入力層が有するいずれかのノードに対応し、第２要素は、出力層が有するノードと見做すことができる。

なお、各モデルがＤＮＮ（Deep Neural Network）等、１つまたは複数の中間層を有するニューラルネットワークで実現される場合、各モデルが含む第１要素とは、入力層または中間層が有するいずれかのノードと見做すことができる。また、第２要素とは、第１要素と対応するノードから値が伝達されるノード、すなわち、次段のノードと対応し、第１要素の重みとは、第１要素と対応するノードから第２要素と対応するノードに伝達される値に対して考慮される重み、すなわち、接続係数である。

抽出装置１００は、上述した回帰モデルやニューラルネットワーク等、任意の構造を有するモデルＭ０１を用いてユーザの判定を行う。より具体的には、抽出装置１００は、ユーザに関する情報（例えば、ユーザが出品した商品や、出品に際して付与した画像や説明文等の情報や、ユーザの属性情報や、ユーザに対する他ユーザからの評価情報等）が入力された場合に、当該ユーザが正例である傾向を示すスコアを出力するように係数が設定されたモデルＭ０１を用いて、各ユーザのスコアを算出し、各ユーザを正例と負例とに分類する。

（制御部１３０について）
制御部１３０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、抽出装置１００内部の記憶装置に記憶されている各種プログラム（抽出プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、コントローラであり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

制御部１３０は、例えば、記憶部１２０に記憶されるモデルＭ０１に従った情報処理により、モデルＭ０１の入力層に入力されたユーザの情報に対し、モデルＭ０１が有する係数に基づく演算を行い、モデルＭ０１の出力層から、当該ユーザが正例であるという傾向を示すスコアを出力する。

図４に示すように、制御部１３０は、受付部１３１と、取得部１３２と、抽出部１３３と、生成部１３４と、判定部１３５とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図４に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図４に示した接続関係に限られず、他の接続関係であってもよい。

（受付部１３１について）
受付部１３１は、各種情報を受け付ける。例えば、受付部１３１は、抽出装置１００の管理者や、オークションサービスの監視者等による人為的な入力操作を介して、各種情報を受け付ける。

具体的には、受付部１３１は、オークションサービスに関する規約情報や、類似度算出に利用する要素に関する設定情報等を受け付ける。そして、受付部１３１は、受け付けた情報を規約情報記憶部１２１や類似度算出要素記憶部１２３等に格納する。

（取得部１３２について）
取得部１３２は、各種情報を取得する。例えば、取得部１３２は、所定の事象における正例データ及び負例データを取得する。

例えば、取得部１３２は、所定の事象が商取引サービスにおける不正ユーザの抽出（分類）である場合、当該商取引サービスの規約に照らした場合に、当該規約を満たさない不正ユーザ（より正確には、当該不正ユーザに関する種々の情報）を正例データとして取得する。また、取得部１３２は、当該規約を満たす正規ユーザを負例データとして取得する。

具体的には、取得部１３２は、所定の事象がオークションサービスにおける不正ユーザの抽出である場合、監視者等によって規約に違反していると判断され抽出された不正ユーザを正例データとして取得する。また、取得部１３２は、監視者等によって規約に違反していると判断されなかったユーザ、あるいは、監視者等による監視を看過したユーザを正規ユーザと推定して、負例データとして取得する。

取得部１３２は、ユーザに関する情報として、例えば、ユーザがオークションサービスに商品を出品した際に登録する情報である出品情報を取得する。具体的には、取得部１３２は、ユーザがオークションサービスに出品した商品の画像データや、出品する商品に設定した商品名やカテゴリ、商品に付した説明文（テキストデータ）、商品に設定した金額等の情報を取得する。

また、取得部１３２は、ユーザに関する情報として、ユーザの属性情報を取得する。具体的には、取得部１３２は、ユーザの属性情報として、ユーザの年齢や性別、居住地等を取得する。

また、取得部１３２は、ユーザに関する情報として、オークションサービスにおけるユーザの評価情報を取得する。具体的には、取得部１３２は、オークションサービスにおいてユーザが出品者としてどのくらいの評価を他ユーザから受けているかを示す評価値を取得する。

また、取得部１３２は、ユーザの行動履歴を取得してもよい。例えば、取得部１３２は、ユーザが商品を出品した履歴や、入札を行った履歴や、落札された商品を発送した履歴や、ユーザ間でメッセージをやり取りした履歴等を取得する。

そして、取得部１３２は、取得した情報を所定の記憶部に格納する。例えば、取得部１３２は、ユーザに関する情報を取得した場合には、取得した情報をユーザ情報記憶部１２２に記憶する。あるいは、取得部１３２は、取得した情報を抽出部１３３等の処理部に送ってもよい。

（抽出部１３３について）
抽出部１３３は、取得部１３２によって取得された正例データと負例データを構成する個々の負例との類似度に基づいて、所定の事象における分類処理のための学習データを抽出する。例えば、抽出部１３３は、所定の事象が商取引サービスにおける不正ユーザの抽出（分類）である場合、取得部１３２によって取得された正例データと負例データから、商取引サービスにおける不正ユーザと正規ユーザとを分類するモデルを生成するための学習データを抽出する。

例えば、抽出部１３３は、事象において、負例データの数（すなわち、負例データに含まれる事例（個々の負例）の数）と比較して正例データの数が極めて少ない場合には、正例データについては、人為的に抽出された全ての正例データを学習データとして抽出する。そして、抽出部１３３は、負例データについては、取得部１３２によって取得された正例データに対する個々の負例の類似度に基づいて、取得部１３２によって取得された負例データの中から、学習データにおける負例データとなる学習用負例データを抽出する。

例えば、抽出部１３３は、類似度の高低の順に基づいて取得部１３２によって取得された負例データをグループに分類し、分類した各々のグループから所定の割合で学習用負例データを抽出する。一例として、抽出部１３３は、各々のグループから略同一の割合（あるいは、略同数）で学習用負例データを抽出する。

なお、抽出部１３３は、ユーザが商取引サービスに出品した商品の画像データ、商品のカテゴリ、商品に付したテキスト又は商品に設定する金額の少なくともいずれかに基づいて、類似度を算出する。

すなわち、抽出部１３３は、取得部１３２によって取得された個々の負例について、正例として判定される要素（具体的には、規約情報記憶部１２１に記憶された規約の内容や、類似度算出要素記憶部１２３に記憶された算出要素）に基づいて、類似度を算出する。

例えば、抽出部１３３は、ある負例データにおいて出品に際してアップロードされた商品画像を画像認識する。そして、抽出部１３３は、その商品画像と、予め保持している違法物品（あるいは、規約において出品が禁じられている商品）の画像との一致度（類似度）を算出する。続けて、抽出部１３３は、算出した一致度の数値に基づいて、当該負例データが「どのくらい正例らしいか」という傾向を示す値である類似度を算出する。

なお、抽出部１３３は、負例データにおける複数の出品のうち最も類似度が高く算出された出品を、当該負例（具体的には、当該出品を行ったユーザ）の類似度とみなしてもよいし、複数の出品から算出された類似度を平均した値や合計値を当該負例の類似度とみなしてもよい。

また、抽出部１３３は、類似度の算出にあたり、商品画像等の一の項目のみを算出要素とするのではなく、商品情報や説明文やユーザ属性を含めて、総合的に負例の類似度を算出してもよい。

例えば、抽出部１３３は、負例データの出品に関する情報を解析し、その出品に「所定閾値を超えた金額の設定」がされているとともに、「商品画像と説明の齟齬」がある場合に、当該負例データは正例データとの類似度が比較的高くなるような算出処理を行ってもよい。また、抽出部１３３は、負例データの出品に関する情報を解析し、その出品に「不当な手数料の要求」がなかったとしても、その後の負例データの行動履歴において、「落札後の連絡の不備」がある場合には、当該負例データの類似度が比較的高くなるよう算出してもよい。すなわち、算出要素と類似度算出の組み合わせや算出手法は、サービスの管理者による設定や、サービスの状況に応じて柔軟に変更や調整されてもよい。

抽出部１３３は、モデルの生成前に人為的に分類された正例データや負例データの情報をユーザ情報記憶部１２２の学習データ情報の項目に記憶する。また、抽出部１３３は、各負例に対して算出した類似度についても、ユーザ情報記憶部１２２の学習データ情報の項目に記憶する。そして、上述したように、抽出部１３３は、類似度に基づいて、学習用負例データを抽出する。

なお、抽出部１３３は、モデル生成の後には、モデルによって分類されたデータを新たな学習データとして抽出してもよい。例えば、抽出部１３３は、後述する判定部１３５によって負例データと判定された所定のデータの中から、所定のデータのスコア（指標値）に基づいて新たに負例用学習データを抽出する。具体的には、抽出部１３３は、負例データと判定された際のスコアに基づいて、負例データをグループに分類する。そして、抽出部１３３は、分類されたグループから略同一の割合で抽出された負例データを新たな学習データとして抽出する。すなわち、抽出部１３３は、モデル生成の後に取得されるデータについても、類似度と同様にモデルによって出力されたスコアに基づいてグループ分けすることで、偏った負例データのみを学習しないような調整を行うことができる。

（生成部１３４について）
生成部１３４は、取得部１３２によって取得された正例データと、抽出部１３３によって抽出された学習用負例データとを学習データとして、所定の事象における所定のデータが正例データと負例データのいずれに該当するかを分類するためのモデルを生成する。

具体的には、生成部１３４は、新たに所定の事象における所定のデータが入力された場合に、当該所定のデータが、正例データや負例データとどのくらいの相関性を有するかを示すスコアを出力するモデルを生成する。

例えば、生成部１３４は、事象が商取引サービスにおける不正ユーザの抽出（分類）である場合、人為的に監視者等によって検知された不正ユーザ（学習用正例データ）の特徴を学習する。また、生成部１３４は、不正ユーザとして検知されなかったユーザであって、類似度に基づいて抽出された負例データ（学習用負例データ）の特徴を学習する。そして、生成部１３４は、新たにデータが入力された場合に、その新たなデータが学習用正例データや学習用負例データとどのくらい類似する特徴を有するかを示すスコアを出力するためのモデルを生成する。

以下に、モデル生成について具体的に説明する。なお、以下で示す学習手法やモデルは一例であり、生成部１３４は、既知の様々な手法を用いて、どのようなモデルを生成してもよい。

例えば、生成部１３４は、ユーザが不正ユーザであるという結果情報を、回帰分析における目的変数とする。そして、生成部１３４は、当該ユーザが不正ユーザであると検知された際に用いられた各種情報を、回帰分析における説明変数とする。そして、生成部１３４は、目的変数と説明変数とを用いて、ユーザを判定するためのモデルを生成する。

例えば、生成部１３４は、ユーザが不正ユーザであるか否かと、検知に用いた情報との関係を示す式を生成する。さらに、生成部１３４は、各々の情報が、ユーザが不正ユーザであるという判定に対して、どのような重みを有するかを算出する。これにより、生成部１３４は、ユーザが不正ユーザであるという判定に対して、個々の説明変数がどのくらい寄与するのかといった情報を得ることができる。例えば、生成部１３４は、ユーザの一例であるユーザＵ０１に関するモデルを生成する場合には、下記式（１）を作成する。

ｙ_{（ユーザＵ０１）} ＝ ω_１・ｘ_１＋ ω_２・ｘ_２＋ ω_３・ｘ_３・・・＋ ω_Ｎ・ｘ_Ｎ・・・（１）（Ｎは任意の数）

上記式（１）において、「ｙ_{（ユーザＵ０１）}」は、「ユーザＵ０１が不正ユーザであるか否か」という事象を示す。例えば、上記式（１）の例では、「ｙ」を、「１」（不正ユーザである）か「０」（不正ユーザでない）で表すものとする。なお、生成部１３４は、算出を容易にするため、適宜、ｙの値として「１」と「０」以外の数値を用いてもよい。

また、上記式（１）において、「ｘ」は、説明変数であり、ユーザＵ０１に関する各種情報に対応する。具体的には、上記式（１）における「ｘ_１」は、図５に示す規約項目Ｔ０１に対応し、ユーザＵ０１が違法商品の出品を行った（あるいは違法商品の出品を行っている疑いがある）か否かを示すものである。この場合、「ｘ_１」に代入される数値は、例えば「１」や「０」となる。

また、上記式（１）における「ｘ_２」は、図５に示す規約項目Ｔ０２に対応し、所定閾値を超えた金額の設定を行ったか否かを示すものである。この場合、「ｘ_２」に代入される数値は、例えば「１」や「０」であってもよいし、一般に設定される平均額と、ユーザＵ０１が設定した金額との差額を数値化した値等（例えば、０から１までの数値として示される）であってもよい。

また、上記式（１）における「ｘ_３」は、図５に示す規約項目Ｔ０３に対応し、商品画像と説明の齟齬があるか否かを示すものとする。この場合、「ｘ_３」に代入される数値は、例えば「１」や「０」であってもよいし、商品画像と説明の齟齬の度合いを数値化した値等（例えば、０から１までの数値として示される）であってもよい。

また、上記式（１）において、「ω」は、「ｘ」の係数であり、所定の重み値を示す。具体的には、「ω_１」は、「ｘ_１」の重み値であり、「ω_２」は、「ｘ_２」の重み値であり、「ω_３」は、「ｘ_３」の重み値である。このように、上記式（１）は、ユーザＵ０１の情報に対応する説明変数「ｘ」と、所定の重み値「ω」とを含む変数（例えば、「ω_１・ｘ_１」）を組合せることにより作成される。

仮に、ユーザＵ０１が、「違法商品」や、「商品画像と説明の齟齬」がある出品を行ったため、不正ユーザと判定されたものとする。この場合、上記式（１）は、下記式（２）のように示される。

ｙ（＝１）_{（ユーザＵ０１）} ＝ ω_１・ｘ_１（違法商品の出品＝１）＋ ω_２・ｘ_２（所定閾値を超えた金額の設定＝０）＋ ω_３・ｘ_３（商品画像と説明の齟齬＝１）・・・（２）

上記式（２）で示されるように、情報が取得されなかった「ｘ_２」については「０」の値が代入される。この場合、少なくとも正例（ｙ＝１）の判定に寄与していた情報は、「違法商品の出品」か「商品画像と説明の齟齬」である。

そして、生成部１３４は、上記式（２）のように、各ユーザに対して式を生成し、生成した式を回帰分析のサンプルとする。そして、生成部１３４は、サンプルとなる式の演算処理を行うことにより、所定の重み値「ω」に対応する値を導出する。そして、生成部１３４は、生成した式を用いて、回帰的に上記式（２）等を満たすような所定の重み値「ω」を決定する。言い換えれば、生成部１３４は、所定の説明変数が目的変数「ｙ」に与える影響を示す重み値「ω」を決定する。

仮に、ユーザＵ０１が「不正ユーザである」という判定に対して、「違法商品の出品」が他の変数と比較して寄与しているのであれば、「違法商品の出品」に対応する重み値「ω_１」の値は、他の変数と比較して大きな正の値が算出されると推定される。このことは、ユーザＵ０１が不正ユーザと判定される際には、違法商品の出品という要素が大きく貢献することを意味する。また、ユーザＵ０１の判定に寄与していない変数があれば、その重み値の値は、学習が進むにつれ「０」へと漸近していくと推定される。

なお、上記の例では、説明変数として３種類の情報を示したが、実際には、上記式（２）は、取得部１３２が取得した種々の情報に対応した種々の説明変数が含まれる。また、ユーザの情報は、上記のような個々の情報ではなく、行動の順番も含めた、そのユーザが採る行動パターン（集積された行動履歴）であってもよい。

上記のようにして、生成部１３４は、ユーザが不正ユーザであるか否かという判定と、各ユーザの情報とを関連付けたモデルを生成する。なお、上記式（２）を用いた算出処理では、左辺を「１」や「０」とするのではなく、所定の誤差を想定し、かかる誤差との差異を２乗した値が最小値となるよう近似する最小二乗法などの手法を用いて、「ω」の最適解を算出してもよい。

生成部１３４は、モデルを生成し、生成したモデルをユーザ分類モデル記憶部１２４に記憶する。なお、生成部１３４は、いかなる学習アルゴリズムを用いて各モデルを生成してもよい。例えば、生成部１３４は、ニューラルネットワーク、サポートベクターマシン（support vector machine）、クラスタリング、強化学習等の学習アルゴリズムを用いて各モデルを生成する。例えば、モデルは、所定のデータ（すなわち、処理対象となるユーザの情報）が入力される入力層と、正例データ（あるいは負例データ）との相関性を示すスコアを出力する出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素（上述した例では、各説明変数）と、第１要素と第１要素の重み（上述した例では、重み値ω）とに基づいて値が算出される第２要素と、を含む。一例として、生成部１３４がニューラルネットワークを用いてモデルを生成する場合、当該モデルは、一以上のニューロンを含む入力層と、一以上のニューロンを含む中間層と、一以上のニューロンを含む出力層とを有する。

また、生成部１３４は、モデル生成の後に、抽出部１３３によって新たに負例用学習データが抽出された場合には、抽出された新たな負例用学習データを利用してモデルを更新してもよい。

（判定部１３５について）
判定部１３５は、生成部１３４によって生成されたモデルを用いて、所定のデータが正例データと負例データのいずれに該当するかの確度を示すスコア（指標値）を算出するとともに、算出された指標値に基づいて、所定のデータが正例データと負例データのいずれに該当するかを判定する。

例えば、判定部１３５は、所定の閾値を超えたデータを正例データと判定し、所定の閾値以下のデータを負例データと判定してもよい。具体的には、判定部１３５は、例えばスコアが１から１００までの数値で示される場合、スコアが５０を超えたデータを正例データと判定し、５０以下のデータを負例データと判定してもよい。

〔４．処理手順〕
次に、図１０及び図１１を用いて、実施形態に係る抽出装置１００による処理の手順について説明する。まず、図１０を用いて、モデル生成に関する処理手順を説明する。図１０は、実施形態に係る処理手順を示すフローチャート（１）である。

図１０に示すように、抽出装置１００は、オークションサービスにおける既存のユーザに関する情報を取得する（ステップＳ１０１）。そして、抽出装置１００は、取得した情報から、所定の事象における正例データとなるユーザを抽出する（ステップＳ１０２）。

続いて、抽出装置１００は、正例データに対する個々の負例の類似度を算出する（ステップＳ１０３）。そして、抽出装置１００は、類似度に基づいて、負例データをグループに分類する（ステップＳ１０４）。

抽出装置１００は、各グループから所定の割合で負例を抽出する（ステップＳ１０５）。そして、抽出装置１００は、抽出された学習データに基づいてモデルを生成する（ステップＳ１０６）。その後、抽出装置１００は、生成したモデルを記憶部１２０に格納する（ステップＳ１０７）。

次に、図１１を用いて、ユーザ判定に関する処理手順を説明する。図１１は、実施形態に係る処理手順を示すフローチャート（２）である。

図１１に示すように、抽出装置１００は、判定対象となるユーザの情報を取得したか否かを判定する（ステップＳ２０１）。判定対象となるユーザの情報を取得していない場合（ステップＳ２０１；Ｎｏ）、抽出装置１００は、情報を取得するまで待機する。

一方、判定対象となるユーザの情報を取得した場合（ステップＳ２０１；Ｙｅｓ）、抽出装置１００は、当該ユーザの情報をモデルに入力する（ステップＳ２０２）。

抽出装置１００は、モデルを利用して、当該ユーザのスコアを算出する（ステップＳ２０３）。そして、抽出装置１００は、算出されたスコアに基づいて、当該ユーザが正例データか負例データかを判定する（ステップＳ２０４）。

〔５．変形例〕
上述した抽出装置１００は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、抽出装置１００の他の実施形態について説明する。

〔５−１．学習データの拡張〕
上記実施形態では、抽出装置１００が、類似度を用いて所定数の負例を抽出することで、学習に用いる負例データのバランスを整える例を示した。ここで、抽出装置１００は、類似度を学習データの拡張に利用してもよい。

上述のように、事象によっては、正例データや負例データが極めて少ない状況となりうる。しかし、学習処理では、サンプルとなりうる学習データは多い方が望ましい。そこで、抽出装置１００は、類似度を利用して、学習に用いる正例データもしくは負例データを拡張し、十分な学習データを確保する処理を行ってもよい。

この点について、図１２を用いて説明する。図１２は、変形例に係る抽出処理の一例を説明する図である。図１２では、図２と同じく、抽出装置１００が負例データとなるユーザ群に含まれる各ユーザの類似度を算出した状況を示している。

抽出装置１００は、図２と同様に、正例データとの類似度に応じて負例データをグルーピング（グループ分け）する（ステップＳ３１）。図１２に示すように、抽出装置１００は、例えば類似度が０．９を超える負例データをグループＧＲ１１に分類する。同様に、抽出装置１００は、類似度が０．９以下０．８以上の負例データをグループＧＲ１２に分類し、類似度が０．８未満０．７以上の負例データをグループＧＲ１３に分類し、類似度が０．７未満０．６以上の負例データをグループＧＲ１４に分類し、類似度が０．６未満０．５以上の負例データをグループＧＲ１５に分類する。なお、図１２での図示は省略するが、抽出装置１００は、類似度が０．５未満の負例データについても、適宜、グループに分類する。

ここで、かかる事象においては、正例データの数が負例データと比較して極めて少数であるものとする。このとき、抽出装置１００は、抽出装置１００は、所定の閾値を超える類似度を有するグループを正例とみなして学習用正例データを抽出する（ステップＳ３２）。具体的には、抽出装置１００は、類似度が０．９を超えるグループＧＲ１１に属する負例データを正例データとみなして、学習用正例データとして取り扱う。すなわち、抽出装置１００は、そもそも正例データとして扱われているユーザ群に加えて、人為的には正例データとして抽出されなかったものの、極めて正例データと類似すると判定された負例データを正例データとみなす。

そして、抽出装置１００は、所定の閾値以下の類似度を有するグループ（図１２の例では、グループＧＲ１１を除く各負例データのグループ）から学習用負例データを抽出する（ステップＳ３３）。

このように、抽出装置１００は、類似度が所定の閾値以下の負例データの中から学習用負例データを抽出するとともに、類似度が所定の閾値を超える負例データの中から学習において正例として取り扱う学習用正例データを抽出する。そして、抽出装置１００は、抽出した学習用正例データと学習用負例データとを学習データとしてモデルを生成する。

すなわち、抽出装置１００は、正例データとして抽出されたユーザ群が極めて少数の場合であっても、類似度に基づいて負例データの一部を正例データとして取り扱うことで、学習用正例データが不足する事態を回避することができる。言い換えれば、抽出装置１００は、類似度に基づいて学習データの拡張を行うことができる。これは、類似度の高い負例データには、人為的な処理では検知されなかったものの、本来は正例データとして取り扱われるべきデータや、極めて正例データと等しく、正例データとの区別が難しいデータが混在すると想定されることによる。このように、抽出装置１００は、正例データと近しい特徴を有する負例データを正例データとみなすことで、正例データが抽出されにくい事象であっても、十分な学習データを確保することができる。

〔５−２．事象〕
上記実施形態では、抽出装置１００が、商取引サービス（オークションサービス等）における不正ユーザの分類を行うための学習データの抽出処理を行う例を示した。ここで、実施形態に係る抽出処理は、商取引サービスにおける不正ユーザの分類に限らず、種々の事象に応用されてもよい。

〔５−３．ユーザ情報の種類〕
上述した実施形態において、抽出装置１００は、ユーザ情報として、ユーザ端末１０のユーザの属性情報や出品情報を取得する例を示した。ここで、抽出装置１００は、ユーザ情報として、ユーザ端末１０の装置情報や、インストールされたアプリの情報や、ユーザ端末１０のＯＳ（Operating System）の種類やバージョン情報、縦画面や横画面の解像度、総画素数等を取得してもよい。

また、抽出装置１００は、商取引サービス以外の、ユーザのネットワーク上の行動履歴をユーザ情報として用いてもよい。例えば、取得部１３２は、ユーザ端末１０から、閲覧したウェブページの種類や、ウェブ検索履歴や、ユーザの購買履歴等を取得してもよい。

〔６．ハードウェア構成〕
上述してきた実施形態に係る抽出装置１００やユーザ端末１０は、例えば図１３に示すような構成のコンピュータ１０００によって実現される。以下、抽出装置１００を例に挙げて説明する。図１３は、抽出装置１００の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に記憶されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を記憶する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス１５００は、通信網５００（図３に示したネットワークＮに対応）を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを、通信網５００を介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して生成したデータを出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に記憶されたプログラム又はデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態に係る抽出装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラム又はデータ（例えば、図９に示すモデルＭ０１）を実行することにより、制御部１３０の機能を実現する。また、ＨＤＤ１４００には、記憶部１２０内のデータが記憶される。コンピュータ１０００のＣＰＵ１１００は、これらのプログラム又はデータを記録媒体１８００から読み取って実行するが、他の例として、他の装置から通信網５００を介してこれらのプログラムを取得してもよい。

〔７．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図４に示した受付部１３１と取得部１３２とは統合されてもよい。また、例えば、記憶部１２０に記憶される情報は、ネットワークＮを介して、外部に備えられた所定の記憶装置に記憶されてもよい。

また、上記実施形態では、抽出装置１００が、オークションサービスを提供する処理と、モデル生成のための学習データを抽出する処理とを行う例を示した。しかし、上述した抽出装置１００は、オークションサービスを提供する装置と、モデル生成のための学習データを抽出する装置とに分離されてもよい。この場合、実施形態に係る抽出装置１００による処理は、オークションサービスを提供する装置と、モデル生成のための学習データを抽出する装置との各装置を有する抽出システム１によって実現される。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

〔８．効果〕
上述してきたように、実施形態に係る抽出装置１００は、取得部１３２と、抽出部１３３とを有する。取得部１３２は、所定の事象における正例データ及び負例データを取得する。抽出部１３３は、取得部１３２によって取得された正例データと負例データを構成する個々の負例との類似度に基づいて、所定の事象における分類処理のための学習データを抽出する。

このように、実施形態に係る抽出装置１００は、所定の事象におけるデータについて、ランダムに学習データを抽出するのではなく、正例データとの類似度に基づいて学習データを抽出する。これにより、抽出装置１００は、高精度なモデルを生成するための適切な学習データを抽出することができる。

また、抽出部１３３は、類似度に基づいて、取得部１３２によって取得された負例データの中から、学習データにおける負例データとなる学習用負例データを抽出する。

このように、実施形態に係る抽出装置１００は、正例データとの類似度に基づいて負例データを抽出する。すなわち、抽出装置１００は、類似度を用いて学習データとして利用する負例データのバランスを整えることで、高精度なモデルを生成するための適切な学習データを抽出することができる。

また、抽出部１３３は、類似度の高低の順に基づいて取得部１３２によって取得された負例データをグループに分類し、分類した各々のグループから所定の割合で学習用負例データを抽出する。

このように、実施形態に係る抽出装置１００は、類似度別に分類されたグループから負例データを抽出するので、事象における様々なデータを網羅した学習データを抽出することができる。

また、実施形態に係る抽出装置１００は、取得部１３２によって取得された正例データと、抽出部１３３によって抽出された学習用負例データとを学習データとして、所定の事象における所定のデータが正例データと負例データのいずれに該当するかを分類するためのモデルを生成する生成部１３４をさらに有する。

このように、実施形態に係る抽出装置１００は、類似度に基づいて抽出された学習データを利用することで、精度の高い分類処理を行うモデルを生成することができる。

また、抽出部１３３は、類似度が所定の閾値以下の負例データの中から学習用負例データを抽出するとともに、当該類似度が所定の閾値を超える負例データの中から学習において正例として取り扱う学習用正例データを抽出する。生成部１３４は、学習用正例データと学習用負例データとを学習データとして、モデルを生成する。

このように、実施形態に係る抽出装置１００は、類似度に基づいて、正例データとして取り扱うデータを拡張することができる。これにより、抽出装置１００は、正例データが不足するような事象においても十分な学習データを確保できるため、様々な事象に対応したモデルを生成することができる。

また、実施形態に係る抽出装置１００は、モデルを用いて所定のデータが正例データと負例データのいずれに該当するかの確度を示す指標値を算出するとともに、算出された指標値に基づいて、所定のデータが正例データと負例データのいずれに該当するかを判定する判定部１３５をさらに有する。

このように、実施形態に係る抽出装置１００は、類似度に基づいて抽出された学習データを用いて生成されたモデルを利用してデータを判定（分類）する。これにより、抽出装置１００は、精度よくデータの分類を行うことができる。

また、抽出部１３３は、判定部１３５によって負例データと判定された所定のデータの中から、当該所定のデータの指標値に基づいて新たに負例用学習データを抽出する。生成部１３４は、抽出部１３３によって抽出された新たな負例用学習データを利用してモデルを更新する。

このように、実施形態に係る抽出装置１００は、モデルによって判定されたデータをさらに学習データとしてモデルを更新する。また、抽出装置１００は、モデルから出力された指標値に基づいて学習に用いるデータを選択することで、精度を低下させずにモデルを更新することができる。

また、取得部１３２は、商取引サービスを利用するユーザを当該商取引サービスの規約に照らした場合に、当該規約を満たさない不正ユーザを正例データ、当該規約を満たす正規ユーザを負例データとして取得する。抽出部１３３は、取得部１３２によって取得された正例データと負例データから、商取引サービスにおける不正ユーザと正規ユーザとを分類するモデルを生成するための学習データを抽出する。

このように、実施形態に係る抽出装置１００は、商取引サービスのユーザ分類において、類似度を用いて学習データを抽出する。これにより、抽出装置１００は、人為的に行うことが難しい商取引サービスにおける不正ユーザの分類を精度よく行うことができる。

また、抽出部１３３は、ユーザが商取引サービスに出品した商品の画像データ、商品のカテゴリ、商品に付したテキスト又は商品に設定する金額の少なくともいずれかに基づいて、類似度を算出する。

このように、実施形態に係る抽出装置１００は、ユーザの出品情報等を用いて類似度を算出する。一般に、正例データ（不正ユーザ）であるか否かの判断は、当該ユーザが出品した商品情報等により行われる。すなわち、抽出装置１００は、正例データとの相関性を示しやすいと想定される情報等を利用することで、個々の負例に対して、実状に即した類似度を精度よく算出することができる。

また、実施形態に係るモデルは、所定の事象において処理対象となる所定のデータが入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、を含む。また、モデルは、所定の事象における正例データ及び負例データのうち、当該正例データと、当該正例データと負例データを構成する個々の負例との類似度に基づいて負例データから抽出される学習用負例データと、に基づいて第１要素の重みが学習される。また、モデルは、入力層に所定のデータが入力された場合に、所定のデータが正例データと負例データのいずれに該当するかの確度を示す指標値を出力層から出力するよう、コンピュータ（例えば抽出装置１００）を機能させる。

このように、実施形態に係るモデルは、所定の事象におけるデータについて、正例データとの類似度に基づいて抽出された学習データに基づいて重み値を学習する。すなわち、実施形態に係るモデルは、事象における種々のデータを網羅して学習されるため、当該事象において、精度よくデータを分類することができる。

以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１抽出システム
１０ユーザ端末
１００抽出装置
１１０通信部
１２０記憶部
１２１規約情報記憶部
１２２ユーザ情報記憶部
１２２Ａ属性テーブル
１２２Ｂ出品テーブル
１２３類似度算出要素記憶部
１２４ユーザ分類モデル記憶部
１３０制御部
１３１受付部
１３２取得部
１３３抽出部
１３４生成部
１３５判定部

Claims

所定の事象における正例データ及び負例データを取得する取得部と、
前記取得部によって取得された正例データと前記負例データを構成する個々の負例との類似度に基づいて、前記所定の事象における分類処理のための学習データを抽出する抽出部と、
を備えたことを特徴とする抽出装置。
前記抽出部は、
前記類似度に基づいて、前記取得部によって取得された負例データの中から、前記学習データにおける負例データとなる学習用負例データを抽出する、
ことを特徴とする請求項１に記載の抽出装置。
前記抽出部は、
前記類似度の高低の順に基づいて前記取得部によって取得された負例データをグループに分類し、分類した各々のグループから所定の割合で前記学習用負例データを抽出する、
ことを特徴とする請求項２に記載の抽出装置。
前記取得部によって取得された正例データと、前記抽出部によって抽出された学習用負例データとを学習データとして、前記所定の事象における所定のデータが正例データと負例データのいずれに該当するかを分類するためのモデルを生成する生成部、
をさらに備えたことを特徴とする請求項２又は３に記載の抽出装置。
前記抽出部は、
前記類似度が所定の閾値以下の負例データの中から前記学習用負例データを抽出するとともに、当該類似度が所定の閾値を超える負例データの中から、学習において正例として取り扱う学習用正例データを抽出し、
前記生成部は、
前記学習用正例データと前記学習用負例データとを学習データとして、前記モデルを生成する、
ことを特徴とする請求項４に記載の抽出装置。
前記モデルを用いて前記所定のデータが正例データと負例データのいずれに該当するかの確度を示す指標値を算出するとともに、算出された指標値に基づいて、前記所定のデータが正例データと負例データのいずれに該当するかを判定する判定部、
をさらに備えたことを特徴とする請求項４又は５に記載の抽出装置。
前記抽出部は、
前記判定部によって負例データと判定された所定のデータの中から、当該所定のデータの指標値に基づいて新たに負例用学習データを抽出し、
前記生成部は、
前記抽出部によって抽出された新たな負例用学習データを利用して前記モデルを更新する、
ことを特徴とする請求項６に記載の抽出装置。
前記取得部は、
商取引サービスを利用するユーザを当該商取引サービスの規約に照らした場合に、当該規約を満たさない不正ユーザを正例データ、当該規約を満たす正規ユーザを負例データとして取得し、
前記抽出部は、
前記取得部によって取得された正例データと負例データから、前記商取引サービスにおける不正ユーザと正規ユーザとを分類するモデルを生成するための学習データを抽出する、
ことを特徴とする請求項１〜７のいずれか一つに記載の抽出装置。
前記抽出部は、
前記ユーザが前記商取引サービスに出品した商品の画像データ、商品のカテゴリ、商品に付したテキスト又は商品に設定する金額の少なくともいずれかに基づいて、前記類似度を算出する、
ことを特徴とする請求項８に記載の抽出装置。
コンピュータが実行する抽出方法であって、
所定の事象における正例データ及び負例データを取得する取得工程と、
前記取得工程によって取得された正例データと前記負例データを構成する個々の負例との類似度に基づいて、前記所定の事象における分類処理のための学習データを抽出する抽出工程と、
を含んだことを特徴とする抽出方法。
所定の事象における正例データ及び負例データを取得する取得手順と、
前記取得手順によって取得された正例データと前記負例データを構成する個々の負例との類似度に基づいて、前記所定の事象における分類処理のための学習データを抽出する抽出手順と、
をコンピュータに実行させることを特徴とする抽出プログラム。
所定の事象において処理対象となる所定のデータが入力される入力層と、
出力層と、
前記入力層から前記出力層までのいずれかの層であって前記出力層以外の層に属する第１要素と、
前記第１要素と前記第１要素の重みとに基づいて値が算出される第２要素と、を含むモデルであって、
前記所定の事象における正例データ及び負例データのうち、当該正例データと、当該正例データと前記負例データを構成する個々の負例との類似度に基づいて前記負例データから抽出される学習用負例データと、に基づいて前記第１要素の重みが学習され、
前記入力層に前記所定のデータが入力された場合に、前記所定のデータが正例データと負例データのいずれに該当するかの確度を示す指標値を前記出力層から出力するよう、
コンピュータを機能させるためのモデル。