JP2019101959A - 抽出装置、抽出方法、抽出プログラム及びモデル - Google Patents

抽出装置、抽出方法、抽出プログラム及びモデル Download PDF

Info

Publication number
JP2019101959A
JP2019101959A JP2017234985A JP2017234985A JP2019101959A JP 2019101959 A JP2019101959 A JP 2019101959A JP 2017234985 A JP2017234985 A JP 2017234985A JP 2017234985 A JP2017234985 A JP 2017234985A JP 2019101959 A JP2019101959 A JP 2019101959A
Authority
JP
Japan
Prior art keywords
data
example data
user
extraction
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017234985A
Other languages
English (en)
Other versions
JP6501855B1 (ja
Inventor
毅司 増山
Takeshi Masuyama
毅司 増山
小林 健
Takeshi Kobayashi
健 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2017234985A priority Critical patent/JP6501855B1/ja
Application granted granted Critical
Publication of JP6501855B1 publication Critical patent/JP6501855B1/ja
Publication of JP2019101959A publication Critical patent/JP2019101959A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】高精度なモデルを生成するための適切な学習データを抽出すること。【解決手段】本願に係る抽出装置は、取得部と、抽出部とを有する。取得部は、所定の事象における正例データ及び負例データを取得する。抽出部は、取得部によって取得された正例データと負例データを構成する個々の負例との類似度に基づいて、所定の事象における分類処理のための学習データを抽出する。例えば、抽出部は、取得部によって取得された正例データと各負例データの類似度に基づいて、取得部によって取得された負例データの中から、学習データにおける負例データとなる学習用負例データを抽出する。【選択図】図1

Description

本発明は、抽出装置、抽出方法、抽出プログラム及びモデルに関する。
近年、ネットワークサービスを利用するユーザやネットワーク上の文書等の分類を自動的に行うための学習済み分類モデルが盛んに利用されている。
このようなモデルに関する技術の一例として、ネットワーク上のユーザの購買履歴等を学習することにより、所定の行動をすることが予測される対象のユーザを抽出する技術が知られている。また、学習処理において、学習データの正例と負例のバランスを調整することで、レビュー文書であるか否かを精度よく分類するためのモデルを生成する技術が知られている。
特開2015−230717号公報 特開2013−131074号公報
しかしながら、モデル生成のための学習データの抽出処理には、さらに改善の余地がある。例えば、事象によっては、正例又は負例のデータ数が極めて少数であり、学習データを抽出することが難しい場合がある。また、学習に用いる正例又は負例のデータ数が偏ると、精度の高いモデルを生成することが困難になる。
本願は、上記に鑑みてなされたものであって、高精度なモデルを生成するための適切な学習データを抽出することができる抽出装置、抽出方法、抽出プログラム及びモデルを提供することを目的とする。
本願に係る抽出装置は、所定の事象における正例データ及び負例データを取得する取得部と、前記取得部によって取得された正例データと前記負例データを構成する個々の負例との類似度に基づいて、前記所定の事象における分類処理のための学習データを抽出する抽出部と、を備えたことを特徴とする。
実施形態の一態様によれば、高精度なモデルを生成するための適切な学習データを抽出することができるという効果を奏する。
図1は、実施形態に係る抽出処理の一例を示す図である。 図2は、実施形態に係る抽出処理の一例を説明する図である。 図3は、実施形態に係る抽出システムの構成例を示す図である。 図4は、実施形態に係る抽出装置の構成例を示す図である。 図5は、実施形態に係る規約情報記憶部の一例を示す図である。 図6は、実施形態に係る属性テーブルの一例を示す図である。 図7は、実施形態に係る出品テーブルの一例を示す図である。 図8は、実施形態に係る類似度算出要素記憶部の一例を示す図である。 図9は、実施形態に係るユーザ分類モデル記憶部の一例を示す図である。 図10は、実施形態に係る処理手順を示すフローチャート(1)である。 図11は、実施形態に係る処理手順を示すフローチャート(2)である。 図12は、変形例に係る抽出処理の一例を説明する図である。 図13は、抽出装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る抽出装置、抽出方法、抽出プログラム及びモデルを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る抽出装置、抽出方法、抽出プログラム及びモデルが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.抽出処理の一例〕
まず、図1を用いて、実施形態に係る抽出処理の一例について説明する。図1は、実施形態に係る抽出処理の一例を示す図である。具体的には、図1では、実施形態に係る抽出装置100によって、所定の事象における正例データ及び負例データの中から、正例データに対する個々の負例の類似度に基づいて当該所定の事象における分類処理のための学習データを抽出する処理が行われる例を示す。実施形態では、所定の事象として、ネットワーク上で提供されるオークションサービスにおける不正ユーザの抽出(分類)を例に挙げる。
図1に示す抽出装置100は、ユーザにオークションサービスを提供するサーバ装置である。また、抽出装置100は、オークションサービスを利用するユーザが不正ユーザであるか否かを分類する。具体的には、抽出装置100は、オークションサービスを利用するユーザが不正ユーザであるか否かを分類するためのユーザ分類モデル(以下、単に「モデル」と表記する)を生成し、生成したモデルを利用してユーザの分類を行う。すなわち、実施形態に係る事象の学習では、オークションサービスにおける不正ユーザが正例に該当し、オークションサービスにおける非不正ユーザ(以下、「正規ユーザ」と表記する)が負例に該当する。抽出装置100は、例えば、不正ユーザと判定されたユーザに対してオークションサービスの利用を制限する等の処理を行う。なお、以下の説明では、事象における個々の事例を「正例」又は「負例」、事象における正例の集合を「正例データ」、事象における負例の集合を「負例データ」とそれぞれ表記する。また、個々の事例か事例の集合かを特に区別する必要のない場合には、正例データ又は負例データとのみ表記する。
図1に示すユーザ端末10、10及び10は、スマートフォン等の情報処理端末である。実施形態において、ユーザ端末10はユーザU01によって利用され、ユーザ端末10はユーザU02によって利用され、ユーザ端末10はユーザU03によって利用される。ユーザ端末10、10及び10は、抽出装置100にアクセスし、取得したコンテンツ(例えば、オークションサービスに係るウェブページ等)を取得したり、ユーザの操作に応じて出品や落札に関する処理を行ったりする。なお、以下では、ユーザ端末10、10及び10等を区別する必要のないときは、「ユーザ端末10」と総称する。また、ユーザU01、U02及びU03等を区別する必要のないときは、「ユーザ」と総称する。
ネットワーク上で提供されるオークションサービス等の商取引サービスでは、サービスの規約に沿わないような行動をとるユーザを不正ユーザとして検知し、検知したユーザに対して何らかの対策をとることが望ましい。しかし、オークションサービスを利用するユーザは膨大であり、全てのユーザを監視し、人為的に不正ユーザを抽出することは現実的に困難である。このため、サービス提供者側(図1の例では抽出装置100の管理者等)は、例えば人為的に検知した不正ユーザに関する情報(例えば、不正ユーザの属性情報や行動履歴等)を学習データとして、新たに検証の対象となるユーザが不正ユーザであるか否かを判定するモデルを生成する。そして、サービス提供者側は、生成したモデルを利用して不正ユーザを検出する。
しかしながら、上記のような事象では、モデル生成のための適切な学習データが得られない場合がある。一般に、オークションサービスを利用する全ユーザ数と比較して、不正ユーザとして検知されるユーザの数は極めて少数である。このため、かかる事象では、少数の正例データと比較して、極めて多数の負例データが存在する。一般に、学習処理においては正例データと負例データの数を略同一にすることが望ましいが、正例データと数を合わせるために負例データをランダムにサンプリングした場合、適切な学習データが得られない場合がある。例えば、多数の負例データの中には、極めて正例データに近い負例(例えば、不正を行っているにも関わらずサービスの監視者によって検知されなかったユーザ)や、一方で、正例データからかけ離れた負例(例えば、不正行為と疑われるような行為を全く行っていないユーザ)等が混在する。このような学習データに基づいて学習が行われたモデルは、オークションサービスを利用する様々なユーザの情報を学習データとして万遍なく取り込んでいるとは限らないため、不正ユーザを適切に抽出できないおそれがある。すなわち、学習データは、単に正例データと負例データの数を揃えるだけでなく、オークションサービスを利用する様々なユーザの情報を過不足なく網羅していることが望ましい。
そこで、実施形態に係る抽出装置100は、正例データに対する個々の負例の類似度を算出し、算出した類似度に基づいて、全負例データのうち学習に用いる負例データ(以下、「学習用負例データ」と表記する)を抽出する。一例として、抽出装置100は、類似度に応じて負例データをグループに分け、各グループから略同一の割合で負例データを抽出する。これにより、抽出装置100は、サービスを利用する全ユーザからバランスよく学習データを抽出することができるため、処理対象となるユーザが正例であるか否かを精度よく判定するためのモデルを生成することができる。
以下、図1を用いて、抽出装置100によって行われる抽出処理の一例を流れに沿って説明する。
図1に示すように、オークションサービスへの出品を行う出品者には、不正な取引を行うユーザであるユーザU01や、規約に沿った取引を行うユーザであるユーザU02が存在する。図1において、ユーザU01は正例データとして扱われるユーザであり、ユーザU02は負例データとして扱われるユーザである。
まず、抽出装置100は、提供するオークションサービスを利用する各ユーザの取引に関する情報等を取得する(ステップS11)。例えば、抽出装置100は、ユーザU01やユーザU02がオークションサービスに登録した属性情報(性別や年齢等)や、出品した商品に係る情報等を取得する。具体的には、抽出装置100は、ユーザU01の操作に従ってユーザ端末10から送信された出品情報(例えば、出品される商品カテゴリや、商品画像や、商品の説明文等)を取得する。また、抽出装置100は、ユーザU02の操作に従ってユーザ端末10から送信された出品情報を取得する。抽出装置100は、取得した情報をユーザ情報記憶部122に格納する。なお、図1では図示を省略しているが、オークションサービスを利用するユーザは、実施形態に係る抽出処理を行うのに充分な、相当数が存在するものとする。
ここで、抽出装置100は、オークションサービスにおける規約を示した情報である規約情報を記憶する規約情報記憶部121を有する。規約は、例えば、抽出装置100を管理する管理者等によって予め抽出装置100に入力される。規約は、オークションサービスにおいて不正ユーザを判定するための規則(ルール)と読み替えてもよい。
抽出装置100は、取得した各ユーザのうち、規約に基づいて正例データとなるユーザを抽出する(ステップS12)。かかる抽出処理は、例えばオークションサービスの取引を監視する監視者等によって人為的に行われてもよい。すなわち、監視者は、オークションに出品される商品を監視し、出品された商品が法律により禁止されている物品であったり、同種商品の平均的な金額を遥かに超える値付けがされていたり、規約に沿わない金額(例えば、送料以外の手数料や、平均的な送料を遥かに超える送料等)の要求が記載されていたりした場合に、その出品を行ったユーザを不正ユーザとして検知する。
そして、監視者は、不正ユーザであると検知したユーザの識別情報等を抽出装置100に入力する。抽出装置100は、監視者から入力された情報に基づいて、正例データとなるユーザを抽出する。図1の例では、抽出装置100は、正例データとしてユーザU01を抽出する。また、抽出装置100は、正例データとして抽出されないユーザを負例データとして取り扱う。図1の例では、抽出装置100は、正例データとして抽出されなかったユーザU02を負例データとして取り扱う。
その後、モデルの生成処理に充分な正例データと負例データが蓄積された場合、抽出装置100は、モデル生成処理を開始する。まず、抽出装置100は、正例データに対する個々の負例の類似度を算出する(ステップS13)。算出処理の詳細は後述するが、例えば、抽出装置100は、類似度の算出の要素となる情報を記憶した類似度算出要素記憶部123を有し、類似度算出要素記憶部123に保持された要素に基づいて、個々の負例の正例データに対する類似度を算出する。具体的には、抽出装置100は、正例データに対する負例の類似度を、0以上1以下の数値で算出する。例えば、抽出装置100は、正例データに近い性質を有する負例ほど類似度の値を高く算出するものとする。
仮に、図1に示すオークションサービスでは、当該サービスが提供されている国で流通する現金を出品することが規約により禁じられているものとする。この場合、抽出装置100は、類似度算出要素記憶部123に、規約により禁じられている商品(この例では現金)を判定するための画像データやテキストデータを保持する。そして、抽出装置100は、例えば既知の画像認識技術を用いて、ユーザが出品においてアップロードした商品画像と、規約により禁じられている商品の画像との類似度を算出する。
例えば、ユーザがアップロードした商品画像が現金を撮像したものである場合、抽出装置100は、双方の画像の類似度を比較的高く算出する。なお、抽出装置100は、2つの画像を比較した場合の類似度の算出について、種々の既知の技術を利用してもよい。そして、抽出装置100は、算出した画像の類似度に基づいて、商品画像をアップロードしたユーザと、正例データとの類似度を算出する。具体的には、抽出装置100は、当該ユーザの正例データに対する類似度を「0.9」と算出する。これは、当該ユーザが、極めて正例データに類似する行動をとっている(この例では、当該ユーザが現金を出品しようとしている可能性が高い)と機械的に判定されたことを意味する。
なお、ユーザがアップロードした商品画像が現時点では流通していない貨幣(古銭等)である場合であっても、双方が貨幣の特徴量を有する画像であることから、抽出装置100は、画像解析の結果として、双方の画像の類似度を比較的高く算出すると想定される。例えば、この例では、抽出装置100が、当該ユーザの正例データに対する類似度を「0.8」と算出するものとする。これは、当該ユーザが、正例データではないものの、正例データに類似する行動をとっている(この例では、当該ユーザが「現金のようなもの」を出品しようとしている可能性が高い)と判定されたことを意味する。
一方、ユーザがアップロードした商品画像が貨幣とは無関係の画像である場合、抽出装置100は、双方の画像の類似度を比較的低く算出する。具体的には、抽出装置100は、当該ユーザの正例データに対する類似度を「0.2」と算出する。これは、当該ユーザが、正例データではなく、また、正例データと非類似の行動をとっていると判定されたことを意味する。
なお、抽出装置100は、上記のような画像解析のみならず、出品商品に付されたテキストデータ(商品のカテゴリや説明文等)の解析によって、類似度を算出してもよい。例えば、抽出装置100は、「現金」や「一万円札」や「キャッシュ」等、出品が正例データと相関性が高いと判定するための要素となりうるテキスト群を類似度算出要素記憶部123に保持する。そして、抽出装置100は、ユーザが出品した商品のテキストデータと、類似度算出要素記憶部123に保持されたテキスト群との一致率や一致数に基づいて、当該ユーザの類似度を算出してもよい。また、抽出装置100は、各ユーザの一の出品情報に基づいて類似度を算出してもよいし(この場合、抽出装置100は、例えば複数の出品のうち最も高く算出された類似度を当該ユーザの類似度として採用する)、各ユーザの複数の出品情報の統計(例えば、複数の出品に対して算出された類似度の合計値)に基づいて類似度を算出してもよい。また、抽出装置100は、出品情報のみならず、ユーザの属性情報等の種々の情報を利用して類似度を算出してもよい。
このように、抽出装置100は、類似度算出要素記憶部123に記憶されている種々の要素に基づいて、個々の負例の類似度を算出する。その後、抽出装置100は、算出した類似度に基づいて、実際のモデル生成に用いる学習データを抽出する(ステップS14)。
ここで、学習データの抽出について図2を用いて説明する。図2は、実施形態に係る抽出処理の一例を説明する図である。図2に示す例では、抽出装置100は、負例データとなるユーザ群に含まれる各ユーザに対して類似度を算出したものとする。
続けて、抽出装置100は、正例データとの類似度に応じて負例データをグルーピング(グループ分け)する(ステップS21)。図2に示すように、抽出装置100は、例えば類似度が1以下0.9以上の負例データをグループGR01に分類する。同様に、抽出装置100は、類似度が0.9未満0.8以上の負例データをグループGR02に分類し、類似度が0.8未満0.7以上の負例データをグループGR03に分類し、類似度が0.7未満0.6以上の負例データをグループGR04に分類し、類似度が0.6未満0.5以上の負例データをグループGR05に分類する。なお、図2での図示は省略するが、抽出装置100は、類似度が0.5未満の負例データについても、適宜、グループに分類する。
そして、抽出装置100は、各グループから所定の割合で負例を抽出する(ステップS22)。例えば、抽出装置100は、各グループから抽出される負例の数が略同一となるような割合で、全体として正例データと同程度の数となるよう負例データを抽出する。そして、抽出装置100は、抽出した負例データをモデル生成のための学習データ(学習用負例データ)とする。
このように、抽出装置100は、正例データと負例データとの数を揃える際に、オークションサービスにおける全負例データからランダムにサンプリングを行うのではなく、類似度に基づいて分類された各グループから負例データを抽出するようにする。これにより、抽出装置100は、正例データと高い類似度を有する負例から、正例データと低い類似度を有する負例までを過不足なく網羅した学習用負例データを抽出することができる。
図1に戻って説明を続ける。学習データを抽出したのち、抽出装置100は、抽出した学習データを利用してユーザ分類モデルを生成する(ステップS15)。例えば、実施形態に係るモデルは、新規ユーザの情報が入力された場合に、当該新規ユーザが、ステップS12において人為的に抽出された正例データ群とどのくらいの相関性を示すかの指標値(スコア)を出力するモデルである。抽出装置100は、生成したモデルをユーザ分類モデル記憶部124に格納する。
その後、抽出装置100は、オークションサービスに新たに行われる出品に関する情報等を取得する(ステップS16)。具体的には、抽出装置100は、新たにオークションサービスに出品を行うユーザであるユーザU03の操作に従って、ユーザ端末10からオークションサービスへの出品要求が送信されたことを契機として、ユーザU03が行った出品の情報を取得する。なお、抽出装置100は、出品に関する情報のみならず、ユーザU03の属性情報等の種々の情報を取得してもよい。
抽出装置100は、ユーザ分類モデル記憶部124に記憶されたモデルを用いて、新たに出品を行ったユーザ(この例ではユーザU03)が不正ユーザであるか正規ユーザであるか否かを判定する(ステップS17)。例えば、抽出装置100は、モデルから出力されたスコアが所定閾値を超えている場合にはユーザU03を不正ユーザと判定し、スコアが所定閾値以下である場合にはユーザU03を正規ユーザと判定する。
図1及び図2を用いて説明したように、実施形態に係る抽出装置100は、所定の事象における正例データ及び負例データを取得し、取得した正例データと負例データを構成する個々の負例との類似度に基づいて、所定の事象における分類処理のための学習データを抽出する。
すなわち、実施形態に係る抽出装置100は、例えば正例データと負例データの数が大きく異なる事象において、例えば負例データからランダムに学習データを抽出するのではなく、正例データとの類似度に基づいて負例データを抽出する。これにより、抽出装置100は、正例データと類似する負例データから、正例データと非類似の負例データまで、事象における様々な負例データをバランスよく学習データとして抽出することができる。
仮に、正例データと、正例データとの類似度の低い負例データのみで学習処理が行われる場合、そのモデルは、「極めて正例データと類似するが負例データである」といった対象を精度よく分類できない可能性がある。また、仮に、正例データと、正例データとの類似度の高い負例データのみで学習処理が行われる場合、正例データと負例データの特徴の相違がわずかであることからユーザ分類のための特徴量の検出が難しく、モデル生成に時間がかかったり、精度よく分類ができなかったりするモデルが生成される可能性がある。
一方、実施形態に係る抽出処理では、正例データに対する類似度という変数を導入することで、学習データとして利用する負例データのバランスを整えることができる。すなわち、抽出装置100は、正例データと負例データとの数が大きく乖離しているような事象であっても、高精度なモデルを生成するための適切な学習データを抽出することができる。以下、このような処理を行う抽出装置100、及び、抽出装置100を含む抽出システム1の構成等について、詳細に説明する。
〔2.抽出システムの構成〕
図3を用いて、実施形態に係る抽出装置100が含まれる抽出システム1の構成について説明する。図3は、実施形態に係る抽出システム1の構成例を示す図である。図3に例示するように、実施形態に係る抽出システム1には、ユーザ端末10と、抽出装置100とが含まれる。これらの各種装置は、ネットワークN(例えば、インターネット)を介して、有線又は無線により通信可能に接続される。なお、図3に示した抽出システム1には、複数台のユーザ端末10が含まれてもよい。
ユーザ端末10は、例えば、スマートフォンや、デスクトップ型PC(Personal Computer)や、ノート型PCや、タブレット型端末や、携帯電話機、PDA(Personal Digital Assistant)、ウェアラブルデバイス(Wearable Device)等の情報処理装置である。ユーザ端末10は、ユーザによる操作に従って、抽出装置100にアクセスすることで、抽出装置100から提供されるオークションサービスからコンテンツを取得する。そして、ユーザ端末10は、取得したコンテンツを表示装置(例えば、液晶ディスプレイ)に表示する。なお、本明細書中においては、ユーザとユーザ端末10とを同一視する場合がある。例えば、「ユーザにコンテンツを提供する」とは、実際には、「ユーザが利用するユーザ端末10にコンテンツを提供する」ことを意味する場合がある。
抽出装置100は、実施形態に係る抽出処理を実行するサーバ装置である。また、抽出装置100は、ユーザ端末10からアクセスを受け付けた場合に、ユーザ端末10にオークションサービスを提供する。
なお、抽出装置100は、ユーザ端末10を識別したり、ユーザ端末10を利用するユーザの情報を取得したりする。例えば、抽出装置100は、ユーザ端末10のウェブブラウザや、ユーザ端末10にインストールされたアプリと、抽出装置100との間でやり取りされるクッキー等を利用して、ユーザの識別情報を取得する。また、抽出装置100は、オークションサービスの利用に際してユーザが登録した属性情報や、出品の際に登録した商品情報等に基づいて、ユーザに関する情報を取得する。ただし、ユーザの情報を取得する手法は上記に限られない。例えば、抽出装置100は、ユーザ端末10に専用のプログラムを設定し、かかる専用プログラムからユーザの情報を抽出装置100に送信させてもよい。
〔3.抽出装置の構成〕
次に、図4を用いて、実施形態に係る抽出装置100の構成について説明する。図4は、実施形態に係る抽出装置100の構成例を示す図である。図4に示すように、抽出装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、抽出装置100は、抽出装置100を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
(通信部110について)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、ユーザ端末10との間で情報の送受信を行う。
(記憶部120について)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、規約情報記憶部121と、ユーザ情報記憶部122と、類似度算出要素記憶部123と、ユーザ分類モデル記憶部124とを有する。
(規約情報記憶部121について)
規約情報記憶部121は、サービスに係る規約を記憶する。ここで、図5に、実施形態に係る規約情報記憶部121の一例を示す。図5は、実施形態に係る規約情報記憶部121の一例を示す図である。図5に示した例では、規約情報記憶部121は、「規約項目ID」、「内容」といった項目を有する。
「規約項目ID」は、規約として設定された項目を識別するための識別情報を示す。なお、本明細書中では、図5に示したような識別情報を参照符号として用いる場合がある。例えば、規約項目ID「T01」によって識別される規約項目を「規約項目T01」と表記する場合がある。
「内容」は、規約として設定された内容を示す。例えば、抽出装置100は、規約項目として設定された内容に基づいて、ユーザが不正ユーザであるか否かを判定する。なお、ユーザが規約に違反したユーザであるか否かの判定は、サービスの監視者等によって人為的に行われてもよい。
すなわち、図5に示したデータの一例は、規約項目ID「T01」によって識別される規約項目T01には、「違法商品の出品」がサービスの規約に違反するものであるという内容が設定されていることを示している。また、規約項目T02には、「所定閾値を超えた金額の設定」がサービスの規約に違反するものであるという内容が設定されている。規約項目T02は、例えば、同種の商品が出品された際の平均額に対して、極めて高額な価格が設定されている商品(例えば、高額な転売商品)等が不正な出品に該当することを規定している。
また、規約項目T03には、「商品画像と説明の齟齬」がサービスの規約に違反するものであるという内容が設定されている。規約項目T03は、例えば、説明文を詳細に読まなければ出品している商品が画像に撮像されているものであるか否かを判別し難いような、落札者を騙す意図のある出品が不正な出品に該当することを規定している。また、規約項目T04には、「不当な手数料の要求」がサービスの規約に違反するものであるという内容が設定されている。規約項目T04は、例えば、法外な送料を要求したり、サービスにおいて禁止されている手数料を要求したりする出品が不正な出品に該当することを規定している。
また、規約項目T05には、「落札後の連絡の不備」がサービスの規約に違反するものであるという内容が設定されている。規約項目T05は、例えば、商品が落札されたにも関わらず、その後、落札者が出品者と連絡がとれなくなるような取引において、当該出品者が不正ユーザに該当することを規定している。また、規約項目T06には、「落札された商品の未発送」がサービスの規約に違反するものであるという内容が設定されている。規約項目T06は、例えば、商品が落札されたにも関わらず、その後、出品者から落札者に商品が発送されないといった取引において、当該出品者が不正ユーザに該当することを規定している。
また、規約項目T07には、「属性データの虚偽登録」がサービスの規約に違反するものであるという内容が設定されている。規約項目T07は、例えば、オークションに登録しているユーザの属性情報(年齢、性別、住所等)に虚偽がある場合に、当該出品者が不正ユーザに該当することを規定している。また、規約項目T08には、「不自然な言葉使いの説明文」がサービスの規約に違反するものであるという内容が設定されている。規約項目T08は、例えば、商品に付される説明文が不自然な翻訳文であるような取引において、当該説明文を付して商品を出品した出品者が不正ユーザに該当することを規定している。
なお、図5で示した規約項目は一例であり、抽出装置100は、図5で示した規約項目以外にも、オークションサービスの管理者等の入力に従い、種々の規約項目の内容を保持してもよい。
(ユーザ情報記憶部122について)
ユーザ情報記憶部122は、オークションサービスを利用するユーザ及びユーザ端末10に関する情報を記憶する。図4に示すように、ユーザ情報記憶部122は、情報を記憶するデータテーブルとして、属性テーブル122Aと、出品テーブル122Bとを含む。
(属性テーブル122Aについて)
図6に、実施形態に係る属性テーブル122Aの一例を示す。図6は、実施形態に係る属性テーブル122Aの一例を示す図である。属性テーブル122Aは、ユーザ端末10を利用するユーザの属性に関する情報を記憶する。図6に示した例では、属性テーブル122Aは、「ユーザID」、「性別」、「年齢」、「居住地」、「評価値」、「学習データ情報」といった項目を有する。また、学習データ情報は、「分類結果」と「類似度」の小項目を有する。
「ユーザID」は、ユーザを識別する識別情報である。「性別」は、ユーザ端末10を利用するユーザの性別を示す。「年齢」は、ユーザ端末10を利用するユーザの年齢を示す。「居住地」は、ユーザ端末10を利用するユーザの居住地を示す。なお、「居住地」には、具体的な住所ではなく、ユーザの居住地に対応する一定の範囲を示す地域名(関東地方など)や、最寄りの駅名などが記憶されてもよい。
「評価値」は、オークションサービスにおいて、ユーザに対して他のユーザ(例えば、落札者)から付された評価値である。例えば、評価値は、5段階の数値で示され、「5」が最も評価が高く、「1」が最も評価が低いものとする。一般に、不正ユーザと判定されるユーザは、評価値が低くなる傾向を示す。なお、オークションサービスへの出品数が充分でなく、有効な評価値がまだ付されていないユーザ(図6の例ではユーザU03)に関しては、評価値の項目は空欄となる。
「学習データ情報」は、当該ユーザが学習データとして利用される際の情報を示す。「分類結果」は、当該ユーザが不正ユーザ(学習における正例)に該当するか、正規ユーザ(学習における負例)に該当するかを示す。なお、分類結果に示される情報は、モデル生成に先立って、例えば人為的に判定された結果を示す。「類似度」は、正例データを「1」と仮定した場合の、正例データに対する負例データの類似度を示す。例えば、類似度は、0以上1以下の数値で示される。なお、学習データとして用いられないユーザ(図6の例ではユーザU03)に関しては、学習データ情報の項目は空欄となる。
すなわち、図6に示したデータの一例は、ユーザID「U01」によって識別されるユーザU01の性別が「男性」であり、年齢が「30歳」であり、居住地が「A県」であり、評価値が「1」であることを示す。また、図6では、ユーザU01が、学習データ情報における分類結果が「不正ユーザ(正例)」であることを示している。また、図6では、ユーザU02が、学習データ情報における分類結果が「正規ユーザ(負例)」であり、正例データとの類似度が「0.4」であることを示している。
なお、属性テーブル122Aに記憶される属性情報は、必ずしも正確な情報でなくともよい。例えば、抽出装置100は、ユーザのネットワーク上の行動履歴や、アプリのインストール情報や、使用しているユーザ端末10の特徴等から推定される「推定性別」や「推定年齢」等を属性テーブル122Aに記憶してもよい。
(出品テーブル122Bについて)
続いて、図7に、実施形態に係る出品テーブル122Bの一例を示す。図7は、実施形態に係る出品テーブル122Bの一例を示す図である。出品テーブル122Bは、ユーザがオークションサービスに行った出品に関する情報を記憶する。図7に示した例では、出品テーブル122Bは、「ユーザID」、「出品ID」、「商品情報」、「画像」、「説明文」、「取引情報」といった項目を有する。
「ユーザID」は、図6に示した同様の項目と対応する。「出品ID」は、ユーザが行った出品を識別するための識別情報を示す。
「商品情報」は、出品された商品に関する情報を示す。なお、図7に示した例では、商品情報を「B01」といった概念で表記しているが、実際には、商品情報の項目には、商品名や、商品のメーカー名や、商品が属するカテゴリや、出品価格や、落札希望価格等の種々の情報が記憶される。
「画像」は、出品された商品を撮像した画像を示す。なお、図7に示した例では、画像を「C01」といった概念で表記しているが、実際には、画像の項目には、ユーザが商品を撮像してオークションサービスにアップロードしたり、メーカーから提供される画像をアップロードしたりした画像のデータであって、出品された商品とともにユーザ端末10に表示される画像のデータが記憶される。
「説明文」は、出品された商品に対して出品したユーザが付与した説明文を示す。なお、図7に示した例では、説明文を「D01」といった概念で表記しているが、実際には、説明文の項目には、実際にユーザがアップロードしたテキストデータが記憶される。なお、説明文の項目には、例えばユーザがアップロードしたテキストデータを形態素に解析したデータが記憶されてもよい。また、説明文の項目には、説明文を形態素解析した場合に、説明文に含まれる単語(語句)の出現数等に基づいて算出される各単語の重要度が記憶されてもよい。例えば、抽出装置100は、取得した説明文に関する単語のtf−idf(Term Frequency−Inverse Document Frequency)等の指標値を記憶してもよい。
「取引情報」は、出品された商品の取引に関する情報を示す。なお、図7に示した例では、取引情報を「E01」といった概念で表記しているが、実際には、取引情報の項目には、商品が落札された日時や、商品を落札したユーザの識別情報や、落札されるまでの出品者と落札希望者とのメッセージのやりとりや、実際に落札された価格や、落札された後の商品の発送に関する情報や、出品者に対する落札者からの感想(評価)やメッセージ等の種々の情報が記憶される。
すなわち、図7に示したデータの一例では、ユーザU01は、出品ID「A01」で識別される出品A01を行っており、その商品情報は「B01」であり、画像は「C01」であり、説明文は「D01」であり、取引情報は「E01」であることを示している。
なお、出品テーブル122Bには、図7で示した以外にも、種々の情報が記憶されてもよい。例えば、出品テーブル122Bには、ユーザの出品回数又は落札回数や、ユーザが出品を始めてから経過した期間等が記憶されてもよい。
(類似度算出要素記憶部123について)
類似度算出要素記憶部123は、正例データに対する負例データの類似度を算出する際に用いられる要素に関する情報を記憶する。ここで、図8に、実施形態に係る類似度算出要素記憶部123の一例を示す。図8は、実施形態に係る類似度算出要素記憶部123の一例を示す図である。図8に示した例では、類似度算出要素記憶部123は、「算出要素ID」、「算出要素」、「利用データ」、「内容」といった項目を有する。
「算出要素ID」は、算出要素を識別するための識別情報を示す。「算出要素」は、算出要素の内容を示す。「利用データ」は、類似度の算出において利用されるデータの種別を示す。「内容」は、類似度を算出する際に利用されるデータの具体的な内容を示す。
すなわち、図8に示したデータの一例では、算出要素ID「J01」で識別される算出要素J01は、「違法商品の出品」がされているか否かを類似度の算出に利用するものであり、その利用データは「商品情報データ」や「画像データ」であり、算出処理は、例えば「テキストの一致、画像認識」等によって行われることを示している。具体的には、抽出装置100は、出品された商品の商品名やカテゴリが法に違反する内容(例えば、法律で禁止されている物品の販売に係るものであったり、現金等を取引することを暗示するものであったりする場合)であるか否かをテキスト解析によって検証する。そして、抽出装置100は、商品情報において違反する用語が含まれる数や割合等に基づいて、類似度を算出する。
(ユーザ分類モデル記憶部124について)
ユーザ分類モデル記憶部124は、ユーザ分類のために生成されるモデルに関する情報を記憶する。ここで、図9に、実施形態に係るユーザ分類モデル記憶部124の一例を示す。図9は、実施形態に係るユーザ分類モデル記憶部124の一例を示す図である。図9に示した例では、ユーザ分類モデル記憶部124は、「モデルID」、「学習データ」といった項目を有する。また、学習データは、「正例データ」と「負例データ」の小項目を有する。
「モデルID」は、モデルを識別する識別情報を示す。「学習データ」は、モデルの生成(学習)に用いられた学習データを示す。「正例データ」は、事象における正例データのうち、学習に用いられた正例データ(以下、「学習用正例データ」と表記する)を示す。「負例データ」は、事象における負例データのうち、学習に用いられた負例データ(学習用負例データ)を示す。なお、図9に示した例では、正例データや負例データを「F01」や「G01」といった概念で示しているが、実際には、正例データや負例データの項目には、学習データとして利用された各ユーザの情報(あるいは、どのユーザの情報を学習データとして利用したかを示したユーザの識別情報)が記憶される。
すなわち、図9に示したデータの一例では、モデルID「M01」によって識別されるモデルM01は、正例データ「F01」と負例データ「G01」とを学習データとして生成されたモデルであることを示している。
なお、モデルM01は、例えば、新たな出品を行うユーザに関する情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含む。そして、モデルM01は、入力層に入力された情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、ユーザが正例に属するか負例に属するかの判定に用いられるスコアの値を出力層から出力するよう、コンピュータを機能させる。
また、モデルM01が回帰モデルで実現される場合、各モデルが含む第1要素とは、ユーザに関する情報の個々の素性(説明変数)に対応し、第1要素の重みとは、それぞれの素性の係数に対応する。また、回帰モデルは、入力層と出力層とを有する単純パーセプトロンと見做すことができるが、各モデルを単純パーセプトロンと見做した場合、第1要素は、入力層が有するいずれかのノードに対応し、第2要素は、出力層が有するノードと見做すことができる。
なお、各モデルがDNN(Deep Neural Network)等、1つまたは複数の中間層を有するニューラルネットワークで実現される場合、各モデルが含む第1要素とは、入力層または中間層が有するいずれかのノードと見做すことができる。また、第2要素とは、第1要素と対応するノードから値が伝達されるノード、すなわち、次段のノードと対応し、第1要素の重みとは、第1要素と対応するノードから第2要素と対応するノードに伝達される値に対して考慮される重み、すなわち、接続係数である。
抽出装置100は、上述した回帰モデルやニューラルネットワーク等、任意の構造を有するモデルM01を用いてユーザの判定を行う。より具体的には、抽出装置100は、ユーザに関する情報(例えば、ユーザが出品した商品や、出品に際して付与した画像や説明文等の情報や、ユーザの属性情報や、ユーザに対する他ユーザからの評価情報等)が入力された場合に、当該ユーザが正例である傾向を示すスコアを出力するように係数が設定されたモデルM01を用いて、各ユーザのスコアを算出し、各ユーザを正例と負例とに分類する。
(制御部130について)
制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、抽出装置100内部の記憶装置に記憶されている各種プログラム(抽出プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
制御部130は、例えば、記憶部120に記憶されるモデルM01に従った情報処理により、モデルM01の入力層に入力されたユーザの情報に対し、モデルM01が有する係数に基づく演算を行い、モデルM01の出力層から、当該ユーザが正例であるという傾向を示すスコアを出力する。
図4に示すように、制御部130は、受付部131と、取得部132と、抽出部133と、生成部134と、判定部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図4に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図4に示した接続関係に限られず、他の接続関係であってもよい。
(受付部131について)
受付部131は、各種情報を受け付ける。例えば、受付部131は、抽出装置100の管理者や、オークションサービスの監視者等による人為的な入力操作を介して、各種情報を受け付ける。
具体的には、受付部131は、オークションサービスに関する規約情報や、類似度算出に利用する要素に関する設定情報等を受け付ける。そして、受付部131は、受け付けた情報を規約情報記憶部121や類似度算出要素記憶部123等に格納する。
(取得部132について)
取得部132は、各種情報を取得する。例えば、取得部132は、所定の事象における正例データ及び負例データを取得する。
例えば、取得部132は、所定の事象が商取引サービスにおける不正ユーザの抽出(分類)である場合、当該商取引サービスの規約に照らした場合に、当該規約を満たさない不正ユーザ(より正確には、当該不正ユーザに関する種々の情報)を正例データとして取得する。また、取得部132は、当該規約を満たす正規ユーザを負例データとして取得する。
具体的には、取得部132は、所定の事象がオークションサービスにおける不正ユーザの抽出である場合、監視者等によって規約に違反していると判断され抽出された不正ユーザを正例データとして取得する。また、取得部132は、監視者等によって規約に違反していると判断されなかったユーザ、あるいは、監視者等による監視を看過したユーザを正規ユーザと推定して、負例データとして取得する。
取得部132は、ユーザに関する情報として、例えば、ユーザがオークションサービスに商品を出品した際に登録する情報である出品情報を取得する。具体的には、取得部132は、ユーザがオークションサービスに出品した商品の画像データや、出品する商品に設定した商品名やカテゴリ、商品に付した説明文(テキストデータ)、商品に設定した金額等の情報を取得する。
また、取得部132は、ユーザに関する情報として、ユーザの属性情報を取得する。具体的には、取得部132は、ユーザの属性情報として、ユーザの年齢や性別、居住地等を取得する。
また、取得部132は、ユーザに関する情報として、オークションサービスにおけるユーザの評価情報を取得する。具体的には、取得部132は、オークションサービスにおいてユーザが出品者としてどのくらいの評価を他ユーザから受けているかを示す評価値を取得する。
また、取得部132は、ユーザの行動履歴を取得してもよい。例えば、取得部132は、ユーザが商品を出品した履歴や、入札を行った履歴や、落札された商品を発送した履歴や、ユーザ間でメッセージをやり取りした履歴等を取得する。
そして、取得部132は、取得した情報を所定の記憶部に格納する。例えば、取得部132は、ユーザに関する情報を取得した場合には、取得した情報をユーザ情報記憶部122に記憶する。あるいは、取得部132は、取得した情報を抽出部133等の処理部に送ってもよい。
(抽出部133について)
抽出部133は、取得部132によって取得された正例データと負例データを構成する個々の負例との類似度に基づいて、所定の事象における分類処理のための学習データを抽出する。例えば、抽出部133は、所定の事象が商取引サービスにおける不正ユーザの抽出(分類)である場合、取得部132によって取得された正例データと負例データから、商取引サービスにおける不正ユーザと正規ユーザとを分類するモデルを生成するための学習データを抽出する。
例えば、抽出部133は、事象において、負例データの数(すなわち、負例データに含まれる事例(個々の負例)の数)と比較して正例データの数が極めて少ない場合には、正例データについては、人為的に抽出された全ての正例データを学習データとして抽出する。そして、抽出部133は、負例データについては、取得部132によって取得された正例データに対する個々の負例の類似度に基づいて、取得部132によって取得された負例データの中から、学習データにおける負例データとなる学習用負例データを抽出する。
例えば、抽出部133は、類似度の高低の順に基づいて取得部132によって取得された負例データをグループに分類し、分類した各々のグループから所定の割合で学習用負例データを抽出する。一例として、抽出部133は、各々のグループから略同一の割合(あるいは、略同数)で学習用負例データを抽出する。
なお、抽出部133は、ユーザが商取引サービスに出品した商品の画像データ、商品のカテゴリ、商品に付したテキスト又は商品に設定する金額の少なくともいずれかに基づいて、類似度を算出する。
すなわち、抽出部133は、取得部132によって取得された個々の負例について、正例として判定される要素(具体的には、規約情報記憶部121に記憶された規約の内容や、類似度算出要素記憶部123に記憶された算出要素)に基づいて、類似度を算出する。
例えば、抽出部133は、ある負例データにおいて出品に際してアップロードされた商品画像を画像認識する。そして、抽出部133は、その商品画像と、予め保持している違法物品(あるいは、規約において出品が禁じられている商品)の画像との一致度(類似度)を算出する。続けて、抽出部133は、算出した一致度の数値に基づいて、当該負例データが「どのくらい正例らしいか」という傾向を示す値である類似度を算出する。
なお、抽出部133は、負例データにおける複数の出品のうち最も類似度が高く算出された出品を、当該負例(具体的には、当該出品を行ったユーザ)の類似度とみなしてもよいし、複数の出品から算出された類似度を平均した値や合計値を当該負例の類似度とみなしてもよい。
また、抽出部133は、類似度の算出にあたり、商品画像等の一の項目のみを算出要素とするのではなく、商品情報や説明文やユーザ属性を含めて、総合的に負例の類似度を算出してもよい。
例えば、抽出部133は、負例データの出品に関する情報を解析し、その出品に「所定閾値を超えた金額の設定」がされているとともに、「商品画像と説明の齟齬」がある場合に、当該負例データは正例データとの類似度が比較的高くなるような算出処理を行ってもよい。また、抽出部133は、負例データの出品に関する情報を解析し、その出品に「不当な手数料の要求」がなかったとしても、その後の負例データの行動履歴において、「落札後の連絡の不備」がある場合には、当該負例データの類似度が比較的高くなるよう算出してもよい。すなわち、算出要素と類似度算出の組み合わせや算出手法は、サービスの管理者による設定や、サービスの状況に応じて柔軟に変更や調整されてもよい。
抽出部133は、モデルの生成前に人為的に分類された正例データや負例データの情報をユーザ情報記憶部122の学習データ情報の項目に記憶する。また、抽出部133は、各負例に対して算出した類似度についても、ユーザ情報記憶部122の学習データ情報の項目に記憶する。そして、上述したように、抽出部133は、類似度に基づいて、学習用負例データを抽出する。
なお、抽出部133は、モデル生成の後には、モデルによって分類されたデータを新たな学習データとして抽出してもよい。例えば、抽出部133は、後述する判定部135によって負例データと判定された所定のデータの中から、所定のデータのスコア(指標値)に基づいて新たに負例用学習データを抽出する。具体的には、抽出部133は、負例データと判定された際のスコアに基づいて、負例データをグループに分類する。そして、抽出部133は、分類されたグループから略同一の割合で抽出された負例データを新たな学習データとして抽出する。すなわち、抽出部133は、モデル生成の後に取得されるデータについても、類似度と同様にモデルによって出力されたスコアに基づいてグループ分けすることで、偏った負例データのみを学習しないような調整を行うことができる。
(生成部134について)
生成部134は、取得部132によって取得された正例データと、抽出部133によって抽出された学習用負例データとを学習データとして、所定の事象における所定のデータが正例データと負例データのいずれに該当するかを分類するためのモデルを生成する。
具体的には、生成部134は、新たに所定の事象における所定のデータが入力された場合に、当該所定のデータが、正例データや負例データとどのくらいの相関性を有するかを示すスコアを出力するモデルを生成する。
例えば、生成部134は、事象が商取引サービスにおける不正ユーザの抽出(分類)である場合、人為的に監視者等によって検知された不正ユーザ(学習用正例データ)の特徴を学習する。また、生成部134は、不正ユーザとして検知されなかったユーザであって、類似度に基づいて抽出された負例データ(学習用負例データ)の特徴を学習する。そして、生成部134は、新たにデータが入力された場合に、その新たなデータが学習用正例データや学習用負例データとどのくらい類似する特徴を有するかを示すスコアを出力するためのモデルを生成する。
以下に、モデル生成について具体的に説明する。なお、以下で示す学習手法やモデルは一例であり、生成部134は、既知の様々な手法を用いて、どのようなモデルを生成してもよい。
例えば、生成部134は、ユーザが不正ユーザであるという結果情報を、回帰分析における目的変数とする。そして、生成部134は、当該ユーザが不正ユーザであると検知された際に用いられた各種情報を、回帰分析における説明変数とする。そして、生成部134は、目的変数と説明変数とを用いて、ユーザを判定するためのモデルを生成する。
例えば、生成部134は、ユーザが不正ユーザであるか否かと、検知に用いた情報との関係を示す式を生成する。さらに、生成部134は、各々の情報が、ユーザが不正ユーザであるという判定に対して、どのような重みを有するかを算出する。これにより、生成部134は、ユーザが不正ユーザであるという判定に対して、個々の説明変数がどのくらい寄与するのかといった情報を得ることができる。例えば、生成部134は、ユーザの一例であるユーザU01に関するモデルを生成する場合には、下記式(1)を作成する。
(ユーザU01) = ω・x + ω・x + ω・x ・・・+ ω・x ・・・(1)(Nは任意の数)
上記式(1)において、「y(ユーザU01)」は、「ユーザU01が不正ユーザであるか否か」という事象を示す。例えば、上記式(1)の例では、「y」を、「1」(不正ユーザである)か「0」(不正ユーザでない)で表すものとする。なお、生成部134は、算出を容易にするため、適宜、yの値として「1」と「0」以外の数値を用いてもよい。
また、上記式(1)において、「x」は、説明変数であり、ユーザU01に関する各種情報に対応する。具体的には、上記式(1)における「x」は、図5に示す規約項目T01に対応し、ユーザU01が違法商品の出品を行った(あるいは違法商品の出品を行っている疑いがある)か否かを示すものである。この場合、「x」に代入される数値は、例えば「1」や「0」となる。
また、上記式(1)における「x」は、図5に示す規約項目T02に対応し、所定閾値を超えた金額の設定を行ったか否かを示すものである。この場合、「x」に代入される数値は、例えば「1」や「0」であってもよいし、一般に設定される平均額と、ユーザU01が設定した金額との差額を数値化した値等(例えば、0から1までの数値として示される)であってもよい。
また、上記式(1)における「x」は、図5に示す規約項目T03に対応し、商品画像と説明の齟齬があるか否かを示すものとする。この場合、「x」に代入される数値は、例えば「1」や「0」であってもよいし、商品画像と説明の齟齬の度合いを数値化した値等(例えば、0から1までの数値として示される)であってもよい。
また、上記式(1)において、「ω」は、「x」の係数であり、所定の重み値を示す。具体的には、「ω」は、「x」の重み値であり、「ω」は、「x」の重み値であり、「ω」は、「x」の重み値である。このように、上記式(1)は、ユーザU01の情報に対応する説明変数「x」と、所定の重み値「ω」とを含む変数(例えば、「ω・x1」)を組合せることにより作成される。
仮に、ユーザU01が、「違法商品」や、「商品画像と説明の齟齬」がある出品を行ったため、不正ユーザと判定されたものとする。この場合、上記式(1)は、下記式(2)のように示される。
y(=1)(ユーザU01) = ω・x(違法商品の出品=1) + ω・x(所定閾値を超えた金額の設定=0) + ω・x(商品画像と説明の齟齬=1) ・・・(2)
上記式(2)で示されるように、情報が取得されなかった「x」については「0」の値が代入される。この場合、少なくとも正例(y=1)の判定に寄与していた情報は、「違法商品の出品」か「商品画像と説明の齟齬」である。
そして、生成部134は、上記式(2)のように、各ユーザに対して式を生成し、生成した式を回帰分析のサンプルとする。そして、生成部134は、サンプルとなる式の演算処理を行うことにより、所定の重み値「ω」に対応する値を導出する。そして、生成部134は、生成した式を用いて、回帰的に上記式(2)等を満たすような所定の重み値「ω」を決定する。言い換えれば、生成部134は、所定の説明変数が目的変数「y」に与える影響を示す重み値「ω」を決定する。
仮に、ユーザU01が「不正ユーザである」という判定に対して、「違法商品の出品」が他の変数と比較して寄与しているのであれば、「違法商品の出品」に対応する重み値「ω」の値は、他の変数と比較して大きな正の値が算出されると推定される。このことは、ユーザU01が不正ユーザと判定される際には、違法商品の出品という要素が大きく貢献することを意味する。また、ユーザU01の判定に寄与していない変数があれば、その重み値の値は、学習が進むにつれ「0」へと漸近していくと推定される。
なお、上記の例では、説明変数として3種類の情報を示したが、実際には、上記式(2)は、取得部132が取得した種々の情報に対応した種々の説明変数が含まれる。また、ユーザの情報は、上記のような個々の情報ではなく、行動の順番も含めた、そのユーザが採る行動パターン(集積された行動履歴)であってもよい。
上記のようにして、生成部134は、ユーザが不正ユーザであるか否かという判定と、各ユーザの情報とを関連付けたモデルを生成する。なお、上記式(2)を用いた算出処理では、左辺を「1」や「0」とするのではなく、所定の誤差を想定し、かかる誤差との差異を2乗した値が最小値となるよう近似する最小二乗法などの手法を用いて、「ω」の最適解を算出してもよい。
生成部134は、モデルを生成し、生成したモデルをユーザ分類モデル記憶部124に記憶する。なお、生成部134は、いかなる学習アルゴリズムを用いて各モデルを生成してもよい。例えば、生成部134は、ニューラルネットワーク、サポートベクターマシン(support vector machine)、クラスタリング、強化学習等の学習アルゴリズムを用いて各モデルを生成する。例えば、モデルは、所定のデータ(すなわち、処理対象となるユーザの情報)が入力される入力層と、正例データ(あるいは負例データ)との相関性を示すスコアを出力する出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素(上述した例では、各説明変数)と、第1要素と第1要素の重み(上述した例では、重み値ω)とに基づいて値が算出される第2要素と、を含む。一例として、生成部134がニューラルネットワークを用いてモデルを生成する場合、当該モデルは、一以上のニューロンを含む入力層と、一以上のニューロンを含む中間層と、一以上のニューロンを含む出力層とを有する。
また、生成部134は、モデル生成の後に、抽出部133によって新たに負例用学習データが抽出された場合には、抽出された新たな負例用学習データを利用してモデルを更新してもよい。
(判定部135について)
判定部135は、生成部134によって生成されたモデルを用いて、所定のデータが正例データと負例データのいずれに該当するかの確度を示すスコア(指標値)を算出するとともに、算出された指標値に基づいて、所定のデータが正例データと負例データのいずれに該当するかを判定する。
例えば、判定部135は、所定の閾値を超えたデータを正例データと判定し、所定の閾値以下のデータを負例データと判定してもよい。具体的には、判定部135は、例えばスコアが1から100までの数値で示される場合、スコアが50を超えたデータを正例データと判定し、50以下のデータを負例データと判定してもよい。
〔4.処理手順〕
次に、図10及び図11を用いて、実施形態に係る抽出装置100による処理の手順について説明する。まず、図10を用いて、モデル生成に関する処理手順を説明する。図10は、実施形態に係る処理手順を示すフローチャート(1)である。
図10に示すように、抽出装置100は、オークションサービスにおける既存のユーザに関する情報を取得する(ステップS101)。そして、抽出装置100は、取得した情報から、所定の事象における正例データとなるユーザを抽出する(ステップS102)。
続いて、抽出装置100は、正例データに対する個々の負例の類似度を算出する(ステップS103)。そして、抽出装置100は、類似度に基づいて、負例データをグループに分類する(ステップS104)。
抽出装置100は、各グループから所定の割合で負例を抽出する(ステップS105)。そして、抽出装置100は、抽出された学習データに基づいてモデルを生成する(ステップS106)。その後、抽出装置100は、生成したモデルを記憶部120に格納する(ステップS107)。
次に、図11を用いて、ユーザ判定に関する処理手順を説明する。図11は、実施形態に係る処理手順を示すフローチャート(2)である。
図11に示すように、抽出装置100は、判定対象となるユーザの情報を取得したか否かを判定する(ステップS201)。判定対象となるユーザの情報を取得していない場合(ステップS201;No)、抽出装置100は、情報を取得するまで待機する。
一方、判定対象となるユーザの情報を取得した場合(ステップS201;Yes)、抽出装置100は、当該ユーザの情報をモデルに入力する(ステップS202)。
抽出装置100は、モデルを利用して、当該ユーザのスコアを算出する(ステップS203)。そして、抽出装置100は、算出されたスコアに基づいて、当該ユーザが正例データか負例データかを判定する(ステップS204)。
〔5.変形例〕
上述した抽出装置100は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、抽出装置100の他の実施形態について説明する。
〔5−1.学習データの拡張〕
上記実施形態では、抽出装置100が、類似度を用いて所定数の負例を抽出することで、学習に用いる負例データのバランスを整える例を示した。ここで、抽出装置100は、類似度を学習データの拡張に利用してもよい。
上述のように、事象によっては、正例データや負例データが極めて少ない状況となりうる。しかし、学習処理では、サンプルとなりうる学習データは多い方が望ましい。そこで、抽出装置100は、類似度を利用して、学習に用いる正例データもしくは負例データを拡張し、十分な学習データを確保する処理を行ってもよい。
この点について、図12を用いて説明する。図12は、変形例に係る抽出処理の一例を説明する図である。図12では、図2と同じく、抽出装置100が負例データとなるユーザ群に含まれる各ユーザの類似度を算出した状況を示している。
抽出装置100は、図2と同様に、正例データとの類似度に応じて負例データをグルーピング(グループ分け)する(ステップS31)。図12に示すように、抽出装置100は、例えば類似度が0.9を超える負例データをグループGR11に分類する。同様に、抽出装置100は、類似度が0.9以下0.8以上の負例データをグループGR12に分類し、類似度が0.8未満0.7以上の負例データをグループGR13に分類し、類似度が0.7未満0.6以上の負例データをグループGR14に分類し、類似度が0.6未満0.5以上の負例データをグループGR15に分類する。なお、図12での図示は省略するが、抽出装置100は、類似度が0.5未満の負例データについても、適宜、グループに分類する。
ここで、かかる事象においては、正例データの数が負例データと比較して極めて少数であるものとする。このとき、抽出装置100は、抽出装置100は、所定の閾値を超える類似度を有するグループを正例とみなして学習用正例データを抽出する(ステップS32)。具体的には、抽出装置100は、類似度が0.9を超えるグループGR11に属する負例データを正例データとみなして、学習用正例データとして取り扱う。すなわち、抽出装置100は、そもそも正例データとして扱われているユーザ群に加えて、人為的には正例データとして抽出されなかったものの、極めて正例データと類似すると判定された負例データを正例データとみなす。
そして、抽出装置100は、所定の閾値以下の類似度を有するグループ(図12の例では、グループGR11を除く各負例データのグループ)から学習用負例データを抽出する(ステップS33)。
このように、抽出装置100は、類似度が所定の閾値以下の負例データの中から学習用負例データを抽出するとともに、類似度が所定の閾値を超える負例データの中から学習において正例として取り扱う学習用正例データを抽出する。そして、抽出装置100は、抽出した学習用正例データと学習用負例データとを学習データとしてモデルを生成する。
すなわち、抽出装置100は、正例データとして抽出されたユーザ群が極めて少数の場合であっても、類似度に基づいて負例データの一部を正例データとして取り扱うことで、学習用正例データが不足する事態を回避することができる。言い換えれば、抽出装置100は、類似度に基づいて学習データの拡張を行うことができる。これは、類似度の高い負例データには、人為的な処理では検知されなかったものの、本来は正例データとして取り扱われるべきデータや、極めて正例データと等しく、正例データとの区別が難しいデータが混在すると想定されることによる。このように、抽出装置100は、正例データと近しい特徴を有する負例データを正例データとみなすことで、正例データが抽出されにくい事象であっても、十分な学習データを確保することができる。
〔5−2.事象〕
上記実施形態では、抽出装置100が、商取引サービス(オークションサービス等)における不正ユーザの分類を行うための学習データの抽出処理を行う例を示した。ここで、実施形態に係る抽出処理は、商取引サービスにおける不正ユーザの分類に限らず、種々の事象に応用されてもよい。
〔5−3.ユーザ情報の種類〕
上述した実施形態において、抽出装置100は、ユーザ情報として、ユーザ端末10のユーザの属性情報や出品情報を取得する例を示した。ここで、抽出装置100は、ユーザ情報として、ユーザ端末10の装置情報や、インストールされたアプリの情報や、ユーザ端末10のOS(Operating System)の種類やバージョン情報、縦画面や横画面の解像度、総画素数等を取得してもよい。
また、抽出装置100は、商取引サービス以外の、ユーザのネットワーク上の行動履歴をユーザ情報として用いてもよい。例えば、取得部132は、ユーザ端末10から、閲覧したウェブページの種類や、ウェブ検索履歴や、ユーザの購買履歴等を取得してもよい。
〔6.ハードウェア構成〕
上述してきた実施形態に係る抽出装置100やユーザ端末10は、例えば図13に示すような構成のコンピュータ1000によって実現される。以下、抽出装置100を例に挙げて説明する。図13は、抽出装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300又はHDD1400に記憶されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を記憶する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス1500は、通信網500(図3に示したネットワークNに対応)を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを、通信網500を介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、入出力インターフェイス1600を介して生成したデータを出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に記憶されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る抽出装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラム又はデータ(例えば、図9に示すモデルM01)を実行することにより、制御部130の機能を実現する。また、HDD1400には、記憶部120内のデータが記憶される。コンピュータ1000のCPU1100は、これらのプログラム又はデータを記録媒体1800から読み取って実行するが、他の例として、他の装置から通信網500を介してこれらのプログラムを取得してもよい。
〔7.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図4に示した受付部131と取得部132とは統合されてもよい。また、例えば、記憶部120に記憶される情報は、ネットワークNを介して、外部に備えられた所定の記憶装置に記憶されてもよい。
また、上記実施形態では、抽出装置100が、オークションサービスを提供する処理と、モデル生成のための学習データを抽出する処理とを行う例を示した。しかし、上述した抽出装置100は、オークションサービスを提供する装置と、モデル生成のための学習データを抽出する装置とに分離されてもよい。この場合、実施形態に係る抽出装置100による処理は、オークションサービスを提供する装置と、モデル生成のための学習データを抽出する装置との各装置を有する抽出システム1によって実現される。
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔8.効果〕
上述してきたように、実施形態に係る抽出装置100は、取得部132と、抽出部133とを有する。取得部132は、所定の事象における正例データ及び負例データを取得する。抽出部133は、取得部132によって取得された正例データと負例データを構成する個々の負例との類似度に基づいて、所定の事象における分類処理のための学習データを抽出する。
このように、実施形態に係る抽出装置100は、所定の事象におけるデータについて、ランダムに学習データを抽出するのではなく、正例データとの類似度に基づいて学習データを抽出する。これにより、抽出装置100は、高精度なモデルを生成するための適切な学習データを抽出することができる。
また、抽出部133は、類似度に基づいて、取得部132によって取得された負例データの中から、学習データにおける負例データとなる学習用負例データを抽出する。
このように、実施形態に係る抽出装置100は、正例データとの類似度に基づいて負例データを抽出する。すなわち、抽出装置100は、類似度を用いて学習データとして利用する負例データのバランスを整えることで、高精度なモデルを生成するための適切な学習データを抽出することができる。
また、抽出部133は、類似度の高低の順に基づいて取得部132によって取得された負例データをグループに分類し、分類した各々のグループから所定の割合で学習用負例データを抽出する。
このように、実施形態に係る抽出装置100は、類似度別に分類されたグループから負例データを抽出するので、事象における様々なデータを網羅した学習データを抽出することができる。
また、実施形態に係る抽出装置100は、取得部132によって取得された正例データと、抽出部133によって抽出された学習用負例データとを学習データとして、所定の事象における所定のデータが正例データと負例データのいずれに該当するかを分類するためのモデルを生成する生成部134をさらに有する。
このように、実施形態に係る抽出装置100は、類似度に基づいて抽出された学習データを利用することで、精度の高い分類処理を行うモデルを生成することができる。
また、抽出部133は、類似度が所定の閾値以下の負例データの中から学習用負例データを抽出するとともに、当該類似度が所定の閾値を超える負例データの中から学習において正例として取り扱う学習用正例データを抽出する。生成部134は、学習用正例データと学習用負例データとを学習データとして、モデルを生成する。
このように、実施形態に係る抽出装置100は、類似度に基づいて、正例データとして取り扱うデータを拡張することができる。これにより、抽出装置100は、正例データが不足するような事象においても十分な学習データを確保できるため、様々な事象に対応したモデルを生成することができる。
また、実施形態に係る抽出装置100は、モデルを用いて所定のデータが正例データと負例データのいずれに該当するかの確度を示す指標値を算出するとともに、算出された指標値に基づいて、所定のデータが正例データと負例データのいずれに該当するかを判定する判定部135をさらに有する。
このように、実施形態に係る抽出装置100は、類似度に基づいて抽出された学習データを用いて生成されたモデルを利用してデータを判定(分類)する。これにより、抽出装置100は、精度よくデータの分類を行うことができる。
また、抽出部133は、判定部135によって負例データと判定された所定のデータの中から、当該所定のデータの指標値に基づいて新たに負例用学習データを抽出する。生成部134は、抽出部133によって抽出された新たな負例用学習データを利用してモデルを更新する。
このように、実施形態に係る抽出装置100は、モデルによって判定されたデータをさらに学習データとしてモデルを更新する。また、抽出装置100は、モデルから出力された指標値に基づいて学習に用いるデータを選択することで、精度を低下させずにモデルを更新することができる。
また、取得部132は、商取引サービスを利用するユーザを当該商取引サービスの規約に照らした場合に、当該規約を満たさない不正ユーザを正例データ、当該規約を満たす正規ユーザを負例データとして取得する。抽出部133は、取得部132によって取得された正例データと負例データから、商取引サービスにおける不正ユーザと正規ユーザとを分類するモデルを生成するための学習データを抽出する。
このように、実施形態に係る抽出装置100は、商取引サービスのユーザ分類において、類似度を用いて学習データを抽出する。これにより、抽出装置100は、人為的に行うことが難しい商取引サービスにおける不正ユーザの分類を精度よく行うことができる。
また、抽出部133は、ユーザが商取引サービスに出品した商品の画像データ、商品のカテゴリ、商品に付したテキスト又は商品に設定する金額の少なくともいずれかに基づいて、類似度を算出する。
このように、実施形態に係る抽出装置100は、ユーザの出品情報等を用いて類似度を算出する。一般に、正例データ(不正ユーザ)であるか否かの判断は、当該ユーザが出品した商品情報等により行われる。すなわち、抽出装置100は、正例データとの相関性を示しやすいと想定される情報等を利用することで、個々の負例に対して、実状に即した類似度を精度よく算出することができる。
また、実施形態に係るモデルは、所定の事象において処理対象となる所定のデータが入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含む。また、モデルは、所定の事象における正例データ及び負例データのうち、当該正例データと、当該正例データと負例データを構成する個々の負例との類似度に基づいて負例データから抽出される学習用負例データと、に基づいて第1要素の重みが学習される。また、モデルは、入力層に所定のデータが入力された場合に、所定のデータが正例データと負例データのいずれに該当するかの確度を示す指標値を出力層から出力するよう、コンピュータ(例えば抽出装置100)を機能させる。
このように、実施形態に係るモデルは、所定の事象におけるデータについて、正例データとの類似度に基づいて抽出された学習データに基づいて重み値を学習する。すなわち、実施形態に係るモデルは、事象における種々のデータを網羅して学習されるため、当該事象において、精度よくデータを分類することができる。
以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
1 抽出システム
10 ユーザ端末
100 抽出装置
110 通信部
120 記憶部
121 規約情報記憶部
122 ユーザ情報記憶部
122A 属性テーブル
122B 出品テーブル
123 類似度算出要素記憶部
124 ユーザ分類モデル記憶部
130 制御部
131 受付部
132 取得部
133 抽出部
134 生成部
135 判定部

Claims (12)

  1. 所定の事象における正例データ及び負例データを取得する取得部と、
    前記取得部によって取得された正例データと前記負例データを構成する個々の負例との類似度に基づいて、前記所定の事象における分類処理のための学習データを抽出する抽出部と、
    を備えたことを特徴とする抽出装置。
  2. 前記抽出部は、
    前記類似度に基づいて、前記取得部によって取得された負例データの中から、前記学習データにおける負例データとなる学習用負例データを抽出する、
    ことを特徴とする請求項1に記載の抽出装置。
  3. 前記抽出部は、
    前記類似度の高低の順に基づいて前記取得部によって取得された負例データをグループに分類し、分類した各々のグループから所定の割合で前記学習用負例データを抽出する、
    ことを特徴とする請求項2に記載の抽出装置。
  4. 前記取得部によって取得された正例データと、前記抽出部によって抽出された学習用負例データとを学習データとして、前記所定の事象における所定のデータが正例データと負例データのいずれに該当するかを分類するためのモデルを生成する生成部、
    をさらに備えたことを特徴とする請求項2又は3に記載の抽出装置。
  5. 前記抽出部は、
    前記類似度が所定の閾値以下の負例データの中から前記学習用負例データを抽出するとともに、当該類似度が所定の閾値を超える負例データの中から、学習において正例として取り扱う学習用正例データを抽出し、
    前記生成部は、
    前記学習用正例データと前記学習用負例データとを学習データとして、前記モデルを生成する、
    ことを特徴とする請求項4に記載の抽出装置。
  6. 前記モデルを用いて前記所定のデータが正例データと負例データのいずれに該当するかの確度を示す指標値を算出するとともに、算出された指標値に基づいて、前記所定のデータが正例データと負例データのいずれに該当するかを判定する判定部、
    をさらに備えたことを特徴とする請求項4又は5に記載の抽出装置。
  7. 前記抽出部は、
    前記判定部によって負例データと判定された所定のデータの中から、当該所定のデータの指標値に基づいて新たに負例用学習データを抽出し、
    前記生成部は、
    前記抽出部によって抽出された新たな負例用学習データを利用して前記モデルを更新する、
    ことを特徴とする請求項6に記載の抽出装置。
  8. 前記取得部は、
    商取引サービスを利用するユーザを当該商取引サービスの規約に照らした場合に、当該規約を満たさない不正ユーザを正例データ、当該規約を満たす正規ユーザを負例データとして取得し、
    前記抽出部は、
    前記取得部によって取得された正例データと負例データから、前記商取引サービスにおける不正ユーザと正規ユーザとを分類するモデルを生成するための学習データを抽出する、
    ことを特徴とする請求項1〜7のいずれか一つに記載の抽出装置。
  9. 前記抽出部は、
    前記ユーザが前記商取引サービスに出品した商品の画像データ、商品のカテゴリ、商品に付したテキスト又は商品に設定する金額の少なくともいずれかに基づいて、前記類似度を算出する、
    ことを特徴とする請求項8に記載の抽出装置。
  10. コンピュータが実行する抽出方法であって、
    所定の事象における正例データ及び負例データを取得する取得工程と、
    前記取得工程によって取得された正例データと前記負例データを構成する個々の負例との類似度に基づいて、前記所定の事象における分類処理のための学習データを抽出する抽出工程と、
    を含んだことを特徴とする抽出方法。
  11. 所定の事象における正例データ及び負例データを取得する取得手順と、
    前記取得手順によって取得された正例データと前記負例データを構成する個々の負例との類似度に基づいて、前記所定の事象における分類処理のための学習データを抽出する抽出手順と、
    をコンピュータに実行させることを特徴とする抽出プログラム。
  12. 所定の事象において処理対象となる所定のデータが入力される入力層と、
    出力層と、
    前記入力層から前記出力層までのいずれかの層であって前記出力層以外の層に属する第1要素と、
    前記第1要素と前記第1要素の重みとに基づいて値が算出される第2要素と、を含むモデルであって、
    前記所定の事象における正例データ及び負例データのうち、当該正例データと、当該正例データと前記負例データを構成する個々の負例との類似度に基づいて前記負例データから抽出される学習用負例データと、に基づいて前記第1要素の重みが学習され、
    前記入力層に前記所定のデータが入力された場合に、前記所定のデータが正例データと負例データのいずれに該当するかの確度を示す指標値を前記出力層から出力するよう、
    コンピュータを機能させるためのモデル。
JP2017234985A 2017-12-07 2017-12-07 抽出装置、抽出方法、抽出プログラム及びモデル Active JP6501855B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017234985A JP6501855B1 (ja) 2017-12-07 2017-12-07 抽出装置、抽出方法、抽出プログラム及びモデル

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017234985A JP6501855B1 (ja) 2017-12-07 2017-12-07 抽出装置、抽出方法、抽出プログラム及びモデル

Publications (2)

Publication Number Publication Date
JP6501855B1 JP6501855B1 (ja) 2019-04-17
JP2019101959A true JP2019101959A (ja) 2019-06-24

Family

ID=66166654

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017234985A Active JP6501855B1 (ja) 2017-12-07 2017-12-07 抽出装置、抽出方法、抽出プログラム及びモデル

Country Status (1)

Country Link
JP (1) JP6501855B1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021033791A1 (ko) * 2019-08-19 2021-02-25 엘지전자 주식회사 제품 생산 라인 상의 비전 검사를 위한 ai 기반의 신규 학습 모델 생성 시스템
JP2021111261A (ja) * 2020-01-15 2021-08-02 日本電気株式会社 モデル生成装置、モデル生成方法、及び、記録媒体
WO2021161595A1 (ja) * 2020-02-12 2021-08-19 株式会社日立ハイテク 画像分類装置及び方法
JP2022104310A (ja) * 2020-12-28 2022-07-08 楽天グループ株式会社 学習装置、機械学習モデル及び学習方法
JP2022144280A (ja) * 2021-03-18 2022-10-03 ヤフー株式会社 生成装置、生成方法及び生成プログラム
JP7519260B2 (ja) 2020-10-12 2024-07-19 株式会社日立製作所 学習データ生成システム、及び学習データ生成方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020240834A1 (ja) * 2019-05-31 2020-12-03 楽天株式会社 不正推定システム、不正推定方法、及びプログラム
JP7324262B2 (ja) * 2019-05-31 2023-08-09 楽天グループ株式会社 不正推定システム、不正推定方法、及びプログラム
CN111046929B (zh) * 2019-11-28 2023-09-26 北京金山云网络技术有限公司 模型错例的分析方法、装置及电子设备
JP7313292B2 (ja) * 2020-01-27 2023-07-24 三菱電機株式会社 プラント設備の異常兆候検知システムおよびプラント設備の異常兆候検知方法
CN117151745B (zh) * 2023-11-01 2024-03-29 国网浙江省电力有限公司营销服务中心 基于数据流式引擎实现营销事件数据实时处理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09311846A (ja) * 1996-05-21 1997-12-02 Toyo Electric Mfg Co Ltd ニューラルネットワーク
JP2009181306A (ja) * 2008-01-30 2009-08-13 Nippon Telegr & Teleph Corp <Ntt> 映像インデキシング装置,映像インデキシング方法,映像インデキシングプログラムおよびその記録媒体
JP2010092413A (ja) * 2008-10-10 2010-04-22 Ricoh Co Ltd 画像分類学習装置、画像分類学習方法、および画像分類学習システム
JP2013025745A (ja) * 2011-07-26 2013-02-04 Olympus Corp 教師データの作成方法、教師データの作成のためのプログラム、及び教師データ作成装置
JP2015230717A (ja) * 2014-06-06 2015-12-21 ヤフー株式会社 抽出装置、抽出方法及び抽出プログラム
JP2017151838A (ja) * 2016-02-26 2017-08-31 トヨタ自動車株式会社 話題推定学習装置及び話題推定学習方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09311846A (ja) * 1996-05-21 1997-12-02 Toyo Electric Mfg Co Ltd ニューラルネットワーク
JP2009181306A (ja) * 2008-01-30 2009-08-13 Nippon Telegr & Teleph Corp <Ntt> 映像インデキシング装置,映像インデキシング方法,映像インデキシングプログラムおよびその記録媒体
JP2010092413A (ja) * 2008-10-10 2010-04-22 Ricoh Co Ltd 画像分類学習装置、画像分類学習方法、および画像分類学習システム
JP2013025745A (ja) * 2011-07-26 2013-02-04 Olympus Corp 教師データの作成方法、教師データの作成のためのプログラム、及び教師データ作成装置
JP2015230717A (ja) * 2014-06-06 2015-12-21 ヤフー株式会社 抽出装置、抽出方法及び抽出プログラム
JP2017151838A (ja) * 2016-02-26 2017-08-31 トヨタ自動車株式会社 話題推定学習装置及び話題推定学習方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12051187B2 (en) 2019-08-19 2024-07-30 Lg Electronics Inc. AI-based new learning model generation system for vision inspection on product production line
WO2021033791A1 (ko) * 2019-08-19 2021-02-25 엘지전자 주식회사 제품 생산 라인 상의 비전 검사를 위한 ai 기반의 신규 학습 모델 생성 시스템
JP7472496B2 (ja) 2020-01-15 2024-04-23 日本電気株式会社 モデル生成装置、モデル生成方法、及び、記録媒体
JP2021111261A (ja) * 2020-01-15 2021-08-02 日本電気株式会社 モデル生成装置、モデル生成方法、及び、記録媒体
JP2021128418A (ja) * 2020-02-12 2021-09-02 株式会社日立ハイテク 画像分類装置及び方法
JP7328915B2 (ja) 2020-02-12 2023-08-17 株式会社日立ハイテク 画像分類装置及び方法
WO2021161595A1 (ja) * 2020-02-12 2021-08-19 株式会社日立ハイテク 画像分類装置及び方法
JP7519260B2 (ja) 2020-10-12 2024-07-19 株式会社日立製作所 学習データ生成システム、及び学習データ生成方法
JP7190479B2 (ja) 2020-12-28 2022-12-15 楽天グループ株式会社 学習装置、機械学習モデル及び学習方法
JP2022104310A (ja) * 2020-12-28 2022-07-08 楽天グループ株式会社 学習装置、機械学習モデル及び学習方法
US12100032B2 (en) 2020-12-28 2024-09-24 Rakuten Group, Inc. Learning device, computer-readable information storage medium, and learning method
JP2022144280A (ja) * 2021-03-18 2022-10-03 ヤフー株式会社 生成装置、生成方法及び生成プログラム
JP7231662B2 (ja) 2021-03-18 2023-03-01 ヤフー株式会社 生成装置、生成方法及び生成プログラム

Also Published As

Publication number Publication date
JP6501855B1 (ja) 2019-04-17

Similar Documents

Publication Publication Date Title
JP6501855B1 (ja) 抽出装置、抽出方法、抽出プログラム及びモデル
US20210073283A1 (en) Machine learning and prediction using graph communities
Gao et al. Evaluating user reputation in online rating systems via an iterative group-based ranking method
US20130332385A1 (en) Methods and systems for detecting and extracting product reviews
CN109711955B (zh) 基于当前订单的差评预警方法、系统、黑名单库建立方法
JP6440661B2 (ja) 判定装置、判定方法および判定プログラム
US20140279189A1 (en) Method and system for monitoring and recommending relevant products
WO2020150611A1 (en) Systems and methods for entity performance and risk scoring
JP2022525760A (ja) 予測rfmセグメンテーション
JP6417002B1 (ja) 生成装置、生成方法及び生成プログラム
CN114398553A (zh) 对象推荐方法、装置、电子设备以及存储介质
TW202105303A (zh) 違規推定系統、違規推定方法及程式產品
JP2019185595A (ja) 情報処理装置、情報処理方法、情報処理プログラム、判定装置、判定方法及び判定プログラム
TW202111592A (zh) 學習模型應用系統、學習模型應用方法及程式產品
JP2021018466A (ja) ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラム
US10474688B2 (en) System and method to recommend a bundle of items based on item/user tagging and co-install graph
JP2019032827A (ja) 生成装置、生成方法及び生成プログラム
CA3169819C (en) Systems and methods for automated product classification
WO2020150597A1 (en) Systems and methods for entity performance and risk scoring
CN116308615A (zh) 产品推荐方法、装置、电子设备及存储介质
JP6910515B1 (ja) 分析装置、分析方法および分析プログラム
JP4962950B2 (ja) ネットワーク上のユーザに対するレコメンデーションの方法、レコメンデーションサーバ及びプログラム
US11430033B2 (en) Methods and systems of utilizing machine learning to provide trust scores in an online automobile marketplace
CN113076471A (zh) 信息处理方法及装置、计算设备
JP6152215B2 (ja) 算出装置、算出方法及び算出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180815

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180815

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180910

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190319

R150 Certificate of patent or registration of utility model

Ref document number: 6501855

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250