JP2010204966A - サンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置およびクラス判別システム。 - Google Patents

サンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置およびクラス判別システム。 Download PDF

Info

Publication number
JP2010204966A
JP2010204966A JP2009049909A JP2009049909A JP2010204966A JP 2010204966 A JP2010204966 A JP 2010204966A JP 2009049909 A JP2009049909 A JP 2009049909A JP 2009049909 A JP2009049909 A JP 2009049909A JP 2010204966 A JP2010204966 A JP 2010204966A
Authority
JP
Japan
Prior art keywords
data
class
teacher
unit
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009049909A
Other languages
English (en)
Inventor
Yoshio Nakamura
美穂 中村
Yasunari Kishimoto
康成 岸本
Yusuke Ichikawa
裕介 市川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009049909A priority Critical patent/JP2010204966A/ja
Publication of JP2010204966A publication Critical patent/JP2010204966A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】教師データに含まれるクラスの数が3クラス以上であった場合でも、教師つき学習によるクラスの判別結果が特定のクラスに偏らないように、教師データに含まれるクラスごとのデータ数の偏りを補正する。
【解決手段】教師データ集計部142が、多クラスの教師つき学習において用いられる教師データのデータ数をクラスごとに集計する。また、教師データ調整部144が、教師データ集計部142によって集計されたデータ数と所定の基準値との差に基づいて、教師データのデータ数をクラスごとに調整する。そして、判別モデル生成部145が、教師データ調整部144によってデータ数が調整された教師データに基づいて判別モデルを生成する。
【選択図】図2

Description

本発明は、多クラス(マルチクラス)の教師つき学習において用いられる教師データに含まれるクラスごとのデータ数の偏りを補正するサンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置およびクラス判別システムに関する。
従来、機械学習の分野では、判別対象のデータが属するクラスを判別する方法のひとつに「教師つき学習」と呼ばれる手法がある。この教師つき学習とは、特性を表すデータとクラスとが関連づけられた教師データと学習器(例えば、Support Vector Machineなど)とを用いて判別モデルを生成し、生成した判別モデルをクラスが未知であるデータに適用することで、当該データが属するクラスを判別する手法である。例えば、教師つき学習は、ユーザプロファイリングやテキスト分類などの分野で用いられている。
かかる教師つき学習において、教師データに含まれるクラスごとのデータ数が不均衡な状態であった場合に、判別モデルによる判別結果が特定のクラスに偏ることが問題として指摘されている。ここでいう「不均衡な状態」とは、例えば、教師データの全データ数を100%とした場合に、クラスAのデータ数が90%、クラスBのデータ数が10%となるような状態である。このような問題は「Imbalanced問題」と呼ばれている。
そして、上述したImbalanced問題を解決するため、教師データに含まれるクラスごとのデータ数の偏りを補正するサンプリング手法が提案されている。例えば、このようなサンプリング手法として、Random Over Sampling(ROS)や、Random Under Sampling(RUS)などがある(例えば、非特許文献1参照)。これらROSおよびRUSは、サンプルの数をランダムに複製したり削除したりするシンプルな手法であるにもかかわらず、どんなデータに対しても適用できるロバストな方法として知られている。
亀井 靖高、外4名、「Fault−proneモジュール判別におけるサンプリング法適用の効果」、情報処理学会論文誌、Vol.48、No.8、pp.2651−2662
しかしながら、ROSおよびRUSは、ともにクラスの数が2クラスの場合に適用可能な手法であった。具体的には、ROSは、教師データに含まれる2つのクラスのうち、データ数が多い方のクラスのデータ数に合わせて、データ数が少ない方のクラスのデータ数を増加させる手法である。一方、RUSは、教師データに含まれる2つのクラスのうち、データ数が少ない方のクラスのデータ数に合わせて、データ数が多い方のクラスのデータ数を減少させる手法である。
そのため、機械学習の分野では、教師データに含まれるクラスの数が3クラス以上であった場合でも、教師つき学習によるクラスの判別結果が特定のクラスに偏らないように、教師データに含まれるクラスごとのデータ数の偏りを補正する方法が求められている。
本発明は、上記に鑑みてなされたものであって、教師データに含まれるクラスの数が3クラス以上であった場合でも、教師つき学習によるクラスの判別結果が特定のクラスに偏らないように、教師データに含まれるクラスごとのデータ数の偏りを補正することが可能なサンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置およびクラス判別システムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、多クラスの教師つき学習において用いられる教師データに含まれるクラスごとのデータ数の偏りを補正するサンプリング装置であって、前記教師データのデータ数をクラスごとに集計するデータ集計手段と、前記データ集計手段によって集計されたデータ数と所定の基準値との差に基づいて、教師データのデータ数をクラスごとに調整するデータ調整手段とを備えたことを特徴とする。
また、本発明は、多クラスの教師つき学習において用いられる教師データに含まれるクラスごとのデータ数の偏りを補正するサンプリング方法であって、前記教師データが格納されている記憶部から教師データを読み出してクラスごとにデータ数を集計するデータ集計ステップと、前記データ集計ステップによって集計されたデータ数と所定の基準値との差に基づいて、教師データのデータ数をクラスごとに調整するデータ調整ステップとを含んだことを特徴とする。
また、本発明は、多クラスの教師つき学習において用いられる教師データに含まれるクラスごとのデータ数の偏りを補正するサンプリングプログラムであって、前記教師データが格納されている記憶部から教師データを読み出してクラスごとにデータ数を集計するデータ集計手順と、前記データ集計手順によって集計されたデータ数と所定の基準値との差に基づいて、教師データのデータ数をクラスごとに調整するデータ調整手順とをコンピュータに実行させることを特徴とする。
また、本発明は、多クラスの教師つき学習における判別モデルを生成し、生成した判別モデルを用いて、判別対象のデータが属するクラスを判別するクラス判別装置であって、前記教師つき学習において用いられる教師データのデータ数をクラスごとに集計するデータ集計手段と、前記データ集計手段によって集計されたデータ数と所定の基準値との差に基づいて、教師データのデータ数をクラスごとに調整するデータ調整手段と、前記データ調整手段によってデータ数が調整された教師データに基づいて前記判別モデルを生成する判別モデル生成手段とを備えたことを特徴とする。
また、本発明は、通信ネットワークを介して互いに接続されたサーバ装置と端末装置とを有するクラス判別システムであって、前記サーバ装置が、多クラスの教師つき学習において用いられる教師データのデータ数をクラスごとに集計するデータ集計手段と、前記データ集計手段によって集計されたデータ数と所定の基準値との差に基づいて、教師データのデータ数をクラスごとに調整するデータ調整手段と、前記データ調整手段によってデータ数が調整された教師データに基づいて前記判別モデルを生成する判別モデル生成手段とを備え、前記端末装置が、前記判別モデル生成手段によって生成された判別モデルを前記サーバ装置から取得する取得手段と、前記取得手段によって取得された判別モデルを用いて、判別対象のデータが属するクラスを判別するクラス判別手段とを備えたことを特徴とする。
本発明によれば、教師データに含まれるクラスの数が3クラス以上であった場合でも、教師つき学習によるクラスの判別結果が特定のクラスに偏らないように、教師データに含まれるクラスごとのデータ数の偏りを補正することが可能になるという効果を奏する。
図1は、本実施例1にかかるクラス判別装置の概要を説明するための図である。 図2は、クラス判別装置の構成を示す機能ブロック図である。 図3は、教師データ記憶部によって記憶される教師データの一例を示す図である。 図4は、判別データ記憶部によって記憶される判別データの一例を示す図である。 図5は、教師データ調整部によるデータ数の調整の一例を示す図である。 図6は、教師データ調整部がデータ数の増加のみを行う場合の一例を示す図である。 図7は、教師データ調整部がデータ数の減少のみを行う場合の一例を示す図である。 図8は、クラス判別部によって出力される判別結果データの一例を示す図である。 図9は、クラス判別装置によって行われるクラス判別の処理手順を示すフローチャートである。 図10は、本実施例2にかかる特性推定システムの全体構成を説明するための図である。 図11は、教師ユーザ端末の構成を示す機能ブロック図である。 図12は、サーバの構成を示す機能ブロック図である。 図13は、教師ユーザ特性特定部を説明するための図である。 図14は、アクセス履歴収集部を説明するための図である。 図15は、履歴・行動対応テーブル記憶部を説明するための図である。 図16は、行動データ生成部による教師ユーザの行動データ生成を説明するための図である。 図17は、行動データ調整部の構成を示す機能ブロック図である。 図18は、推定ユーザ端末の構成を示す機能ブロック図である。 図19は、行動データ生成部による推定ユーザの行動データ生成を説明するための図である。 図20は、推定ユーザ特性推定部を説明するための図である。 図21は、教師ユーザ端末による処理の手順を説明するためのフローチャートである。 図22は、サーバによる教師ユーザの特性特定処理の手順を説明するためのフローチャートである。 図23は、サーバによる特性推定モデル生成処理の手順を説明するためのフローチャートである。 図24は、推定ユーザ端末による処理を説明するためのフローチャートである。
以下に、本発明にかかるサンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置、クラス判別システムの実施例を図面に基づいて詳細に説明する。なお、以下に示す実施例によって本発明が限定されるものではない。
まず、実施例1について説明する。本実施例1では、多クラスの教師つき学習における判別モデルを生成し、生成した判別モデルを用いて、判別対象のデータが属するクラスを判別するクラス判別装置に本発明を適用した場合について説明する。
図1は、本実施例1にかかるクラス判別装置の概要を説明するための図である。本実施例1にかかるクラス判別装置100は、まず、それぞれが複数のクラスのうちいずれか一つに属する複数のデータを含んだ教師データの入力を受け付ける(図1の(1)参照)。
ここで、クラス判別装置100に入力される教師データには、クラスごとのデータ数に偏りがある場合もある。その場合には、正確な判別モデルが生成されず、クラスの判別精度が低下してしまう。
そこで、クラス判別装置100は、判別モデルを生成する前に、教師データに含まれるクラスごとのデータ数の偏りを調整する。具体的には、クラス判別装置100は、教師データのデータ数をクラスごとに集計し、集計したデータ数と所定の基準値との差に基づいて、クラスごとに教師データのデータ数を調整する。この調整によってクラスごとのデータ数が平準化された教師データを以下では「調整済み教師データ」と呼ぶ(図1の(2)参照)。
例えば、図1に示すように、教師データの全データ数を100%とした場合に、クラスAのデータ数が80%であり、クラスBのデータ数が10%であり、クラスCのデータ数が5%であり、クラスDのデータ数が5%であったとする。その場合、例えば、クラス判別装置100は、各クラスのデータ数がそれぞれ25%になるように、教師データのデータ数を平準化する。
こうして教師データのデータ数を調整したのちに、クラス判別装置100は、調整済み教師データに基づいて、教師つき学習における判別モデルを生成する(図1の(3)参照)。その後、クラス判別装置100は、クラスを判別する対象のデータである判別データの入力を受け付ける(図1の(4)参照)。そして、クラス判別装置100は、受け付けた判別データに判別モデルを適用することで、判別データが属するクラスを判別し、判別したクラスを示す判別結果データを出力する(図1の(5)参照)。
このように、本実施例1では、クラス判別装置100が、判別データのクラスを判別するための判別モデルを生成する前に、教師データに含まれるクラスごとのデータ数の偏りを平準化する。したがって、本実施例1によれば、教師データに含まれるクラスの数が3クラス以上であった場合でも、教師つき学習によるクラスの判別結果が特定のクラスに偏らないように、教師データに含まれるクラスごとのデータ数の偏りを補正することが可能になる。
次に、クラス判別装置100の構成について説明する。図2は、クラス判別装置100の構成を示す機能ブロック図である。図2に示すように、クラス判別装置100は、入力部110、出力部120、記憶部130、および制御部140を有する。
入力部110は、利用者によって行われる操作に応じて各種情報を入力する。例えば、入力部110は、キーボードやマウスなどの入力デバイスである。また、本実施例1では、入力部110は、教師つき学習における判別モデルを生成するための教師データや、クラスを判別する対象のデータである判別データなどを入力する。
出力部120は、クラス判別装置によって生成された各種情報を出力する。例えば、出力部120は、モニタやスピーカなどの出力デバイスである。また、本実施例1では、出力部120は、判別データが属するクラスを示す判別結果データを出力する。
記憶部130は、制御部140によって実行される各種処理に必要な各種データを記憶する。例えば、HDD(Hard Disk Drive)やメモリなどの記憶デバイスである。具体的には、記憶部130は、特に、教師データ記憶部131、調整済み教師データ記憶部132、判別モデル記憶部133、および判別データ記憶部134を記憶する。
教師データ記憶部131は、入力部110によって入力された教師データを記憶する。図3は、教師データ記憶部131によって記憶される教師データの一例を示す図である。図3に示すように、具体的には、教師データ記憶部131は、「サンプルID」と、「クラス」と、「特性」とを対応付けた情報を「教師データ」として記憶する。
ここで、サンプルIDとは、教師データに含まれるデータを一意に識別する識別情報である。例えば、サンプルIDには、「001」、「002」、「003」などが設定される。また、クラスとは、教師データに含まれるデータが属するクラスを示す情報である。このクラスとしては、クラスを一意に識別する識別情報が用いられる。例えば、クラスには、「A」、「B」、「C」などが設定される。また、特性とは、教師データに含まれるデータの特性を示す情報である。この特性としては、図3に示す「特性1」、「特性2」のように、複数の種類が用いられる。例えば、特性には、特性の種類ごとに、それぞれ特性の内容を示す値である「2」や「4」などが設定される。
なお、図3に示す例では、クラス「A」、「B」、「C」に属するデータをそれぞれ1件ずつ示しているが、クラスごとのデータ数に偏りがある場合には、各クラスのデータ数がそれぞれ異なった状態となる。
図2の説明にもどって、調整済み教師データ記憶部132は、教師データ調整部144によってクラスごとのデータ数が調整された調整済み教師データを記憶する。
判別モデル記憶部133は、判別モデル生成部145によって生成された判別モデルを記憶する。ここでいう「判別モデル」とは、例えば、線形判別分析で用いられる線形判別関数などである。
判別データ記憶部134は、判別データ入力受付部146によって入力が受け付けられた判別データを記憶する。図4は、判別データ記憶部134によって記憶される判別データの一例を示す図である。図4に示すように、具体的には、判別データ記憶部134は、教師データと同じ形式のデータを「判別データ」として記憶する。なお、判別データは、クラスを判別する対象のデータであるため、判別データに含まれる各データはクラスが未知である。そのため、判別データでは、クラスを示す識別情報は設定されていないこととする。
図2の説明に戻って、制御部140は、記憶部130に記憶されている各種データを用いて各種処理を実行することによって、クラス判別装置100全体を制御する。具体的には、制御部140は、特に、教師データ入力受付部141、教師データ集計部142、教師データ偏り判定部143、教師データ調整部144、判別モデル生成部145、判別データ入力受付部146、およびクラス判別部147を有する。
教師データ入力受付部141は、入力部110によって入力された教師データを受け付け、受け付けた教師データを教師データ記憶部131に格納する。
教師データ集計部142は、教師データのデータ数をクラスごとに集計する。具体的には、教師データ集計部142は、教師データ入力受付部141によって教師データが教師データ記憶部131に格納されたのちに、教師データ記憶部131から教師データを読み出し、クラスごとにデータ数を集計する。
教師データ偏り判定部143は、教師データに含まれるクラスごとのデータ数に偏りがあるか否かを判定する。具体的には、教師データ偏り判定部143は、教師データ集計部142によってクラスごとのデータ数が集計されたのちに、集計された各クラスのデータ数のうち最も大きいデータ数と最も小さいデータ数を特定する。
そして、教師データ偏り判定部143は、特定した最大データ数と最小データ数とが一致していない場合には、教師データに含まれるクラスごとのデータ数に偏りがあると判定する。なお、クラスごとのデータ数の偏りを判定する方法はこれに限定されるものではない。例えば、教師データ偏り判定部143が、特定した最大データ数と最小データ数との差が所定の値を超えている場合に、クラスごとのデータ数に偏りがあると判定するようにしてもよい。
教師データ調整部144は、教師データのデータ数をクラスごとに調整する。具体的には、教師データ調整部144は、教師データ記憶部131に格納されている教師データをクラスごとに読み出し、読み出した教師データを「調整済み教師データ」として調整済み教師データ記憶部132に順次格納する。
このとき、教師データ調整部144は、教師データ偏り判定部143によってクラスごとのデータ数に偏りがあると判定された場合には、教師データ集計部142によって集計されたデータ数と所定の基準値との差に基づいて、クラスごとに教師データのデータ数を調整する。
具体的には、教師データ調整部144は、教師データ集計部142によって集計されたデータ数が基準値に満たないクラスがあった場合には、そのクラスに属するデータのデータ数を基準値と一致するまで増加させる。このとき、教師データ調整部144は、データ数が基準値に満たないクラスについて、そのクラスに属する任意のデータを複製することで、データ数を増加させる。
一方、教師データ集計部142によって集計されたデータ数が基準値を超えるクラスがあった場合には、教師データ調整部144は、そのクラスに属するデータのデータ数を基準値と一致するまで減少させる。このとき、教師データ調整部144は、データ数が基準値を超えるクラスについて、そのクラスに属する任意のデータを削除することで、データ数を減少させる。
図5は、教師データ調整部144によるデータ数の調整の一例を示す図である。図5は、それぞれ、教師データ集計部142によって集計されたクラスごとのデータ数を棒グラフで示している。例えば、図5に示すように、クラスAのデータ数が基準値を超えており、クラスBのデータ数が基準値と一致しており、クラスCおよびDのデータ数が基準値に満たない状態であったとする。この場合には、教師データ調整部144は、図5の「処理後」に示すように、クラスAのデータ数を基準値まで減少させ、クラスCおよびDのデータ数を基準値まで増加させる。なお、教師データ調整部144は、クラスBについては、データ数を変化させない。
このように、教師データ調整部144が、クラスごとのデータ数が所定の基準値と一致するように、各クラスのデータ数を増減させることによって、教師データに含まれるクラスごとのデータ数が同じ値に平準化される。
なお、ここでは、データ数の増加および減少をいずれも行う場合について説明したが、データ数を調整する方法はこれに限定されるものではない。例えば、教師データ調整部144が、データ数の増加または減少のいずれか一方を行うようにしてもよい。図6は、教師データ調整部144がデータ数の増加のみを行う場合の一例を示す図である。また、図7は、教師データ調整部144がデータ数の減少のみを行う場合の一例を示す図である。
例えば、図6に示すように、クラスAおよびBのデータ数が基準値を超えており、クラスCおよびDのデータ数が基準値に満たない状態であったとする。データの増加のみを行う場合には、教師データ調整部144は、図6の「処理後」に示すように、クラスAおよびBのデータ数は変化させずに、クラスCおよびDのデータ数を基準値まで増加させる。
また、例えば、図7に示すように、クラスAおよびBのデータ数が基準値を超えており、クラスCのデータ数が基準値と一致しており、クラスDのデータ数が基準値に満たない状態であったとする。データの減少のみを行う場合には、教師データ調整部144は、図7の「処理後」に示すように、クラスCおよびDのデータ数は変化させずに、クラスAおよびBのデータ数を基準値まで減少させる。
なお、上記で説明したデータ数の調整で用いられる基準値としては、各種の値を用いることが可能である。例えば、教師データ調整部144が、入力部110を介して、利用者によって任意に決められた値を受け付け、受け付けた値を基準として用いるようにしてもよい。
または、教師データ調整部144が、教師データ集計部142によって集計されたクラスごとのデータ数に関する統計値を算出し、算出した統計値を基準値として用いるようにしてもよい。この場合、例えば、教師データ調整部144は、クラスごとのデータ数の平均値や中央値、最大値、最小値などを算出し、算出した値を基準値として用いる。
判別モデル生成部145は、データ数が調整された教師データに基づいて判別モデルを生成する。具体的には、判別モデル生成部145は、調整済み教師データ記憶部132に格納されている調整済み教師データを読み出し、読み出した調整済み教師データに基づいて、教師つき学習における判別モデルを生成する。例えば、判別モデル生成部145は、Support Vector Machineなどの公知の学習器を利用して、判別モデルを生成する。そして、判別モデル生成部145は、生成した判別モデルを判別モデル記憶部133に格納する。
判別データ入力受付部146は、入力部110によって入力された判別データを受け付け、受け付けた判別データを判別データ記憶部134に格納する。
クラス判別部147は、教師つき学習における判別モデルを用いて判別データが属するクラスを判別する。具体的には、クラス判別部147は、判別データ入力受付部146によって判別データが受け付けられると、その判別データを判別データ記憶部134から読み出す。さらに、クラス判別部147は、判別モデル記憶部133から判別モデルを取得し、読み出した判別データに判別モデルを適用することで、判別データが属するクラスを判別する。そして、クラス判別部147は、判別したクラスを示す判別結果データを出力部120に出力する。
図8は、クラス判別部147によって出力される判別結果データの一例を示す図である。図8に示すように、具体的には、クラス判別部147は、判別データを示すサンプルIDとクラス判別部147によって判別されたクラスを示す識別情報とを判別データごとに対応付けた情報を「判別結果データ」として出力する。
次に、クラス判別装置100によって行われるクラス判別の処理手順について説明する。図9は、クラス判別装置100によって行われるクラス判別の処理手順を示すフローチャートである。図9に示すように、クラス判別装置100では、教師データ入力受付部141が教師データを受け付けた場合に(ステップS101,Yes)、教師データ集計部142が、教師データのデータ数をクラスごとに集計する(ステップS102)。
続いて、教師データ偏り判定部143が、教師データ集計部142によって集計されたクラスごとのデータ数に偏りがあるか否かを判定する。そして、クラスごとのデータ数に偏りがなかった場合には(ステップS103,No)、判別モデル生成部145が、入力された教師データと同じ内容の調整済み教師データに基づいて判別モデルを生成する(ステップS108)。
一方、クラスごとのデータ数に偏りがあると判定された場合には(ステップS103,Yes)、教師データ調整部144が、教師データのデータ数をクラスごとに調整する。具体的には、教師データ調整部144は、データ数が所定の基準値に満たないクラスがある場合には(ステップS104,Yes)、データ数が基準値と一致するまで、そのクラスに属する任意のデータを複製する(ステップS105)。なお、データ数が所定の基準値に満たないクラスがない場合には(ステップS104,No)、教師データ調整部144は、データの複製を行わない。
また、データ数が所定の基準値を超えるクラスがある場合には(ステップS106,Yes)、教師データ調整部144は、データ数が基準値と一致するまで、そのクラスに属する任意のデータを削除する(ステップS107)。なお、データ数が所定の基準値を超えるクラスがない場合には(ステップS106,No)、教師データ調整部144は、データの削除を行わない。
こうして教師データのデータ数が調整されたのちに、判別モデル生成部145が、調整済み教師データに基づいて判別モデルを生成する(ステップS108)。そして、判別データ入力受付部146が判別データを受け付けた場合に(ステップS109,Yes)、クラス判別部147が、入力された判別データのクラスを判別し(ステップS110)、判別結果データを出力する(ステップS111)。
上述してきたように、本実施例1では、教師データ集計部142が、教師データのデータ数をクラスごとに集計する。また、教師データ調整部144が、教師データ集計部142によって集計されたデータ数と所定の基準値との差に基づいて、教師データのデータ数をクラスごとに調整する。そして、判別モデル生成部145が、教師データ調整部144によってデータ数が調整された教師データに基づいて判別モデルを生成する。
すなわち、本実施例1では、判別データのクラスを判別するために用いられる判別モデルが生成される前に、教師データに含まれるクラスごとのデータ数の偏りが平準化される。したがって、本実施例1によれば、教師データに含まれるクラスの数が3クラス以上であった場合でも、教師つき学習によるクラスの判別結果が特定のクラスに偏らないように、教師データに含まれるクラスごとのデータ数の偏りを補正することが可能である。
また、本実施例1では、教師データ偏り判定部143が、教師データ集計部142によって集計されたクラスごとのデータ数に偏りがあるか否かを判定する。そして、教師データ調整部144が、教師データ偏り判定部143によってクラスごとのデータ数に偏りがあると判定された場合に、教師データのデータ数を調整する。したがって、本実施例1によれば、教師データにデータ数の偏りがない場合にはデータ数の調整に関する処理が行われないので、装置にかかる負荷を軽減することが可能である。
また、本実施例1では、教師データ調整部144は、教師データ集計部142によって集計されたデータ数が基準値に満たないクラスがあった場合には、そのクラスに属する教師データのデータ数を基準値と一致するまで増加させる。したがって、本実施例1によれば、複数のクラスの中に極端にデータ数が少ないクラスがあった場合に、そのクラスのデータ数を他のクラスのデータ数に近づけることが可能である。
また、本実施例1では、教師データ調整部144が、教師データ集計部142によって集計されたデータ数が基準値を超えるクラスがあった場合に、そのクラスに属する教師データのデータ数を基準値と一致するまで減少させる。したがって、本実施例1によれば、複数のクラスの中に極端にデータ数が多いクラスがあった場合に、そのクラスのデータ数を他のクラスのデータ数に近づけることが可能である。
また、本実施例1では、教師データ調整部144が、利用者によって任意に決められた値を基準値として用いることとした。したがって、本実施例1によれば、利用者が任意に基準値を変更することができるので、教師つき学習に用いられる教師データのデータ量に応じて、データ数の偏りを適切に調整することが可能である。
また、本実施例1では、教師データ調整部144が、教師データ集計手段によって集計されたクラスごとのデータ数の平均値を基準値として用いることとした。したがって、本実施例1によれば、教師データのデータ数を自動的に平準化することが可能である。
次に、実施例2について説明する。本実施例2では、通信ネットワークを利用するユーザの特性を推定する特性推定システムに本発明を適用した場合について説明する。
最初に、本実施例2で用いる用語について説明しておく。まず、本実施例2にかかる特性推定システムが推定する「特性」とは、例えば、インターネットにおける嗜好特性である。この嗜好特性の分類例としては、イノベータ理論に基づく分類がある。イノベータ理論は、ロジャースが1962年に提唱したイノベーション(技術革新)の普及に関する理論であり、イノベータ理論においてロジャースは、商品の新規性や話題性に対するユーザの特性(革新性)に基づいて、ユーザを5つのグループに分類している。
すなわち、イノベータ理論は、ユーザの「革新性」に基づいて、ユーザの嗜好特性を、イノベータ(Innovators:革新者)、アーリーアダプター(Early Adopters:初期採用者)、アーリーマジョリティ(Early Majority:前期追随者)、レイトマジョリティ(Late Majority:後期追随者)、ラガード(Laggards:遅滞者)の5つのグループに分類している。
「イノベータ」は、冒険心にあふれイノベーションを進んで採用するユーザであり、「アーリーアダプター」は、流行に敏感で情報収集を自ら行なってイノベーションを採用するか否かを判断するユーザである。「アーリーマジョリティ」は、比較的慎重派ではあるが、平均より早くイノベーションを取り入れるユーザであり、「レイトマジョリティ」は、比較的懐疑的であり、周囲の大多数が試している場面を見てから同じイノベーション選択をするユーザである。「ラガード」は、最も保守的であり流行や世の中の動きに関心が薄く、イノベーションが伝統になるまで採用しないユーザである。
なお、本実施例2にかかる特性推定システムは、上述した嗜好特性だけでなく、性別、年齢、職業などのデモグラフィックな情報に基づく特性や、高級志向などの革新性以外のサイコグラフィックな情報に基づく特性などを推定することも可能である。
また、「特性グループ」とは、上述した特性によって分類されるユーザのグループである。
また、「推定ユーザ」とは、サーバを介してインターネットなどの通信ネットワークを利用するユーザであり、特性の推定対象となるユーザである。また、「推定ユーザ端末」とは、推定ユーザが所有し、推定ユーザの入力情報に基づいて、インターネットなどネットワークを介したサービスをサーバに要求する端末装置である。
また、「教師ユーザ」とは、推定ユーザの特性を推定する前に、通信ネットワークにおける特性が教師ユーザ端末200から取得した情報に基づいてあらかじめ特定されるユーザである。また、「教師ユーザ端末」は、教師ユーザが所有する端末装置である。
次に、本実施例2にかかる特性推定システムについて説明する。図10は、本実施例2にかかる特性推定システムの全体構成を説明するための図である。図10に示すように、実施例2にかかる特性推定システムは、教師ユーザ端末200と、サーバ300と、推定ユーザ端末400とを有する。
サーバ300は、通信ネットワークを介して、教師ユーザ端末200および推定ユーザ端末400にそれぞれ接続されている。例えば、図10に示すように、サーバ300は、教師ユーザ1の教師ユーザ端末200、教師ユーザ2の教師ユーザ端末200といったように、複数の教師ユーザ端末200に接続される。
教師ユーザ端末200や推定ユーザ端末400は、例えば、パーソナルコンピュータやPDA、あるいは携帯電話やPHSなどの通信機能を備えた装置である。これら教師ユーザ端末200および推定ユーザ端末400は、Webブラウザなど、ネットワークを利用するための専用のアプリケーションを備える。
このような構成のもと、本実施例2にかかる特性推定システムでは、サーバ300が、アクセス履歴を構成するアクセス情報と、アクセス情報から抽出されるユーザの行動情報とを対応付けた履歴・行動対応データを保持する。また、サーバ300は、教師ユーザのアクセス履歴と履歴・行動対応データとに基づいて、教師ユーザの行動データを抽出し、抽出した教師ユーザの行動データと教師ユーザのあらかじめ特定された特性とから、特性を推定するための特性推定モデルを生成する。
一方、推定ユーザ端末400が、サーバ300から履歴・行動対応データおよび特性推定モデルを取得し、取得した履歴・行動対応データと推定ユーザのアクセス履歴とに基づいて推定ユーザの行動情報を抽出する。そして、推定ユーザ端末400は、抽出した推定ユーザの行動情報と特性推定モデルとを用いて推定ユーザの特性を推定する。
ここで、サーバ300が特定推定モデルを生成する際に用いる教師ユーザの行動データには、特性グループごとのデータ数に偏りがある場合もある。例えば、行動データの全データ数を100%とした場合に、イノベータのデータ数が60%であり、アーリーアダプターのデータ数が30%であり、マジョリティのデータ数が5%であり、ラガードのデータ数が5%であるような場合である。その場合には、正確な特性推定モデルが生成されず、特性の推定精度が低下してしまう。
そこで、サーバ300は、特性推定モデルを生成する前に、教師ユーザの行動データにおける特性グループごとのデータ数の偏りを調整する。具体的には、サーバ300は、実施例1で説明したクラス判別装置100がクラスごとのデータ数を調整するのと同様の方法で、特性グループごとのデータ数を調整する。したがって、本実施例2によれば、教師ユーザにおいて特性グループごとのデータ数に偏りがあった場合でも、推定ユーザの特性を正しく推定することが可能になる。
次に、教師ユーザ端末200について説明する。図11は、教師ユーザ端末200の構成を示す機能ブロック図である。図11に示すように、教師ユーザ端末200は、サーバ300に接続されている。また、教師ユーザ端末200は、入力部210と、出力部220と、通信部230と、入出力制御I/F部240と、記憶部250と、処理部260とを備える。なお、記憶部250および処理部260は、図11に示す機能ブロック以外にも、例えば、パーソナルコンピュータとしての機能を実行するための各種機能ブロックを備えている。
入力部210は、各種の情報を入力し、キーボードやマウスなどを備えて構成される。例えば、入力部210は、サーバ300から受信したアンケート質問データに対する教師ユーザの回答を、例えば、キーボードから受け付けて入力する。
出力部220は、各種の情報を出力し、モニタやスピーカを備えて構成される。例えば、出力部220は、サーバ300から受信したアンケート質問データを、モニタの画面に表示したりする。
通信部230は、ネットワークを通じて送受信されるデータの通信を行なう。例えば、通信部230は、サーバ300からアンケート質問データを受信して、受信したアンケート質問データを後述するアンケート記憶部251に転送したり、アンケート記憶部251に格納された入力済みのアンケート質問データをサーバ300に送信したりする。
入出力制御I/F部240は、入力部210、出力部220および通信部230と、記憶部250および処理部260との間におけるデータ転送を制御する。
記憶部250は、処理部260による各種処理に用いるデータや、処理部260による各種処理結果を記憶する。また、記憶部250は、図11に示すように、特に、アンケート記憶部251を備える。
アンケート記憶部251は、サーバ300から通信部230が受信し、入出力制御I/F部240から転送されたアンケート質問データを記憶し、さらに、後述するアンケート入力処理部261が受け付けた入力済みのアンケート質問データを記憶する。
処理部260は、入出力制御I/F部240から転送されたデータに基づき各種処理を実行する。また、処理部260は、図11に示すように、特に、アンケート入力処理部261を備える。
アンケート入力処理部261は、アンケート記憶部251が記憶するアンケート質問データを出力部220が備えるモニタにて表示するように制御する。さらに、アンケート入力処理部261は、入力部210を介して、出力部220が備えるモニタに表示されたアンケート質問データを参照した教師ユーザの回答を受け付け、回答が入力された入力済みのアンケート質問データをアンケート記憶部251に格納する。
また、アンケート入力処理部261は、教師ユーザから入力部210を介してアンケート質問データの入力完了通知を受け付けた場合に、入出力制御I/F部240を介して、アンケート記憶部251が記憶する入力済みのアンケート質問データを通信部230に転送する。なお、通信部230は、転送された入力済みのアンケート質問データをサーバ300に送信する。
次に、サーバ300について説明する。図12は、サーバ300の構成を示す機能ブロック図である。図12に示すように、サーバ300は、教師ユーザ端末200および推定ユーザ端末400に接続されている。また、サーバ300は、入力部310と、出力部320と、通信部330と、入出力制御I/F部340と、記憶部350と、処理部360とを備える。なお、記憶部350および処理部360は、図12に示す機能ブロック以外にも、サーバとしての機能を実行するための各種機能ブロックを備えている。
入力部310は、各種の情報を入力し、キーボードやマウスなどを備えて構成される。例えば、入力部310は、後述するアンケート管理記憶部351に格納され教師ユーザ端末200に送信されるアンケート質問データや、後述する履歴・行動対応テーブル記憶部354に格納される履歴・行動対応テーブルや、特性推定モデルを生成する時機(以下、「特性推定時機」と呼ぶ)などを、サーバ300の管理者から受け付けて入力する。
出力部320は、各種の情報を出力し、モニタやスピーカを備えて構成される。例えば、出力部320は、教師ユーザ端末200から受信した入力済みアンケート質問データや、後述する教師ユーザ特性特定部362によって特定された教師ユーザの特性をモニタの画面に表示する。
通信部330は、ネットワークを通じて送受信されるデータの通信を行なう。例えば、通信部330は、教師ユーザ端末200に後述するアンケート管理記憶部351が記憶するアンケート質問データを送信する。また、通信部330は、教師ユーザ端末200から入力済みのアンケート質問データを受信し、受信した入力済みのアンケート質問データを後述するアンケート管理記憶部351に転送する。また、通信部330は、後述するアクセス履歴収集部363の制御に基づいて教師ユーザ端末200や推定ユーザ端末400のアクセス履歴を受信し、受信したアクセス履歴を後述するアクセス履歴管理記憶部353に転送する。
入出力制御I/F部340は、入力部310、出力部320および通信部330と、記憶部350および処理部360との間におけるデータ転送を制御する。
記憶部350は、処理部360による各種処理に用いるデータや、処理部360による各種処理結果を記憶する。また、記憶部350は、図12に示すように、特に、アンケート管理記憶部351と、教師ユーザ特性記憶部352と、アクセス履歴管理記憶部353と、履歴・行動対応テーブル記憶部354と、行動データ記憶部355と、調整済み行動データ記憶部356と、特性推定モデル記憶部357とを備える。
アンケート管理記憶部351は、後述するアンケート送受信制御部361の制御に基づいて、教師ユーザ端末200に送信されるアンケート質問データを記憶する。また、アンケート管理記憶部351は、後述するアンケート送受信制御部361の制御に基づいて、教師ユーザ端末200から受信した入力済みのアンケート質問データを教師ユーザに割り振られた識別子(ユーザID)に対応付けて記憶する。
教師ユーザ特性記憶部352は、後述する教師ユーザ特性特定部362によって特定された教師ユーザの特性を記憶する。アクセス履歴管理記憶部353は、後述するアクセス履歴収集部363が収集した教師ユーザや推定ユーザのアクセス履歴を記憶する。
また、履歴・行動対応テーブル記憶部354は、アクセス履歴を構成するアクセス情報と、アクセス情報から抽出されるユーザの行動情報とを対応付けた履歴・行動対応テーブルを記憶する。行動データ記憶部355は、後述する行動データ生成部364によって生成された教師ユーザや推定ユーザの行動データを記憶する。
調整済み行動データ記憶部356は、後述する行動データ調整部365によって特性グループごとのデータ数が調整された調整済み行動データを記憶する。特性推定モデル記憶部357は、後述する特性推定モデル生成部366によって生成された特性推定モデルを記憶する。
なお、上述した記憶部350の各機能ブロックによって記憶される情報の内容については、後に詳細に説明する。
処理部360は、入出力制御I/F部340から転送されたデータに基づいて各種処理を実行する。また、処理部360は、図12に示すように、特に、アンケート送受信制御部361と、教師ユーザ特性特定部362と、アクセス履歴収集部363と、行動データ生成部364と、行動データ調整部365と、特性推定モデル生成部366とを備える。
アンケート送受信制御部361は、アンケート管理記憶部351が記憶するアンケート質問データを、サーバ300の管理者の指示に基づいて教師ユーザ端末200に通信部330を介して送信するように制御する。また、アンケート送受信制御部361は、教師ユーザ端末200から送信された入力済みのアンケート質問データを、通信部330を介して受信し、受信した入力済みのアンケート質問データを、教師ユーザごとに割り振られたユーザIDと対応付けてアンケート管理記憶部351に格納するように制御する。
教師ユーザ特性特定部362は、アンケート管理記憶部351に格納された入力済みのアンケート質問データに基づいて、教師ユーザごとの特性を特定する。図13は、教師ユーザ特性特定部362を説明するための図である。例えば、教師ユーザ特性特定部362は、入力済みのアンケート質問データを解析して、図13に示すように、教師ユーザごとに、「革新性」などに基づく特性を特定する。
すなわち、教師ユーザ特性特定部362は、入力済みのアンケート質問データを解析して、教師ユーザそれぞれを、図13に示すように、イノベータ、アーリーアダプター、アーリーマジョリティ、レイトマジョリティ、ラガードのいずれかの「革新性」に基づく特性グループに分類して特定する。また、教師ユーザ特性特定部362は、教師ユーザそれぞれを「革新性」以外に基づく特性グループ、例えば、図13に示すように、性別、年齢、職業などのデモグラフィックな情報に基づく特性グループや、高級志向などの革新性以外のサイコグラフィックな情報に基づく特性グループなどに分類して特定する。
これにより、図13に示すように、教師ユーザごと(ユーザID:ku0001、ku0002、・・・ごと)に、革新性やデモグラフィック情報や革新性以外のサイコグラフィック情報などに基づく特性が特定される。そして、教師ユーザ特性特定部362は、特定した教師ユーザごとの特性を、教師ユーザごとに割り振られたユーザIDに対応付けて、教師ユーザ特性記憶部352に格納する。
図12の説明に戻って、アクセス履歴収集部363は、サーバ300の管理者が設定した特性推定時機に基づいて、教師ユーザ端末200から教師ユーザのアクセス履歴を収集する。そして、アクセス履歴収集部363は、収集したアクセス履歴を、教師ユーザおよび推定ユーザごとに割り振られたユーザIDに対応付けて、アクセス履歴管理記憶部353に格納する。
図14は、アクセス履歴収集部363を説明するための図である。例えば、アクセス履歴収集部363は、図14に示すように、教師ユーザ1がアクセスしたURL:「http://www.example.com/search?key=xxx」およびアクセスした日時:「2008/3/28 12:30」などのアクセス履歴を、教師ユーザ1に割り振られたユーザIDである「ku0001」に対応付けて、アクセス履歴管理記憶部353に格納する。
なお、ここでは、教師ユーザのアクセス履歴を収集する対象が教師ユーザ端末200である場合について説明するが、例えば、教師ユーザにサービスを提供するサーバ300、あるいは、サーバ300以外のサーバが、教師ユーザのアクセス履歴の収集対象であってもよい。
図12の説明に戻って、行動データ生成部364は、アクセス履歴管理記憶部353が記憶するアクセス履歴と、履歴・行動対応テーブル記憶部354が記憶する履歴・行動対応テーブルとに基づいて、教師ユーザの行動データを生成する。
ここで、履歴・行動対応テーブル記憶部354によって記憶される履歴・行動対応テーブルについて説明する。前述したように、履歴・行動対応テーブルは、アクセス履歴を構成するアクセス情報と、アクセス情報から抽出されるユーザの行動情報とを対応付けた情報である。具体的には、履歴・行動対応テーブルは、アクセス履歴を構成するアクセス情報としてのURLの種類ごとに、行動IDを対応付け、さらに、各行動IDを種類ごとに大別した行動グループを対応付けた情報である。
図15は、履歴・行動対応テーブル記憶部354を説明するための図である。例えば、履歴・行動対応テーブル記憶部354は、図15に示すように、ユーザがアクセスしたURLの種類が、ユーザがポータルサイト「http://www.example.com/」にアクセスする際にキーワードを入力して検索を実行したことを示す「http://www.example.com/search?key=<keyword>」である場合、当該URLが行動ID:「A01」に対応することを示し、さらに、行動ID:「A01」が、行動グループ:「検索」に大別されるID:「A」に対応することを示す履歴・行動対応テーブルを記憶する。
また、履歴・行動対応テーブル記憶部354は、図15に示すように、行動グループ:「閲覧」に大別されるID:「B」に対応する行動ID:「B01」などを、特定のポータルサイトにおいてページを閲覧したことを示すURLの種類ごとに対応付けて記憶し、行動グループ:「購買」に大別されるID:「C」に対応する行動ID:「C01」などを、特定のポータルサイトを利用して商品を購入したことを示すURLの種類ごとに対応付けて記憶した履歴・行動対応テーブルを記憶する。
なお、履歴・行動対応テーブル記憶部354は、図15に示す以外にも、ID:「D」として「情報収集に対する積極性」、ID:「E」として「他者からのお薦めに対する受容性」、ID:「F」として「話題性(人気)に対する敏感度」、ID:「G」として「新商品に対する敏感度」、ID:「H」として「評価に対する敏感度」、ID:「I」として「情報発信に対する積極性」、ID:「J」として「価格に対する敏感度」などに大別される「行動グループ」それぞれについて、URLの種類ごとに「行動ID」が対応付けられた履歴・行動対応テーブルを記憶する。
図12の説明に戻って、行動データ生成部364は、特性推定時機においてアクセス履歴収集部363が収集しアクセス履歴管理記憶部353に格納した教師ユーザのアクセス履歴と、履歴・行動対応テーブル記憶部354が記憶する履歴・行動対応テーブルと、教師ユーザ特性記憶部352が記憶する教師ユーザごとの特性グループとに基づいて、教師ユーザの行動データを生成する。なお、行動データ生成部364は、管理者によってあらかじめ定められた量や集計期間のアクセス履歴を用いて、行動データを生成する。
具体的には、行動データ生成部364は、履歴・行動対応テーブル記憶部354が記憶する履歴・行動対応テーブル(図15参照)の情報から、教師ユーザ1の教師ユーザ端末200のアクセス履歴(ユーザID:「ku0001」のアクセス履歴)におけるURL:「http://www.example.com/search?key=xxx」(図14参照)に対応する行動IDが「A01」であると特定する。その後、行動データ生成部364は、教師ユーザのアクセス履歴を構成する「URL」の情報ごとに行動IDを特定して行動IDごとの頻度を算出する。さらに、行動データ生成部364は、同じ行動グループを構成する行動IDすべての頻度を合計することで、『ID:「A」の合計頻度、ID:「B」の合計頻度、ID:「C」の合計頻度、・・』のように、行動グループごとの頻度を算出する。また、行動データ生成部364は、教師ユーザ特性記憶部352によって記憶されている教師ユーザごとの特性グループを参照して、教師ユーザ1の特性グループを特定する。そして、行動データ生成部364は、ユーザID、特性グループ、行動グループごとの頻度をそれぞれ対応付けた行動データを生成し、生成した行動データを行動データ記憶部355に格納する。行動データ生成部364は、同様の手順で教師ユーザごとに行動データを生成し、生成した各行動データを行動データ記憶部355に格納する。
図16は、行動データ生成部364による教師ユーザの行動データ生成を説明するための図である。例えば、図16に示すように、行動データ生成部364は、ユーザIDが「ku0001」である教師ユーザ1について、特性グループを「イノベータ」とし、教師ユーザのアクセス履歴の「URL」を解析することによって、行動グループ:「検索」に大別されるID:「A」の合計頻度を「1」とし、行動グループ:「閲覧」に大別されるID:「B」の合計頻度を「0」とし、行動グループ:「購買」に大別されるID:「C」の合計頻度を「0」とした行動データを生成する。なお、行動データ生成部364は、図16では図示していないが、教師ユーザのアクセス履歴の「URL」を解析することによって、上記したID:「D」〜「J」についてもそれぞれ合計頻度を算出し、ID:「D」〜「J」に関する教師ユーザごとの行動データもそれぞれ生成する。
図12の説明に戻って、行動データ調整部365は、教師ユーザの行動データにおける特性グループごとのデータ数の偏りを補正する。本実施例2では、教師ユーザの行動データが「教師データ」となる。
図17は、行動データ調整部365の構成を示す機能ブロック図である。図17に示すように、行動データ調整部365は、教師データ集計部365aと、教師データ偏り判定部365bと、教師データ調整部365cとを有する。
教師データ集計部365aは、教師ユーザの行動データのデータ数を特性グループごとに集計する。具体的には、教師データ集計部365aは、行動データ生成部364によって教師ユーザの行動データが行動データ記憶部355に格納されたのちに、行動データ記憶部355から教師ユーザの行動データを読み出し、特性グループごとにデータ数を集計する。
教師データ偏り判定部365bは、教師ユーザの行動データにおける特性グループごとのデータ数に偏りがあるか否かを判定する。具体的には、教師データ偏り判定部365bは、実施例1で説明した教師データ偏り判定部143がクラスごとのデータ数の偏りを判定するのと同様の方法で、特性グループごとにデータ数の偏りを判定する。
教師データ調整部365cは、教師ユーザの行動データのデータ数を特性グループごとに調整する。具体的には、教師データ調整部365cは、行動データ記憶部355に格納されている教師ユーザの行動データを特性グループごとに読み出し、読み出した行動データを「調整済み行動データ」として調整済み行動データ記憶部356に順次格納する。
このとき、教師データ調整部365cは、教師データ偏り判定部365bによって特性グループごとのデータ数に偏りがあると判定された場合には、教師データ集計部365aによって集計されたデータ数と所定の基準値との差に基づいて、特性グループごとに行動データのデータ数を調整する。
具体的には、教師データ調整部365cは、実施例1で説明した教師データ調整部144がクラスごとにデータ数を調整するのと同様の方法で、特性グループごとに行動データのデータ数を調整する。
図12の説明に戻って、特性推定モデル生成部366は、調整済み行動データ記憶部356が記憶する教師ユーザごとの行動データと、教師ユーザ特性記憶部352が記憶する教師ユーザごとの特性グループとから、特性を推定するための特性推定モデルを生成し、生成した特性推定モデルを特性推定モデル記憶部357に格納する。
具体的には、特性推定モデル生成部366は、「革新性」に基づく特性グループを目的変数とし、行動グループのIDごとの合計頻度を説明変数として、特性を推定するための特性推定モデルを、線形判別分析などのパターン認識手法を用いて生成する。
例えば、特性推定モデル生成部366は、「革新性」に基づく特性グループを目的変数「Y」とし、ID:「A」の合計頻度を説明変数「X1」とし、ID:「B」の合計頻度を説明変数「X2」とし、ID:「C」の合計頻度を説明変数「X3」とする。また、特性推定モデル生成部366は、ID:「D」の合計頻度を説明変数「X4」とし、ID:「E」の合計頻度を説明変数「X5」とする。また、特性推定モデル生成部366は、ID:「F」の合計頻度を説明変数「X6」とし、ID:「G」の合計頻度を説明変数「X7」とし、ID:「H」の合計頻度を説明変数「X8」とする。また、特性推定モデル生成部366は、ID:「I」の合計頻度を説明変数「X9」とし、ID:「J」の合計頻度を説明変数「X10」とする。
その後、特性推定モデル生成部366は、判別関数「Y=aX1+bX2+cX3+dX4+eX5+fX6+gX7+hX8+iX9+jX10」を設定する。そして、特性推定モデル生成部366は、教師ユーザごとの『「革新性」に基づく特性および行動グループごとの合計頻度』から、線形判別分析により最適なパラメータ「a,b,c,d,e,f,g,h,i,j」を算出することにより、特性推定モデルを生成する。
また、特性推定モデル生成部366は、教師ユーザ特性特定部362によって特定された教師ユーザごとのデモグラフィック情報に基づく特性グループや、革新性以外のサイコグラフィック情報に基づく特性グループそれぞれについても、これらを目的変数とした特性推定モデルを同様に生成する。
次に、推定ユーザ端末400について説明する。図18は、推定ユーザ端末400の構成を示す機能ブロック図である。図18に示すように、推定ユーザ端末400は、サーバ300に接続されている。また、推定ユーザ端末400は、入力部410と、出力部420と、通信部430と、入出力制御I/F部440と、記憶部450と、処理部460とを備える。なお、記憶部450および処理部460は、図18に示す機能ブロック以外にも、例えば、パーソナルコンピュータとしての機能を実行するための各種機能ブロックを備えている。
入力部410は、各種の情報を入力し、キーボードやマウスなどを備えて構成される。出力部420は、各種の情報を出力し、モニタやスピーカを備えて構成される。
通信部430は、ネットワークを通じて送受信されるデータの通信を行なう。例えば、通信部430は、履歴・行動対応テーブル記憶部354が記憶する履歴・行動対応テーブルをサーバ300から受信して、後述する履歴・行動対応テーブル記憶部452に転送したり、特性推定モデル生成部366によって生成された特性推定モデルをサーバ300から受信して、後述する特性推定モデル記憶部454に転送したりする。
ここで、通信部430は、後述する特性推定処理が実行される前に、あらかじめサーバ300から履歴・行動対応テーブルを受信しておく。また、通信部430は、サーバ300の特性推定モデル生成部366によって特性推定モデルが生成されるごとに、サーバ300から特性推定モデルを受信する。
入出力制御I/F部440は、入力部410、出力部420および通信部430と、記憶部450および処理部460との間におけるデータ転送を制御する。
記憶部450は、処理部460による各種処理に用いるデータや、処理部460による各種処理結果を記憶する。また、記憶部450は、図18に示すように、特に、アクセス履歴管理記憶部451と、履歴・行動対応テーブル記憶部452と、行動データ記憶部453と、特性推定モデル記憶部454と、推定ユーザ特性記憶部455とを備える。
アクセス履歴管理記憶部451は、後述するアクセス履歴収集部461が収集したアクセス履歴を記憶する。履歴・行動対応テーブル記憶部452は、通信部430が受信した履歴・行動対応テーブル、すなわち、サーバ300の履歴・行動対応テーブル記憶部354が記憶する履歴・行動対応テーブルと同一の情報を記憶する。行動データ記憶部453は、後述する行動データ生成部462によって生成された行動データを記憶する。
特性推定モデル記憶部454は、通信部430が受信した特性推定モデル、すなわち、サーバ300の特性推定モデル生成部366が生成して特性推定モデル記憶部357に格納した特性推定モデルを記憶する。推定ユーザ特性記憶部455は、後述する推定ユーザ特性推定部463によって推定された推定ユーザの特性を記憶する。
処理部460は、入出力制御I/F部440から転送されたデータに基づき各種処理を実行する。また、処理部460は、図14に示すように、特に、アクセス履歴収集部461と、行動データ生成部462と、推定ユーザ特性推定部463とを備える。
アクセス履歴収集部461は、サーバ300の管理者が設定した特性推定時機に基づいて、自身が備えられる推定ユーザ端末400を所有する推定ユーザのアクセス履歴を収集し、その結果をアクセス履歴管理記憶部451に格納する。
行動データ生成部462は、アクセス履歴管理記憶部451が記憶するアクセス履歴と、履歴・行動対応テーブル記憶部452が記憶する履歴・行動対応テーブルとに基づいて、自身が備えられる推定ユーザ端末400を所有する推定ユーザの行動データを生成し、その結果を行動データ記憶部453に格納する。
具体的には、行動データ生成部462は、サーバ300から特性推定モデルを受信した場合に、アクセス履歴管理記憶部451が記憶するアクセス履歴と、履歴・行動対応テーブル記憶部452が記憶する履歴・行動対応テーブルとに基づいて、自身が備えられる推定ユーザ端末400を所有する推定ユーザの行動データを生成する。そして、行動データ生成部462は、生成した推定ユーザごとの行動データを行動データ記憶部453に格納する。なお、行動データ生成部462は、管理者によってあらかじめ定められた量や集計期間のアクセス履歴を用いて、行動データを生成する。
図19は、行動データ生成部462による推定ユーザの行動データ生成を説明するための図である。例えば、図19に示すように、行動データ生成部462は、ユーザIDが「su0001」の推定ユーザ1のアクセス履歴の「URL」を、履歴・行動対応テーブル記憶部452が記憶する履歴・行動対応テーブル(図15参照)を用いて解析することで、行動グループ:「検索」に大別されるID:「A」の合計頻度を「1」とし、行動グループ:「閲覧」に大別されるID:「B」の合計頻度を「1」とし、行動グループ:「購買」に大別されるID:「C」の合計頻度を「0」と推定ユーザ1の行動データを生成する。なお、行動データ生成部462は、図19では図示していないが、推定ユーザのアクセス履歴の「URL」を解析して、上記したID:「D」〜「J」についてもそれぞれ合計頻度を算出し、ID:「D」〜「J」に関する推定ユーザごとの行動データもそれぞれ生成する。
また、ここでは、あらかじめ履歴・行動対応テーブルをサーバ300から受信して履歴・行動対応テーブル記憶部452に格納したうえで、行動データを生成する場合について説明したが、例えば、サーバ300に履歴・行動対応テーブルの情報を問い合わせながら、推定ユーザのアクセス履歴から行動データを生成してもよい。
図18の説明にもどって、推定ユーザ特性推定部463は、特性推定モデル記憶部454が記憶する特性推定モデルと、行動データ記憶部453が記憶する行動データとを用いて、自身が備えられる推定ユーザ端末400を所有する推定ユーザの特性を推定し、その結果を、推定ユーザ特性記憶部455に格納する。
具体的には、推定ユーザ特性推定部463は、推定ユーザの行動データにおける行動グループごとの合計頻度を、特性推定モデルとして生成された判別関数に代入して算出された値に基づいて、推定ユーザの特性を推定する。
図20は、推定ユーザ特性推定部463を説明するための図である。例えば、推定ユーザ特性推定部463は、図20に示すように、ユーザIDが「su0001」の推定ユーザ1の「革新性」に基づく嗜好特性を、「革新性」を目的変数とする特性推定モデルにより「イノベータ」として推定する。また、推定ユーザ特性推定部463は、デモグラフィック情報に基づく特性グループや、革新性以外のサイコグラフィック情報に基づく特性グループを目的変数とする特性推定モデルによっても、推定ユーザ1の特性を推定する。同様に、推定ユーザ特性推定部463は、ユーザIDが「su0002」の推定ユーザ2などの特性も推定する。なお、特定される教師ユーザの特性および推定される推定ユーザの特性は、これ以外にも様々な種類の嗜好特性について適用することが可能である。
なお、特性推定システムでは、推定ユーザ特性推定部463によって推定された特性に基づいて、自動的、あるいは手動的に様々な処理が行なわれる。例えば、推定ユーザ端末400、あるいは推定ユーザ端末400から推定された特性を取得したサーバ300によって自動的に、あるいは、推定ユーザ端末400から推定された特性を取得したサーバ300の管理者によって手動的に、インターネットなどの通信ネットワーク上で提供されるサービスから、推定ユーザにとって嗜好が合致するサービスが抽出され、抽出したサービスが推定ユーザに推薦される。または、商品開発の担当者によって、推定された特性に基づいたマーケティング調査が行なわれる。
次に、教師ユーザ端末200による処理の手順について説明する。図21は、教師ユーザ端末200による処理の手順を説明するためのフローチャートである。
図21に示すように、教師ユーザ端末200では、通信部230が、サーバ300からアンケート質問データを受信した場合に(ステップS201,Yes)、受信したアンケート質問データをアンケート記憶部251に格納する。その後、アンケート入力処理部261が、アンケート記憶部251が記憶するアンケート質問データを出力部220が備えるモニタにて表示するように制御する(ステップS202)。
そして、アンケート入力処理部261は、教師ユーザから入力部210を介してアンケート質問データの入力完了通知を受け付けることにより、アンケート質問データの入力が完了したと判断すると(ステップS203,Yes)、入力済みのアンケート質問データを、サーバ300に送信し(ステップS204)、処理を終了する。
次に、サーバ300による教師ユーザの特性特定処理の手順について説明する。図22は、サーバ300による教師ユーザの特性特定処理の手順を説明するためのフローチャートである。
図22に示すように、サーバ300では、アンケート送受信制御部361が、管理者からアンケート質問データの送信指示を受け付けた場合に(ステップS301,Yes)、アンケート管理記憶部351が記憶するアンケート質問データを、教師ユーザ端末200に通信部330を介して送信するように制御する(ステップS302)。
そして、アンケート送受信制御部361は、教師ユーザ端末200から入力済みアンケート質問データを受信すると(ステップS303,Yes)、受信した入力済みアンケート質問データをアンケート管理記憶部351に格納する。その後、教師ユーザ特性特定部362が、アンケート管理記憶部351に格納された入力済みのアンケート質問データに基づいて、教師ユーザごとの特性を特定し(ステップS304)、処理を終了する。
次に、サーバ300による特性推定モデル生成処理の手順について説明する。図23は、サーバ300による特性推定モデル生成処理の手順を説明するためのフローチャートである。
図23に示すように、サーバ300では、管理者によって設定された特性推定時機となると(ステップS401,Yes)、アクセス履歴収集部363が、教師ユーザのアクセス履歴を収集する。そして、行動データ生成部364が、アクセス履歴から、履歴・行動対応テーブル記憶部354が記憶する履歴・行動対応テーブルを用いて、教師ユーザの行動データを生成する(ステップS402)。
その後、教師データ集計部365aが、教師ユーザの行動データのデータ数を特性グループごとに集計する(ステップS403)。
続いて、教師データ偏り判定部365bが、教師データ集計部365aによって集計された特性グループごとのデータ数に偏りがあるか否かを判定する。そして、特性グループごとのデータ数に偏りがなかった場合には(ステップS404,No)、特性推定モデル生成部366が、教師ユーザ特性特定部362によって特定された教師ユーザの特性と、行動データ記憶部355に記憶されていた行動データと同じ内容の調整済み行動データに基づいて特性推定モデルを生成する(ステップS409)。
一方、特性グループごとのデータ数に偏りがあると判定された場合には(ステップS404,Yes)、教師データ調整部365cが、教師ユーザの行動データのデータ数を特性グループごとに調整する。具体的には、教師データ調整部365cは、データ数が所定の基準値に満たない特性グループがある場合には(ステップS405,Yes)、データ数が基準値と一致するまで、その特性グループに属する任意の行動データを複製する(ステップS406)。なお、データ数が所定の基準値に満たない特性グループがない場合には(ステップS405,No)、教師データ調整部365cは、行動データの複製を行わない。
また、データ数が所定の基準値を超える特性グループがある場合には(ステップS407,Yes)、教師データ調整部365cは、データ数が基準値と一致するまで、その特性グループに属する任意の行動データを削除する(ステップS408)。なお、データ数が所定の基準値を超える特性グループがない場合には(ステップS407,No)、教師データ調整部365cは、行動データの削除を行わない。
こうして行動データのデータ数が調整されたのちに、特性推定モデル生成部366が、教師ユーザ特性特定部362によって特定された教師ユーザの特性と、教師データ調整部365cによってデータ数が調整された調整済み行動データとから特性推定モデルを生成する(ステップS409)。ここで、特性推定モデル生成部366は、生成した特性推定モデルを特性推定モデル記憶部357に格納する。
その後、通信部330は、特性推定モデル記憶部357に格納された特性推定モデルを推定ユーザ端末400に送信し(ステップS410)、処理を終了する。
なお、特性推定モデルを生成する時機である特定推定時機には、サーバ300の管理者によって所定の条件に基づく時機が設定される。そして、特性推定時機になると、サーバ300では、「アクセス履歴収集部363による教師ユーザのアクセス履歴の収集」と、「行動データ生成部364による教師ユーザの行動データの生成および特性推定モデル生成部366による特性推定モデルの生成」とからなる一連の特性推定モデル生成処理が実行される。
ここで、特性推定モデル生成処理は、サーバ300の管理者によって設定された1つの特性推定時機において実行される場合であってもよいが、複数の特性推定時機において実行されてもよい。すなわち、動的なユーザの特性変化に対応するため、複数の特性推定時機が設定され、複数の特性推定時機ごとに特性推定モデル生成処理が繰り返して行われることによって、特性推定モデルが随時更新されるようにしてもよい。
この場合、例えば、サーバ300の管理者によって指定された複数の時刻が「複数の特性推定時機」として設定されてもよいし、サーバ300の管理者によって指定された所定の時間間隔ごと(例えば、1ヶ月ごと)の時刻が「複数の特性推定時機」として設定されてもよい。あるいは、アクセス履歴収集部363が、推定ユーザ端末400のアクセス履歴を監視しておき、アクセス履歴における蓄積量の増加量が、所定の値となった時機ごとを、「複数の特性推定時機」として設定してもよい。
次に、推定ユーザ端末400による処理の手順について説明する。図24は、推定ユーザ端末400による処理を説明するためのフローチャートである。
図24に示すように、推定ユーザ端末400は、サーバ300から特性推定モデルを受信すると(ステップS501,Yes)、アクセス履歴収集部461は、自身が備えられる推定ユーザ端末400を所有する推定ユーザのアクセス履歴を収集して、行動データ生成部462は、推定ユーザのアクセス履歴から、履歴・行動対応テーブル記憶部452が記憶する履歴・行動対応テーブルを用いて、行動データを生成する(ステップS502)。
そして、推定ユーザ特性推定部463は、行動データ生成部462によって生成された行動データと、特性推定モデル記憶部454が記憶する特性推定モデルとから、推定ユーザの特性を推定し(ステップS503)、処理を終了する。
なお、ここでは、特性推定モデルを受信した時点でアクセス履歴を収集して、推定ユーザの特性を推定する場合について説明したが、例えば、アクセス履歴をあらかじめ収集しておき、特性推定時機において推定ユーザの特性を推定する場合であってもよい。また、自身を所有するユーザが新規の推定ユーザとして設定された時点で、推定ユーザ端末400が、既に生成された特性推定モデルを取得して、自身を所有するユーザの特性を推定してもよい。
上述してきたように、本実施例2では、教師データ集計部365aが、教師ユーザの行動データのデータ数を特性グループごとに集計する。また、教師データ調整部365cが、教師データ集計部365aによって集計されたデータ数と所定の基準値との差に基づいて、教師ユーザの行動データのデータ数を特性グループごとに調整する。そして、特性推定モデル生成部366が、教師データ調整部365cによってデータ数が調整された行動データに基づいて特性推定モデルを生成する。
すなわち、本実施例2では、推定ユーザの特性を推定するために用いられる特性推定モデルが生成される前に、教師ユーザの行動データにおけるクラスごとのデータ数の偏りが平準化される。したがって、本実施例2によれば、教師ユーザにおいて特性グループごとのデータ数に偏りがあった場合でも、推定ユーザの特性を正しく推定することが可能である。
なお、上記実施例で説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、上記実施例で図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)および当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
なお、上記実施例で説明した各種処理は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。
以上のように、本発明にかかるサンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置およびクラス判別システムは、機械学習の一手法である教師つき学習を実施する場合に有用であり、特に、教師つき学習において用いられる教師データに含まれるクラスごとのデータ数の偏りがある場合に適している。
100 クラス判別装置
110,210,310,410 入力部
120,220,320,420 出力部
130,250,350,450 記憶部
131 教師データ記憶部
132 調整済み教師データ記憶部
133 判別モデル記憶部
134 判別データ記憶部
140 制御部
141 教師データ入力受付部
142,365a 教師データ集計部
143,365b 教師データ偏り判定部
144,365c 教師データ調整部
145 判別モデル生成部
146 判別データ入力受付部
147 クラス判別部
200 教師ユーザ端末
230,330,430 通信部
240,340,440 入出力制御I/F部
251 アンケート記憶部
260,360,460 処理部
261 アンケート入力処理部
300 サーバ
351 アンケート管理記憶部
352 教師ユーザ特性記憶部
353 アクセス履歴管理記憶部
354 履歴・行動対応テーブル記憶部
355 行動データ記憶部
356 調整済み行動データ記憶部
357 特性推定モデル記憶部
361 アンケート送受信制御部
362 教師ユーザ特性特定部
363 アクセス履歴収集部
364 行動データ生成部
365 行動データ調整部
366 特性推定モデル生成部
400 推定ユーザ端末
451 アクセス履歴管理記憶部
452 履歴・行動対応テーブル記憶部
453 行動データ記憶部
454 特性推定モデル記憶部
455 推定ユーザ特性記憶部
461 アクセス履歴収集部
462 行動データ生成部
463 推定ユーザ特性推定部

Claims (10)

  1. 多クラスの教師つき学習において用いられる教師データに含まれるクラスごとのデータ数の偏りを補正するサンプリング装置であって、
    前記教師データのデータ数をクラスごとに集計するデータ集計手段と、
    前記データ集計手段によって集計されたデータ数と所定の基準値との差に基づいて、教師データのデータ数をクラスごとに調整するデータ調整手段と
    を備えたことを特徴とするサンプリング装置。
  2. 前記データ集計手段によって集計されたクラスごとのデータ数に偏りがあるか否かを判定するデータ偏り判定手段をさらに備え、
    前記データ調整手段は、前記データ偏り判定手段によってクラスごとのデータ数に偏りがあると判定された場合には、前記教師データのデータ数を調整することを特徴とする請求項1に記載のサンプリング装置。
  3. 前記データ調整手段は、前記データ集計手段によって集計されたデータ数が前記所定の基準値に満たないクラスがあった場合には、当該クラスに属する教師データのデータ数を前記所定の基準値と一致するまで増加させることを特徴とする請求項1または2に記載のサンプリング装置。
  4. 前記データ調整手段は、前記データ集計手段によって集計されたデータ数が前記所定の基準値を超えるクラスがあった場合に、当該クラスに属する教師データのデータ数を前記所定の基準値と一致するまで減少させることを特徴とする請求項1、2または3に記載のサンプリング装置。
  5. 前記データ調整手段は、利用者によって任意に決められた値を前記所定の基準値として用いることを特徴とする請求項1〜4のいずれか一つに記載のサンプリング装置。
  6. 前記データ調整手段は、前記データ集計手段によって集計されたクラスごとのデータ数に関する統計値を前記所定の基準値として用いることを特徴とする請求項1〜5のいずれか一つに記載のサンプリング装置。
  7. 多クラスの教師つき学習において用いられる教師データに含まれるクラスごとのデータ数の偏りを補正するサンプリング方法であって、
    前記教師データが格納されている記憶部から教師データを読み出してクラスごとにデータ数を集計するデータ集計ステップと、
    前記データ集計ステップによって集計されたデータ数と所定の基準値との差に基づいて、教師データのデータ数をクラスごとに調整するデータ調整ステップと
    を含んだことを特徴とするサンプリング方法。
  8. 多クラスの教師つき学習において用いられる教師データに含まれるクラスごとのデータ数の偏りを補正するサンプリングプログラムであって、
    前記教師データが格納されている記憶部から教師データを読み出してクラスごとにデータ数を集計するデータ集計手順と、
    前記データ集計手順によって集計されたデータ数と所定の基準値との差に基づいて、教師データのデータ数をクラスごとに調整するデータ調整手順と
    をコンピュータに実行させることを特徴とするサンプリングプログラム。
  9. 多クラスの教師つき学習における判別モデルを生成し、生成した判別モデルを用いて、判別対象のデータが属するクラスを判別するクラス判別装置であって、
    前記教師つき学習において用いられる教師データのデータ数をクラスごとに集計するデータ集計手段と、
    前記データ集計手段によって集計されたデータ数と所定の基準値との差に基づいて、教師データのデータ数をクラスごとに調整するデータ調整手段と、
    前記データ調整手段によってデータ数が調整された教師データに基づいて前記判別モデルを生成する判別モデル生成手段と
    を備えたことを特徴とするクラス判別装置。
  10. 通信ネットワークを介して互いに接続されたサーバ装置と端末装置とを有するクラス判別システムであって、
    前記サーバ装置が、
    多クラスの教師つき学習において用いられる教師データのデータ数をクラスごとに集計するデータ集計手段と、
    前記データ集計手段によって集計されたデータ数と所定の基準値との差に基づいて、教師データのデータ数をクラスごとに調整するデータ調整手段と、
    前記データ調整手段によってデータ数が調整された教師データに基づいて前記判別モデルを生成する判別モデル生成手段とを備え、
    前記端末装置が、
    前記判別モデル生成手段によって生成された判別モデルを前記サーバ装置から取得する取得手段と、
    前記取得手段によって取得された判別モデルを用いて、判別対象のデータが属するクラスを判別するクラス判別手段と
    を備えたことを特徴とするクラス判別システム。
JP2009049909A 2009-03-03 2009-03-03 サンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置およびクラス判別システム。 Pending JP2010204966A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009049909A JP2010204966A (ja) 2009-03-03 2009-03-03 サンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置およびクラス判別システム。

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009049909A JP2010204966A (ja) 2009-03-03 2009-03-03 サンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置およびクラス判別システム。

Publications (1)

Publication Number Publication Date
JP2010204966A true JP2010204966A (ja) 2010-09-16

Family

ID=42966382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009049909A Pending JP2010204966A (ja) 2009-03-03 2009-03-03 サンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置およびクラス判別システム。

Country Status (1)

Country Link
JP (1) JP2010204966A (ja)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013161298A (ja) * 2012-02-06 2013-08-19 Nippon Steel & Sumitomo Metal 分類器作成装置、分類器作成方法、及びコンピュータプログラム
WO2015045282A1 (ja) * 2013-09-27 2015-04-02 日本電気株式会社 情報処理システム、情報処理方法およびプログラムを記憶する記録媒体
WO2015190474A1 (ja) * 2014-06-12 2015-12-17 Emotion Intelligence株式会社 特典管理システム及び特典管理方法
JP2018106216A (ja) * 2016-12-22 2018-07-05 日本電信電話株式会社 学習データ生成装置、開発データ生成装置、モデル学習装置、それらの方法、及びプログラム
JP6374573B1 (ja) * 2017-06-08 2018-08-15 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP2019102011A (ja) * 2017-12-08 2019-06-24 日本電信電話株式会社 学習装置、学習方法及び学習プログラム
JP2019179404A (ja) * 2018-03-30 2019-10-17 富士通株式会社 学習プログラム、学習方法および学習装置
JP2020035409A (ja) * 2018-08-27 2020-03-05 楽天株式会社 特性推定装置、特性推定方法、及び特性推定プログラム等
CN111881289A (zh) * 2020-06-10 2020-11-03 北京启明星辰信息安全技术有限公司 分类模型的训练方法、数据风险类别的检测方法及装置
CN112334990A (zh) * 2019-06-04 2021-02-05 艾多特公司 自动宫颈癌诊断系统
CN112639843A (zh) * 2018-09-10 2021-04-09 谷歌有限责任公司 使用机器学习模型来抑制偏差数据
JP2021533499A (ja) * 2018-09-03 2021-12-02 平安科技(深▲せん▼)有限公司Ping An Technology (Shenzhen) Co., Ltd. 不均衡標本データの前処理方法、装置及びコンピュータ機器
JPWO2021260945A1 (ja) * 2020-06-26 2021-12-30
JP2022044249A (ja) * 2020-09-07 2022-03-17 Kddi株式会社 特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラム
JP2022535431A (ja) * 2019-06-04 2022-08-08 アイドット インコーポレイテッド 子宮頸がん自動診断システム
JP2022169657A (ja) * 2018-09-10 2022-11-09 グーグル エルエルシー 機械学習モデルを使用した、偏りのあるデータの拒否
WO2024014035A1 (ja) * 2022-07-12 2024-01-18 株式会社日立製作所 データ予測支援方法およびデータ予測システム
JP7512465B2 (ja) 2019-08-08 2024-07-08 グーグル エルエルシー コンテンツの擬似パーソナライゼーションのための低エントロピーのブラウジング履歴
JP7521043B2 (ja) 2019-08-08 2024-07-23 グーグル エルエルシー コンテンツの擬似パーソナライゼーションのための低エントロピーのブラウジング履歴

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013161298A (ja) * 2012-02-06 2013-08-19 Nippon Steel & Sumitomo Metal 分類器作成装置、分類器作成方法、及びコンピュータプログラム
WO2015045282A1 (ja) * 2013-09-27 2015-04-02 日本電気株式会社 情報処理システム、情報処理方法およびプログラムを記憶する記録媒体
JPWO2015045282A1 (ja) * 2013-09-27 2017-03-09 日本電気株式会社 情報処理システム、情報処理方法およびプログラムを記憶する記録媒体
WO2015190474A1 (ja) * 2014-06-12 2015-12-17 Emotion Intelligence株式会社 特典管理システム及び特典管理方法
JP2016001422A (ja) * 2014-06-12 2016-01-07 Emotion Intelligence株式会社 特典管理システム及び特典管理方法
JP2018106216A (ja) * 2016-12-22 2018-07-05 日本電信電話株式会社 学習データ生成装置、開発データ生成装置、モデル学習装置、それらの方法、及びプログラム
JP6374573B1 (ja) * 2017-06-08 2018-08-15 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP2018206232A (ja) * 2017-06-08 2018-12-27 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP2019102011A (ja) * 2017-12-08 2019-06-24 日本電信電話株式会社 学習装置、学習方法及び学習プログラム
JP2019179404A (ja) * 2018-03-30 2019-10-17 富士通株式会社 学習プログラム、学習方法および学習装置
JP7102866B2 (ja) 2018-03-30 2022-07-20 富士通株式会社 学習プログラム、学習方法および学習装置
JP2020035409A (ja) * 2018-08-27 2020-03-05 楽天株式会社 特性推定装置、特性推定方法、及び特性推定プログラム等
US11941087B2 (en) 2018-09-03 2024-03-26 Ping An Technology (Shenzhen) Co., Ltd. Unbalanced sample data preprocessing method and device, and computer device
JP7058797B2 (ja) 2018-09-03 2022-04-22 平安科技(深▲せん▼)有限公司 不均衡標本データの前処理方法、装置及びコンピュータ機器
JP2021533499A (ja) * 2018-09-03 2021-12-02 平安科技(深▲せん▼)有限公司Ping An Technology (Shenzhen) Co., Ltd. 不均衡標本データの前処理方法、装置及びコンピュータ機器
JP2022500747A (ja) * 2018-09-10 2022-01-04 グーグル エルエルシーGoogle LLC 機械学習モデルを使用した、偏りのあるデータの拒否
JP7405919B2 (ja) 2018-09-10 2023-12-26 グーグル エルエルシー 機械学習モデルを使用した、偏りのあるデータの拒否
CN112639843A (zh) * 2018-09-10 2021-04-09 谷歌有限责任公司 使用机器学习模型来抑制偏差数据
JP2022169657A (ja) * 2018-09-10 2022-11-09 グーグル エルエルシー 機械学習モデルを使用した、偏りのあるデータの拒否
JP7241862B2 (ja) 2018-09-10 2023-03-17 グーグル エルエルシー 機械学習モデルを使用した、偏りのあるデータの拒否
US12087445B2 (en) 2019-06-04 2024-09-10 Aidot Inc. Automatic cervical cancer diagnosis system
CN112334990A (zh) * 2019-06-04 2021-02-05 艾多特公司 自动宫颈癌诊断系统
JP2022535431A (ja) * 2019-06-04 2022-08-08 アイドット インコーポレイテッド 子宮頸がん自動診断システム
JP7346600B2 (ja) 2019-06-04 2023-09-19 アイドット インコーポレイテッド 子宮頸がん自動診断システム
JP7521043B2 (ja) 2019-08-08 2024-07-23 グーグル エルエルシー コンテンツの擬似パーソナライゼーションのための低エントロピーのブラウジング履歴
JP7512465B2 (ja) 2019-08-08 2024-07-08 グーグル エルエルシー コンテンツの擬似パーソナライゼーションのための低エントロピーのブラウジング履歴
CN111881289B (zh) * 2020-06-10 2023-09-08 北京启明星辰信息安全技术有限公司 分类模型的训练方法、数据风险类别的检测方法及装置
CN111881289A (zh) * 2020-06-10 2020-11-03 北京启明星辰信息安全技术有限公司 分类模型的训练方法、数据风险类别的检测方法及装置
JP7367872B2 (ja) 2020-06-26 2023-10-24 富士通株式会社 訓練データ生成プログラム、装置、及び方法
JPWO2021260945A1 (ja) * 2020-06-26 2021-12-30
JP7286259B2 (ja) 2020-09-07 2023-06-05 Kddi株式会社 特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラム
JP2022044249A (ja) * 2020-09-07 2022-03-17 Kddi株式会社 特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラム
WO2024014035A1 (ja) * 2022-07-12 2024-01-18 株式会社日立製作所 データ予測支援方法およびデータ予測システム

Similar Documents

Publication Publication Date Title
JP2010204966A (ja) サンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置およびクラス判別システム。
CN107862022B (zh) 文化资源推荐系统
CN107305611B (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
JP2015512081A (ja) オンラインオーディエンスを測定するシステム、方法及び製造品
JP6154963B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN102053971A (zh) 用于面向排序的协同过滤的推荐方法和设备
US9900654B2 (en) Methods and apparatus to measure a cross device audience
CN104778237A (zh) 一种基于关键用户的个性化推荐方法和系统
CN109903191B (zh) 基于机器学习的旅行推荐方法、装置、存储介质及终端
JP2011227721A (ja) 関心抽出装置、関心抽出方法、及び関心抽出プログラム
CN118313906B (zh) 一种个性化产品推荐方法
CN114756764A (zh) 基于企业的内容信息流推荐方法、装置、电子设备及存储介质
JP2006053616A (ja) サーバ装置、webサイト推奨方法およびプログラム
JP2009289068A (ja) 特性推定装置、特性推定システム、特性推定方法および特性推定プログラム
CN115455280A (zh) 一种推荐列表确定方法和服务器
US20090271389A1 (en) Preference judgements for relevance
CN117911085A (zh) 一种基于企业营销的用户管理系统、方法及终端
JP2019020930A (ja) 学習装置、学習方法、学習プログラム、学習用データ及びモデル
CN111177564A (zh) 一种产品推荐方法及装置
JP2011227720A (ja) 推薦システム、推薦方法、及び推薦プログラム
JP6018541B2 (ja) 推薦ルール生成装置、推薦ルール生成方法および推薦ルール生成プログラム
JP7312134B2 (ja) 学習装置、学習方法及び学習プログラム
JP4962950B2 (ja) ネットワーク上のユーザに対するレコメンデーションの方法、レコメンデーションサーバ及びプログラム
JP6696018B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP6467694B1 (ja) 検索語の評価装置、評価システム、評価方法、及び評価モジュール生産方法