JP5164209B2 - 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体 - Google Patents
分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP5164209B2 JP5164209B2 JP2008161237A JP2008161237A JP5164209B2 JP 5164209 B2 JP5164209 B2 JP 5164209B2 JP 2008161237 A JP2008161237 A JP 2008161237A JP 2008161237 A JP2008161237 A JP 2008161237A JP 5164209 B2 JP5164209 B2 JP 5164209B2
- Authority
- JP
- Japan
- Prior art keywords
- classification
- model
- data
- target
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
岩田具治、山田武士、上田修功、"購買順序を考慮した協調フィルタリング"、人工知能と知識処理研究会、AI2007-3,13-18,2007
補助データであるDa={xn,yn}N n=Nz+1とが与えられたとき、クラスが未知のサンプルx(分類対象データ。後記するテストデータ47)のクラスy∈Zを予測する分類モデルを学習する。
負の対数尤度J(x,z;M)=−logP(z|x;M)や、
0−1損失関数J(x,z;M)=0(if f(x)=y),
J(x,z;M)=1(otherwise)、などが考えられる。なお、本明細書では、対数は自然対数、すなわち、対数logの底は「e」であるものとする。
P={{Pz(y)}y∈Y}z∈Z(0≦Pz(y)≦1,Σy∈YPz(y)=1)を満たすものとする。
図2を参照しながら、重み推定部21の構成について説明する。図2は、本実施形態に係る重み推定部のブロック図を含む図である。図2に示すように、重み推定部21は、入力データ読込部211と、事後確率推定部212と、混合比推定部213と、重み書込部214とを備えている。
重みをw(z|y)=P(z)Pz(y)/N(y)と設定(算出)し、重み45に格納する。なお、格納された重み45は、モデル構築部22で利用される。
図3を参照しながら、モデル構築部22の構成について説明する。図3は、本実施形態に係るモデル構築部のブロック図を含む図である。図3に示すように、モデル構築部22は、入力データ読込部221と、重み読込部222と、モデルパラメータ推定部223と、モデルパラメータ書込部224とを備えている。
なお、式(10)の左辺においてMに付した記号「^(ハット)」は、そのMがargmin関数の引数を最小化させることを示すものである。
w(z|y)=P(z)Pz(y)/N(y)の式を用いて重みを計算する。そして、重み推定部21は、重み書込部214によって、その重みを、重み45として、記憶手段4(図1参照)に書き込み、処理を終了する。
本実施形態の分類装置1を評価するため、人工データを用いた2クラス分類実験を行った。この2クラス分類実験とは、ターゲットデータと補助データから生成した分類モデルに基づき、テストデータを2つのクラスのいずれかに分類する実験である。
μ1=(−1,0,0,・・・,0),μ2=(1,0,0,・・・,0)であり、共分散行列はともに単位行列であるものとする。そして、補助データとして,以下の3パターンを考える。なお、第3次元以降の平均はターゲットデータと同じく全て0、共分散行列は全て単位行列とする。図7(a)にターゲットデータ,図7(b)〜(d)に各補助データの生成モデルの第1,第2次元を示す。図7(a)〜(d)は、特に軸や目盛りを図示していないが、2次元の座標平面を表しており、中央部分が原点である。また、各円は標準偏差のラインを表す。
μ3=(−1,0,0,・・・,0),μ4=(1,0,0,・・・,0)である。
μ3=(−√0.5,√0.5,0,・・・,0),
μ4=(√0.5,−√0.5,0,・・・,0)である。
μ3=(−1,0,0,・・・,0),μ4=(1,0,0,・・・,0),
μ5=(0,1,0,・・・,0),μ6=(0,−1,0,・・・,0)である。なお、補助データのうち、この混合補助データのみ4補助クラスであり、それ以外は2補助クラスである。
本実施形態の分類装置1を評価するため、テキストデータを用いて分類実験を行った。
モデル分布P〜(x|y)として、正規分布、多項分布など任意の分布を仮定することができる。ここでは、入力データ44およびテストデータ47としてテキストデータを想定し、xを単語出現頻度ベクトルと考え、モデル分布として多項分布P〜(xn|y)(式(11))を用いる。
ここで、Vは総語彙数、θyjはクラスyのときj番目の単語が出現する確率、xnjはn番目のサンプルにおけるj番目の単語の出現頻度を表す。
Q(P,α|P(τ),α(τ))を最大化するように、混合比の集合Pとハイパーパラメータαを同時にデータから推定することも可能である(式(14))。
Q(P,α|P(τ),α(τ))はαに関して上に凸である。この実験では、一般化EMアルゴリズムを用いて混合比の集合Pおよびハイパーパラメータαをデータから推定した。
代表的なテキスト分類モデルであるナイーブベイズモデルとロジスティック回帰モデルをモデルMとして用いた場合について説明する。
ナイーブベイズモデルではクラスが与えられたとき、文書中の各単語は独立に生成されると仮定され、クラスzにおける単語出現頻度ベクトルxの分布P(x|z)が多項分布で表される(式(18))。
分類モデルとしてナイーブベイズモデルを用いた本手法(本実施形態の分類装置1による手法)(CA−NB)と、分類モデルとしてロジスティック回帰モデルを用いた本手法(CA−LR)と、補助データを用いないナイーブベイズモデルによる手法(NB)、ロジスティック回帰モデルによる手法(LR)の4手法を比較した。NBの推定値は、推定値である式(20)の重みを
w(z|z)=1,w(z|y≠z)=0としたものである。同様に、LRの推定値は、本手法における重み付き誤差である式(22)の重みを
w(z|z)=1,w(z|y≠z)=0として最小化することにより得られる。
20Newsgroups(20news)から作成したデータセットを用い、各補助クラスの分布が、あるターゲットクラスと同じ分布である場合の、本手法の効果を評価する。20newsは、20のディスカッショングループに投稿された約2万の英語文書から成る。各文書の特徴量として単語出現頻度を用いた。このとき、停止語(文書に含まれる意味的な内容を持たない前置詞や冠詞などの一般的に機能語と呼ばれ検索に役立たない単語)および出現頻度が1以下の単語は省き、総語彙数は52,647であった。
ターゲットクラス集合をZ={c1,・・・,c5}、
補助クラス集合をA={c6,・・・,c10}とする。
20newsの20グループのうち、comp.graphics,rec.sport.baseba11,sci.electronics,talk.religion.miscの4グループをターゲットクラスとし、他の16グループを補助クラスとしてデータを作成し、本手法を評価した。テストデータ47として各クラス100サンプル、ターゲットデータ(入力データ44)として各クラス2,4,8,16,32,64,128,256サンプル、補助データ(入力データ44)として全サンプル用いた、総補助サンプル数は15,211であった。このときの正答率を表3に示す。表3において、右4列の数字は平均正答率の百分率を示し、それぞれの括弧内の数字は標準偏差を示している。本手法であるCA−NBの正答率が最も高くなっている。
日本語のディレクトリ型検索エンジンgoo(登録商標)カテゴリ検索(2003年9月取得)とyahoo(登録商標)カテゴリ(2003年3月取得)のデータを用いて本手法を評価した。形態素解析により単語を抽出し、両カテゴリで出現数が10以上の単語を特徴量として用いた。このとき、総語彙数は43,200であった。goo(登録商標)とyahoo(登録商標)でクラスラベルが同一のクラスや、関連していると思われるクラスもあるが、明確な対応付けが難しいクラスもあり、また、クラス数も異なる(goo(登録商標):13クラス、yahoo(登録商標):14クラス)。
2 演算手段
3 入力手段
4 記憶手段
5 出力手段
11 バスライン
21 重み推定部
22 モデル構築部
23 分類部
24 メモリ
40a プログラム格納部
41 重み推定プログラム
42 モデル構築プログラム
43 分類プログラム
40b データ格納部
44 入力データ
45 重み
46 モデルパラメータ
47 テストデータ
211 入力データ読込部
212 事後確率推定部
213 混合比推定部
214 重み書込部
221 入力データ読込部
222 重み読込部
223 モデルパラメータ推定部
224 モデルパラメータ書込部
231 テストデータ読込部
232 モデルパラメータ読込部
233 分類結果出力部
Claims (11)
- 分類対象データを分類する分類体系であるターゲット分類体系においてすでに分類されている1つ以上の既分類データと、前記ターゲット分類体系とは異なる分類体系である補助分類体系においてすでに分類されている1つ以上の既分類データと、を用いて学習を行うことで、前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類するための分類モデルを生成する分類モデル生成装置であって、
情報を記憶する記憶手段と、
前記した2種類の既分類データにおける個別の各既分類データを前記ターゲット分類体系のいずれかのクラスに分類したと予測したときの前記分類モデルの誤差関数と、当該予測をしたときの前記した2種類の既分類データにおける個別の各既分類データの前記分類モデルへの影響度を示す各重みと、を用いて、前記した2種類の既分類データにおける個別の既分類データごとの前記誤差関数の値と前記重みとの積の総和である期待誤差を最小化させるように、前記重みを推定して、当該重みを前記記憶手段に格納する重み推定部と、
前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルを生成するモデル構築部と、
を備えることを特徴とする分類モデル生成装置。 - 前記重み推定部は、
前記ターゲット分類体系と前記補助分類体系とを統合した場合の確率分布モデルを、前記ターゲット分類体系の確率分布モデルに近似させるための、前記ターゲット分類体系と前記補助分類体系とのクラスごとの前記分類モデルへの影響度の比率を示す混合比を用いて、前記した2種類の既分類データに関する事後確率を推定して、当該事後確率を前記記憶手段に格納する事後確率推定部と、
前記記憶手段に格納された事後確率を用いて、前記ターゲット分類体系の既分類データに対する尤度を最大化するように、前記混合比を推定し、前記尤度が最大化されたときの前記混合比から前記重みを推定して、当該重みを前記記憶手段に格納する混合比推定部と、
を備えることを特徴とする請求項1に記載の分類モデル生成装置。 - 前記モデル構築部は、
前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルにおいて前記分類対象データを前記ターゲット分類体系に分類するためのモデルパラメータを推定して、当該モデルパラメータを前記記憶手段に格納するモデルパラメータ推定部
を備えることを特徴とする請求項1に記載の分類モデル生成装置。 - 請求項3に記載の分類モデル生成装置の前記記憶手段に格納されたモデルパラメータを用いて、前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類する分類部
を備えることを特徴とする分類装置。 - 分類対象データを分類する分類体系であるターゲット分類体系においてすでに分類されている1つ以上の既分類データと、前記ターゲット分類体系とは異なる分類体系である補助分類体系においてすでに分類されている1つ以上の既分類データと、を用いて学習を行うことで、前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類するための分類モデルを生成する分類モデル生成装置による分類モデル生成方法であって、
前記分類モデル生成装置は、情報を記憶する記憶手段と、重み推定部と、モデル構築部と、を備えており、
前記重み推定部は、前記した2種類の既分類データにおける個別の各既分類データを前記ターゲット分類体系のいずれかのクラスに分類したと予測したときの前記分類モデルの誤差関数と、当該予測をしたときの前記した2種類の既分類データにおける個別の各既分類データの前記分類モデルへの影響度を示す各重みと、を用いて、前記した2種類の既分類データにおける個別の既分類データごとの前記誤差関数の値と前記重みとの積の総和である期待誤差を最小化させるように、前記重みを推定して、当該重みを前記記憶手段に格納する重み推定ステップを実行し、
前記モデル構築部は、前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルを生成するモデル構築ステップを実行する
ことを特徴とする分類モデル生成方法。 - 前記重み推定部は、事後確率推定部と、混合比推定部と、を備えており、
前記重み推定ステップにおいて、
前記事後確率推定部は、前記ターゲット分類体系と前記補助分類体系とを統合した場合の確率分布モデルを、前記ターゲット分類体系の確率分布モデルに近似させるための、前記ターゲット分類体系と前記補助分類体系とのクラスごとの前記分類モデルへの影響度の比率を示す混合比を用いて、前記した2種類の既分類データに関する事後確率を推定して、当該事後確率を前記記憶手段に格納し、
前記混合比推定部は、前記記憶手段に格納された事後確率を用いて、前記ターゲット分類体系の既分類データに対する尤度を最大化するように、前記混合比を推定し、前記尤度が最大化されたときの前記混合比から前記重みを推定して、当該重みを前記記憶手段に格納する
ことを特徴とする請求項5に記載の分類モデル生成方法。 - 前記モデル構築部は、モデルパラメータ推定部を備えており、
前記モデル構築ステップにおいて、
前記モデルパラメータ推定部は、前記記憶手段に格納された重みと、前記した2種類の既分類データと、を用いて、前記分類モデルにおいて前記分類対象データを前記ターゲット分類体系に分類するためのモデルパラメータを推定して、当該モデルパラメータを前記記憶手段に格納する
ことを特徴とする請求項5に記載の分類モデル生成方法。 - 請求項7に記載の分類モデル生成方法によって前記記憶手段に格納されたモデルパラメータを用いて、
前記分類対象データを分類する分類装置における分類部は、
前記分類対象データを前記ターゲット分類体系における複数のクラスのいずれかに分類するステップを実行する
ことを特徴とする分類方法。 - コンピュータを請求項1から請求項3のいずれか一項に記載の分類モデル生成装置の各部として機能させるための分類モデル生成プログラム。
- コンピュータを請求項4に記載の分類装置の分類部として機能させるための分類プログラム。
- 請求項9に記載の分類モデル生成プログラム、または、請求項10に記載の分類プログラムが記録されたことを特徴とするコンピュータに読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008161237A JP5164209B2 (ja) | 2008-06-20 | 2008-06-20 | 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008161237A JP5164209B2 (ja) | 2008-06-20 | 2008-06-20 | 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010003106A JP2010003106A (ja) | 2010-01-07 |
JP5164209B2 true JP5164209B2 (ja) | 2013-03-21 |
Family
ID=41584774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008161237A Expired - Fee Related JP5164209B2 (ja) | 2008-06-20 | 2008-06-20 | 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5164209B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320677A (zh) * | 2014-07-10 | 2016-02-10 | 香港中文大学深圳研究院 | 一种训练流式不平衡数据的方法及设备 |
RU2752673C1 (ru) * | 2021-01-12 | 2021-07-29 | Акционерное общество "Федеральный научно-производственный центр" Титан-Баррикады" | Линейный исполнительный механизм |
RU2752672C1 (ru) * | 2021-01-12 | 2021-07-29 | Акционерное общество "Федеральный научно-производственный центр" Титан-Баррикады" | Линейный исполнительный механизм гидросооружений |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5235940B2 (ja) * | 2010-05-20 | 2013-07-10 | 日本電信電話株式会社 | 番組推薦装置及び方法及びプログラム |
JP5552023B2 (ja) | 2010-10-27 | 2014-07-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | クラスタリング・システム、方法及びプログラム |
CN102945280A (zh) * | 2012-11-15 | 2013-02-27 | 翟云 | 一种基于非平衡数据分布的多异质基分类器融合分类方法 |
US20170169105A1 (en) * | 2013-11-27 | 2017-06-15 | Nec Corporation | Document classification method |
CN106055705B (zh) * | 2016-06-21 | 2019-07-05 | 广东工业大学 | 基于最大间距多任务多示例学习的网页分类方法 |
CN111091147B (zh) * | 2019-12-10 | 2024-01-19 | 东软集团股份有限公司 | 一种图像分类方法、装置及设备 |
KR102297548B1 (ko) * | 2019-12-24 | 2021-09-02 | 서울대학교산학협력단 | 신경망 모델을 이용한 정보 보호 방법 및 데이터처리장치 |
CN111797942A (zh) * | 2020-07-23 | 2020-10-20 | 深圳壹账通智能科技有限公司 | 用户信息的分类方法及装置、计算机设备、存储介质 |
CN113112346A (zh) * | 2021-04-30 | 2021-07-13 | 平安普惠企业管理有限公司 | 用户分类方法、装置、电子设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004084096A1 (ja) * | 2003-03-19 | 2004-09-30 | Fujitsu Limited | 事例分類装置および方法 |
JP2006004103A (ja) * | 2004-06-16 | 2006-01-05 | Nippon Telegr & Teleph Corp <Ntt> | 文書分類体系間の構造マッチング方法、構造マッチング装置、構造マッチングプログラム及びそのプログラムを記録した記録媒体 |
JP4490876B2 (ja) * | 2005-06-01 | 2010-06-30 | 日本電信電話株式会社 | コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体 |
JP4332161B2 (ja) * | 2006-03-27 | 2009-09-16 | 富士通株式会社 | 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置 |
-
2008
- 2008-06-20 JP JP2008161237A patent/JP5164209B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320677A (zh) * | 2014-07-10 | 2016-02-10 | 香港中文大学深圳研究院 | 一种训练流式不平衡数据的方法及设备 |
RU2752673C1 (ru) * | 2021-01-12 | 2021-07-29 | Акционерное общество "Федеральный научно-производственный центр" Титан-Баррикады" | Линейный исполнительный механизм |
RU2752672C1 (ru) * | 2021-01-12 | 2021-07-29 | Акционерное общество "Федеральный научно-производственный центр" Титан-Баррикады" | Линейный исполнительный механизм гидросооружений |
Also Published As
Publication number | Publication date |
---|---|
JP2010003106A (ja) | 2010-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5164209B2 (ja) | 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体 | |
Giraud | Introduction to high-dimensional statistics | |
US11361569B2 (en) | Hierarchical neural networks with granularized attention | |
EP3596663B1 (en) | Neural network system | |
CN103548041B (zh) | 用于确定主观层级聚类中的每个特征的权重的信息处理装置、方法和程序 | |
JP2019028839A (ja) | 分類器、分類器の学習方法、分類器における分類方法 | |
Paul | Mixed membership Markov models for unsupervised conversation modeling | |
US10528889B2 (en) | Stereoscopic learning for classification | |
WO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
Finch et al. | Classification accuracy of neural networks vs. discriminant analysis, logistic regression, and classification and regression trees | |
Boettcher et al. | ELSA: An efficient, adaptive ensemble learning-based sampling approach | |
Ji et al. | scAnnotate: an automated cell-type annotation tool for single-cell RNA-sequencing data | |
Adiguzel et al. | Model selection in multivariate adaptive regressions splines (MARS) using alternative information criteria | |
CN114118526A (zh) | 一种企业风险预测方法、装置、设备及存储介质 | |
Shi et al. | Variable Selection for Mediators under a Bayesian Mediation Model | |
Dutta et al. | Likelihood-free inference by penalised logistic regression | |
JP5110950B2 (ja) | 多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラム | |
JP5210224B2 (ja) | アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体 | |
Tan et al. | On construction of hybrid logistic regression-naive Bayes model for classification | |
Jones et al. | Network model trees | |
Tong et al. | Impact of likelihoods on class enumeration in bayesian growth mixture modeling | |
Ferdaus et al. | A genetic algorithm approach using improved fitness function for classification rule mining | |
US11995403B2 (en) | Teaching a machine classifier to recognize a new class | |
Alade et al. | Sentiment analysis of nigerian students’ tweets on education: a data mining approach’ | |
WO2022074711A1 (ja) | 学習方法、推定方法、学習装置、推定装置、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110527 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110902 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20120113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121214 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151228 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5164209 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |