JP5308360B2 - コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム - Google Patents
コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム Download PDFInfo
- Publication number
- JP5308360B2 JP5308360B2 JP2010007381A JP2010007381A JP5308360B2 JP 5308360 B2 JP5308360 B2 JP 5308360B2 JP 2010007381 A JP2010007381 A JP 2010007381A JP 2010007381 A JP2010007381 A JP 2010007381A JP 5308360 B2 JP5308360 B2 JP 5308360B2
- Authority
- JP
- Japan
- Prior art keywords
- probability model
- content
- parameter
- value
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
基準値θ−は、同時確率モデルのパラメータの初期値Θ(0)とされる。また、条件付確率モデルのパラメータの初期値W(0)と、重み付き統合の重みの初期値β(0)を設定する。
基準値計算部21は、予め外部から設定されるハイパーパラメータξとラベルありサンプルDpとラベルなしサンプルDuとを用いて同時確率モデルP(x,y;θy)のパラメータθyの基準値θ−を式(14)で計算すると共に、同時確率モデルのパラメータの初期値Θ(0)をθ(0)k←θ−に、重み付き統合の重み値をβ(0)←0に初期化する。また、条件付確率モデルのパラメータW(t+1)を、ラベルありサンプル集合Dpを用いて式(17)で計算し、学習ステップtをt←0にする(ステップS21)。
手順1:ハイパーパラメータσ,ξ,ρを所定値として外部から設定。
手順2:式(14)を用いてラベルありサンプル集合Dp(式(1))とラベルなしサンプル集合Du(式(2))から同時確率モデルのパラメータの基準値θ−を計算(図4、ステップS21)。
31.学習ステップ(t)=0、Θ(t)の要素θ(t) yi,∀yにθ− iを代入。
32.式(17)の右辺を満たすパタメータ値WをBFGSアルゴリズム又はSGD法を用いて計算し、W(t)に代入(ステップS21)。
41.収束条件のパラメータεと、最大繰り返し計算tmaxの値を設定。
42.W(t),Θ(t),β(t)を用いてラベルなしサンプルxmがカテゴリyに属する確率値を計算(ステップS22)。
43.BFGSアルゴリズム又はSGD法を用いて、式(19)によりラベルありサンプル集合Dpとラベルなしサンプル集合Du、ラベルなしサンプルの確率値{R(y|xm;W(t),Θ(t),β(t))}m,kで表せる条件付確率モデルのパラメータ値W(t+1)を計算(ステップS23)。
44.ラベルありサンプル集合Dpとラベルなしサンプル集合Du、ラベルなしサンプルの確率値{R(y|xm;W(t),Θ(t),β(t))}m,kを用いて同時確率モデルのパラメータΘ(t+1)を計算(ステップS24)。
45.式(21)により、ラベルありサンプル集合Dpとラベルなしサンプル集合Du、ラベルなしサンプルの確率値{R(y|xm;W(t),Θ(t),β(t))}m,kとΘ(t+1)を用いて表せる重み付き統合の重み値β(t+1)を計算(ステップS25)。
46.収束判定(学習終了判定)処理を実行(ステップS26)
手順5:収束したパラメータの推定値W^,Θ^,β^をコンテンツ分類部40に出力。
この発明の動作を確認する目的で、上位カテゴリとしてコンピュータに属するコンテンツを、5つのサブカテゴリに分類する評価実験を行った。テキスト自動分類装置の性能評価に良く用いられるデータベース20newsgroups(20News、非特許文献1参照)を用いた。
Claims (8)
- カテゴリが不明なコンテンツを入力として、そのコンテンツのカテゴリを分類するコンテンツ自動分類装置であって、
コンテンツとカテゴリの依存関係の強さを表す識別関数を、条件付確率モデルP(y|x)と同時確率モデルp(x,y)との重み付き統合により構成し、コンテンツの属するカテゴリが既知のラベルありサンプル集合と、コンテンツの属するカテゴリが不明なラベルなしサンプル集合との統計情報をもとに、上記識別関数の同時確率モデルのパラメータΘ(t)と、条件付確率モデルのパラメータW(t)と、重みβ(t)、を同時に計算して求める識別関数生成部と、
上記コンテンツの特徴ベクトルと上記識別関数の各パラメータの推定値を入力としてその識別関数値を最大化させるカテゴリを求めて出力するコンテンツ分類部と、
を具備するコンテンツ自動分類装置。 - 請求項1に記載したコンテンツ自動分類装置において、
上記識別関数生成部は、
ラベルありサンプルとラベルなしサンプルに対する識別関数が与える条件付確率と上記条件付確率モデルとのKL距離(Kullback-Leibler divergence)の最小化と、識別関数が与える条件付確率による上記同時確率モデルの期待対数尤度の最大化との、重み付き最適化に基づいて条件付確率モデルと同時確率モデルの重み付き統合により識別関数を構成することを特徴とするコンテンツ自動分類装置。 - 請求項1又は2に記載したコンテンツ自動分類装置において、
上記識別関数生成部は、
上記ラベルありサンプルとラベルなしサンプルを用いて同時確率モデルp(x,y;θy)のパラメータθyの基準値θ−を計算すると共に、同時確率モデルのパラメータの初期値Θ(0)と重みの初期値β(0)と条件付確率モデルのパラメータの初期値W(0)とを設定する基準値計算部と、
条件付確率モデルのパラメータW(t)と同時確率モデルのパラメータΘ(t)と重み付き統合の重みβ(t)とから計算される識別関数値を用いて、ラベルなしサンプルがカテゴリに属する確率値を計算する確率値計算部と、
上記確率値とラベルありサンプルとラベルなしサンプルを用いて条件付確率モデルのパラメータW(t+1)を計算する条件付確率モデル計算部と、
上記確率値を用いて同時確率モデルのパラメータΘ(t+1)を計算する同時確率モデル計算部と、
上記確率値と上記同時確率モデルのパラメータΘ(t+1)を用いて重み付き統合の重みの推定値β(t+1)を計算する重み計算部と、
上記条件付確率モデルのパラメータW(t+1)と上記同時確率モデルのパラメータ値Θ(t+1)とモデル統合の重みβ(t+1)の変化量を計算し、収束条件を満たす上記各パラメータの推定値W^,Θ^,β^が求まるまで、或いは所定の回数に達するまで繰り返し処理を行う収束判定部と、
を備えることを特徴とするコンテンツ自動分類装置。 - 請求項3に記載したコンテンツ自動分類装置において、
上記重み計算部は、
ラベルありサンプルとラベルなしサンプルに対する同時確率モデルの期待対数尤度をもとに上記重みの推定値β(t+1)を計算するものであることを特徴とするコンテンツ自動分類装置。 - 請求項3に記載したコンテンツ自動分類装置において、
上記確率値計算部は、重み付き最適化に用いる目的関数を最大化させる確率値を、条件付確率モデルのパラメータの基準値と同時確率モデルのパラメータの基準値とを代入して得られる関数として計算するものであり、
上記条件付確率モデル計算部と上記同時確率モデル計算部と上記重み計算部は、条件付確率モデルと同時確率モデルとの重み付き統合に用いる重みの2乗値を、最小化すべき抑制項として上記目的関数に付加することで定義される最適化問題の解として、重み値β(t+1)と条件付確率モデルのパラメータ値W(t+1)と同時確率モデルのパラメータ値θ(t+1)と、を同時に計算するものであることを特徴とするコンテンツ自動分類装置。 - 請求項3に記載したコンテンツ自動分類装置において、
上記重み計算部は、
ラベルありサンプルとラベルなしサンプルがカテゴリに属する確率をカテゴリによらずに一定としたときに、その一定の確率値と条件付確率モデルのKL距離を最小化させる条件付確率モデルのパラメータ値と、上記一定の確率値による同時確率モデルの期待対数尤度を最大化させる同時確率モデルのパラメータ値とを、条件付確率モデルのパラメータの基準値と同時確率モデルのパラメータの基準値として利用するものであることを特徴とするコンテンツ自動分類装置。 - カテゴリが不明なコンテンツを入力として、そのコンテンツのカテゴリを分類するコンテンツ自動分類方法であって、
識別関数生成部が、コンテンツとカテゴリの依存関係の強さを表す識別関数を、条件付確率モデルP(y|x)と同時確率モデルp(x,y)との重み付き統合により構成し、コンテンツの属するカテゴリが既知のラベルありサンプル集合と、コンテンツの属するカテゴリが不明なラベルなしサンプル集合との、統計情報をもとに上記識別関数の同時確率モデルのパラメータΘ(t)と、条件付確率モデルのパラメータW(t)と、重みβ(t)、を同時に計算して求める識別関数生成過程と、
コンテンツ分類部が、上記コンテンツの特徴ベクトルと上記識別関数の各パラメータの推定値を入力としてその識別関数値を最大化させるカテゴリを求めて出力するコンテンツ分類過程と、
を含むコンテンツ自動分類方法。 - 請求項1乃至6のいずれか1項に記載のコンテンツ自動分類装置の各部の機能を、コンピュータに実行させるための装置プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010007381A JP5308360B2 (ja) | 2010-01-15 | 2010-01-15 | コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010007381A JP5308360B2 (ja) | 2010-01-15 | 2010-01-15 | コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011145951A JP2011145951A (ja) | 2011-07-28 |
JP5308360B2 true JP5308360B2 (ja) | 2013-10-09 |
Family
ID=44460740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010007381A Expired - Fee Related JP5308360B2 (ja) | 2010-01-15 | 2010-01-15 | コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5308360B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115264A (zh) * | 2020-09-14 | 2020-12-22 | 中国科学院计算技术研究所苏州智能计算产业技术研究院 | 面向数据分布变化的文本分类模型调整方法 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140201208A1 (en) * | 2013-01-15 | 2014-07-17 | Corporation Symantec | Classifying Samples Using Clustering |
JP6482481B2 (ja) * | 2016-01-13 | 2019-03-13 | 日本電信電話株式会社 | 2値分類学習装置、2値分類装置、方法、及びプログラム |
US11164043B2 (en) | 2016-04-28 | 2021-11-02 | Nippon Telegraph And Telephone Corporation | Creating device, creating program, and creating method |
CN113312430B (zh) * | 2020-02-27 | 2024-09-20 | 北京京东振世信息技术有限公司 | 物品的标签序列确定方法、装置、服务器及存储介质 |
CN111523604A (zh) * | 2020-04-27 | 2020-08-11 | 中国银行股份有限公司 | 一种用户分类的方法和相关装置 |
CN112559748A (zh) * | 2020-12-18 | 2021-03-26 | 厦门市法度信息科技有限公司 | 一种笔录数据案由分类方法、终端设备及存储介质 |
CN114528952B (zh) * | 2022-04-24 | 2022-07-29 | 南京邮电大学 | 减少配电终端误告警的多源异构安全监测数据聚合方法 |
CN114595333B (zh) * | 2022-04-27 | 2022-08-09 | 之江实验室 | 一种用于舆情文本分析的半监督方法和装置 |
CN117156221B (zh) * | 2023-10-31 | 2024-02-06 | 北京头条易科技有限公司 | 一种短视频内容理解标注方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4490876B2 (ja) * | 2005-06-01 | 2010-06-30 | 日本電信電話株式会社 | コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体 |
-
2010
- 2010-01-15 JP JP2010007381A patent/JP5308360B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115264A (zh) * | 2020-09-14 | 2020-12-22 | 中国科学院计算技术研究所苏州智能计算产业技术研究院 | 面向数据分布变化的文本分类模型调整方法 |
CN112115264B (zh) * | 2020-09-14 | 2024-03-22 | 中科苏州智能计算技术研究院 | 面向数据分布变化的文本分类模型调整方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2011145951A (ja) | 2011-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5308360B2 (ja) | コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム | |
US20210256392A1 (en) | Automating the design of neural networks for anomaly detection | |
JP6482481B2 (ja) | 2値分類学習装置、2値分類装置、方法、及びプログラム | |
Milios et al. | Dirichlet-based gaussian processes for large-scale calibrated classification | |
US20200265301A1 (en) | Incremental training of machine learning tools | |
Dioşan et al. | Improving classification performance of support vector machine by genetically optimising kernel shape and hyper-parameters | |
Larranaga et al. | A review on evolutionary algorithms in Bayesian network learning and inference tasks | |
Chen et al. | Predictive subspace learning for multi-view data: a large margin approach | |
Sayad | Real time data mining | |
Yu | An evolutionary programming based asymmetric weighted least squares support vector machine ensemble learning methodology for software repository mining | |
Yang et al. | Positive unlabeled learning via wrapper-based adaptive sampling. | |
JP2014026455A (ja) | メディアデータ解析装置、方法、及びプログラム | |
CN108171261A (zh) | 鲁棒的自适应半监督图像分类方法、装置、设备及介质 | |
Fu et al. | Long-tailed visual recognition with deep models: A methodological survey and evaluation | |
Chen et al. | Bayesian feature interaction selection for factorization machines | |
Rastogi et al. | Multi-label classification with missing labels using label correlation and robust structural learning | |
Chen et al. | Domain invariant and agnostic adaptation | |
Zhuang et al. | Semi-supervised classification via low rank graph | |
Waqas et al. | Robust bag classification approach for multi-instance learning via subspace fuzzy clustering | |
Tao et al. | Latent multi-feature co-regression for visual recognition by discriminatively leveraging multi-source models | |
US11574153B2 (en) | Identifying organisms for production using unsupervised parameter learning for outlier detection | |
Li et al. | Adversarial Sequence Tagging. | |
Li et al. | Multi-label feature selection with high-sparse personalized and low-redundancy shared common features | |
Chang et al. | Calibrated multi-task subspace learning via binary group structure constraint | |
Chen et al. | Error bounds of multi-graph regularized semi-supervised classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110624 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130531 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130618 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130628 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5308360 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |