JP2016095568A - モデル構築装置及びプログラム - Google Patents
モデル構築装置及びプログラム Download PDFInfo
- Publication number
- JP2016095568A JP2016095568A JP2014229779A JP2014229779A JP2016095568A JP 2016095568 A JP2016095568 A JP 2016095568A JP 2014229779 A JP2014229779 A JP 2014229779A JP 2014229779 A JP2014229779 A JP 2014229779A JP 2016095568 A JP2016095568 A JP 2016095568A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- model
- model construction
- word
- topics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】バグオブワード表現された一連の対象データに対して潜在トピック分析を行い、結果をモデルとして出力するモデル構築装置10において、初期設定部1は、各対象データのトピック重み行列と各単語のトピック重み行列とに初期値を設定し、更新計算部2は、前記初期値を設定された各行列に逐次的にギブスサンプリングを行うことで、前記出力されるモデルとしての各行列を得る。前記出力するモデルにおいてはトピック同士の間にラティス構造のつながりが階層構造として与えられ、前記逐次的にギブスサンプリングを行う際に、各対象データのトピック重み行列の各要素を対象として旧トピックから新トピックへの更新を行うに際して、新トピックの候補をラティス構造において旧トピックとの距離が所定値以下となるものに限定して実施する。
【選択図】図3
Description
単語Aに割り当てられた5つのトピック…[3], [0], [3], [1], [2]
単語Bに割り当てられた3つのトピック…[1], [0], [3]
単語Cに割り当てられた2つのトピック…[3], [1]
文書1のトピック比率(topic0, topic1, topic2, topic3)=(2, 3, 1, 4)
単語Aに割り当てられた5つのトピック…[3], [0], [3], [1], [2]
文書1の単語Aのトピック割当回数(topic0, topic1, topic2, topic3)=(1, 1, 1, 2)
トピック0の単語分布(単語A, 単語B, 単語C, 単語D)=(1, 1, 0, 0)
P(topic0 | 単語A)=1/(1+2+1+3)
P(topic1 | 単語A)=2/(1+2+1+3)
P(topic2 | 単語A)=1/(1+2+1+3)
P(topic3 | 単語A)=3/(1+2+1+3)
P(0100|w), P(0000|w), P(1100|w), P(0110|w), P(0101|w)
G(1)⊂G(2)⊂G(3)⊂…⊂G(m-1)⊂G(m)
G(1)={ 1100, 1010, 1001, 0110, 0101, 0011 }
G(2)= { 1110, 1101, 1011, 0111 }∪G(1)∪{ 1000, 0100, 0010, 0001 }
G(3)={1111}∪G(2)∪{0000}
Claims (8)
- バグオブワード表現された一連の対象データに対して潜在トピック分析を行い、当該分析結果をモデルとして出力するモデル構築装置であって、
各対象データのトピック重み行列と、各単語のトピック重み行列と、に初期値を設定する初期設定部と、
前記初期値を設定された各行列に逐次的にギブスサンプリングを行うことで、前記出力されるモデルとしての各行列を得る更新計算部と、を備え、
前記出力するモデルにおいてはトピック同士の間にラティス構造のつながりが階層構造として与えられており、
前記更新計算部は、前記逐次的にギブスサンプリングを行う際に、各対象データのトピック重み行列の各要素を対象として旧トピックから新トピックへの更新を行うに際して、当該新トピックの候補を前記ラティス構造において当該旧トピックとの距離が所定値以下となるものに限定して実施することを特徴とするモデル構築装置。 - 前記ラティス構造は、各トピックをノードとし、トピックIDを2進表現したラベル同士のハミング距離が1であるようなノード間にエッジを設けることでトピック間のつながりを表現したものとして与えられていることを特徴とする請求項1に記載のモデル構築装置。
- 前記更新計算部は、前記旧トピックから新トピックへの更新を行うに際して、当該新トピックの候補を前記ラティス構造において当該旧トピックから所定ホップ数以下で到達できるものに限定し、当該新トピックの各候補が選ばれる確率を当該更新する時点における各対象データのトピック重み行列より規格化して求めることを特徴とする請求項2に記載のモデル構築装置。
- 前記初期設定部及び前記更新計算部では、以下の式(1)の関係にある一連のトピックの集合G(i)(i=1, 2, …, m)を対象として逐次、集合G(i)で指定されるトピックのもとで潜在トピック分析を行うことで、集合G(m)で指定されるトピックのもとでの潜在トピック分析の結果を前記モデルとして出力することを特徴とする請求項1ないし3のいずれかに記載のモデル構築装置。
G(1)⊂G(2)⊂…⊂G(m) …式(1) - 前記初期設定部では、前記集合G(i)で指定されるトピックのもとで潜在トピック分析を行った結果を、前記集合G(i+1)で指定されるトピックのもとで潜在トピック分析を行う際の初期値として利用することを特徴とする請求項4に記載のモデル構築装置。
- 前記集合G(i+1)を構成するトピックは、前記集合G(i)を構成するトピックに対して、前記ラティス構造において所定ホップ数以下で到達できるトピックを追加したものであることを特徴とする請求項4または5に記載のモデル構築装置。
- 前記バグオブワード表現された一連の対象データが文書である、または、文書以外であることを特徴とする請求項1ないし6のいずれかに記載のモデル構築装置。
- コンピュータを請求項1ないし7のいずれかに記載のモデル構築装置として機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014229779A JP6375210B2 (ja) | 2014-11-12 | 2014-11-12 | モデル構築装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014229779A JP6375210B2 (ja) | 2014-11-12 | 2014-11-12 | モデル構築装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016095568A true JP2016095568A (ja) | 2016-05-26 |
JP6375210B2 JP6375210B2 (ja) | 2018-08-15 |
Family
ID=56070329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014229779A Active JP6375210B2 (ja) | 2014-11-12 | 2014-11-12 | モデル構築装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6375210B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180077717A (ko) * | 2016-12-29 | 2018-07-09 | 서울대학교산학협력단 | 정점 분류 장치 및 정점 분류 방법 |
CN108573355A (zh) * | 2018-05-08 | 2018-09-25 | 阿里巴巴集团控股有限公司 | 模型更新后替换运行的方法、装置、及业务服务器 |
CN109885675A (zh) * | 2019-02-25 | 2019-06-14 | 合肥工业大学 | 基于改进lda的文本子话题发现方法 |
KR20200026351A (ko) * | 2018-08-29 | 2020-03-11 | 동국대학교 산학협력단 | 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치 및 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120203752A1 (en) * | 2011-02-08 | 2012-08-09 | Xerox Corporation | Large scale unsupervised hierarchical document categorization using ontological guidance |
JP2013214150A (ja) * | 2012-03-30 | 2013-10-17 | Ntt Comware Corp | 分類装置、分類システム、分類方法及び分類プログラム |
WO2014020834A1 (ja) * | 2012-07-31 | 2014-02-06 | 日本電気株式会社 | 単語潜在トピック推定装置および単語潜在トピック推定方法 |
-
2014
- 2014-11-12 JP JP2014229779A patent/JP6375210B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120203752A1 (en) * | 2011-02-08 | 2012-08-09 | Xerox Corporation | Large scale unsupervised hierarchical document categorization using ontological guidance |
JP2013214150A (ja) * | 2012-03-30 | 2013-10-17 | Ntt Comware Corp | 分類装置、分類システム、分類方法及び分類プログラム |
WO2014020834A1 (ja) * | 2012-07-31 | 2014-02-06 | 日本電気株式会社 | 単語潜在トピック推定装置および単語潜在トピック推定方法 |
US20150193425A1 (en) * | 2012-07-31 | 2015-07-09 | Nec Corporation | Word latent topic estimation device and word latent topic estimation method |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180077717A (ko) * | 2016-12-29 | 2018-07-09 | 서울대학교산학협력단 | 정점 분류 장치 및 정점 분류 방법 |
KR101924832B1 (ko) * | 2016-12-29 | 2018-12-05 | 서울대학교 산학협력단 | 정점 분류 장치 및 정점 분류 방법 |
CN108573355A (zh) * | 2018-05-08 | 2018-09-25 | 阿里巴巴集团控股有限公司 | 模型更新后替换运行的方法、装置、及业务服务器 |
CN108573355B (zh) * | 2018-05-08 | 2021-07-13 | 创新先进技术有限公司 | 模型更新后替换运行的方法、装置、及业务服务器 |
KR20200026351A (ko) * | 2018-08-29 | 2020-03-11 | 동국대학교 산학협력단 | 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치 및 방법 |
KR102181744B1 (ko) | 2018-08-29 | 2020-11-25 | 동국대학교 산학협력단 | 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치 및 방법 |
CN109885675A (zh) * | 2019-02-25 | 2019-06-14 | 合肥工业大学 | 基于改进lda的文本子话题发现方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6375210B2 (ja) | 2018-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dong et al. | Hnhn: Hypergraph networks with hyperedge neurons | |
US11093669B2 (en) | Method and system for quantum computing | |
US20160048771A1 (en) | Distributed stage-wise parallel machine learning | |
US11593665B2 (en) | Systems and methods driven by link-specific numeric information for predicting associations based on predicate types | |
JP6375210B2 (ja) | モデル構築装置及びプログラム | |
Wang et al. | Probabilistic sufficient explanations | |
CN115293919A (zh) | 面向社交网络分布外泛化的图神经网络预测方法及系统 | |
Jung et al. | Enhanced Naive Bayes classifier for real-time sentiment analysis with SparkR | |
Wever et al. | Automated multi-label classification based on ML-Plan | |
Sun et al. | Data intensive parallel feature selection method study | |
Ahmad | 40 Algorithms Every Programmer Should Know: Hone your problem-solving skills by learning different algorithms and their implementation in Python | |
WO2022012347A1 (en) | Predictive models having decomposable hierarchical layers configured to generate interpretable results | |
Pishgoo et al. | A dynamic feature selection and intelligent model serving for hybrid batch-stream processing | |
US10552744B2 (en) | Rule set induction | |
Lokhande et al. | Accelerating column generation via flexible dual optimal inequalities with application to entity resolution | |
Kar et al. | Task-specific representation learning for web-scale entity disambiguation | |
Luo et al. | Sampling-based adaptive bounding evolutionary algorithm for continuous optimization problems | |
WO2011016281A2 (ja) | ベイジアンネットワーク構造学習のための情報処理装置及びプログラム | |
CN116415175A (zh) | 用于大规模多标签分类的方法和系统 | |
JP7306432B2 (ja) | 情報処理方法、情報処理装置及びプログラム | |
EP3735659A1 (en) | Optimization of learning network in equivalent class space | |
CN115391379A (zh) | 布尔可满足性问题解的搜索方法、装置、电子设备及介质 | |
Sesia et al. | Individualized conditional independence testing under model-X with heterogeneous samples and interactions | |
Lee et al. | Primitives for dynamic big model parallelism | |
Kanakaris et al. | On the Exploitation of Textual Descriptions for a Better-informed Task Assignment Process. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20160823 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170906 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180629 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180704 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180723 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6375210 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |