JP2014078125A - 分類装置、分類方法、および分類プログラム - Google Patents
分類装置、分類方法、および分類プログラム Download PDFInfo
- Publication number
- JP2014078125A JP2014078125A JP2012225327A JP2012225327A JP2014078125A JP 2014078125 A JP2014078125 A JP 2014078125A JP 2012225327 A JP2012225327 A JP 2012225327A JP 2012225327 A JP2012225327 A JP 2012225327A JP 2014078125 A JP2014078125 A JP 2014078125A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- variable
- probability distribution
- word
- token
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 29
- 238000009826 distribution Methods 0.000 claims abstract description 107
- 238000000605 extraction Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 6
- 238000012552 review Methods 0.000 description 51
- 238000012545 processing Methods 0.000 description 19
- 238000005070 sampling Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 230000000052 comparative effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- SNICXCGAKADSCV-UHFFFAOYSA-N nicotine Chemical compound CN1CCCC1C1=CC=CN=C1 SNICXCGAKADSCV-UHFFFAOYSA-N 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】割当部は、文章データに含まれる単語であるトークンごとに、トピックを表すトピック変数の値を割り当てる。算出部は、割当部が値を割り当てた全てのトピック変数について、トークンの出現確率分布を切り替えるスイッチとして使用されるスイッチ変数ごとに文章データに含まれる全てのトークンが同時に出現する確率を算出する。決定部は、算出部が算出した確率に応じて、トピック変数ごとに割り当てられたトピックを決定する。
【選択図】図2
Description
また、本発明によれば、各アイテムに相当する特徴量を抽出するためにアイテム変数を導入し、その出現をコントロールする確率分布を導入しているので、人手を介すことなく、各アイテムを一意に抽出することができる。
このように、本発明では、n−グラムの抽出とアイテムに相当する特徴量の抽出とが同時に行えることから、文章からアイテムの特徴に相当する特徴量、人手を介すことなく、一意に抽出できる。
以下、本発明の実施形態と比較する比較例について図面を参照しながら詳しく説明する。
図12は、このようなグラフィックモデルを示すものである。
図12において、ノード101は、ハイパーパラメータαのノードである。ハイパーパラメータαは、トピックの確率分布θdを求めるのに用いられる。ハイパーパラメータαは、初期値としてランダム値が用いられる。
ノード102は、文書データ毎に特異なトピックの確率分布θdを求めるノードである。ここで、Dは、文書の数を表し、トピックの確率分布θdは、文書毎に存在するD種類となる。
ノード105は、トピック毎に特異な単語の確率分布φを求めるノードである。トピックの数はZであり、ノード105の単語の確率分布φは、Z種類となる。
ノード107は、以前の単語と以前のトピック毎に特異な次の単語間状態の確率分布σを求めるためのノードである。なお、次の単語間状態の確率分布σは、(Z×W)種類となる。
ノード109は、以前の単語と現在のトピック毎に特異な次の単語の確率分布ψを求めるノードである。ここで、Zは、トピックの数、Wは、単語の数を表し、次の単語の確率分布ψは、(Z×W)種類となる。
以下、本発明の実施形態について図面を参照しながら詳しく説明する。
本実施形態は、文章から、文章データの対象となったアイテムに相当する特徴量、およびアイテムに相当する特徴量に対応するn−グラムを同時に抽出するものである。
例えば、図1に示すように、実施形態では、文書データ200中のアイテム「England」に関する文書データ201から、その特徴を示す2−グラムとして、「Tower Bridge」、「Buckingham Palace」、「Royal Family」などを抽出できる。また、文書データ200中のアイテム「America」に関する文書データ202から、その特徴を示す2−グラムとして、「Rocky Mountains」、「Wall Street」、「Niagara Falls」を抽出できる。
図2において、ノード11は、ハイパーパラメータαのノードである。ハイパーパラメータαは、トピックの確率分布θdを求めるためのものである。ハイパーパラメータαは、初期値としてランダム値が用いられる。
r=1:各レビューデータ固有の単語(各レビュー独特な単語など)
r=2:各トピック(種目、商品種別など、例えば、ディジタルカメラ、サッカー)に共通する単語
r=3:各トピックに共通かつ前の単語と連結する単語
図3は、本実施形態に係る分類システムの構成の一例を示す概略図であり、図4は、分類装置の構成の一例を示す概略ブロック図である。図3に示すように、本発明の実施形態に係るシステムは、ファイルサーバ51と、計算サーバ52と、データベース53と、サービスサーバ54とから構成される。
ユーザ端末55からの呼び出しに応じて、呼び出し部91は、ユーザ端末55に計算結果をユーザ端末55に送る。この計算結果は、商品検索、レビュー検索、マーケティングなど、各種のサービスに利用できる。
図6において、まず、計算サーバ52の事前処理部71は、計算対象のレビューデータについて、レビューIDと、アイテムIDと、単語IDとを割り振る処理を行う(ステップS1)。
つまり、図7のテーブルT2では、最初のレコードのレビューデータには、レビューとして「レビューAAAB」が記述され、アイテムとして「A型スマートフォン」が付けられている。文書の要素となるトークン(単語)は、「リンゴ」、「操作性」、・・・、「遺産」である。そして、最後のレコードのレビューデータには、レビューとして「レビューXDCFR」が記述され、アイテムとして「A型コンピュータ」が付けられている。文書の要素となるトークン(単語)は、「音楽」、「芸術」、・・・、「リンゴ」である。
図7のテーブルT3に示すように、最初のレコードのレビューデータには、レビューに、レビューIDとして「000」が割り当てられ、アイテムIDとして「0000」が割り当てられる。トークン1〜トークンNdに対して、単語ID「0000」、「0003」、・・・、「0120」が割り振られる。そして、最後のレコードのレビューデータでは、レビューに、レビューIDとして「086」が割り当てられ、アイテムIDとして「0211」が割り当てられる。そして、トークン1〜トークンNdに対して、単語ID「121234」、「03043」、・・・、「000」が割り振られる。なお、同一のアイテムには、同一のアイテムIDが割り振られる。また、同一のトークンには、同一の単語IDが割り振られる。
ギブスサンプリングの繰り返し数が、予め決められた計算の繰り返し数に達したら、計算処理を終了する(ステップS5)。そして、抽出部724は、アイテムに対応する特徴量に基づいて、文章データからアイテムごとのn−グラム(nは整数)を抽出する。
本実施形態では、図10に示すように、確率変数の取得を統計的処理により取得するために、ディリクレ分布を導入している。ディリクレ分布は、連続型の確率分布であるが、積分することにより、離散型に変換できる。
ギブスサンプリングに用いる式は、上述のディリクレ分布を積分した式(1)を変形した式(2)である。すなわち、上述のディリクレ分布を積分した式(1)から、以下のように、条件付き確率を導出する式(2)が求められる。トピックzがトピックzの識別子k、または、スイッチ変数rが{0、1、2、3}である確率を導出する式は、以下のようになる。
アイテムの特徴に相当する特徴量は、ノード24から、アイテムの確率変数mdを示す観測変数として抽出できる。アイテム特有のフレーズ(n−グラム)は、ノード211、・・・、21i、21i+1、・・・から、単語の確率変数w(w1、・・・、wi、wi+1、・・・)を示す観測変数として抽出できる。ここでは、DVDタイトルと、本のタイトルと、音楽のタイトルをアイテムとして、本実施形態により抽出したフレーズと、図12に示した比較例により抽出したフレーズとについて、Precision(適合率)とRecall(再現率)とを比較している。
52 計算サーバ
53 データベース
54 サービスサーバ
55 ユーザ端末
61 データファイル保存部
71 事前処理部
72 計算処理部
721 割当部
722 算出部
723 決定部
724 抽出部
81 計算結果記憶部
91 呼び出し部
Claims (7)
- 文章データに含まれる単語であるトークンごとに、トピックを表すトピック変数の値を割り当てる割当部と、
前記割当部が値を割り当てた全ての前記トピック変数について、前記トークンの出現確率分布を切り替えるスイッチとして使用されるスイッチ変数ごとに前記文章データに含まれる全ての前記トークンが同時に出現する確率を算出する算出部と、
前記算出部が算出した前記確率に応じて、前記トピック変数ごとに割り当てられた前記トピックを決定する決定部と、
を備えることを特徴とする分類装置。 - 前記スイッチ変数が割り当てられた対象トークンに対応付けられた前記トピックと、前記対象トークンの直前の前記トークンの出現確率分布と、前記トークンの数とに応じて、前記対象トークンの確率変数が決定される関係にあること
を特徴とする請求項1に記載の分類装置。 - 前記決定部は、前記文章データに含まれるアイテムごとに与えられた固有の文字列であるアイテム変数に関連づけられた一つ以上の前記トークンごとの前記トピックを決定すること
を特徴とする請求項2に記載の分類装置。 - 前記アイテム変数の出現確率分布は、前記トピックごとに決定されていること
を特徴とする請求項3に記載の分類装置。 - 前記トピック変数を決定する出現確率分布は、前記トピックごとの階層クラスの出現確率分布と、前記文章データごとの階層クラスと、文章全体での階層クラスと、前記トークンの階層クラスとのいずれか一つ以上によって決定され、前記アイテムに対応する特徴量に基づいて、前記文章データから前記アイテムごとのn−グラム(nは整数)を抽出する抽出部をさらに備えること
を特徴とする請求項4に記載の分類装置。 - 文章データに含まれる単語であるトークンごとに、トピックを表すトピック変数の値を割り当てる割当手順と、
前記割当手順によって値が割り当てられた全ての前記トピック変数について、前記トークンの出現確率分布を切り替えるスイッチとして使用されるスイッチ変数ごとに前記文章データに含まれる全ての前記トークンが同時に出現する確率を算出する算出手順と、
前記算出手順によって算出された前記確率に応じて、前記トピック変数ごとに割り当てられた前記トピックを決定する決定手順と、
を有することを特徴とする分類方法。 - コンピュータに、
文章データに含まれる単語であるトークンごとに、トピックを表すトピック変数の値を割り当てる割当ステップと、
前記割当ステップによって値が割り当てられた全ての前記トピック変数について、前記トークンの出現確率分布を切り替えるスイッチとして使用されるスイッチ変数ごとに前記文章データに含まれる全ての前記トークンが同時に出現する確率を算出する算出ステップと、
前記算出ステップによって算出された前記確率に応じて、前記トピック変数ごとに割り当てられた前記トピックを決定する決定ステップと、
を実行させること
を特徴とする分類プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012225327A JP5887246B2 (ja) | 2012-10-10 | 2012-10-10 | 分類装置、分類方法、および分類プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012225327A JP5887246B2 (ja) | 2012-10-10 | 2012-10-10 | 分類装置、分類方法、および分類プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014078125A true JP2014078125A (ja) | 2014-05-01 |
JP5887246B2 JP5887246B2 (ja) | 2016-03-16 |
Family
ID=50783384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012225327A Active JP5887246B2 (ja) | 2012-10-10 | 2012-10-10 | 分類装置、分類方法、および分類プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5887246B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002092006A (ja) * | 2000-07-21 | 2002-03-29 | Ford Motor Co | テーマに基く文書分類システム |
JPWO2008004666A1 (ja) * | 2006-07-07 | 2009-12-10 | 日本電気株式会社 | 音声認識装置、音声認識方法、および音声認識用プログラム |
JP2010267017A (ja) * | 2009-05-13 | 2010-11-25 | Nippon Telegr & Teleph Corp <Ntt> | 文書分類装置、文書分類方法および文書分類プログラム |
JP2011134230A (ja) * | 2009-12-25 | 2011-07-07 | Nippon Telegr & Teleph Corp <Ntt> | トレンド分析装置、トレンド分析方法およびトレンド分析プログラム |
-
2012
- 2012-10-10 JP JP2012225327A patent/JP5887246B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002092006A (ja) * | 2000-07-21 | 2002-03-29 | Ford Motor Co | テーマに基く文書分類システム |
JPWO2008004666A1 (ja) * | 2006-07-07 | 2009-12-10 | 日本電気株式会社 | 音声認識装置、音声認識方法、および音声認識用プログラム |
JP2010267017A (ja) * | 2009-05-13 | 2010-11-25 | Nippon Telegr & Teleph Corp <Ntt> | 文書分類装置、文書分類方法および文書分類プログラム |
JP2011134230A (ja) * | 2009-12-25 | 2011-07-07 | Nippon Telegr & Teleph Corp <Ntt> | トレンド分析装置、トレンド分析方法およびトレンド分析プログラム |
Non-Patent Citations (1)
Title |
---|
JPN6013014742; 川前 徳章: '著者の興味と文書の内容の依存関係に着目した潜在変数モデル' 電子情報通信学会技術研究報告 Vol.109 No.51, 20090515, 19-24ページ, 社団法人電子情報通信学会 * |
Also Published As
Publication number | Publication date |
---|---|
JP5887246B2 (ja) | 2016-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5379138B2 (ja) | 領域辞書の作成 | |
US7983902B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
US20230043891A1 (en) | Systems, devices, and methods for improved affix-based domain name suggestion | |
KR101326354B1 (ko) | 문자 변환 처리 장치, 기록 매체 및 방법 | |
US20180075013A1 (en) | Method and system for automating training of named entity recognition in natural language processing | |
JP6166980B2 (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
CN104462030B (zh) | 字符转换装置、字符转换方法 | |
US9454523B2 (en) | Non-transitory computer-readable storage medium for storing acronym-management program, acronym-management device, non-transitory computer-readable storage medium for storing expanded-display program, and expanded-display device | |
JP5399450B2 (ja) | 医療用語の曖昧性を判定するシステム、方法およびソフトウェア | |
JP4493397B2 (ja) | テキスト圧縮装置 | |
Song et al. | Semi-automatic construction of a named entity dictionary for entity-based sentiment analysis in social media | |
JP4845523B2 (ja) | 文字処理装置、方法、プログラムおよび記録媒体 | |
JP5887246B2 (ja) | 分類装置、分類方法、および分類プログラム | |
JP6787755B2 (ja) | 文書検索装置 | |
JP2019087157A (ja) | 単語ベクトル変換装置、方法、及びプログラム | |
CN111459959A (zh) | 用于更新事件集合的方法和装置 | |
Melikyan | Technology for creating digital explanatory dictionaries | |
KR20190090646A (ko) | 단어 예측을 수행하는 방법 및 모바일 장치 | |
JP5876642B2 (ja) | 文章ファイル評価装置、文章ファイル評価方法、及びコンピュータプログラム | |
JP7234078B2 (ja) | 検索支援システム、学習システム、検索支援方法、及びプログラム | |
JP6257076B2 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
JP5378109B2 (ja) | タスクモデル生成装置およびタスクモデル生成方法 | |
Lertnattee et al. | Using Multicultural Herbal Information to Create Multi-pattern Herb Name Retrieval System | |
JP3372977B2 (ja) | 機械翻訳システム | |
Chellappan et al. | Spark Machine Learning Library |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150203 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5887246 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |