JP2006004105A - 文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体 - Google Patents
文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP2006004105A JP2006004105A JP2004178752A JP2004178752A JP2006004105A JP 2006004105 A JP2006004105 A JP 2006004105A JP 2004178752 A JP2004178752 A JP 2004178752A JP 2004178752 A JP2004178752 A JP 2004178752A JP 2006004105 A JP2006004105 A JP 2006004105A
- Authority
- JP
- Japan
- Prior art keywords
- document
- visualization
- category
- probability
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【解決手段】 可視化装置10は、カテゴリー分類された文書群についての文書生成モデルをもとに、文書群に含まれている各文書について、登録済みのカテゴリーに属する確率と、登録済みのカテゴリーに属さない確率とをベクトルで表した事後確率ベクトルを推定する。また、可視化装置10は、推定した事後確率ベクトルで表された各確率に従って、可視化空間上に、各文書と前記各カテゴリーとの関係を配置する。さらに、可視化装置10は、配置した可視化空間を利用者用端末30に送信する。
【選択図】 図1
Description
しかし、分類された文書群の中には、例えば、人的なミスにより分類された文書が含まれていたり、既に設定されているカテゴリーのいずれにも属さない文書(これを「特異文書」と呼ぶ。)が含まれていたりする。また、分類体系が特定の分野に偏っているケースがある。このように、文書の分類が適切に行われていないことが往往にある。
文書の分類ミスは、一つひとつの文書を人的にチェックして探し出すことは可能である。しかし、膨大な文書を人的にチェックすることは困難であるため、文書分類の適正が評価されていないことが多い。
M.chalmers and P.chitson,"BEAD:Explorations in information visualizaition",SIGIR'92,Proceedings of the Fifteenth Annual International ACM SIGIR Conference on Resarch and Development in Information Retrieval,ACM Press,1992年,p.330−337 J.B.Tenenbaum,V.de Silva and J.C.Langford,A global geometric framework for nonlinear dimensionality reduction,Science,290,2000年,p.2319−2323
図1は、本発明の実施の形態に係る可視化装置を含むシステムを示すブロック図である。
図1において、可視化装置10は、インターネットなどの通信ネットワーク20を介して利用者用端末30に接続されている。
可視化装置10は、通信装置11、記憶装置12および処理装置13を備えている。例えば、サーバ装置などのコンピュータがこれに用いられる。通信装置11は入出力インターフェースであり、記憶装置12はメモリ、ハードディスクなどであり、処理装置13はCPUなどである。
なお、図1では、単一の可視化装置10を示しているが、複数のコンピュータを用いて分散処理を行うように可視化装置10を構成してもよい。
文書生成モデルは、後記で詳述するが、文書中に出現する単語の単語頻度分布を表したものである。なお、文書生成モデルは、例えば、ファイル形式で記憶装置12に保存される。
[文書生成モデルの構築処理]
可視化装置10では、文書生成モデル構築部131が、次式(1)から(3)までの関数を用いて、文書生成モデルの構築処理を行う。ここでは、あらかじめ分類された文書群からカテゴリーごとの文書生成モデルを構築する場合について説明する。
NBモデルでは、カテゴリーcnに属する文書dnの生成確率を次式(1)の多項分布と仮定する。
また、可視化装置10では、事後ベクトル推定部132が、次式(4)から式(12)までの関数を用いて事後確率ベクトルの推定処理を行う。
事後確率ベクトルというのは、文書について、各カテゴリーに属する確率(登録済みのカテゴリーに属する確率)と、どのカテゴリーにも属さない確率(分類済みのカテゴリーに属さない確率)とをベクトルで表したものである。ここでは、例えば、最大エントロピー法(「K.Nigam,J.lafferty and A.McCallum,Using maximum entropy for text classification,In IJCAI-99 Workshop on Machine Learning for Information Filtering,61-67,1999」参照)による推定方法について説明する。
最大エントロピー法は、第n文書と第kカテゴリーとの関係を表す関数(これを素性(feature:特徴)関数と呼ぶ。)を素性f(dn,k)としたとき、次式(4)の制約を満たしつつ、確率P(k│dn)のエントロピーが最大となるようにパラメータを推定するためのものである。確率P(k│dn)は、第n文書が与えられたときの第kカテゴリーに属す確率である。なお、最大エントロピーの条件である式(4)の関数は記憶装置12に格納されている。
既存のK個のカテゴリーに限定して考えた場合、NBモデルにおける事後確率は、ベイズの定理により、次式(7)で表される。
そこで、3シグマ値を求めるため、次式(8)を満たすような確率変数Xを考える。
さらに、可視化装置10では、可視化部133が、事後確率ベクトルqnをもとに、次式(13)から式(16)までの関数を用いて、文書群の可視化処理を行う。
まず、可視化空間について説明しておく。可視化空間は、文書群の可視化を実現されるものであり、ここでは、ユークリッド空間を用いることとする。
第kカテゴリーに属する文書群の中心となる可視化空間内の座標をφk=(φk1,・・・,φkD)とする。Dは可視化空間の次元を表す。また、第n文書の座標をrn=(rn1,・・・,rnD)とする。
そこで、次式(13)のユークリッド距離unkが、次の条件を満たすように、φとrnとを配置するようにする。可視化空間において、第n文書の第kカテゴリーに属する確率が高くなれば、第kカテゴリーと第n文書との間のユークリッド距離unkが小さく(近く)なるようにする。逆に、第n文書の第kカテゴリーに属する確率が低くなれば、第kカテゴリーと第n文書との間のユークリッド距離unkが大きく(遠く)なるようにする。
、ユークリッド距離unkが小さくなれば、確率snkが1に近づき、逆に、unkが大きくなれば、確率snkが0に漸近するようになる。このようにして、登録済みのカテゴリーに属する確率snkに応じて、各文書と各カテゴリーとの間のユークリッド距離unkが可視化空間上で調整されることとなる。
このようなρ(unk)の典型例を次式(14)に示す。本実施の形態では、式(14)の関数を用いることとする。
そして、図2(a)に示した文書群について、可視化処理が行われると、カテゴリー間の類似関係も反映されて、図2(b)に示すように配置される。図2(b)では、「相撲」と「プロレス」の2つのカテゴリーに属する文書群は、隣接して配置されている。これは、「相撲」と「プロレス」はともに、格闘技という同じスポーツのジャンルに属することとなるので、2つのカテゴリーの類似度が高いと判断されたからである。
「分類ミス」というのは、誤って分類された文書のことである。このような文書は、登録済みのカテゴリーとは異なるカテゴリーの文書群の周辺に配置される。図2(b)では、「プロレス」の文書が分類ミスとして示され、それが「相撲」の文書群の周辺に配置されている。したがって、その文書が、「プロレス」ではなく、「相撲」のカテゴリーに属する可能性が高いと考えられる。
図3は、可視化装置10の動作手順を示す図である。なお、可視化装置10の動作は、処理装置13が記憶装置12に格納された可視化プログラムを逐次実行することによって実現される。可視化プログラムは、コンピュータ読み込み可能な記録媒体から読み込まれてもよい。記録媒体としては、例えば、CD−ROM、半導体メモリ、磁気ディスクなどがある。
次に、本発明の有効性を評価するため、Open Directory Project(ODP)の日本語ウェブページ(ここでは、Open directory project,http://dmoz.org/)のトップカテゴリーに分類されているウェブページを用いて可視化を行った。
ここでは、ウェブページのサンプリングは、次のように行った。まず、ODPに登録されている日本語ウェブページから、単語数が50以下のウェブページを除いた。また、複数のカテゴリーに分類されているウェブページを除いた。そして、カテゴリー単位に、100ページ分のウェブページをランダムにサンプリングした。サンプリングの結果、得られたウェブページは、次のカテゴリーに属する1300ページであった。
図4は、前記のサンプリングされたウェブページ群の可視化結果を示す図である。図4では、カテゴリーの別にウェブページが色分けされている。例えば、「arts」のウェブページ群は赤、「online-shop」のウェブページ群は青、「computer」のウェブページ群はピンク、「sports」ウェブページ群は緑などに色分けされている。
そして図4では、同じカテゴリーに属するウェブページがクラスター(同じカテゴリーに属する文書のまとまり)を形成している。クラスター数は計14になっている。これは、13種類のカテゴリー分のクラスター数13に、特異文書の分のクラスター数1を合算したものになっているからである。
ここで、クラスターの位置関係をみてみると、関連するカテゴリーのクラスターは、近接して配置されている。例えば、「online-shop」と「business」との各クラスター、「sports」と「health」との各クラスターなどは、近接して配置されている。
このように、図4の可視化結果を通じて、分類ミスの可能性があるウェブページを探し出すことができた。
このように、図4の可視化結果から、多重分類の可能性があるウェブページを探し出すことが可能となる。また、ウェブページの内容そのものから判断して、特定の一のカテゴリーに分類することが困難なものを探し出すことも可能となる。さらに、カテゴリー分類の見直しを行う際に、どのような内容に重点をおいてカテゴリー分類すべきかを確認することが可能となる。
次に、前記したサンプリングにより得た1300ページのウェブページについて、前記した従来法であるMDS法(非特許文献1参照)で可視化処理を行った。ここでは、単語頻度ベクトルを次元圧縮して可視化する方法と、前記した事後確率ベクトルを次元圧縮して可視化する方法の2つの方法で行った。
また、従来法では、カテゴリー数Kを考慮せずに文書同士を比較して可視化処理を行うため、文書数をNとした場合、計算量OはO(N2)になるのに対して、本発明では、各文書と各カテゴリーとを比較して可視化処理を行うため、計算量OはO(NK)になる。このため、従来法では、文書数が多くなると、計算量が2のべき乗で増加することになるのに対し、本発明ではそれほど増加することとならない。したがって、可視化装置10では、大量の文書群にも適用しやすくなる。
12 記憶装置
13 処理装置
20 通信ネットワーク
30 利用者用端末
Claims (8)
- 予め登録されたカテゴリーに分類された文書群について、文書中に出現する単語の単語頻度分布を表した文書生成モデルをカテゴリーごとに格納する記憶装置を備えた可視化装置における文書間関係可視化方法であって、
前記可視化装置は、
カテゴリー分類された文書群についての文書生成モデルをカテゴリーごとに前記記憶装置から読み出し、その文書生成モデルをもとに、前記文書群に含まれている各文書について、登録済みのカテゴリーに属する確率と、登録済みのカテゴリーに属さない確率とをベクトルで表した事後確率ベクトルを推定するステップと、
前記推定した事後確率ベクトルで表された各確率に従って、前記各文書と前記各カテゴリーとの関係を視覚的に表現するための可視化空間上に、前記各文書と前記各カテゴリーとの関係を配置するステップと、
前記配置した可視化空間を外部出力するステップと、
を実行することを特徴とする文書間関係可視化方法。 - 前記記憶装置には、最大エントロピーの条件がさらに格納され、
前記可視化装置は、
前記事後確率ベクトルを推定するステップを実行する際に、前記記憶装置から読み出した最大エントロピー法の条件に従って、前記事後確率ベクトルに基づく前記文書の事後確率が最高となったカテゴリーの文書生成モデルを用いて、前記事後確率ベクトルを推定する
ことを特徴とする請求項1に記載の文書間関係可視化方法。 - 前記可視化装置は、
前記各文書と前記各カテゴリーとの関係を配置するステップを実行する際に、前記登録済みのカテゴリーに属する確率に応じて、前記各文書および前記各カテゴリーの間の距離を前記可視化空間上で調整して配置する
ことを特徴とする請求項1に記載の文書間関係可視化方法。 - 予め登録されたカテゴリー分類された文書群について、文書中に出現する単語の単語頻度分布を表した文書生成モデルをカテゴリーごとに格納する記憶装置を備えた可視化装置であって、
前記可視化装置は、
カテゴリー分類された文書群についての文書生成モデルをカテゴリーごとに前記記憶装置から読み出し、その文書生成モデルをもとに、前記文書群に含まれている各文書について、登録済みのカテゴリーに属する確率と、登録済みのカテゴリーに属さない確率とをベクトルで表した事後確率ベクトルを推定する推定機能と、
前記推定した事後確率ベクトルで表された各確率に従って、前記各文書と前記各カテゴリーとの関係を視覚的に表現するための可視化空間上に、前記各文書と前記各カテゴリーとの関係を配置する可視化機能と、
前記配置した可視化空間を外部出力する出力機能と、
を備えたことを特徴とする可視化装置。 - 前記記憶装置には、最大エントロピーの条件がさらに格納され、
前記可視化装置は、
前記事後確率ベクトルを推定する際に、前記記憶装置から読み出した最大エントロピー法の条件に従って、前記事後確率ベクトルに基づき前記文書の事後確率が最高となったカテゴリーの文書生成モデルを用いて、前記事後確率ベクトルを推定する
ことを特徴とする請求項4に記載の可視化装置。 - 前記可視化装置は、
前記各文書と前記各カテゴリーとの関係を配置する際に、前記登録済みのカテゴリーに属する確率に応じて、前記各文書および前記各カテゴリーの間の距離を前記可視化空間上で調整して配置する
ことを特徴とする請求項4に記載の可視化装置。 - 請求項1ないし請求項3のいずれか1項に記載の文書間関係可視化方法をコンピュータに実行させるための可視化プログラム。
- 請求項1ないし請求項3のいずれか1項に記載の文書間関係可視化方法をコンピュータに実行させるための可視化プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004178752A JP4963341B2 (ja) | 2004-06-16 | 2004-06-16 | 文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004178752A JP4963341B2 (ja) | 2004-06-16 | 2004-06-16 | 文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006004105A true JP2006004105A (ja) | 2006-01-05 |
JP4963341B2 JP4963341B2 (ja) | 2012-06-27 |
Family
ID=35772461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004178752A Expired - Fee Related JP4963341B2 (ja) | 2004-06-16 | 2004-06-16 | 文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4963341B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009063534A (ja) * | 2007-09-10 | 2009-03-26 | Denso It Laboratory Inc | ナビゲーション装置および経路提示方法 |
JP4585597B1 (ja) * | 2009-06-29 | 2010-11-24 | 株式会社東芝 | 表示処理装置、プログラムおよび表示処理方法 |
JP2013080395A (ja) * | 2011-10-04 | 2013-05-02 | Nippon Telegr & Teleph Corp <Ntt> | 誤分類検出装置、方法、及びプログラム |
JP2016081200A (ja) * | 2014-10-15 | 2016-05-16 | 株式会社toor | 情報表示方法及び情報表示装置 |
JPWO2017006577A1 (ja) * | 2015-07-03 | 2017-11-24 | 三菱電機株式会社 | 3次元点群選択装置および3次元点群選択方法 |
JP2018198002A (ja) * | 2017-05-24 | 2018-12-13 | 株式会社エヌ・ティ・ティ・データ | 文書処理装置、文書処理方法及びプログラム |
-
2004
- 2004-06-16 JP JP2004178752A patent/JP4963341B2/ja not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009063534A (ja) * | 2007-09-10 | 2009-03-26 | Denso It Laboratory Inc | ナビゲーション装置および経路提示方法 |
JP4585597B1 (ja) * | 2009-06-29 | 2010-11-24 | 株式会社東芝 | 表示処理装置、プログラムおよび表示処理方法 |
JP2011008694A (ja) * | 2009-06-29 | 2011-01-13 | Toshiba Corp | 表示処理装置、プログラムおよび表示処理方法 |
JP2013080395A (ja) * | 2011-10-04 | 2013-05-02 | Nippon Telegr & Teleph Corp <Ntt> | 誤分類検出装置、方法、及びプログラム |
JP2016081200A (ja) * | 2014-10-15 | 2016-05-16 | 株式会社toor | 情報表示方法及び情報表示装置 |
JPWO2017006577A1 (ja) * | 2015-07-03 | 2017-11-24 | 三菱電機株式会社 | 3次元点群選択装置および3次元点群選択方法 |
JP2018198002A (ja) * | 2017-05-24 | 2018-12-13 | 株式会社エヌ・ティ・ティ・データ | 文書処理装置、文書処理方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4963341B2 (ja) | 2012-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7322044B2 (ja) | レコメンダシステムのための高効率畳み込みネットワーク | |
JP4569955B2 (ja) | 情報格納及び検索方法 | |
Interdonato et al. | Multilayer network simplification: approaches, models and methods | |
US9798732B2 (en) | Semantic associations in data | |
JP6047017B2 (ja) | パターン抽出装置および制御方法 | |
JP5235666B2 (ja) | 選択されたセグメントのビット平面表現を用いた連想マトリックス法、システムおよびコンピュータプログラム製品 | |
US20080313213A1 (en) | Efficient data infrastructure for high dimensional data analysis | |
JP2013225319A (ja) | 視覚的な多次元の検索 | |
JP2007287139A (ja) | 消費者に製品を推奨するためのコンピュータ実施方法及びシステム | |
CN110390052B (zh) | 搜索推荐方法、ctr预估模型的训练方法、装置及设备 | |
JP2004178604A (ja) | 情報検索装置及びその方法 | |
JP2006127484A (ja) | 情報処理方法 | |
Sisodia et al. | Fast prediction of web user browsing behaviours using most interesting patterns | |
JP6079270B2 (ja) | 情報提供装置 | |
KR101467707B1 (ko) | 지식 베이스의 개체 매칭 방법 및 이를 위한 장치 | |
JP4963341B2 (ja) | 文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体 | |
Patel et al. | Content based video retrieval | |
CN110851708B (zh) | 负样本的抽取方法、装置、计算机设备和存储介质 | |
US20230267277A1 (en) | Systems and methods for using document activity logs to train machine-learned models for determining document relevance | |
Cuzzocrea et al. | Efficiently compressing OLAP data cubes via R-tree based recursive partitions | |
Rafiei et al. | TraVaG: Differentially Private Trace Variant Generation Using GANs | |
Tang et al. | A multidimensional collaborative filtering fusion approach with dimensionality reduction | |
Wang et al. | Efficient sampling of training set in large and noisy multimedia data | |
JP2007066228A (ja) | コンテンツ検索システムおよびその方法 | |
CN108171371A (zh) | 一种数据预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060711 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090526 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20090707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090727 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090710 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100310 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100323 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20100528 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120228 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120323 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4963341 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150406 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |