JP5160312B2 - 文書分類装置 - Google Patents
文書分類装置 Download PDFInfo
- Publication number
- JP5160312B2 JP5160312B2 JP2008148390A JP2008148390A JP5160312B2 JP 5160312 B2 JP5160312 B2 JP 5160312B2 JP 2008148390 A JP2008148390 A JP 2008148390A JP 2008148390 A JP2008148390 A JP 2008148390A JP 5160312 B2 JP5160312 B2 JP 5160312B2
- Authority
- JP
- Japan
- Prior art keywords
- category
- document
- categories
- integrated
- integration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、生成したカテゴリ構造において、あるカテゴリAとあるカテゴリBにおいて、ある観点で見ると一つのカテゴリに統合できることがあり、ユーザの意図に合わないことがある。
図1は、本発明の実施形態における文書分類装置の構成例を表すブロック図である。
図1に示すように、本発明の実施形態における文書分類装置は、装置全体の処理動作を司る制御部1、記憶装置2、文書分類部3、カテゴリ統合部4、キーボードやマウスなどの入力装置5およびディスプレイ装置などの出力装置6を備え、それぞれがバス7を介して相互に接続される。
また、文書分類部3の分類・クラスタリング部32は、文書とカテゴリの間の類似度を上述の単語ベクトルの類似度によって計算し、その類似度に基づいて文書を自動的に分類もしくはクラスタリングする手段である。
また、不適切文書除去部43は、統合したカテゴリに属する文書のうち当該統合したカテゴリに属する文書として不適切な文書を判定する判定手段であり、統合したカテゴリに属する全ての文書のうち、統合したカテゴリに属するのに不適切な文書を除去する。適切文書追加部44は、選択外カテゴリ統合部42にて統合されなかったカテゴリの文書のうち、統合カテゴリに属するのに適切な文書を当該統合カテゴリに追加する。つまり、適切文書追加部44は、統合されなかったカテゴリに属する文書のうち統合したカテゴリに属する文書として適切な文書を判定する判定手段である。
記憶装置2の文書記憶部21には複数の文書の情報が記憶され、各文書は図2に示すように文書のユニークな識別子である文書番号、文書名、本文などの情報を持つ。また、本実施形態では文書の特徴を表す単語ベクトルも文書記憶部21にて文書毎に記憶する。その詳細については後述する。なお、本実施形態では発明の理解を容易にするために文書の特徴を単語ベクトルのみで表現しているが、例えば文書の属性情報(日時、種別、作成者など)を、文書を特徴付けるベクトルの要素としてもよい。
図3では3種類のカテゴリを示す。各カテゴリは当該カテゴリのユニークな識別子であるカテゴリ番号およびカテゴリ名を持つ。また、本実施形態では、カテゴリは0個または1個の親カテゴリを持つとする。図3(a)に示したカテゴリはルートのカテゴリであるため親カテゴリを持たない。一方、図3(b)に示したカテゴリは、カテゴリ番号「C001」のカテゴリ、すなわち図3(a)で示したカテゴリを親に持ち、図3(c)に示したカテゴリはカテゴリ番号「C002」のカテゴリ、すなわち図3(b)で示したカテゴリを親カテゴリに持つ。また、各カテゴリが持つ文書の情報もカテゴリ記憶部22に記憶される。
図5と図6に示した処理は、ともに文書の単語ベクトルを生成する処理を表すが、図5に示した処理で求められる単語ベクトルは、当該文書が属するカテゴリには依存しない単語ベクトルであるのに対し、図6に示した処理で求められる単語ベクトルは、図5に示した処理結果を用いて求められる、所定のカテゴリにおける文書の特徴を表す単語ベクトルである。また、図7に示した処理で求められる単語ベクトルは、図6の処理結果を用いて求められる、カテゴリの特徴を表す単語ベクトルである。
ステップS16の処理後はステップS13の処理に戻る。単語ベクトル生成部31は未選択の単語tがなければ(ステップS13のYES)、ステップS1の処理を終了する。
そして単語ベクトル生成部31は、単語ベクトルvpdを単語ベクトルvpcに加える(ステップS35)。
ステップS4の処理の詳細について図8を参照して説明する。まず、分類・クラスタリング部32は、ユーザが入力装置5を用いて指定したカテゴリpが持つ文書集合を分類対象の文書集合とする(ステップS41)。カテゴリpは、既にいくつかの子カテゴリを持っていることもあるし、子カテゴリを1つも持っていないこともあるが、図8ではいずれの場合にも実行する処理の流れを記している。
ここでは、各カテゴリのカテゴリ名および当該カテゴリの文書の内容を示すウインドウが出力装置6において画面表示されているものとする。この状態で、カテゴリ統合部4は、入力装置5への操作によりユーザが統合元カテゴリとしたいカテゴリ71を選択すると、当該カテゴリを統合元カテゴリAとして認識する(ステップS61)。
カテゴリ統合部4は、当該選択されたカテゴリの名称と当該カテゴリに属する文書の中身を図10に示すように出力装置6に画面表示させる。図10に示した例では、カテゴリ71のカテゴリ名「過去最高」および当該カテゴリの文書を示すウインドウを枠で囲むことで、統合元カテゴリAを区別している。尚、ここでは文書の中身を表示しているが、当該カテゴリが持つ特徴的な単語でも良い。ここで、カテゴリが持つ特徴語的な単語とは、図7で説明したカテゴリの単語ベクトルのうち、次元の値、すなわち単語の重みが特に大きい単語である。
図11に示した例では、統合先カテゴリBの候補として、自カテゴリの中心ベクトルと選択済みのカテゴリ71の中心ベクトルとの類似度が高い上位4つのカテゴリ72,73,74,75が類似度の高い順で表示される。図11に示した例では、統合先カテゴリBの候補の各カテゴリについて類似度の順位を示す数字が付与されており、類似度の順位が「1」でカテゴリ名が「メモリカード」であるカテゴリ72がカテゴリ71との類似度が最も高いカテゴリとなる。カテゴリの中心ベクトルとは、図6で説明したように、あるカテゴリcに属する全ての文書dの特徴を表すベクトルを生成し、特徴ベクトルの平均値を算出した値である。
類似度順で表示することで、ユーザは統合元カテゴリとして選択したカテゴリ71と統合すべきカテゴリとしてカテゴリ72やカテゴリ73などがあることが分かるので、ユーザは統合候補となるカテゴリを画面上から容易に判断することができる。
ステップS66の処理後、もしくは類似度高カテゴリがなかった場合には(ステップS64のNO)、選択外カテゴリ統合部42は、選択済みのカテゴリA、カテゴリBの両方に出現する単語の重みを高くする(ステップS67)。
まず、不適切文書除去部43は、統合カテゴリに属する文書のうち未選択の文書のいずれかを選択し(ステップS71)、当該選択した文書が統合する前の統合元カテゴリAや統合先カテゴリBのいずれかに属していたか否かをチェックする。
適切文書追加部24は、ステップS83の処理で「YES」と判別された場合には、閾値がαより大きい文書を、カテゴリA,Bの統合カテゴリに属するのに適切な文書とし、カテゴリA,Bの統合カテゴリに追加する。
図17は、本発明の実施形態における文書分類装置によるカテゴリ統合処理の変形例を示すフローチャートである。図18は、本発明の実施形態における文書分類装置による子カテゴリの統合処理における第1の遷移状態の例を示す図である。図19は、本発明の実施形態における文書分類装置による子カテゴリの統合処理における第2の遷移状態の例を示す図である。
カテゴリ統合部4は、図18に示すように子カテゴリA,子カテゴリBがそれぞれ存在する場合には(ステップS101のYES)、子カテゴリAの中心ベクトルと子カテゴリBの中心ベクトル間の類似度を計算し、当該類似度が所定の閾値以上か調べる(ステップS102)。
カテゴリ統合部4は、類似度が閾値以上ならば(ステップS102のYES)、図19に示すように子カテゴリ間を統合し、子カテゴリ間の統合カテゴリ名の入力を求めるためのウインドウを画面表示させる。これにより、ユーザが入力装置5を用いて子カテゴリ間の統合カテゴリ名を入力することができる(ステップS103)。
選択外カテゴリ統合部42は、計算した類似度が所定の閾値以上で、且つ、当該類似度がステップS69の処理で計算した類似度よりも高いカテゴリを子カテゴリA,Bの統合カテゴリと統合する(ステップS109)。
図20は、本発明の実施形態における文書分類装置による不適切文書除去処理の変形例を示すフローチャートである。
まず、不適切文書除去部43は、統合した子カテゴリに属する文書のうち未選択の文書のいずれかを選択し(ステップS111)、統合する前はどの子カテゴリに属していていたかチェックする。
Claims (5)
- 複数の文書を記憶する文書記憶手段と、
前記文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、
前記文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、
前記カテゴリ記憶手段に記憶されるカテゴリのうち統合対象の一カテゴリの選択操作を受け付ける第1の選択手段と、
前記選択されたカテゴリとの統合対象のカテゴリの候補を当該選択されたカテゴリおよびその他のカテゴリの間の類似度をもとに提示する統合カテゴリ候補提示手段と、
前記提示された候補のうち何れかのカテゴリの選択操作を受け付ける第2の選択手段と、
前記第1および第2の選択手段により選択されたカテゴリの統合カテゴリとの間の類似度が所定の条件を満たすカテゴリを検出する検出手段と、
前記第1および第2の選択手段により選択されたカテゴリおよび前記検出手段により検出したカテゴリを統合するカテゴリ統合手段と
を備えたことを特徴とする文書分類装置。 - 前記カテゴリ統合手段により統合したカテゴリに属する文書のうち当該統合したカテゴリに属する文書として不適切な文書を判定する判定手段をさらに備えた
ことを特徴とする請求項1に記載の文書分類装置。 - 前記カテゴリ統合手段は、
前記第1および第2の選択手段により選択されたカテゴリにそれぞれ属する別のカテゴリ同士の類似度が所定の条件を満たす場合に当該カテゴリ同士をさらに統合する
ことを特徴とする請求項1に記載の文書分類装置。 - 前記カテゴリ統合手段により統合されなかったカテゴリに属する文書のうち前記カテゴリ統合手段により統合したカテゴリに属する文書として適切な文書を判定する判定手段をさらに備えた
ことを特徴とする請求項1に記載の文書分類装置。 - 前記検出手段は、
前記第1および第2の選択手段により選択されたカテゴリ以外のカテゴリのうち、自カテゴリの中心ベクトルと前記第1および第2の選択手段により選択されたカテゴリの統合カテゴリに属する文書中の単語の中心ベクトルとの類似度が所定の条件を満たすカテゴリを検出する
ことを特徴とする請求項1に記載の文書分類装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008148390A JP5160312B2 (ja) | 2008-06-05 | 2008-06-05 | 文書分類装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008148390A JP5160312B2 (ja) | 2008-06-05 | 2008-06-05 | 文書分類装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009294939A JP2009294939A (ja) | 2009-12-17 |
JP5160312B2 true JP5160312B2 (ja) | 2013-03-13 |
Family
ID=41543068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008148390A Active JP5160312B2 (ja) | 2008-06-05 | 2008-06-05 | 文書分類装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5160312B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5023176B2 (ja) * | 2010-03-19 | 2012-09-12 | 株式会社東芝 | 特徴語抽出装置及びプログラム |
JP5100777B2 (ja) * | 2010-03-19 | 2012-12-19 | 株式会社東芝 | 文書分類装置およびプログラム |
JP5060601B2 (ja) * | 2010-08-03 | 2012-10-31 | 株式会社東芝 | 文書分析装置およびプログラム |
JP5281104B2 (ja) * | 2011-02-28 | 2013-09-04 | 楽天株式会社 | 広告管理装置、広告選択装置、広告管理方法、広告管理プログラム及び広告管理プログラムを記録した記録媒体 |
JP5389130B2 (ja) | 2011-09-15 | 2014-01-15 | 株式会社東芝 | 文書分類装置、方法およびプログラム |
JP6036331B2 (ja) * | 2013-01-23 | 2016-11-30 | 富士通株式会社 | 管理方法、管理装置および管理プログラム |
JP6359045B2 (ja) * | 2016-03-16 | 2018-07-18 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
JP7272846B2 (ja) * | 2019-03-28 | 2023-05-12 | 株式会社日立ソリューションズ東日本 | 文書分析装置および文書分析方法 |
WO2021166692A1 (ja) * | 2020-02-21 | 2021-08-26 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0749875A (ja) * | 1993-08-06 | 1995-02-21 | Hitachi Ltd | 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム |
JP4063489B2 (ja) * | 2000-10-05 | 2008-03-19 | 株式会社ジャストシステム | 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2003196298A (ja) * | 2001-12-25 | 2003-07-11 | Fujitsu Ltd | 分野体系構築支援装置 |
JP4744787B2 (ja) * | 2002-05-08 | 2011-08-10 | 株式会社東芝 | 情報整理支援方法とそのためのプログラム |
US7827179B2 (en) * | 2005-09-02 | 2010-11-02 | Nec Corporation | Data clustering system, data clustering method, and data clustering program |
JP4171757B2 (ja) * | 2006-09-28 | 2008-10-29 | 株式会社東芝 | オントロジー統合支援装置、オントロジー統合支援方法及びオントロジー統合支援プログラム |
-
2008
- 2008-06-05 JP JP2008148390A patent/JP5160312B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009294939A (ja) | 2009-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5160312B2 (ja) | 文書分類装置 | |
US7971150B2 (en) | Document categorisation system | |
US8332439B2 (en) | Automatically generating a hierarchy of terms | |
EP1678635B1 (en) | Method and apparatus for automatic file clustering into a data-driven, user-specific taxonomy | |
US8108405B2 (en) | Refining a search space in response to user input | |
JP4587512B2 (ja) | ドキュメントデータ照会装置 | |
KR100756921B1 (ko) | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. | |
EP1736901B1 (en) | Method for classifying sub-trees in semi-structured documents | |
US8543380B2 (en) | Determining a document specificity | |
US20050081146A1 (en) | Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus | |
EP2045732A2 (en) | Determining the depths of words and documents | |
JP5215046B2 (ja) | 文書分類装置 | |
JP4017354B2 (ja) | 情報分類装置および情報分類プログラム | |
JP4630911B2 (ja) | 文書分類装置、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP5100777B2 (ja) | 文書分類装置およびプログラム | |
KR102086642B1 (ko) | 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법 | |
Lee et al. | A classifier-based text mining approach for evaluating semantic relatedness using support vector machines | |
JP2001325104A (ja) | 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体 | |
KR101088483B1 (ko) | 이종 분류체계들을 매핑시키는 방법 및 장치 | |
US11100099B2 (en) | Data acquisition device, data acquisition method, and recording medium | |
JP4189251B2 (ja) | キーワード解析方法及びそれに使用するプログラム | |
Muppalla | Information Retrieval by Identification of Signature Terms in Clusters | |
AU2008202064B2 (en) | A data categorisation system | |
Bawankule et al. | Sentence Level Text Extraction using Hierarchical Fuzzy Relational Clustering Algorithm | |
Suskar et al. | Document Categorization by using Weighted J48 Classifier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110223 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5160312 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151221 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |