JP2009294938A - 文書分類装置 - Google Patents
文書分類装置 Download PDFInfo
- Publication number
- JP2009294938A JP2009294938A JP2008148389A JP2008148389A JP2009294938A JP 2009294938 A JP2009294938 A JP 2009294938A JP 2008148389 A JP2008148389 A JP 2008148389A JP 2008148389 A JP2008148389 A JP 2008148389A JP 2009294938 A JP2009294938 A JP 2009294938A
- Authority
- JP
- Japan
- Prior art keywords
- category
- document
- categories
- moving
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書分類部3の単語ベクトル生成部31は、文書の単語ベクトル生成処理、カテゴリ内の文書の単語ベクトル生成処理、カテゴリの単語ベクトル生成処理を行なう。分類・クラスタリング部32は文書の分類・クラスタリング処理を行なう。カテゴリ編集部4の移動カテゴリ候補提示部41は、移動操作の候補となるカテゴリを提示する。移動カテゴリ再分類部42は、移動したカテゴリと異なるカテゴリが持つ文書および当該異なるカテゴリの少なくとも一方を適切な分類形態となるように再分類する。移動カテゴリ名変更部43は、移動したカテゴリの名称を再分類後において適切な名称に変更する。
【選択図】 図1
Description
また、階層的に生成したカテゴリ構造の上位下位(親子)関係がユーザの意図に合わないことがある。また、カテゴリの同一階層(兄弟)に分類の観点が異なるカテゴリができてしまうことがある。
図1は、本発明の実施形態における文書分類装置の構成例を表すブロック図である。
図1に示すように、本発明の実施形態における文書分類装置は、装置全体の処理動作を司る制御部1、記憶装置2、文書分類部3、カテゴリ編集部4、キーボードやマウスなどの入力装置5およびディスプレイ装置などの出力装置6を備え、それぞれがバス7を介して相互に接続される。
また、文書分類部3の分類・クラスタリング部32は、文書とカテゴリの間の類似度を上述の単語ベクトルの類似度によって計算し、その類似度に基づいて文書を自動的に分類もしくはクラスタリングする手段である。
また、移動カテゴリ再分類部42は、ユーザが入力装置5を用いて移動操作を行ったカテゴリについて、移動前には当該移動後のカテゴリとは別のカテゴリが持っていた文書や下位カテゴリのうち、移動後には当該カテゴリが持つ方が適切なものや、逆に移動前には当該カテゴリが持っていた文書や下位カテゴリのうち、移動後には別のカテゴリが持つ方が適切なものを、自動的に再分類する。
記憶装置2の文書記憶部21には複数の文書の情報が記憶され、各文書は図2に示すように文書のユニークな識別子である文書番号、文書名、本文などの情報を持つ。また、本実施形態では文書の特徴を表す単語ベクトルも文書記憶部21にて文書毎に記憶する。その詳細については後述する。なお、本実施形態では発明の理解を容易にするために文書の特徴を単語ベクトルのみで表現しているが、例えば文書の属性情報(日時、種別、作成者など)を、文書を特徴付けるベクトルの要素としてもよい。
図3では3種類のカテゴリを示す。各カテゴリは当該カテゴリのユニークな識別子であるカテゴリ番号およびカテゴリ名を持つ。本実施形態では、カテゴリは0個または1個の親カテゴリつまりを持つとする。図3(a)に示したカテゴリはルートのカテゴリであるため親カテゴリを持たない。一方、図3(b)に示したカテゴリは、カテゴリ番号「C001」のカテゴリ、すなわち図3(a)で示したカテゴリを親に持ち、図3(c)に示したカテゴリはカテゴリ番号「C002」のカテゴリ、すなわち図3(b)で示したカテゴリを親カテゴリに持つ。また、各カテゴリが持つ文書の情報もカテゴリ記憶部22に記憶される。
ステップS16の処理後はステップS13の処理に戻る。単語ベクトル生成部31は未選択の単語tがなければ(ステップS13のYES)、ステップS1の処理を終了する。
そして単語ベクトル生成部31は、単語ベクトルvpdを単語ベクトルvpcに加える(ステップS35)。
ステップS4の処理の詳細について図8を参照して説明する。まず、分類・クラスタリング部32は、ユーザが入力装置5を用いて指定したカテゴリpが持つ文書集合を分類対象の文書集合とする(ステップS41)。カテゴリpは、既にいくつかの子カテゴリを持っていることもあるし、子カテゴリを1つも持っていないこともあるが、図8ではいずれの場合にも実行する処理の流れを記している。
図9は、本発明の実施形態における文書分類装置による移動すべきカテゴリの候補の提示画面の一例を示す図である。図10は、本発明の実施形態における文書分類装置による移動すべきカテゴリの候補を提示する処理動作の一例を示すフローチャートである。図10に示した処理は、図9に示した提示画面を生成するために、移動カテゴリ候補提示部41によって実行される処理動作である。
ステップS5の処理の詳細について説明する。図10は、このような特徴語を強調表示することで移動操作の候補となるカテゴリを提示する処理の流れを示す。まず、移動カテゴリ候補提示部41は、ユーザが入力装置5を用いて、あるカテゴリc1を選択すると(ステップS61)、全カテゴリ中の各カテゴリc2について未選択のカテゴリがあれば(ステップS62のNO)、未選択のうちいずれかのカテゴリc2を選択する。
図11から図14の図において楕円で示したものがカテゴリである。図11では、例えば図11ではカテゴリ81やカテゴリ82が楕円で示される。この楕円内に記した「検索」や「メール」が、当該カテゴリの名称、すなわち当該カテゴリの特徴を最もよく表す特徴語である。また、カテゴリ同士は親子関係(上位下位関係)を持ち、例えばカテゴリ81はカテゴリ82の親カテゴリであり、逆にカテゴリ81から見るとカテゴリ82は子カテゴリである。
第一に、例えば「メール」に関する特許文書がカテゴリ82、83、85に分散して分類されてしまい、ユーザはどのカテゴリにどのような文書があるかが分からない。
第二に、例えば図11に示した文書(a)と(d)のように、互いに類似した文書が別々のカテゴリに分類されてしまっている。
第三に、カテゴリ81「検索」の子カテゴリとして、「WWW」、「メール」、「自然文」、「要約」というカテゴリが作られているが、分類の観点がまちまちである。例えば「WWW」や「メール」はそれぞれ、「WWW検索」や「メールの検索」といった、「検索の対象(アプリケーション)」といった観点で特許文書を分類するものであるのに対し、「自然文」や「要約」は、「自然文検索」や「検索結果の要約」といった「検索の技術そのもの」に関わる特許文書を分類するカテゴリであり、それぞれ分類の観点が異なる。
その結果、ユーザは、自分の意図に合ったカテゴリの階層構造をカテゴリの移動という簡単な操作によって効率よく作成することができる。
図11で説明した例では、カテゴリcpはカテゴリ84であり、その文書(c)が図12に示したカテゴリ92に移動する。ここで、文書とカテゴリとの類似度は、両者の単語ベクトルの類似度(図8で説明したように、主に余弦)によって求める。
この場合、移動させる文書や子カテゴリの順序によって、再分類の結果が変わる可能性があるので、例えばステップS73からステップS78の処理では、カテゴリcに最も類似した文書あるいは子カテゴリから優先的に移動させるようにしてもよい。
ステップS7の処理の詳細について説明する。図16は、本発明の実施形態における文書分類装置によるカテゴリの移動に従いカテゴリの名称を変更する処理動作の一例を示すフローチャートである。図15で説明したように、カテゴリの移動に応じて再分類の処理が行われるので、当該カテゴリの単語ベクトルの内容も変化する。
したがって、祖先のカテゴリとの名称の重複が生じない場合であっても、カテゴリcの名称が当該カテゴリcの特徴をあまりよく表さない語になっている場合には、移動後の新しい特徴語を用いてカテゴリcの名称を変更してもよい。
Claims (5)
- 複数の文書を記憶する文書記憶手段と、
前記文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、
前記文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、
前記カテゴリ記憶手段に記憶されるカテゴリのうち指定されたカテゴリの移動先候補または前記指定されたカテゴリの下に移動するカテゴリの候補を提示する移動カテゴリ候補提示手段と、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリ以外のカテゴリに属する文書および当該カテゴリの少なくとも一方を適した分類形態となるように再分類する移動カテゴリ再分類手段と
を具備することを特徴とする文書分類装置。 - 前記移動カテゴリ再分類手段は、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリの移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、前記移動したカテゴリの移動先のカテゴリの上位カテゴリ、または前記移動先のカテゴリと共通の上位カテゴリを有する別カテゴリに各々属する文書のうち何れかの文書を当該移動したカテゴリに分類する
ことを特徴とする請求項1に記載の文書分類装置。 - 前記移動カテゴリ再分類手段は、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、前記移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、前記移動先のカテゴリの上位カテゴリ、または前記移動先のカテゴリと共通の上位カテゴリを有する別カテゴリが各々有する下位カテゴリのうち何れかのカテゴリを前記移動したカテゴリの下位カテゴリとする
ことを特徴とする請求項1に記載の文書分類装置。 - 前記移動カテゴリ再分類手段は、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリに属する文書のうち何れかの文書を、前記移動元のカテゴリの上位カテゴリ、前記移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、前記移動先のカテゴリの上位カテゴリ、または前記移動先のカテゴリと共通の上位カテゴリを有する別カテゴリのいずれかのカテゴリに分類する
ことを特徴とする請求項1に記載の文書分類装置。 - 前記移動カテゴリ再分類手段は、
前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリが有する下位カテゴリのうち何れかのカテゴリを、前記移動元のカテゴリの上位カテゴリ、前記移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、前記移動先のカテゴリの上位カテゴリ、または前記移動先のカテゴリと共通の上位カテゴリを有する別カテゴリのいずれかのカテゴリの下位カテゴリとする
ことを特徴とする請求項1に記載の文書分類装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008148389A JP5215046B2 (ja) | 2008-06-05 | 2008-06-05 | 文書分類装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008148389A JP5215046B2 (ja) | 2008-06-05 | 2008-06-05 | 文書分類装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009294938A true JP2009294938A (ja) | 2009-12-17 |
JP5215046B2 JP5215046B2 (ja) | 2013-06-19 |
Family
ID=41543067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008148389A Active JP5215046B2 (ja) | 2008-06-05 | 2008-06-05 | 文書分類装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5215046B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011198137A (ja) * | 2010-03-19 | 2011-10-06 | Toshiba Corp | 文書分類装置およびプログラム |
JP2011198111A (ja) * | 2010-03-19 | 2011-10-06 | Toshiba Corp | 特徴語抽出装置及びプログラム |
JP2012037936A (ja) * | 2010-08-03 | 2012-02-23 | Toshiba Corp | 文書分析装置およびプログラム |
JP2012256171A (ja) * | 2011-06-08 | 2012-12-27 | Sony Corp | 情報処理装置および情報処理方法 |
AU2016204420A1 (en) * | 2015-07-04 | 2017-01-19 | Accenture Global Services Limited | Generating a domain ontology using word embeddings |
JP2018106390A (ja) * | 2016-12-26 | 2018-07-05 | Kddi株式会社 | 分類器生成装置、分類器生成方法、及びコンピュータプログラム |
CN108597519A (zh) * | 2018-04-04 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 一种话单分类方法、装置、服务器和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000137723A (ja) * | 1998-10-30 | 2000-05-16 | Ricoh Co Ltd | 文書分類装置、文書分類方法及び文書分類プログラムを記録した媒体 |
JP2002117046A (ja) * | 2000-10-05 | 2002-04-19 | Just Syst Corp | 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2003196298A (ja) * | 2001-12-25 | 2003-07-11 | Fujitsu Ltd | 分野体系構築支援装置 |
JP2004030621A (ja) * | 2002-05-08 | 2004-01-29 | Toshiba Corp | 情報整理支援方法とそのためのプログラム |
JP2006285513A (ja) * | 2005-03-31 | 2006-10-19 | Hitachi Ltd | 情報処理支援システム及び情報処理支援プログラム |
-
2008
- 2008-06-05 JP JP2008148389A patent/JP5215046B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000137723A (ja) * | 1998-10-30 | 2000-05-16 | Ricoh Co Ltd | 文書分類装置、文書分類方法及び文書分類プログラムを記録した媒体 |
JP2002117046A (ja) * | 2000-10-05 | 2002-04-19 | Just Syst Corp | 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2003196298A (ja) * | 2001-12-25 | 2003-07-11 | Fujitsu Ltd | 分野体系構築支援装置 |
JP2004030621A (ja) * | 2002-05-08 | 2004-01-29 | Toshiba Corp | 情報整理支援方法とそのためのプログラム |
JP2006285513A (ja) * | 2005-03-31 | 2006-10-19 | Hitachi Ltd | 情報処理支援システム及び情報処理支援プログラム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011198137A (ja) * | 2010-03-19 | 2011-10-06 | Toshiba Corp | 文書分類装置およびプログラム |
JP2011198111A (ja) * | 2010-03-19 | 2011-10-06 | Toshiba Corp | 特徴語抽出装置及びプログラム |
JP2012037936A (ja) * | 2010-08-03 | 2012-02-23 | Toshiba Corp | 文書分析装置およびプログラム |
JP2012256171A (ja) * | 2011-06-08 | 2012-12-27 | Sony Corp | 情報処理装置および情報処理方法 |
AU2016204420A1 (en) * | 2015-07-04 | 2017-01-19 | Accenture Global Services Limited | Generating a domain ontology using word embeddings |
US10248718B2 (en) | 2015-07-04 | 2019-04-02 | Accenture Global Solutions Limited | Generating a domain ontology using word embeddings |
JP2018106390A (ja) * | 2016-12-26 | 2018-07-05 | Kddi株式会社 | 分類器生成装置、分類器生成方法、及びコンピュータプログラム |
CN108597519A (zh) * | 2018-04-04 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 一种话单分类方法、装置、服务器和存储介质 |
CN108597519B (zh) * | 2018-04-04 | 2020-12-29 | 百度在线网络技术(北京)有限公司 | 一种话单分类方法、装置、服务器和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5215046B2 (ja) | 2013-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bazan et al. | A new version of rough set exploration system | |
JP5215046B2 (ja) | 文書分類装置 | |
EP1622044B1 (en) | Selective multi level expansion of data base via pivot point data | |
JP3303926B2 (ja) | 構造化文書分類装置及び方法 | |
US9183436B2 (en) | Matching text to images | |
JP5160312B2 (ja) | 文書分類装置 | |
US7650575B2 (en) | Rich drag drop user interface | |
US7877425B2 (en) | Method for managing file using network structure, operation object display limiting program, and recording medium | |
JP5512489B2 (ja) | ファイル管理装置及びファイル管理方法 | |
JP5621773B2 (ja) | 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム | |
JP2000137601A (ja) | オブジェクト分析設計支援方法 | |
JP2007072528A (ja) | 文書構造解析方法、プログラム、装置 | |
KR101773574B1 (ko) | 데이터 테이블의 차트 시각화 방법 | |
JP6008693B2 (ja) | 情報処理装置及びその制御方法、プログラム | |
US20050210371A1 (en) | Method and system for creating a table version of a document | |
JP2005122295A (ja) | 関係図作成プログラム、関係図作成方法、および関係図作成装置 | |
KR20120099578A (ko) | 문서 내의 목록들의 재구성 | |
JP6173848B2 (ja) | 文書分類装置 | |
JP7281905B2 (ja) | 文書評価装置、文書評価方法及びプログラム | |
JP4745419B2 (ja) | 文書分類装置およびプログラム | |
JP4745424B2 (ja) | 文書分類装置及び文書分類プログラム | |
JPH0869473A (ja) | 文書管理装置および文書管理機能付きデータ処理装置 | |
JP5616865B2 (ja) | 文書分類方法 | |
JP5100777B2 (ja) | 文書分類装置およびプログラム | |
EP1574950A2 (en) | Structured task naming |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110223 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121113 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5215046 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160308 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |