JP2008305268A - 文書分類装置及び分類方法 - Google Patents
文書分類装置及び分類方法 Download PDFInfo
- Publication number
- JP2008305268A JP2008305268A JP2007153244A JP2007153244A JP2008305268A JP 2008305268 A JP2008305268 A JP 2008305268A JP 2007153244 A JP2007153244 A JP 2007153244A JP 2007153244 A JP2007153244 A JP 2007153244A JP 2008305268 A JP2008305268 A JP 2008305268A
- Authority
- JP
- Japan
- Prior art keywords
- document
- classification
- category
- viewpoint
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】自動分類によって得られる表形式の分類マップに対して、ユーザがあるカテゴリから別のカテゴリに文書を移動させると、その文書と移動先のカテゴリとの間に同分類制約文書を設定する。この同分類制約文書は、移動先のカテゴリに含まれる文書により求めた重心を新たな文書として作成し、その作成された文書と被移動文書との間で設定する。上記同分類制約文書で結んだ2文書のうち、被移動文書には移動フラグを設定する。手動による分類修正後の自動分類では、各文書をベクトルの類似度に従って分類するが、ある文書に同分類制約文書で結ばれた文書が存在し、かつ、それらの文書間で類似度による分類結果が異なる場合には、移動フラグのある文書を移動フラグのない文書と同じカテゴリに属させる。
【選択図】図1
Description
固定フラグ生成部201は、ユーザからカテゴリ固定指示があった場合に、対象とする文書に固定フラグを生成する。移動フラグ生成部202は、ユーザがあるカテゴリから別のカテゴリへと文書を移動した場合に、対象とする文書に移動フラグを生成する。カテゴリ分割制御部203は、カテゴリを複数に分割し、分割したカテゴリへの文書の移動を行った場合の固定フラグと移動フラグの制御を行う。カテゴリ結合制御部204は、複数のカテゴリを1つに集約した場合の固定フラグと移動フラグの制御を行う。
・Case1:移動フラグが0、かつ同分類制約文書idが0、
・Case2:移動フラグが0、かつ同分類制約文書idが1以上、
・Case3:移動フラグが1以上、かつ同分類制約文書idが0、
・Case4:移動フラグが1以上、かつ同分類制約文書idが1以上
の場合である。まず、Case1は対象とする文書の移動が1度も行われていない場合であり、同分類制約文書は生成せずに処理を終了する(S502→No)。Case2は、過去に移動が行われたことがあるが、直前の手動分類操作では移動が行われなかった文書の場合であり、これについても同分類制約文書を生成せずに処理を終了する(S502→No)。Case3は、その文書に初めて移動があった場合であり、同分類制約文書生成処理を実行する(S503→No)。Case4は、過去に移動が行われことがあり、かつ直前の手動分類においても移動が行われた場合であり(例えば、手動による文書の移動→機械分類実行→該文書を再度手動により移動→機械分類実行、とした場合)、この場合は直前の移動処理を優先するため、現在保持している同分類制約文書を削除し、直前の移動処理に従って新規に同分類制約文書を生成する(S503→Yes)。
通信 端末 キャリア ターミナル ‥‥ 輻輳 ‥‥
(8+7+8)/3 (4+3+3)/3 (0+0+0)/3 (1+2+1)/3 ‥‥ (0+0+0)/3 ‥‥
上述した第一の実施例に係る発明によれば、手動による文書移動に対して、移動先のカテゴリの重心と被移動文書を同分類制約文書で結ぶことにより、カテゴリに対する分類の制約を可能とした。また、この同分類制約文書と移動フラグ、固定フラグを組み合わせることで、繰り返し行う機械分類の際にも、ユーザが指定したカテゴリへと分類が可能となり、得られる分類マップにユーザの分類意図を反映した精度の高い文書分類マップを作成することができる。
Claims (14)
- 文書データベース内の文書をカテゴリ分けした分類マップを表示する表示部と、
前記表示部に表示された分類マップに対して操作を行う操作入力部と、
前記文書データベース中の文書を与えられた数のカテゴリに分類分けする初期分類と、その後前記操作入力部によって加えられた修正を反映した再分類とを実行する機械分類制御部と、
同分類制約文書生成部とを有し、
前記初期分類において、前記機械分類制御部は、文書に含まれる単語を要素とし単語の出現頻度に基づいて計算した数値を要素の値とするベクトル間の類似度をもとに前記文書データベース中の文書を前記与えられた数のカテゴリに分類分けし、
前記操作入力部によって、あるカテゴリに属する文書を他のカテゴリに移動する操作が行われたとき、
前記同分類制約文書生成部は、移動先のカテゴリに属する文書群の重心ベクトルに対応する同分類制約文書を生成し、前記移動された文書を前記同分類制約文書に関連付けし、
前記機械分類制御部は、各カテゴリに属する文書群の重心ベクトルをそれぞれ計算し、文書を表すベクトルと前記重心ベクトルとの類似度により各文書を対応するカテゴリに再分類すると共に前記移動された文書を当該文書が関連付けられた同分類制約文書と同じカテゴリに分類し、
前記表示部に前記機械分類制御部による再分類の結果を反映した分類マップを表示する
ことを特徴とする文書分類装置。 - 請求項1記載の文書分類装置において、前記分類マップは、一方の軸にカテゴリを配置し他方の軸に文書の書誌事項の情報を配置した2次元マップであることを特徴とする文書分類装置。
- 請求項1記載の文書分類装置において、前記操作入力部によって特定の文書を現在のカテゴリに固定する操作が行われたとき、当該文書に対しては前記再分類によるカテゴリの変更を行わないことを特徴とする文書分類装置。
- 請求項1記載の文書分類装置において、前記操作入力部によって新規なカテゴリが作成され、1つのカテゴリに属する文書群の一部を前記新規なカテゴリに移す操作が行われたとき、前記新規なカテゴリに移された文書群の各文書に対して、前記あるカテゴリに属する文書を他のカテゴリに移動する操作が行われたときと同様の処理を行うことを特徴とする文書分類装置。
- 請求項1記載の文書分類装置において、前記操作入力部によって複数のカテゴリを1つに集約する操作が行われたとき、前記再分類に際して集約されるカテゴリ間での文書の移動履歴を考慮しないことを特徴とする文書分類装置。
- 請求項1記載の文書分類装置において、前記同分類制約文書として、重心ベクトルが移動先のカテゴリに属する文書群の重心ベクトルに略等しい複数の文書を用いることを特徴とする文書分類装置。
- 文書データベース内の文書を、一方の軸に第1の観点でのカテゴリを配置し他方の軸に第2の観点でのカテゴリを配置してカテゴリ分けした2次元の分類マップを表示する表示部と、
文書中の前記第1の観点に関する記述のある部位に含まれる単語を要素とし単語の出現頻度に基づいて計算した数値を要素の値とする第1のベクトルを生成し、前記第2の観点に関する記述のある部位に含まれる単語を要素とし単語の出現頻度に基づいて計算した数値を要素の値とする第2のベクトルを生成する特徴ベクトル生成部と、
前記表示部に表示された分類マップに対して操作を行う操作入力部と、
前記文書データベース中の文書を与えられた数の第1の観点のカテゴリと第2の観点のカテゴリに分類分けする初期分類と、その後前記操作入力部によって加えられた修正を反映した再分類とを実行する機械分類制御部と、
同分類制約文書生成部とを有し、
前記初期分類において、前記機械分類制御部は、前記第1のベクトル間の類似度をもとに前記文書データベース中の文書を前記与えられた数の第1の観点のカテゴリに分類分けすると共に、前記第2のベクトル間の類似度をもとに前記文書データベース中の文書を前記与えられた数の第2の観点のカテゴリに分類分けし、
前記操作入力部によって、前記第1の観点のあるカテゴリに属する文書を当該第1の観点の他のカテゴリに移動する操作が行われたとき、
前記同分類制約文書生成部は、移動先のカテゴリに属する文書群の第1のベクトルの重心ベクトルに対応する同分類制約文書を生成し、前記移動された文書を前記同分類制約文書に関連付けし、
前記機械分類制御部は、前記第1の観点の各カテゴリに属する文書群の第1のベクトルの重心ベクトルをそれぞれ計算し、各文書を当該文書の前記第1のベクトルと前記重心ベクトルとの類似度により対応する第1の観点のカテゴリに再分類すると共に、前記移動された文書を当該文書が関連付けられた同分類制約文書と同じ第1の観点のカテゴリに分類し、
前記表示部に前記機械分類制御部による再分類の結果を反映した分類マップを表示し、
前記操作入力部によって、前記第2の観点のあるカテゴリに属する文書を当該第2の観点の他のカテゴリに移動する操作が行われたとき、
前記同分類制約文書生成部は、移動先のカテゴリに属する文書群の第2のベクトルの重心ベクトルに対応する同分類制約文書を生成し、前記移動された文書を前記同分類制約文書に関連付けし、
前記機械分類制御部は、前記第2の観点の各カテゴリに属する文書群の第2のベクトルの重心ベクトルをそれぞれ計算し、各文書を当該文書の前記第2のベクトルと前記重心ベクトルとの類似度により対応する第2の観点のカテゴリに再分類する共に、前記移動された文書を当該文書が関連付けられた同分類制約文書と同じ第2の観点のカテゴリに分類し、
前記表示部に前記機械分類制御部による再分類の結果を反映した分類マップを表示することを特徴とする文書分類装置。 - 文書データベース内の文書をカテゴリ分けした分類マップを表示する表示部と、前記表示部に表示された分類マップに対して操作を行う操作入力部と、機械分類制御部とを有する文書分類装置による文書分類方法であって、
前記機械分類制御部により、文書に含まれる単語を要素とし単語の出現頻度に基づいて計算した数値を要素の値とするベクトル間の類似度をもとに前記文書データベース中の文書を前記与えられた数のカテゴリに分類分けする初期分類工程と、
前記操作入力部による、あるカテゴリに属する文書を他のカテゴリに移動する操作を受け付ける工程と、
移動先のカテゴリに属する文書群の重心ベクトルに対応する同分類制約文書を生成し、前記移動された文書を前記同分類制約文書に関連付けする工程と、
前記機械分類制御部により、各カテゴリに属する文書群の重心ベクトルをそれぞれ計算し、文書を表すベクトルと前記重心ベクトルとの類似度により各文書を対応するカテゴリに再分類すると共に、前記移動された文書を当該文書が関連付けられた同分類制約文書と同じカテゴリに分類する工程と、
前記表示部に前記機械分類制御部による再分類の結果を反映した分類マップを表示する工程と
を有することを特徴とする文書分類方法。 - 請求項8記載の文書分類方法において、前記分類マップは、一方の軸にカテゴリを配置し他方の軸に文書の書誌事項の情報を配置した2次元マップであることを特徴とする文書分類方法。
- 請求項8記載の文書分類方法において、前記操作入力部によって特定の文書を現在のカテゴリに固定する操作が行われたとき、当該文書に対しては前記再分類によるカテゴリの変更を行わないことを特徴とする文書分類方法。
- 請求項8記載の文書分類方法において、
前記操作入力部による新規なカテゴリの作成を受け付ける工程と、
1つのカテゴリに属する文書群の一部を前記新規なカテゴリに移す操作を受け付ける工程と、
前記新規なカテゴリに移された文書群の各文書に対して、前記あるカテゴリに属する文書を他のカテゴリに移動する操作が行われたときと同様の処理を行う工程と
を有することを特徴とする文書分類方法。 - 請求項8記載の文書分類方法において、
前記操作入力部による複数のカテゴリを1つに集約する操作を受け付ける工程と、
集約されるカテゴリ間での文書の移動履歴を削除する工程と
を有することを特徴とする文書分類方法。 - 請求項8記載の文書分類方法において、前記同分類制約文書として、重心ベクトルが移動先のカテゴリに属する文書群の重心ベクトルに略等しい複数の文書を用いることを特徴とする文書分類方法。
- 文書データベース内の文書を、一方の軸に第1の観点でのカテゴリを配置し他方の軸に第2の観点でのカテゴリを配置してカテゴリ分けした2次元の分類マップを表示する表示部と、前記表示部に表示された分類マップに対して操作を行う操作入力部と、機械分類制御部とを有する文書分類装置による文書分類方法であって、
前記第1の観点とその数及び第2の観点とその数を入力する工程と、
文書データベース内の各文書について、前記第1の観点に関する記述のある部位に含まれる単語を要素とし単語の出現頻度に基づいて計算した数値を要素の値とする第1のベクトルを生成し、前記第2の観点に関する記述のある部位に含まれる単語を要素とし単語の出現頻度に基づいて計算した数値を要素の値とする第2のベクトルを生成する工程と、
前記機械分類制御部により、前記第1のベクトル間の類似度をもとに前記文書データベース中の文書を前記与えられた数の第1の観点のカテゴリに分類分けすると共に、前記第2のベクトル間の類似度をもとに前記文書データベース中の文書を前記与えられた数の第2の観点のカテゴリに分類分けする初期分類を行う工程と、
前記初期分類の結果を前記表示部に分類マップとして表示する工程と、
前記操作入力部による、カテゴリ間での文書の移動操作を受け付ける工程とを有し、
前記文書の移動操作が前記第1の観点のカテゴリ間での移動であるとき、
移動先のカテゴリに属する文書群の第1のベクトルの重心ベクトルに対応する同分類制約文書を生成し、前記移動された文書を前記同分類制約文書に関連付けする工程と、
前記機械分類制御部により、前記第1の観点の各カテゴリに属する文書群の第1のベクトルの重心ベクトルをそれぞれ計算し、各文書を当該文書の前記第1のベクトルと前記重心ベクトルとの類似度により対応する第1の観点のカテゴリに再分類する共に前記移動された文書を当該文書が関連付けられた同分類制約文書と同じ第1の観点のカテゴリに分類する工程と、
前記表示部に前記機械分類制御部による再分類の結果を反映した分類マップを表示する工程とを実行し、
前記文書の移動操作が前記第2の観点のカテゴリ間での移動であるとき、
移動先のカテゴリに属する文書群の第2のベクトルの重心ベクトルに対応する同分類制約文書を生成し、前記移動された文書を前記同分類制約文書に関連付けする工程と、
前記機械分類制御部により、前記第2の観点の各カテゴリに属する文書群の第2のベクトルの重心ベクトルをそれぞれ計算し、各文書を当該文書の前記第2のベクトルと前記重心ベクトルとの類似度により対応する第2の観点のカテゴリに再分類すると共に前記移動された文書を当該文書が関連付けられた同分類制約文書と同じ第2の観点のカテゴリに分類する工程と、
前記表示部に前記機械分類制御部による再分類の結果を反映した分類マップを表示する工程とを実行する
ことを特徴とする文書分類方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007153244A JP4309933B2 (ja) | 2007-06-08 | 2007-06-08 | 文書分類装置及び分類方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007153244A JP4309933B2 (ja) | 2007-06-08 | 2007-06-08 | 文書分類装置及び分類方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008305268A true JP2008305268A (ja) | 2008-12-18 |
JP4309933B2 JP4309933B2 (ja) | 2009-08-05 |
Family
ID=40233919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007153244A Expired - Fee Related JP4309933B2 (ja) | 2007-06-08 | 2007-06-08 | 文書分類装置及び分類方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4309933B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182253A (ja) * | 2009-02-09 | 2010-08-19 | Hitachi Ltd | 文書分類装置及び文書分類方法 |
CN103207893A (zh) * | 2013-03-13 | 2013-07-17 | 北京工业大学 | 基于向量组映射的两类文本的分类方法 |
JP2014120140A (ja) * | 2012-12-19 | 2014-06-30 | Fujitsu Ltd | クラスタ処理方法、クラスタ処理装置およびプログラム |
JP5647602B2 (ja) * | 2009-04-27 | 2015-01-07 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | データ処理装置、データ処理方法、プログラム、及び集積回路 |
US10803091B2 (en) | 2014-10-20 | 2020-10-13 | Alibaba Group Holding Limited | Method and device for determining a category directory, and an automatic classification method and device |
US11615126B2 (en) | 2019-09-06 | 2023-03-28 | Kabushiki Kaisha Toshiba | Analyzing apparatus, analyzing method, and computer program product |
-
2007
- 2007-06-08 JP JP2007153244A patent/JP4309933B2/ja not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182253A (ja) * | 2009-02-09 | 2010-08-19 | Hitachi Ltd | 文書分類装置及び文書分類方法 |
JP5647602B2 (ja) * | 2009-04-27 | 2015-01-07 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | データ処理装置、データ処理方法、プログラム、及び集積回路 |
JP2014120140A (ja) * | 2012-12-19 | 2014-06-30 | Fujitsu Ltd | クラスタ処理方法、クラスタ処理装置およびプログラム |
CN103207893A (zh) * | 2013-03-13 | 2013-07-17 | 北京工业大学 | 基于向量组映射的两类文本的分类方法 |
CN103207893B (zh) * | 2013-03-13 | 2016-05-25 | 北京工业大学 | 基于向量组映射的两类文本的分类方法 |
US10803091B2 (en) | 2014-10-20 | 2020-10-13 | Alibaba Group Holding Limited | Method and device for determining a category directory, and an automatic classification method and device |
US11615126B2 (en) | 2019-09-06 | 2023-03-28 | Kabushiki Kaisha Toshiba | Analyzing apparatus, analyzing method, and computer program product |
Also Published As
Publication number | Publication date |
---|---|
JP4309933B2 (ja) | 2009-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022116537A1 (zh) | 一种资讯推荐方法、装置、电子设备和存储介质 | |
JP4878178B2 (ja) | データ処理方法および装置並びにその処理プログラム | |
JP3001460B2 (ja) | 文書分類装置 | |
WO2018072071A1 (zh) | 知识图谱构建系统及方法 | |
JP4309933B2 (ja) | 文書分類装置及び分類方法 | |
JP2017500664A (ja) | 多ディメンション・データー構造に対する実行のためのクエリー構築 | |
CN101208694A (zh) | 信息解析报告书自动生成装置、信息解析报告书自动生成程序以及信息解析报告书自动生成方法 | |
US20150199567A1 (en) | Document classification assisting apparatus, method and program | |
CN105612513A (zh) | 图像检索方法、图像检索系统以及信息记录介质 | |
AU2014228754B2 (en) | Non-deterministic disambiguation and matching of business locale data | |
JP2007206771A (ja) | 情報要素処理プログラム、情報要素処理方法及び情報要素処理装置 | |
JP2009122723A (ja) | 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法 | |
JP2003519841A (ja) | 情報モデリング方法及び情報モデリングにより構築されたデータベースを用いて検索を行う方法 | |
CN103970815A (zh) | 语音输入和输出数据库搜索方法和设备 | |
JP2008146424A (ja) | Xml文書の適合度の算出方法およびそのプログラムと、情報処理装置 | |
CN110874366B (zh) | 数据处理、查询方法和装置 | |
JP2016027493A (ja) | 文書分類支援装置、方法及びプログラム | |
KR100609022B1 (ko) | 공간관계와 주석을 이용한 이미지 검색 방법 | |
CN115659477B (zh) | 一种基于bim模型的数据提取方法、装置、设备及存储介质 | |
JP5112027B2 (ja) | 文書群提示装置および文書群提示プログラム | |
JP2011100208A (ja) | 行動推定装置、行動推定方法および行動推定プログラム | |
RU2433467C1 (ru) | Способ формирования структуры агрегированных данных и способ поиска данных посредством структуры агрегированных данных в системе управления базами данных | |
CN106815320A (zh) | 基于拓展三维直方图的调研大数据可视化建模方法及系统 | |
JPH10111869A (ja) | 情報分類装置とその方法 | |
US20200301930A1 (en) | Support system, storage medium, and method for presenting relationships of items |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081006 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20081006 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20081022 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090113 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090421 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090508 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120515 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120515 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130515 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130515 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |