JP2008287493A - 文書群組合せ装置、文書分類方法、プログラムおよび記録媒体 - Google Patents
文書群組合せ装置、文書分類方法、プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP2008287493A JP2008287493A JP2007131721A JP2007131721A JP2008287493A JP 2008287493 A JP2008287493 A JP 2008287493A JP 2007131721 A JP2007131721 A JP 2007131721A JP 2007131721 A JP2007131721 A JP 2007131721A JP 2008287493 A JP2008287493 A JP 2008287493A
- Authority
- JP
- Japan
- Prior art keywords
- document
- cluster
- distance
- recording unit
- recorded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書記録部に記録されている所定の文書に最も近い文書である最接近文書の識別子である最接近文書識別子と、上記所定の文書と、上記最接近文書との距離とを記録して、複数の文書が、距離付きのリンクで接続されている文書グラフ構造を記録し、上記文書間の距離を参照し、予め定められている閾値等に応じて、上記記録されている文書を、複数のクラスタに分割し、クラスタ内の各文書の文書識別子と、上記クラスタ内の文書間距離の最大値と、ユーザが複数のクラスタを組合せる指示を出すと、上記組合せる対象のクラスタに含まれている文書に付与される同一のIDである組合せIDとを記録する。
【選択図】図1
Description
1…文書記録部、
2…文書グラフ構造記録部、
3…文書グラフ構造更新部、
4…クラスタリング部、
5…クラスタ組合せ情報記録部、
6…クラスタ組合せ情報更新部、
7…初期クラスタ記録部、
8…クラスタ組合せ表示部、
9…制御部。
Claims (10)
- 文書記録部に記録されている所定の文書に最も近い文書である最接近文書の識別子である最接近文書識別子と、上記所定の文書と、上記最接近文書との距離との3つを1組として記録することによって、複数の文書が、距離付きのリンクで接続されている文書グラフ構造を記録する文書グラフ構造記録手段と;
上記文書グラフ構造記録手段に記録されている文書間の距離を参照し、予め定められている閾値、または、利用者が指定する閾値に応じて、上記文書グラフ構造記録手段に記録されている文書を、複数のクラスタに分割するクラスタリング手段と;
クラスタ内の各文書の文書識別子と、上記クラスタ内の文書間距離の最大値と、ユーザが複数のクラスタを組合せる指示を出すと、上記組合せる対象のクラスタに含まれている文書に付与される同一のIDである組合せIDとを記録するクラスタ組合せ情報記録手段と;
上記クラスタリング手段が生成したクラスタである初期クラスタを記録する初期クラスタ記録手段と;
を有することを特徴とする文書群組合せ装置。 - 請求項1において、
上記文書記録部に新たに入力された文書である新規文書と過去に入力済の文書との距離を算出し、上記最近接文書との距離とを、上記文書グラフ構造記録手段に記録させることによって、複数の文書が、距離付きのリンクで接続されている文書グラフ構造を更新する文書グラフ構造更新手段を有することを特徴とする文書群組合せ装置。 - 請求項1において、
上記新規文書の最近接文書が上記クラスタ組合せ情報記録手段に既に記録され、かつ上記新規文書と上記最近接文書との距離が、上記最近接文書と共に記録されている距離以下である場合に、上記新規文書を新規に記録するクラスタ組合せ情報更新手段を有することを特徴とする文書群組合せ装置。 - 請求項1において、
クラスタを組合せた結果を、画面上に表示するクラスタ組合せ表示手段を有することを特徴とする文書群組合せ装置。 - 請求項1において、
利用者が組合せることを望むクラスタを指定する操作部と、利用者が指定する各クラスタを構成する文書間のリンクについて、上記文書グラフ構造記録手段を参照して距離を獲得し、文書間距離の最大値を算出し、クラスタ内の各文書と、上記最大値と、上記組合せIDとを上記クラスタ組合せ情報記録手段に記録させべきかどうかを判断する判断部と、上記クラスタ組合せ情報記録手段に記録させべきであると判断すると、クラスタ内の各文書と、上記最大値と、上記組合せIDとを上記クラスタ組合せ情報記録手段に送信し、記録させる制御部とを具備する制御手段を有することを特徴とする文書群組合せ装置。 - 文書記録部に新たに入力された文書である新規文書の文書識別子とベクトルとを取得する段階と;
文書グラフ構造記録部に文書が既に蓄積されているか否かを判定する段階と;
新規文書が2番目以降に入力した文書であり、上記文書グラフ構造記録部に文書が既に記録されていれば、上記文書グラフ構造記録部に既に記録されている文書の文書IDを全て取得し、各文書のベクトルを、文書記録部から取得し、各ベクトルを新規文書のベクトルと比較し、文書間の距離を算出し、記憶装置に記憶する段階と;
上記算出した距離に基づいて、新規文書からの距離が最も小さい文書が、最近接文書であると判定し、上記新規文書の文書識別子と、上記最近接文書の識別子である最接近文書識別子と、上記2文書間の距離とを、上記文書グラフ構造記録部とクラスタ組合せ情報更新部とに送出する段階と;
上記文書グラフ構造記録部に文書が蓄積されていないと判断されると、上記新規文書の文書識別子のみを上記文書グラフ構造記録部に記録する段階と;
を有することを特徴とする文書分類方法。 - クラスタ内文書数が2以上であると判断されると、取得した各文書の文書IDに基づいて、文書グラフ構造記録部を参照し、クラスタを構成する各文書間の距離の最大値を取得し、記憶装置に記憶する段階と;
上記クラスタ内の文書の文書識別子が上記クラスタ組合せ情報記録部に記録済であり、上記文書識別子に対応して記録されている距離が、上記最大値よりも小さければ、上記クラスタ内の文書の文書識別子と、上記取得した距離の最大値とを対応付けし、上記クラスタ組合せ情報記録部に記録する段階と;
ユーザが複数のクラスタを組合せる指示を出すと、上記組合せる対象のクラスタに含まれている文書に、同一のIDである組合せID付与し、クラスタ組合せ情報記録部に、各文書と上記最大値と上記組合せIDとが存在すれば、記録しようとする距離と、既に記録されている距離とを比較し、記録しようとする距離が、既に記録されている距離よりも大きければ、上記記録しようとする距離を上書きする段階と;
を有することを特徴とする文書分類方法。 - 文書グラフ構造更新部から、文書記録部に新たに入力された文書である新規文書の文書識別子と、文書記録部に記録されている所定の文書に最も近い文書である最近接文書の識別子である最近接文書識別子と、上記所定の文書と上記最近接文書との2文書間の距離とを受け取ると、上記最近接文書識別子が、クラスタ組合せ情報記録部に存在するか否かを問い合わせる段階と;
上記最近接文書識別子が、クラスタ組合せ情報記録部に存在すれば、上記文書グラフ構造更新部から受け取った上記2文書間の距離と、クラスタ組合せ情報記録部において上記最近接文書と共に記録されている距離とを比較し、記憶装置に記憶する段階と;
文書グラフ構造更新部から受け取った上記2文書間の距離が、クラスタ組合せ情報記録部において最近接文書と共に記録されている距離以下であれば、新規文書をクラスタ組合せ情報記録部に記録する段階と;
を有することを特徴とする文書分類方法。 - 請求項6〜請求項8のうちの少なくとも1つの請求項に記載の方法をコンピュータに実行させるプログラム。
- 請求項6〜請求項8のうちの少なくとも1つの請求項に記載の方法をコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007131721A JP4559448B2 (ja) | 2007-05-17 | 2007-05-17 | 文書群組合せ装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007131721A JP4559448B2 (ja) | 2007-05-17 | 2007-05-17 | 文書群組合せ装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008287493A true JP2008287493A (ja) | 2008-11-27 |
JP4559448B2 JP4559448B2 (ja) | 2010-10-06 |
Family
ID=40147152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007131721A Active JP4559448B2 (ja) | 2007-05-17 | 2007-05-17 | 文書群組合せ装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4559448B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018179065A1 (ja) * | 2017-03-27 | 2018-10-04 | 株式会社日立製作所 | データ分析装置およびデータ分析方法 |
CN110717483A (zh) * | 2019-09-19 | 2020-01-21 | 浙江善政科技有限公司 | 网络图像识别处理方法,计算机可读存储介质和移动终端 |
-
2007
- 2007-05-17 JP JP2007131721A patent/JP4559448B2/ja active Active
Non-Patent Citations (4)
Title |
---|
CSNG200000042001, 竹谷 誠, "戦略的課題系列化法", 情報処理学会研究報告, 19980213, Vol.91 No.6, 第1頁乃至第8頁, JP, 社団法人情報処理学会 * |
CSNG200401752004, 神嶌 敏弘, "データマイニング分野のクラスタリング手法(1)", 人工知能学会誌, 20030101, 第18巻 第1号, 第59頁乃至第65頁, JP, (社)人工知能学会 * |
JPN6009063086, 竹谷 誠, "戦略的課題系列化法", 情報処理学会研究報告, 19980213, Vol.91 No.6, 第1頁乃至第8頁, JP, 社団法人情報処理学会 * |
JPN6009063087, 神嶌 敏弘, "データマイニング分野のクラスタリング手法(1)", 人工知能学会誌, 20030101, 第18巻 第1号, 第59頁乃至第65頁, JP, (社)人工知能学会 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018179065A1 (ja) * | 2017-03-27 | 2018-10-04 | 株式会社日立製作所 | データ分析装置およびデータ分析方法 |
JPWO2018179065A1 (ja) * | 2017-03-27 | 2019-04-11 | 株式会社日立製作所 | データ分析装置およびデータ分析方法 |
CN110717483A (zh) * | 2019-09-19 | 2020-01-21 | 浙江善政科技有限公司 | 网络图像识别处理方法,计算机可读存储介质和移动终端 |
CN110717483B (zh) * | 2019-09-19 | 2023-04-18 | 浙江善政科技有限公司 | 网络图像识别处理方法,计算机可读存储介质和移动终端 |
Also Published As
Publication number | Publication date |
---|---|
JP4559448B2 (ja) | 2010-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4752623B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US8174523B2 (en) | Display controlling apparatus and display controlling method | |
US10698917B2 (en) | Managing electronic slide decks | |
US9875245B2 (en) | Content item recommendations based on content attribute sequence | |
JP2010061600A (ja) | 推薦装置および方法、プログラム、並びに記録媒体 | |
CN101276365A (zh) | 用基于元数据的类别搜索内容的方法和装置及其记录介质 | |
US10656814B2 (en) | Managing electronic documents | |
US9679055B2 (en) | Method and system for constructing database based on mutual relations between video data | |
US8489571B2 (en) | Digital resources searching and mining through collaborative judgment and dynamic index evolution | |
US20180349449A1 (en) | Managing electronic slide decks | |
JP4559448B2 (ja) | 文書群組合せ装置 | |
CN103530311A (zh) | 对元数据进行优先次序排序的方法和装置 | |
JP2010102593A (ja) | 情報処理装置およびその方法、プログラム、記録媒体 | |
JP2008059383A (ja) | コンテンツ提示装置及びコンピュータプログラム | |
JP2004287835A (ja) | オブジェクト表作成方法及びオブジェクト推薦方法及びオブジェクト表作成プログラム及びオブジェクト推薦方法 | |
JP4936455B2 (ja) | 文書分類装置、文書分類方法、プログラムおよび記録媒体 | |
JP7139723B2 (ja) | 選定プログラム、選定方法および選定装置 | |
US20080141215A1 (en) | Computer Readable Medium and Methods for Filtering A Dynamic Comparison Model | |
JP5302529B2 (ja) | 情報処理装置及び情報処理方法、プログラム、記録媒体 | |
JP4369435B2 (ja) | 入出力サブシステムでの入出力命令のロード判断方法及び装置 | |
JP2007122180A (ja) | 階層化構造生成方法及び記憶装置 | |
KR102375668B1 (ko) | 그래프 표현 학습 모델의 생성 방법 | |
US10225459B2 (en) | Image reproducing apparatus that selects image from multiple images and reproduces same, method of controlling image reproducing apparatus, and storage medium | |
JP4477036B2 (ja) | 文書群マスク装置、文書群マスク方法、プログラムおよび記録媒体 | |
TWI780333B (zh) | 動態處理並播放多媒體內容的方法及多媒體播放裝置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091204 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100201 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100305 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100604 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100615 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100714 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100722 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4559448 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130730 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |