JP2009146158A - 文書分類装置の余分構造減退方法 - Google Patents
文書分類装置の余分構造減退方法 Download PDFInfo
- Publication number
- JP2009146158A JP2009146158A JP2007322635A JP2007322635A JP2009146158A JP 2009146158 A JP2009146158 A JP 2009146158A JP 2007322635 A JP2007322635 A JP 2007322635A JP 2007322635 A JP2007322635 A JP 2007322635A JP 2009146158 A JP2009146158 A JP 2009146158A
- Authority
- JP
- Japan
- Prior art keywords
- hierarchical structure
- node
- classification
- partial
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000008030 elimination Effects 0.000 title 1
- 238000003379 elimination reaction Methods 0.000 title 1
- 230000037430 deletion Effects 0.000 claims abstract description 18
- 238000012217 deletion Methods 0.000 claims abstract description 15
- 238000010801 machine learning Methods 0.000 claims abstract description 14
- 238000001514 detection method Methods 0.000 claims description 26
- 238000000926 separation method Methods 0.000 claims description 8
- 238000007796 conventional method Methods 0.000 abstract description 2
- 230000006866 deterioration Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 27
- 238000000547 structure data Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】本発明は、前記余分構造を減退させる方法において、文書分類に用いる階層構造中から複数の類似階層構造を検出し、その中から一の部分階層構造と、削除対象とする他の部分階層構造とを決定し、削除決定された部分階層構造から取得した事例集合を、削除しない部分階層構造の対応するノードに含まれる事例集合に追加し、削除決定された部分階層構造を削除することを特徴とする文書分類装置の余分構造減退方法である。
【選択図】 図10
Description
実施形態1は、主に請求項1、および、4などについて説明する。
実施形態2は、主に請求項2、および、5などについて説明する。
実施形態3は、主に請求項3、および、6などについて説明する。
<<実施形態1>>
<実施形態1の概要>
<発明の構成>
<実施形態1:効果>
<<実施形態2>>
<実施形態2の概要>
<実施形態2:構成>
<実施形態2:サブステップの説明>
<実施形態2の効果>
<<実施形態3>>
<実施形態3の概要>
<実施形態3の構成>
<実施形態3の効果>
1002 『内閣見解』という分類ラベルのノード
1003 事例集合A1
1004 事例集合B1
1005 事例集合A2
1006 事例集合C2の論理和処理が行われた状態
1007 『年金』という分類ラベルのノード
1008 『投資信託』という分類ラベルのノード
1009 『金融庁見解』という分類ラベルのノード
1010 事例集合C1
1011 事例集合C2
1012 『内閣見解』という分類ラベルのノード
1013 事例集合D1
1014 事例集合のコピー
Claims (6)
- 論理的分類構造である階層構造に機械学習手法を用いて文書分類を行う文書分類装置の前記階層構造内の余分構造を減退させる方法において、
文書分類の論理的分類構造である階層構造を取得する階層構造取得ステップと、
取得した階層構造を構成する複数の部分階層構造の中から互いに類似構造をなす複数の類似階層構造を検出する類似階層構造検出ステップと、
検出された複数の類似階層構造の中から一の部分階層構造と、削除対象とする他の部分階層構造とを決定する決定ステップと、
決定ステップにて削除対象として決定された部分階層構造の各ノードに含まれる分類のための情報である事例集合を取得する事例集合取得ステップと、
取得した事例集合を、削除対象としない一方の部分階層構造の対応するノードに含まれる事例集合に追加する追加ステップと、
削除対象として決定された部分階層構造を文書分類のための階層構造から削除する削除ステップと、
を有する文書分類装置の余分構造減退方法。 - 類似階層構造検出ステップは、各ノードの分類ラベルの類似を判断して部分階層構造の類似を判断するものであり、各ノードの分類ラベルの比較を
分類ラベル文字列が完全一致するかにより判断する完全一致判断ステップ、
分類ラベルを句読点等で分離した文字列が完全一致するかにより判断する分離判断ステップと、
分類ラベルの意味が一致するかにより判断する意味判断ステップ
のいずれかのサブステップにて実行する請求項1に記載の文書分類装置の余分構造減退方法。 - 類似階層構造検出ステップは、前記分類ラベルの比較によって類似すると判断されるノードが反復出現するかを各規模の部分階層構造ごとにソートすることで行う部分階層構造ソートステップをさらに有する請求項2に記載の文書分類装置の余分構造減退方法。
- 論理的分類構造である階層構造に機械学習手法を用いて文書分類を行う文書分類装置の前記階層構造内の余分構造を減退させる装置において、
文書分類装置の論理的分類構造である階層構造を取得する階層構造取得部と、
取得した階層構造の中から類似構造をなす複数の部分階層構造を検出する類似階層構造検出部と、
検出された複数の類似階層構造の中から一の部分階層構造と、削除対象とする他の部分階層構造とを決定する決定部と、
決定部にて削除対象として決定された部分階層構造の各ノードに含まれる分類のための情報である事例集合を取得する事例集合取得部と、
取得した事例集合を、削除対象としない一方の部分階層構造の対応するノードに含まれる事例集合に追加する追加部と、
削除対象として決定された部分階層構造を文書分類装置の文書分類のための階層構造から削除する削除部と、
を有する文書分類装置の余分構造減退装置。 - 類似階層構造検出部は、各ノードの分類ラベルの類似を判断して部分階層構造の類似を判断するものであり、各ノードの分類ラベルの比較を
分類ラベル文字列が完全一致するかにより判断する完全一致判断手段、
分類ラベルを句読点等で分離した文字列が完全一致するかにより判断する分離判断手段、
分類ラベルの意味が一致するかにより判断する意味判断手段、
のいずれか一を有する請求項4に記載の文書分類装置の余分構造減退装置。 - 類似階層構造検出部は、前記分類ラベルの比較によって類似すると判断されるノードが反復出現するかを各規模の部分階層構造ごとにソートすることで行う部分階層構造ソート手段をさらに有する請求項5に記載の文書分類装置の余分構造減退装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007322635A JP4895988B2 (ja) | 2007-12-13 | 2007-12-13 | 文書分類装置の余分構造減退方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007322635A JP4895988B2 (ja) | 2007-12-13 | 2007-12-13 | 文書分類装置の余分構造減退方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009146158A true JP2009146158A (ja) | 2009-07-02 |
JP4895988B2 JP4895988B2 (ja) | 2012-03-14 |
Family
ID=40916695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007322635A Active JP4895988B2 (ja) | 2007-12-13 | 2007-12-13 | 文書分類装置の余分構造減退方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4895988B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012064204A (ja) * | 2010-08-18 | 2012-03-29 | Canon Inc | 情報処理装置、情報処理方法およびプログラム |
US10311867B2 (en) | 2015-03-20 | 2019-06-04 | Kabushiki Kaisha Toshiba | Tagging support apparatus and method |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005063332A (ja) * | 2003-08-19 | 2005-03-10 | Fujitsu Ltd | 情報体系対応付け装置および対応付け方法。 |
-
2007
- 2007-12-13 JP JP2007322635A patent/JP4895988B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005063332A (ja) * | 2003-08-19 | 2005-03-10 | Fujitsu Ltd | 情報体系対応付け装置および対応付け方法。 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012064204A (ja) * | 2010-08-18 | 2012-03-29 | Canon Inc | 情報処理装置、情報処理方法およびプログラム |
US10311867B2 (en) | 2015-03-20 | 2019-06-04 | Kabushiki Kaisha Toshiba | Tagging support apparatus and method |
Also Published As
Publication number | Publication date |
---|---|
JP4895988B2 (ja) | 2012-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101201037B1 (ko) | 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증 | |
US9355171B2 (en) | Clustering of near-duplicate documents | |
US10445359B2 (en) | Method and system for classifying media content | |
CN102402584B (zh) | 多语言文本中的语言识别 | |
Urvoy et al. | Tracking web spam with html style similarities | |
US10360294B2 (en) | Methods and systems for efficient and accurate text extraction from unstructured documents | |
JP5492187B2 (ja) | 編集距離および文書情報を使用する検索結果順位付け | |
US7937338B2 (en) | System and method for identifying document structure and associated metainformation | |
US20070230787A1 (en) | Method for automated processing of hard copy text documents | |
CN107463548B (zh) | 短语挖掘方法及装置 | |
JP2005526317A (ja) | ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム | |
CN112231494B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN110427884A (zh) | 文档篇章结构识别方法、装置、设备和存储介质 | |
Sivakumar | Effectual web content mining using noise removal from web pages | |
CN116738988A (zh) | 文本检测方法、计算机设备和存储介质 | |
US20200012722A1 (en) | System for real-time expression of semantic mind map, and operation method therefor | |
US20070112839A1 (en) | Method and system for expansion of structured keyword vocabulary | |
JP2000200287A (ja) | 文書検索装置 | |
JP4895988B2 (ja) | 文書分類装置の余分構造減退方法 | |
JP2007025939A (ja) | 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム | |
Hamdi et al. | Machine learning vs deterministic rule-based system for document stream segmentation | |
Klampfl et al. | Reconstructing the logical structure of a scientific publication using machine learning | |
JP4196824B2 (ja) | 情報区分装置、情報区分方法及び情報区分プログラム | |
JP4394517B2 (ja) | 特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置 | |
El-Barbary | Arabic news classification using field association words |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090327 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110912 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111208 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4895988 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150106 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |