JP4895988B2 - 文書分類装置の余分構造減退方法 - Google Patents
文書分類装置の余分構造減退方法 Download PDFInfo
- Publication number
- JP4895988B2 JP4895988B2 JP2007322635A JP2007322635A JP4895988B2 JP 4895988 B2 JP4895988 B2 JP 4895988B2 JP 2007322635 A JP2007322635 A JP 2007322635A JP 2007322635 A JP2007322635 A JP 2007322635A JP 4895988 B2 JP4895988 B2 JP 4895988B2
- Authority
- JP
- Japan
- Prior art keywords
- hierarchical structure
- node
- classification
- partial
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 51
- 238000001514 detection method Methods 0.000 claims description 27
- 230000037430 deletion Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 16
- 238000012217 deletion Methods 0.000 claims description 15
- 238000010801 machine learning Methods 0.000 claims description 13
- 238000000926 separation method Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000000877 morphologic effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 27
- 238000000547 structure data Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
実施形態1は、主に請求項1、および、4などについて説明する。
実施形態2は、主に請求項2、および、5などについて説明する。
実施形態3は、主に請求項3、および、6などについて説明する。
<<実施形態1>>
<実施形態1の概要>
<発明の構成>
<実施形態1:効果>
<<実施形態2>>
<実施形態2の概要>
<実施形態2:構成>
<実施形態2:サブステップの説明>
<実施形態2の効果>
<<実施形態3>>
<実施形態3の概要>
<実施形態3の構成>
<実施形態3の効果>
1002 『内閣見解』という分類ラベルのノード
1003 事例集合A1
1004 事例集合B1
1005 事例集合A2
1006 事例集合C2の論理和処理が行われた状態
1007 『年金』という分類ラベルのノード
1008 『投資信託』という分類ラベルのノード
1009 『金融庁見解』という分類ラベルのノード
1010 事例集合C1
1011 事例集合C2
1012 『内閣見解』という分類ラベルのノード
1013 事例集合D1
1014 事例集合のコピー
Claims (6)
- 論理的分類構造である階層構造に機械学習手法を用いて文書分類を行う文書分類装置の前記階層構造内の余分構造を減退させる方法において、
文書分類の論理的分類構造である階層構造を演算装置が取得する階層構造取得ステップと、
取得した階層構造を構成する複数の部分階層構造の中から互いに類似構造をなす複数の類似階層構造を演算装置の演算処理によって検出する類似階層構造検出ステップと、
検出された複数の類似階層構造の中から一の部分階層構造と、削除対象とする他の部分階層構造とを演算装置の演算処理によって決定する決定ステップと、
決定ステップにて削除対象として決定された部分階層構造の各ノードに含まれる分類のための情報である事例集合を演算装置が取得する事例集合取得ステップと、
取得した事例集合を、削除対象としない一方の部分階層構造の対応するノードに含まれる事例集合に演算装置の演算処理によって追加する追加ステップと、
削除対象として決定された部分階層構造を、演算装置の演算処理によって文書分類のための階層構造から削除する削除ステップと、
を有する文書分類装置の余分構造減退方法。 - 類似階層構造検出ステップは、各ノードの分類ラベルの類似を判断して部分階層構造の類似を判断するものであり、各ノードの分類ラベルの比較を
分類ラベル文字列が完全一致するかにより判断する完全一致判断ステップ、
分類ラベルを形態素解析により分離した文字列が完全一致するかにより判断する分離判断ステップと、
分類ラベルの意味が一致するかにより判断する意味判断ステップのいずれかのサブステップにて実行する請求項1に記載の文書分類装置の余分構造減退方法。 - 類似階層構造検出ステップは、前記分類ラベルの比較によって類似すると判断されるノードが反復出現するか否かの判断を各規模の部分階層構造ごとにソートすることで行う部分階層構造ソートステップをさらに有する請求項2に記載の文書分類装置の余分構造減退方法。
- 論理的分類構造である階層構造に機械学習手法を用いて文書分類を行う文書分類装置の前記階層構造内の余分構造を減退させる装置において、
文書分類の論理的分類構造である階層構造を取得する階層構造取得部と、
取得した階層構造の中から類似構造をなす複数の部分階層構造を検出する類似階層構造検出部と、
検出された複数の類似階層構造の中から一の部分階層構造と、削除対象とする他の部分階層構造とを決定する決定部と、
決定部にて削除対象として決定された部分階層構造の各ノードに含まれる分類のための情報である事例集合を取得する事例集合取得部と、
取得した事例集合を、削除対象としない一方の部分階層構造の対応するノードに含まれる事例集合に追加する追加部と、
削除対象として決定された部分階層構造を文書分類装置の文書分類のための階層構造から削除する削除部と、
を有する文書分類装置の余分構造減退装置。 - 類似階層構造検出部は、各ノードの分類ラベルの類似を判断して部分階層構造の類似を判断するものであり、各ノードの分類ラベルの比較を
分類ラベル文字列が完全一致するかにより判断する完全一致判断手段、
分類ラベルを形態素解析により分離した文字列が完全一致するかにより判断する分離判断手段、
分類ラベルの意味が一致するかにより判断する意味判断手段のいずれか一を有する請求項4に記載の文書分類装置の余分構造減退装置。 - 類似階層構造検出部は、前記分類ラベルの比較によって類似すると判断されるノードが反復出現するか否かの判断を各規模の部分階層構造ごとにソートすることで行う部分階層構造ソート手段をさらに有する請求項5に記載の文書分類装置の余分構造減退装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007322635A JP4895988B2 (ja) | 2007-12-13 | 2007-12-13 | 文書分類装置の余分構造減退方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007322635A JP4895988B2 (ja) | 2007-12-13 | 2007-12-13 | 文書分類装置の余分構造減退方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009146158A JP2009146158A (ja) | 2009-07-02 |
JP4895988B2 true JP4895988B2 (ja) | 2012-03-14 |
Family
ID=40916695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007322635A Active JP4895988B2 (ja) | 2007-12-13 | 2007-12-13 | 文書分類装置の余分構造減退方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4895988B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8768944B2 (en) * | 2010-08-18 | 2014-07-01 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, and storage medium |
WO2016151692A1 (ja) | 2015-03-20 | 2016-09-29 | 株式会社 東芝 | タグ付与支援装置、方法およびプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4451624B2 (ja) * | 2003-08-19 | 2010-04-14 | 富士通株式会社 | 情報体系対応付け装置および対応付け方法 |
-
2007
- 2007-12-13 JP JP2007322635A patent/JP4895988B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009146158A (ja) | 2009-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101201037B1 (ko) | 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증 | |
US10360294B2 (en) | Methods and systems for efficient and accurate text extraction from unstructured documents | |
US10445359B2 (en) | Method and system for classifying media content | |
Urvoy et al. | Tracking web spam with html style similarities | |
US7937338B2 (en) | System and method for identifying document structure and associated metainformation | |
US20070230787A1 (en) | Method for automated processing of hard copy text documents | |
US20110087668A1 (en) | Clustering of near-duplicate documents | |
US20040049499A1 (en) | Document retrieval system and question answering system | |
US20050021545A1 (en) | Very-large-scale automatic categorizer for Web content | |
JP2005526317A (ja) | ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム | |
JP2005251206A (ja) | 単語分割で使用される新単語収集方法およびシステム | |
CN112231494B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN110427884A (zh) | 文档篇章结构识别方法、装置、设备和存储介质 | |
Sivakumar | Effectual web content mining using noise removal from web pages | |
JP4640593B2 (ja) | 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム | |
JP2000200287A (ja) | 文書検索装置 | |
JP4895988B2 (ja) | 文書分類装置の余分構造減退方法 | |
Hamdi et al. | Machine learning vs deterministic rule-based system for document stream segmentation | |
Klampfl et al. | Reconstructing the logical structure of a scientific publication using machine learning | |
JP4394517B2 (ja) | 特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置 | |
JP2005190141A (ja) | 情報区分装置、情報区分方法及び情報区分プログラム | |
Souza et al. | ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF | |
El-Barbary | Arabic news classification using field association words | |
US20080033953A1 (en) | Method to search transactional web pages | |
KR100964207B1 (ko) | 해시 기반 문서의 색인화 및 검색 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090327 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110912 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111208 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4895988 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150106 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |