JP3934586B2 - 情報分類システム及びプログラム - Google Patents
情報分類システム及びプログラム Download PDFInfo
- Publication number
- JP3934586B2 JP3934586B2 JP2003318368A JP2003318368A JP3934586B2 JP 3934586 B2 JP3934586 B2 JP 3934586B2 JP 2003318368 A JP2003318368 A JP 2003318368A JP 2003318368 A JP2003318368 A JP 2003318368A JP 3934586 B2 JP3934586 B2 JP 3934586B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- dictionary
- morphemes
- index
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Nzi/Nxi>P8 かつ Nzi/Nyi≦P8ならば、Nxi→Nyi
Nzi/Nxi≦P8 かつ Nzi/Nyi>P8ならば、Nxi←Nyi
の出現相関有りとする。
Claims (6)
- 複数の文書に含まれる形態素から複数のグループにグループ分けする情報分類システムにおいて、
複数の文書及び各文書に含まれる形態素を記憶する文書記憶手段と、
予め複数の形態素からなる辞書語ごとに当該辞書語を構成する複数の形態素についての共起関係判定条件を規定する合成語辞書記憶手段と、
前記文書記憶手段に記憶される形態素ごとに各文書に出現する数から当該形態素である索引語候補要素を選定し、これら選定された索引語候補要素の2個以上連なる形態素で構成される索引語が前記合成語辞書記憶手段に記憶される辞書語に存在し、かつ、当該辞書語を構成する複数の形態素についての共起関係判定条件を満たす場合、前記合成語辞書記憶手段に記憶される該当辞書語に属するグループとするクラスタ生成処理部とを備えたことを特徴とする情報分類システム。 - 請求項1に記載の情報分類システムにおいて、
前記クラスタ生成処理部は、前記合成語辞書記憶手段に共起関係判定条件として隣接する場合のみを有効であると規定されている場合、2個以上連なる形態素で構成される索引語が前記合成語辞書記憶手段に記憶される辞書語に存在することを条件とし、当該索引語と当該辞書語の形態素区切り情報とが隣接する関係まで同一のときに共起関係判定条件を満たすと判定することを特徴とする情報分類システム。 - 請求項1に記載の情報分類システムにおいて、
前記クラスタ生成処理部は、前記合成語辞書記憶手段に共起関係判定条件として隣接する場合だけでなく、同一フレーズに存在する場合も有効である規定されている場合、2個以上連なる形態素で構成される索引語が前記合成語辞書記憶手段に記憶される辞書語に存在することを条件とし、当該索引語と当該辞書語の形態素区切り情報とが隣接する関係が同一であるか、同一フレーズに存在するときに共起関係判定条件を満たすと判定することを特徴とする情報分類システム。 - 請求項1ないし請求項3の何れか一項に記載の情報分類システムにおいて、
前記クラスタ生成処理部は、前記合成語辞書記憶手段に共起関係判定条件として有効年月日が規定されている場合、2個以上連なる形態素で構成される索引語が前記合成語辞書記憶手段に記憶される辞書語に存在することを条件とし、前記有効年月日以降の索引語に対して前記共起関係判定条件を満たすと判定することを特徴とする情報分類システム。 - 複数の文書に含まれる形態素から複数のグループにグループ分けし、階層関係を作成する情報分類システムにおいて、
複数の文書及び各文書に含まれる形態素を記憶する文書記憶手段と、
予め複数の形態素からなる辞書語ごとに当該辞書語を構成する複数の形態素についての共起関係判定条件を規定する合成語辞書記憶手段と、
前記文書記憶手段に記憶される形態素ごとに各文書に出現する数から当該形態素である索引語候補要素を選定し、索引語候補要素の集合を作成する索引語候補選定手段と、
この索引語候補選定手段で選定された集合の索引語候補要素の2個以上連なる形態素で構成される索引語が前記合成語辞書記憶手段に記憶される辞書語に存在する場合、当該索引語が前記辞書語を構成する複数の形態素についての共起関係判定条件を満たすかを判定し、満たすと判定された場合に前記連なる形態素個数ごとの索引語の組の集合を作成するターム集合作成手段と、
このターム集合作成手段で作成された索引語の組の集合の各要素同士の出現相関を計算する出現相関処理手段と、
この出現相関処理手段で得られた出現相関に基づいて前記索引語の階層関係を作成する階層関係作成手段とを備えたことを特徴とする情報分類システム。 - 複数の文書、各文書に含まれる形態素及び複数の形態素からなる辞書語ごとに当該辞書語を構成する複数の形態素間についての共起関係判定条件が記憶され、前記複数の文書に含まれる形態素から複数のグループにグループ分けし、階層関係を作成するコンピュータに、
情報分類時、前記複数の文書にそれぞれ含まれる形態素ごとに各文書に出現する数から当該形態素である索引語候補要素を選定し、索引語候補要素の集合を作成する索引語候補選定機能と、この機能によって選定された集合の索引語候補要素の1個以上連なる形態素で構成される索引語が前記辞書語に存在する場合、当該索引語が前記辞書語を構成する複数の形態素についての共起関係判定条件を満たすかを判定し、満たすと判定された場合に前記連なる形態素個数ごとの索引語の組の集合を作成するターム集合作成機能と、この作成された索引語の組の集合の各要素同士の出現相関を計算する出現相関処理機能と、この処理機能によって得られた出現相関に基づいて前記索引語の階層関係を作成する階層関係作成機能とを実現させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003318368A JP3934586B2 (ja) | 2003-09-10 | 2003-09-10 | 情報分類システム及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003318368A JP3934586B2 (ja) | 2003-09-10 | 2003-09-10 | 情報分類システム及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005085112A JP2005085112A (ja) | 2005-03-31 |
JP3934586B2 true JP3934586B2 (ja) | 2007-06-20 |
Family
ID=34417666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003318368A Expired - Lifetime JP3934586B2 (ja) | 2003-09-10 | 2003-09-10 | 情報分類システム及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3934586B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7849090B2 (en) * | 2005-03-30 | 2010-12-07 | Primal Fusion Inc. | System, method and computer program for faceted classification synthesis |
JP5252410B2 (ja) * | 2007-03-05 | 2013-07-31 | 公立大学法人広島市立大学 | 専門用語分類装置、専門用語分類方法、及びプログラム |
JP6835713B2 (ja) * | 2015-05-18 | 2021-02-24 | 株式会社スキャる | 会計支援システム |
KR101656245B1 (ko) * | 2015-09-09 | 2016-09-09 | 주식회사 위버플 | 문장 추출 방법 및 시스템 |
-
2003
- 2003-09-10 JP JP2003318368A patent/JP3934586B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2005085112A (ja) | 2005-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Daumé et al. | Search-based structured prediction | |
Onan et al. | Ensemble of keyword extraction methods and classifiers in text classification | |
Gambhir et al. | Recent automatic text summarization techniques: a survey | |
Garreta et al. | Learning scikit-learn: machine learning in python | |
Daelemans et al. | MBT: A memory-based part of speech tagger-generator | |
Jin et al. | A novel lexicalized HMM-based learning framework for web opinion mining | |
Neumann et al. | A shallow text processing core engine | |
Ekbal et al. | Multiobjective optimization for classifier ensemble and feature selection: an application to named entity recognition | |
Pivk et al. | From tables to frames | |
Ekbal et al. | Simultaneous feature and parameter selection using multiobjective optimization: application to named entity recognition | |
Manjari | Extractive summarization of Telugu documents using TextRank algorithm | |
Rani et al. | Aspect-based sentiment analysis using dependency parsing | |
Agarwal et al. | Single-document summarization using sentence embeddings and k-means clustering | |
Belwal et al. | Extractive text summarization using clustering-based topic modeling | |
JP3934586B2 (ja) | 情報分類システム及びプログラム | |
CN114239828A (zh) | 一种基于因果关系的供应链事理图谱构建方法 | |
CN113158659A (zh) | 一种基于司法文本的涉案财物计算方法 | |
Popova et al. | Keyphrase extraction using extended list of stop words with automated updating of stop words list | |
Chowdhury et al. | A new method for extractive text summarization using neural networks | |
Jain et al. | Knowledge-based data processing for multilingual natural language analysis | |
Gao et al. | Newspaper article reconstruction using ant colony optimization and bipartite graph | |
Heidary et al. | Automatic text summarization using genetic algorithm and repetitive patterns | |
Lu et al. | Duration modeling with semi-Markov Conditional Random Fields for keyphrase extraction | |
Hogenboom | Automated detection of financial events in news text | |
JP4393482B2 (ja) | 情報共有システム及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061212 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070313 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070315 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 3934586 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100330 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110330 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120330 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130330 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140330 Year of fee payment: 7 |