JP2014123286A - 文書分類装置及びプログラム - Google Patents
文書分類装置及びプログラム Download PDFInfo
- Publication number
- JP2014123286A JP2014123286A JP2012279624A JP2012279624A JP2014123286A JP 2014123286 A JP2014123286 A JP 2014123286A JP 2012279624 A JP2012279624 A JP 2012279624A JP 2012279624 A JP2012279624 A JP 2012279624A JP 2014123286 A JP2014123286 A JP 2014123286A
- Authority
- JP
- Japan
- Prior art keywords
- category
- document
- cluster
- document data
- classification device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】特徴抽出部16は、予め特定のカテゴリに分類された文書データから特徴情報を抽出する。クラスタリング部18は、特徴情報に基づいて文書データをクラスタ分けする。カテゴリ更新部24は、同一クラスタに分類された文書データに、同一クラスタに分類された他の文書データのカテゴリも自己のカテゴリとして付与する。
【選択図】図1
Description
次に、図2に示すフローチャートを参照して、文書分類装置1の動作例1を説明する。まず、特徴抽出部16は、複数の学習用データをデータ記憶部12から読み出し、複数の学習用データを解析することで複数の学習用データのそれぞれから特徴情報を抽出し、学各学習用データをベクトル化する(S01)。次に、クラスタリング部18は、ベクトル表現された複数の学習用データをクラスタに分類する(S02)。そして、クラスタ分析部20は、クラスタに属する学習用データに関連付けられたカテゴリ情報に基づき、当該クラスタ内のカテゴリの構成を分析する(S03)。カテゴリ更新部24は、同一クラスタに属する各カテゴリと各カテゴリの出現割合とをクラスタカテゴリとして定義し、同一クラスタに属する各学習用データに当該クラスタのクラスタカテゴリ情報を関連付けることで、各学習用データのカテゴリを更新する(S04)。
次に、図3に示すフローチャートを参照して、文書分類装置1の動作例2を説明する。まず、特徴抽出部16は、複数の学習用データを解析することで複数の学習用データのそれぞれから特徴情報を抽出する(S10)。次に、特徴抽出部16は、抽出した特徴情報のうちノイズとなり得る特徴情報を除去し、ノイズとなり得ない特徴情報を選択して各学習用データをベクトル化する(S11)。例えば、特徴抽出部16は、抽出した特徴情報のうち同義語を同一素性として扱い、又は、Tf−idf値に基づいて不要な素性を除去し、各学習用データをベクトル化する。そして、クラスタリング部18は、ベクトル表現された複数の学習用データをクラスタに分類し(S12)、クラスタ分析部20は、クラスタ内のカテゴリの構成を分析する(S13)。また、クラスタ分析部20は、ノイズとなり得るクラスタの学習データを除去する(S14)。クラスタ分析部20は、数が他のカテゴリよりも少なく、その数の差が閾値以上となるカテゴリを除去してもよい。そして、カテゴリ更新部24は、同一クラスタに属する各学習用データにクラスタカテゴリ情報を関連付けることで、各学習用データのカテゴリを更新する(S15)。
次に、文書分類装置1の動作について具体例を挙げて説明する。図4に、予め特定のカテゴリに分類された学習用データの一例を示す。例えば、学習用データ識別情報(ID=1,2)が付された学習用データは「概要」というカテゴリに予め分類されており、ID=3の学習用データは「経歴」というカテゴリに予め分類されており、ID=4の学習用データは「構成」というカテゴリに予め分類されている。各学習用データは記憶部10に記憶されており、各学習用データのカテゴリを示すカテゴリ情報は、カテゴリ記憶部14に記憶されている。
(1)ID=1の学習用データは、23%の確率で「経歴」カテゴリ、20%の確率で「概要」カテゴリに分類されるデータである。
(2)ID=1の学習用データは、23%の「経歴」カテゴリの特徴と20%の「概要」カテゴリの特徴とを有するデータである。
(3)ID=1の学習用データは、「経歴」カテゴリの特徴と「概要」カテゴリの特徴とを有するデータである。
ID=1の学習用データは「概要」カテゴリに予め分類されていたが、「経歴」カテゴリの出現割合(23%)が「概要」カテゴリの出現割合(20%)よりも大きいため、「概要」カテゴリよりも「経歴」カテゴリの特徴が強いと分析されている。他のクラスカテゴリについても同様に解釈され得る。
次に、図9を参照して、変形例に係る文書分類装置について説明する。変形例に係る文書分類装置1Aは、上記の文書分類装置1の構成に加えて、処理部30、入力部42及び出力部44を備えている。処理部30は、識別器作成部32、カテゴリ分類部34、検索部36及び学習用データ更新部38を備えている。未分類データ記憶部46には、特定のカテゴリに分類されていない文書データ(「未分類データ」と称する)が記憶されている。
次に、図10を参照して、変形例に係る文書分類装置1Aの動作例(動作例3)を説明する。動作例3では、未分類データにカテゴリやクラスタカテゴリを付与して学習用データを更新する。
次に、図11を参照して、変形例に係る文書分類装置1Aの別の動作例(動作例4)を説明する。動作例4では、クラスタカテゴリが付与された学習用データを検索対象として検索を行い、その検索結果に基づいて学習用データを更新する。
Claims (12)
- 予め特定のカテゴリに分類された複数の文書データのそれぞれから特徴情報を抽出する特徴抽出手段と、
前記特徴情報の出現頻度が類似する文書データを同一クラスタに分類するクラスタリング手段と、
同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データのカテゴリも自己のカテゴリとして付与するカテゴリ更新手段と、
を有することを特徴とする文書分類装置。 - 請求項1に記載の文書分類装置であって、
前記特徴抽出手段は、前記特定のカテゴリに関連する情報を特徴情報として前記複数の文書データのそれぞれから抽出する、
ことを特徴とする文書分類装置。 - 請求項1又は請求項2に記載の文書分類装置であって、
前記カテゴリ更新手段は、前記同一クラスタにおける各文書データのカテゴリの出現割合を、前記同一クラスタに分類された文書データに付与する、
ことを特徴とする文書分類装置。 - 請求項1から請求項3のいずれか一項に記載の文書分類装置であって、
検索クエリを受け、前記検索クエリにカテゴリに関する情報が含まれている場合、文書データに予め付与されたカテゴリ及び前記カテゴリ更新手段によって付与されたカテゴリも検索対象とし、前記検索クエリを用いて検索し、検索結果を出力する検索手段を更に有する、
ことを特徴とする文書分類装置。 - 請求項4に記載の文書分類装置であって、
前記検索手段は、前記同一クラスタにおける各文書データのカテゴリの出現割合に応じた検索結果を出力する、
ことを特徴とする文書分類装置。 - 請求項4又は請求項5に記載の文書分類装置であって、
前記検索クエリによって検索された文書データのカテゴリと前記検索クエリに含まれるカテゴリに関する情報とが一致しない場合、前記検索された文書データのカテゴリを、前記検索クエリに含まれるカテゴリに変更する更新手段を更に有する、
ことを特徴とする文書分類装置。 - 請求項1から請求項6のいずれか一項に記載の文書分類装置であって、
前記カテゴリ更新手段によってカテゴリが付与された文書データに基づいて作成された識別器を用いて未分類の文書データにカテゴリを付与するカテゴリ分類手段を更に有する、
ことを特徴とする文書分類装置。 - 請求項7に記載の文書分類装置であって、
前記カテゴリ分類手段は、出現割合が最大のカテゴリを前記未分類の文書データに付与する、
ことを特徴とする文書分類装置。 - 請求項7又は請求項8に記載の文書分類装置であって、
前記カテゴリ分類手段によって処理された前記未分類の文書データを、前記特徴抽出手段、前記クラスタリング手段及び前記カテゴリ更新手段の処理対象の文書データに追加する手段を更に有する、
ことを特徴とする文書分類装置。 - 請求項1から請求項9のいずれか一項に記載の文書分類装置であって、
前記特徴抽出手段は、文書データにおける特徴情報の出現頻度に応じて、前記クラスタリング手段によるクラスタ分けに用いられる特徴情報を選択する、
ことを特徴とする文書分類装置。 - 請求項1から請求項10のいずれか一項に記載の文書分類装置であって、
前記カテゴリ更新手段は、前記同一カテゴリにおける各文書データのカテゴリの出現割合に応じてカテゴリを選択して文書データに付与する、
ことを特徴とする文書分類装置。 - コンピュータに、
予め特定のカテゴリに分類された複数の文書データのそれぞれから特徴情報を抽出するステップと、
前記特徴情報の出現頻度が類似する文書データを同一クラスタに分類するステップと、
同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データのカテゴリも自己のカテゴリとして付与するステップと、
を実行させることを特徴とするプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012279624A JP6007784B2 (ja) | 2012-12-21 | 2012-12-21 | 文書分類装置及びプログラム |
PCT/JP2013/068852 WO2014097670A1 (ja) | 2012-12-21 | 2013-07-10 | 文書分類装置及びプログラム |
AU2013365452A AU2013365452B2 (en) | 2012-12-21 | 2013-07-10 | Document classification device and program |
US14/717,034 US10353925B2 (en) | 2012-12-21 | 2015-05-20 | Document classification device, document classification method, and computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012279624A JP6007784B2 (ja) | 2012-12-21 | 2012-12-21 | 文書分類装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014123286A true JP2014123286A (ja) | 2014-07-03 |
JP6007784B2 JP6007784B2 (ja) | 2016-10-12 |
Family
ID=50978024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012279624A Active JP6007784B2 (ja) | 2012-12-21 | 2012-12-21 | 文書分類装置及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US10353925B2 (ja) |
JP (1) | JP6007784B2 (ja) |
AU (1) | AU2013365452B2 (ja) |
WO (1) | WO2014097670A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019036087A (ja) * | 2017-08-14 | 2019-03-07 | ヤフー株式会社 | 生成装置、生成方法、生成プログラム、学習データ、及びモデル |
WO2021033233A1 (ja) * | 2019-08-19 | 2021-02-25 | 日本電信電話株式会社 | 推定装置、推定方法、および、推定プログラム |
JP2022016628A (ja) * | 2017-08-14 | 2022-01-21 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
JP7357830B1 (ja) | 2021-11-18 | 2023-10-06 | 三菱電機株式会社 | 文書検索装置、文書検索方法及び文書検索プログラム |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9858330B2 (en) * | 2013-10-21 | 2018-01-02 | Agile Legal Technology | Content categorization system |
US20160019284A1 (en) * | 2014-07-18 | 2016-01-21 | Linkedln Corporation | Search engine using name clustering |
CN107924493A (zh) * | 2015-08-20 | 2018-04-17 | 三菱电机株式会社 | 学习装置和学习识别系统 |
EP3403187A4 (en) * | 2016-01-14 | 2019-07-31 | Sumo Logic | SINGLE CLICK DELTA ANALYSIS |
US10606899B2 (en) * | 2016-05-23 | 2020-03-31 | International Business Machines Corporation | Categorically filtering search results |
US20200026767A1 (en) * | 2018-07-17 | 2020-01-23 | Fuji Xerox Co., Ltd. | System and method for generating titles for summarizing conversational documents |
CN109739975B (zh) * | 2018-11-15 | 2021-03-09 | 东软集团股份有限公司 | 热点事件抽取方法、装置、可读存储介质及电子设备 |
CN111078987A (zh) * | 2019-12-21 | 2020-04-28 | 武汉比特空间科技有限公司 | 基于互联网的同类别数据提取整理系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1078971A (ja) * | 1996-09-02 | 1998-03-24 | Canon Inc | 文書分類装置及び文書分類方法 |
JP2002041544A (ja) * | 2000-07-25 | 2002-02-08 | Toshiba Corp | テキスト情報分析装置 |
JP2008269375A (ja) * | 2007-04-23 | 2008-11-06 | Hidetsugu Nanba | 情報処理装置、情報処理方法、及びプログラム |
JP2009070321A (ja) * | 2007-09-18 | 2009-04-02 | Fuji Xerox Co Ltd | 文書分類装置、及び文書分類プログラム |
JP2009259250A (ja) * | 2008-04-18 | 2009-11-05 | Nec (China) Co Ltd | 文書の分類器を生成する方法とそのシステム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3488063B2 (ja) | 1997-12-04 | 2004-01-19 | 株式会社エヌ・ティ・ティ・データ | 情報分類方法、装置及びシステム |
KR20020049164A (ko) * | 2000-12-19 | 2002-06-26 | 오길록 | 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법 |
JP4407272B2 (ja) | 2003-12-22 | 2010-02-03 | 富士ゼロックス株式会社 | 文書分類方法、文書分類装置及び文書分類プログラム |
US20070011020A1 (en) * | 2005-07-05 | 2007-01-11 | Martin Anthony G | Categorization of locations and documents in a computer network |
US20090077028A1 (en) * | 2007-09-18 | 2009-03-19 | Gosby Desiree D G | Web services access to classification engines |
-
2012
- 2012-12-21 JP JP2012279624A patent/JP6007784B2/ja active Active
-
2013
- 2013-07-10 AU AU2013365452A patent/AU2013365452B2/en active Active
- 2013-07-10 WO PCT/JP2013/068852 patent/WO2014097670A1/ja active Application Filing
-
2015
- 2015-05-20 US US14/717,034 patent/US10353925B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1078971A (ja) * | 1996-09-02 | 1998-03-24 | Canon Inc | 文書分類装置及び文書分類方法 |
JP2002041544A (ja) * | 2000-07-25 | 2002-02-08 | Toshiba Corp | テキスト情報分析装置 |
JP2008269375A (ja) * | 2007-04-23 | 2008-11-06 | Hidetsugu Nanba | 情報処理装置、情報処理方法、及びプログラム |
JP2009070321A (ja) * | 2007-09-18 | 2009-04-02 | Fuji Xerox Co Ltd | 文書分類装置、及び文書分類プログラム |
JP2009259250A (ja) * | 2008-04-18 | 2009-11-05 | Nec (China) Co Ltd | 文書の分類器を生成する方法とそのシステム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019036087A (ja) * | 2017-08-14 | 2019-03-07 | ヤフー株式会社 | 生成装置、生成方法、生成プログラム、学習データ、及びモデル |
JP2022016628A (ja) * | 2017-08-14 | 2022-01-21 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
JP7198900B2 (ja) | 2017-08-14 | 2023-01-04 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
WO2021033233A1 (ja) * | 2019-08-19 | 2021-02-25 | 日本電信電話株式会社 | 推定装置、推定方法、および、推定プログラム |
JPWO2021033233A1 (ja) * | 2019-08-19 | 2021-02-25 | ||
JP7143955B2 (ja) | 2019-08-19 | 2022-09-29 | 日本電信電話株式会社 | 推定装置、推定方法、および、推定プログラム |
JP7357830B1 (ja) | 2021-11-18 | 2023-10-06 | 三菱電機株式会社 | 文書検索装置、文書検索方法及び文書検索プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6007784B2 (ja) | 2016-10-12 |
AU2013365452A1 (en) | 2015-06-04 |
AU2013365452B2 (en) | 2017-05-25 |
US20150254332A1 (en) | 2015-09-10 |
US10353925B2 (en) | 2019-07-16 |
WO2014097670A1 (ja) | 2014-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6007784B2 (ja) | 文書分類装置及びプログラム | |
US11361243B2 (en) | Recommending machine learning techniques, features, and feature relevance scores | |
US10268758B2 (en) | Method and system of acquiring semantic information, keyword expansion and keyword search thereof | |
WO2021093755A1 (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN108701161B (zh) | 为搜索查询提供图像 | |
US9965459B2 (en) | Providing contextual information associated with a source document using information from external reference documents | |
US20160189057A1 (en) | Computer implemented system and method for categorizing data | |
RU2547213C2 (ru) | Присвоение применимых на практике атрибутов данных, которые описывают идентичность личности | |
US20150199609A1 (en) | Self-learning system for determining the sentiment conveyed by an input text | |
US20160140389A1 (en) | Information extraction supporting apparatus and method | |
US10515267B2 (en) | Author identification based on functional summarization | |
TW201913411A (zh) | 同義詞辭典作成裝置、記錄有同義詞辭典作成程式之電腦可讀取之記錄媒體及同義詞辭典作成方法 | |
US11675845B2 (en) | Identifying merchant data associated with multiple data structures | |
US20150205860A1 (en) | Information retrieval device, information retrieval method, and information retrieval program | |
JPWO2012096388A1 (ja) | 意外性判定システム、意外性判定方法およびプログラム | |
WO2019163642A1 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
JP2010061176A (ja) | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム | |
US10353927B2 (en) | Categorizing columns in a data table | |
US8135573B2 (en) | Apparatus, method, and computer program product for creating data for learning word translation | |
CN111339778B (zh) | 文本处理方法、装置、存储介质和处理器 | |
CN111625619B (zh) | 查询省略方法、装置、计算机可读介质及电子设备 | |
JP2016110256A (ja) | 情報処理装置及び情報処理プログラム | |
CN108733733B (zh) | 基于机器学习的生物医学文本分类方法、系统和存储介质 | |
US20150052140A1 (en) | Information processing apparatus, information processing method, and program | |
WO2022113286A1 (ja) | レコメンド装置、レコメンドシステム、レコメンド方法、プログラムおよび記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150306 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160816 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160829 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6007784 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |