JP6007784B2 - 文書分類装置及びプログラム - Google Patents

文書分類装置及びプログラム Download PDF

Info

Publication number
JP6007784B2
JP6007784B2 JP2012279624A JP2012279624A JP6007784B2 JP 6007784 B2 JP6007784 B2 JP 6007784B2 JP 2012279624 A JP2012279624 A JP 2012279624A JP 2012279624 A JP2012279624 A JP 2012279624A JP 6007784 B2 JP6007784 B2 JP 6007784B2
Authority
JP
Japan
Prior art keywords
category
document data
document
same cluster
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012279624A
Other languages
English (en)
Other versions
JP2014123286A (ja
Inventor
圭悟 服部
圭悟 服部
増市 博
博 増市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2012279624A priority Critical patent/JP6007784B2/ja
Priority to PCT/JP2013/068852 priority patent/WO2014097670A1/ja
Priority to AU2013365452A priority patent/AU2013365452B2/en
Publication of JP2014123286A publication Critical patent/JP2014123286A/ja
Priority to US14/717,034 priority patent/US10353925B2/en
Application granted granted Critical
Publication of JP6007784B2 publication Critical patent/JP6007784B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Description

本発明は、文書データを分類する文書分類装置及びプログラムに関する。
文書データを特定のカテゴリに分類する技術が知られている。
例えば、特許文献1には、予め特定のカテゴリに分類された学習用データがある場合、カテゴリの特徴と未分類のデータとを比較することで、未分類のデータのカテゴリを決定する方法が開示されている。
また、特許文献2には、各文書を文書の特徴量に基づいてクラスタ分けし、各クラスタの特徴語を当該クラスタに属する文書のカテゴリとして用いる方法が開示されている。
特開平11−167581号公報 特開2005−182611号公報
ところで、カテゴリ間の境界が曖昧で、文書データを特定のカテゴリに明確に分類できない場合がある。例えば、文書データのカテゴリが「概要」であるとともに「経歴」でもある場合や、「概要」であるとともに「構成」でもある場合がある。また、人が文書データを分類する場合、その人によって分類の仕方が異なるため、文書データに付与されるカテゴリが人によって異なる場合がある。以上のように、カテゴリの独立性の保障が困難であり、また、人に依存してカテゴリ分類にゆらぎが生じるため、予め特定のカテゴリに分類された学習用データにおいては、学習用データとカテゴリとの組み合わせが正確でない場合がある。カテゴリ分類のゆらぎが生じないようにカテゴリを細かく定義することも考えられるが、カテゴリを細かく定義するほどカテゴリの設定コストが増大し、カテゴリを付与する人に依存してカテゴリ分類にゆらぎが生じるおそれがある。また、自動でカテゴリを決定する場合、例えば特定のデータ集合に「概要」という用語が出現しない場合、そのデータ集合が「概要」について表している場合でも、「概要」というカテゴリに分類することはできない。また、自動でカテゴリを決定する場合、分類されたカテゴリの意味を人が解釈できない場合がある。
本発明の目的は、予め文書データに付与されたカテゴリの定義に曖昧性がある場合であっても、その曖昧性を表現したカテゴリを文書データに付与することが可能な文書分類装置及びプログラムを提供することである。
請求項1に記載の発明は、予め特定のカテゴリに分類された複数の文書データのそれぞれから特徴情報を抽出する特徴抽出手段と、前記特徴情報に基づいて文書データを同一クラスタに分類するクラスタリング手段と、同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データのカテゴリも自己のカテゴリとして付与するカテゴリ更新手段と、を有し、前記カテゴリ更新手段は、前記同一クラスタにおける各文書データのカテゴリの出現割合を、前記同一クラスタに分類された文書データに付与する、ことを特徴とする文書分類装置である。
請求項2に記載の発明は、請求項1に記載の文書分類装置であって、前記特徴抽出手段は、前記特定のカテゴリに関連する情報を特徴情報として前記複数の文書データのそれぞれから抽出する、ことを特徴とする。
請求項に記載の発明は、請求項1又は請求項2に記載の文書分類装置であって、検索クエリを受け、前記検索クエリにカテゴリに関する情報が含まれている場合、文書データに予め付与されたカテゴリ及び前記カテゴリ更新手段によって付与されたカテゴリも検索対象とし、前記検索クエリを用いて検索し、検索結果を出力する検索手段を更に有する、ことを特徴とする。
請求項4に記載の発明は、予め特定のカテゴリに分類された複数の文書データのそれぞれから特徴情報を抽出する特徴抽出手段と、前記特徴情報に基づいて文書データを同一クラスタに分類するクラスタリング手段と、同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データのカテゴリも自己のカテゴリとして付与するカテゴリ更新手段と、検索クエリを受け、前記検索クエリにカテゴリに関する情報が含まれている場合、文書データに予め付与されたカテゴリ及び前記カテゴリ更新手段によって付与されたカテゴリも検索対象とし、前記検索クエリを用いて検索し、検索結果を出力する検索手段と、を有することを特徴とする文書分類装置である。
請求項5に記載の発明は、請求項3又は請求項4に記載の文書分類装置であって、前記検索手段は、前記同一クラスタにおける各文書データのカテゴリの出現割合に応じた検索結果を出力する、ことを特徴とする。
請求項6に記載の発明は、請求項3から請求項5のいずれか一項に記載の文書分類装置であって、前記検索クエリによって検索された文書データのカテゴリと前記検索クエリに含まれるカテゴリに関する情報とが一致しない場合、前記検索された文書データのカテゴリを、前記検索クエリに含まれるカテゴリに変更する更新手段を更に有する、ことを特徴とする。
請求項7に記載の発明は、請求項1から請求項6のいずれか一項に記載の文書分類装置であって、前記カテゴリ更新手段によってカテゴリが付与された文書データに基づいて作成された識別器を用いて未分類の文書データにカテゴリを付与するカテゴリ分類手段を更に有する、ことを特徴とする。
請求項8に記載の発明は、請求項7に記載の文書分類装置であって、前記カテゴリ分類手段は、出現割合が最大のカテゴリを前記未分類の文書データに付与する、ことを特徴とする。
請求項9に記載の発明は、予め特定のカテゴリに分類された複数の文書データのそれぞれから特徴情報を抽出する特徴抽出手段と、前記特徴情報に基づいて文書データを同一クラスタに分類するクラスタリング手段と、同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データのカテゴリも自己のカテゴリとして付与するカテゴリ更新手段と、前記カテゴリ更新手段によってカテゴリが付与された文書データに基づいて作成された識別器を用いて未分類の文書データにカテゴリを付与するカテゴリ分類手段と、を有し、前記カテゴリ分類手段は、出現割合が最大のカテゴリを前記未分類の文書データに付与する、ことを特徴とする文書分類装置である。
請求項10に記載の発明は、請求項7から請求項9のいずれか一項に記載の文書分類装置であって、前記カテゴリ分類手段によって処理された前記未分類の文書データを、前記特徴抽出手段、前記クラスタリング手段及び前記カテゴリ更新手段の処理対象の文書データに追加する手段を更に有する、ことを特徴とする。
請求項1に記載の発明は、請求項1から請求項10のいずれか一項に記載の文書分類装置であって、前記特徴抽出手段は、文書データにおける特徴情報の出現頻度に応じて、前記クラスタリング手段によるクラスタ分けに用いられる特徴情報を選択する、ことを特徴とする。
請求項1に記載の発明は、請求項1から請求項1のいずれか一項に記載の文書分類装置であって、前記カテゴリ更新手段は、前記同一クラスタにおける各文書データのカテゴリの出現割合に応じてカテゴリを選択して文書データに付与する、ことを特徴とする。
請求項13に係る発明は、予め特定のカテゴリに分類された複数の文書データのそれぞれから特徴情報を抽出する特徴抽出手段と、前記特徴情報に基づいて文書データを同一クラスタに分類するクラスタリング手段と、同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データのカテゴリも自己のカテゴリとして付与するカテゴリ更新手段と、を有し、前記カテゴリ更新手段は、前記同一クラスタにおける各文書データのカテゴリの出現割合に応じてカテゴリを選択して文書データに付与する、ことを特徴とする文書分類装置である。
請求項1に記載の発明は、コンピュータに、予め特定のカテゴリに分類された複数の文書データのそれぞれから特徴情報を抽出するステップと、前記特徴情報に基づいて文書データを同一クラスタに分類するステップと、同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データのカテゴリも自己のカテゴリとして付与するステップと、を実行させ、前記付与するステップでは、前記同一クラスタにおける各文書データのカテゴリの出現割合を、前記同一クラスタに分類された文書データに付与する、ことを特徴とするプログラムである。
請求項15に係る発明は、予め特定のカテゴリに分類された複数の文書データのそれぞれから特徴情報を抽出する特徴抽出手段と、前記特徴情報に基づいて文書データを同一クラスタに分類するクラスタリング手段と、同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データの少なくとも一部のカテゴリも自己のカテゴリとして付与するカテゴリ更新手段と、を有し、前記カテゴリ更新手段は、前記同一クラスタにおける各文書データのカテゴリの出現割合を、前記同一クラスタに分類された文書データに付与する、ことを特徴とする文書分類装置である。
請求項16に係る発明は、コンピュータに、予め特定のカテゴリに分類された複数の文書データのそれぞれから特徴情報を抽出するステップと、前記特徴情報に基づいて文書データを同一クラスタに分類するステップと、同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データの少なくとも一部のカテゴリも自己のカテゴリとして付与するステップと、を実行させ、前記付与するステップでは、前記同一クラスタにおける各文書データのカテゴリの出現割合を、前記同一クラスタに分類された文書データに付与する、ことを特徴とするプログラムである。
請求項1,14,15,16に記載の発明によると、カテゴリの定義に曖昧性がある場合であっても、その曖昧性を表現したカテゴリを文書データに付与することが可能となる。また、カテゴリの特徴の割合を文書データに付与することが可能となる。
請求項2に記載の発明によると、本発明の構成を備えていない場合と比べて、文書分類の精度が向上する。
請求項3,4に記載の発明によると、カテゴリを考慮した検索結果が得られる。
請求項5に記載の発明によると、カテゴリの割合を考慮した検索結果が得られる。
請求項6に記載の発明によると、本発明の構成を備えていない場合と比べて、文書データのカテゴリをより正確に修正することが可能となる。
請求項7に記載の発明によると、カテゴリの曖昧性を表現したカテゴリを未分類の文書データに付与することが可能となる。
請求項8,9に記載の発明によると、本発明の構成を備えていない場合と比べて、より正確なカテゴリを未分類の文書データに付与することが可能となる。
請求項10に記載の発明によると、未分類であった文書データを含めて処理を行うことで、本発明の構成を備えていない場合と比べて、文書分類の精度が向上する。
請求項1に記載の発明によると、本発明の構成を備えていない場合と比べて、文書分類の精度が向上する。
請求項12,13に記載の発明によると、本発明の構成を備えていない場合と比べて、文書分類の精度が向上する。
本発明の実施形態に係る文書分類装置の一例を示すブロック図である。 動作例1を示すフローチャートである。 動作例2を示すフローチャートである。 予め特定のカテゴリに分類された学習用データの一例を示す表である。 学習用データのベクトル表現の一例を示す表である。 クラスタリングの結果を示す表である。 クラスタの分析結果を示す表である。 クラスタカテゴリが付与された学習用データの一例を示す表である。 変形例に係る文書分類装置の一例を示すブロック図である。 動作例3を示すフローチャートである。 動作例4を示すフローチャートである。
図1に、本発明の実施形態に係る文書分類装置の一例を示す。文書分類装置1は、記憶部10、特徴抽出部16、クラスタリング部18、クラスタ分析部20、クラスタカテゴリ記憶部22及びカテゴリ更新部24を備え、予め特定のカテゴリに分類された学習用データに、カテゴリの定義の曖昧性を考慮した新たなカテゴリを付与する。
記憶部10は、データ記憶部12とカテゴリ記憶部14とを含む。データ記憶部12には、予め特定のカテゴリに分類された学習用データが記憶されている。学習用データは、例えば、単一又は複数の文で構成された文書データである。学習用データは、予め特定のカテゴリに分類されていれば、カテゴリの種類や学習データの質にかかわらず、どのようなデータであってもよい。例えば、文書の章や段落のタイトルをカテゴリとし、章や段落内部の文書を学習用データとし、文書の構造を利用して自動で収集されるデータであってもよい。学習用データには、当該学習用データを識別するための学習用データ識別情報(例えばID番号等)が付与されており、また、当該学習用データのカテゴリを示すカテゴリ情報が関連付けられている。カテゴリ記憶部14は、学習用データに関連付けられたカテゴリ情報を記憶する。
特徴抽出部16は、複数の学習用データのそれぞれから特徴情報を抽出し、抽出した特徴情報を用いて各学習用データをベクトル化する。特徴抽出部16は、形態素情報、品詞情報、構文・意味情報、文字・単語N−gram、任意の単語、句読点の数、及び、過去形の単語の数等のうちの1又は複数を特徴情報として抽出する。これらの情報はベクトルの素性となる。各素性のスコアは二値(0又は1)でもよいし、出現数やTf−idf(Term Frequency−Inverse Document Frequency)値等でもよい。また、特徴抽出部16は、辞書等を利用することで同義語を同一素性として扱ってもよいし、Tf−idf値に閾値を設けてノイズとなり得る素性を除去し、ベクトルの次元を圧縮してもよい。ノイズとなり得る素性を除去することで、文書分類の精度が向上する。例えば、idf値が下限閾値以下となる単語は一般的な単語であると判断され得るため、ベクトルの素性として使用しなくてもよい。また、idf値が上限閾値以上となる単語は、素性に識別器が大きく依存する可能性があるため、素性として使用しなくてもよい。以上のようにして、特徴抽出部16は、素性のスコアに応じて、クラスタリング部18によるクラスタ分けに用いられる特徴情報を選択してもよい。
クラスタリング部18は、特徴抽出部16によって抽出された特徴情報に基づき、類似した特徴情報を有する学習用データを同一のクラスタに分類する。具体的には、クラスタリング部18は、Repeated Bisection法、K−means法又はLDA(Latent Dirichlet Allocation)法等の手法を用いることで、ベクトル表現された学習用データをクラスタ分けする。例えば、クラスタリング部18は、特徴情報の出現頻度が類似する学習用データを同一のクラスタに分類する。クラスタリング部18は、クラスタを識別するためのクラスタ識別情報(例えばID番号等)を各クラスタに付与する。
クラスタ分析部20は、クラスタに属する学習用データに関連付けられたカテゴリ情報に基づき、当該クラスタ内のカテゴリの構成を分析し、分析結果をクラスタカテゴリ記憶部22に出力する。具体的には、クラスタ分析部20は、クラスタに属する学習用データに関連付けられたカテゴリ情報に基づき、同一クラスタに属する各学習用データのカテゴリの当該クラスタ内での出現数と、当該クラスタ内における出現割合とを求める。各カテゴリの出現割合は、同一クラスタ内に属する全カテゴリの出現数に対する各カテゴリの出現数である。また、クラスタを構成するデータ数が、全体又は他のクラスタのデータ数よりも少なく、その数の差が予め決定された閾値以上となるクラスタはノイズとなり得るため、クラスタ分析部20は、そのクラスタに属する学習用データを除去してもよい。また、同一クラスタに属するカテゴリのうち、数が他のカテゴリよりも少なく、その数の差が予め決定された閾値以上となるカテゴリはノイズとなり得るため、クラスタ分析部20は、そのカテゴリを除去してもよい。ノイズとなり得るクラスタや学習用データを除去することで、文書分類の精度が向上する。例えば、出現割合が予め決定された閾値以下となるカテゴリを、クラスタから除去してもよい。また、クラスタ分析部20は、1つのクラスタに含まれるカテゴリの数を制限してもよい。例えば、クラスタ分析部20は、出現割合が大きいカテゴリから予め決定された数のカテゴリをクラスタに含ませ、それ以外のカテゴリをクラスタに含ませなくてもよい。以上のようにして、クラスタ分析部20は、カテゴリの出現割合に応じて、クラスタカテゴリに用いるカテゴリを選択してもよい。
クラスタカテゴリ記憶部22は、クラスタ分析部20の分析結果としてのクラスタカテゴリ情報を記憶する。
カテゴリ更新部24は、同一クラスタに属する各カテゴリと各カテゴリの出現割合とをクラスタカテゴリとして新たに定義し、このクラスタカテゴリを示すクラスタカテゴリ情報を用いることで、各学習用データのカテゴリを更新する。すなわち、カテゴリ更新部24は、同一クラスタに属する学習用データに、当該同一クラスタに属する別の学習用データのカテゴリも自己のカテゴリとして付与する。例えば、カテゴリ更新部24は、同一クラスタに属する各学習用データに、当該クラスタのクラスタ識別情報を付与し、当該クラスタのクラスタカテゴリ情報を関連付ける。このようにして、各学習用データをクラスタカテゴリに分類する。なお、各クラスタカテゴリには、クラスタ識別情報が付与される。カテゴリ記憶部14は、学習用データに関連付けられたクラスタカテゴリ情報を記憶する。このように、各学習用データにクラスタカテゴリが付与されることになるため、各学習用データは、元々のカテゴリに分類されているとともに、クラスタカテゴリに分類されてもいる。すなわち、各学習用データには、元々のカテゴリを示すカテゴリ情報とクラスタカテゴリを示すクラスタカテゴリ情報とが関連付けられていることになる。
なお、記憶部10及びクラスタカテゴリ記憶部22を文書分類装置1に設けずに、文書分類装置1の外部に設けてもよい。
(動作例1)
次に、図2に示すフローチャートを参照して、文書分類装置1の動作例1を説明する。まず、特徴抽出部16は、複数の学習用データをデータ記憶部12から読み出し、複数の学習用データを解析することで複数の学習用データのそれぞれから特徴情報を抽出し、学各学習用データをベクトル化する(S01)。次に、クラスタリング部18は、ベクトル表現された複数の学習用データをクラスタに分類する(S02)。そして、クラスタ分析部20は、クラスタに属する学習用データに関連付けられたカテゴリ情報に基づき、当該クラスタ内のカテゴリの構成を分析する(S03)。カテゴリ更新部24は、同一クラスタに属する各カテゴリと各カテゴリの出現割合とをクラスタカテゴリとして定義し、同一クラスタに属する各学習用データに当該クラスタのクラスタカテゴリ情報を関連付けることで、各学習用データのカテゴリを更新する(S04)。
(動作例2)
次に、図3に示すフローチャートを参照して、文書分類装置1の動作例2を説明する。まず、特徴抽出部16は、複数の学習用データを解析することで複数の学習用データのそれぞれから特徴情報を抽出する(S10)。次に、特徴抽出部16は、抽出した特徴情報のうちノイズとなり得る特徴情報を除去し、ノイズとなり得ない特徴情報を選択して各学習用データをベクトル化する(S11)。例えば、特徴抽出部16は、抽出した特徴情報のうち同義語を同一素性として扱い、又は、Tf−idf値に基づいて不要な素性を除去し、各学習用データをベクトル化する。そして、クラスタリング部18は、ベクトル表現された複数の学習用データをクラスタに分類し(S12)、クラスタ分析部20は、クラスタ内のカテゴリの構成を分析する(S13)。また、クラスタ分析部20は、ノイズとなり得るクラスタの学習データを除去する(S14)。クラスタ分析部20は、数が他のカテゴリよりも少なく、その数の差が閾値以上となるカテゴリを除去してもよい。そして、カテゴリ更新部24は、同一クラスタに属する各学習用データにクラスタカテゴリ情報を関連付けることで、各学習用データのカテゴリを更新する(S15)。
(具体例)
次に、文書分類装置1の動作について具体例を挙げて説明する。図4に、予め特定のカテゴリに分類された学習用データの一例を示す。例えば、学習用データ識別情報(ID=1,2)が付された学習用データは「概要」というカテゴリに予め分類されており、ID=3の学習用データは「経歴」というカテゴリに予め分類されており、ID=4の学習用データは「構成」というカテゴリに予め分類されている。各学習用データは記憶部10に記憶されており、各学習用データのカテゴリを示すカテゴリ情報は、カテゴリ記憶部14に記憶されている。
特徴抽出部16は、各学習用データ(ID=1,2,3,・・・)から特徴情報を抽出し、各学習用データをベクトル化する。図5に、ID=1の学習用データのベクトル表現の一例を示す。説明を簡略にするために、内容語(単語)をベクトルの素性として用い、出現数をスコアとして用いている。図5中のWIDは、特徴抽出部16によって各単語に付けられた識別情報である。なお、WIDはベクトルのインデクス番号を表し、出現数はインデクス番号におけるスコアを表す。特徴抽出部16は、辞書等を利用することで、同義語に同一のWIDを付与してもよい。また、スコア(出現数、出現頻度)に対して閾値を設定し、スコアが閾値以下となる素性を除去してもよい。すなわち、スコアに応じて、クラスタリング部18によるクラスタ分けに用いられる特徴情報を選択してもよい。
クラスタリング部18は、ベクトル表現された学習用データを、予め決定された手法によってクラスタに分類する。図6にクラスタリングの結果を示す。図6中のCIDは、クラスタを識別するためのクラスタ識別情報である。図6に示す例では、CID=1のクラスタには、ID=1,3,10,・・・の学習用データが分類されている。ID=1の学習用データは予め「概要」カテゴリに分類され、ID=3の学習用データは予め「経歴」カテゴリに分類されているため、「概要」カテゴリ及び「経歴」カテゴリがCID=1のクラスタに属することになる。また、CID=2のクラスタには、ID=2の学習用データが分類されている。ID=2の学習用データは予め「概要」カテゴリに分類されているため、「概要」カテゴリがCID=2のクラスタに属することになる。他のCIDのクラスタについても同様に、各クラスタに分類された学習用データのカテゴリが、対応するクラスタに属することになる。以下では、説明の便宜上、CID=1のクラスタを「クラスタ1」と称し、CID=2のクラスタを「クラスタ2」と称する。他のCIDのクラスタについても同様である。
クラスタ分析部20は、クラスタ1に属する各学習用データ(ID=1,3,10,・・・)のカテゴリのクラスタ1内での出現数と、クラスタ1内における各カテゴリの出現割合とを求める。他のクラスタ2,3,・・・についても同様に、カテゴリの出現数と出現割合とを求める。クラスタ内のカテゴリの出現数は、当該カテゴリに予め分類され、クラスタリング部18によって当該クラスタに分類された学習用データの数を意味する。なお、クラスタ分析部20は、ノイズとなり得るクラスタや学習用データを除去してもよい。図7にクラスタの分析結果を示す。図7に示す例では、クラスタ1には516個の学習用データ(カテゴリ)が分類されている(要素数=516)。具体的には、クラスタ1には、120個の「経歴」カテゴリが含まれ、101個の「概要」カテゴリが含まれている。これは、「経歴」カテゴリに予め分類された120個の学習用データが、クラスタリング部18によってクラスタ1に分類され、「概要」カテゴリに予め分類された101個の学習用データが、クラスタリング部18によってクラスタ1に分類されたことを意味する。また、クラスタ1においては、「経歴」カテゴリの出現割合は0.23(23%)であり、「概要」カテゴリの出現割合は0.20(20%)である。すなわち、クラスタ1に分類された全カテゴリのうち23%のカテゴリが「経歴」カテゴリであり、20%のカテゴリが「概要」カテゴリであることを意味する。
クラスタ2には1個の学習用データ(カテゴリ)が分類されている(要素数=1)。具体的には、1個の「概要」カテゴリがクラスタ2に分類されている。これは、「概要」カテゴリに予め分類された1個の学習用データが、クラスタリング部18によってクラスタ2に分類されたことを意味する。従って、クラスタ2においては、「概要」カテゴリの出現割合は1.00(100%)である。
クラスタ3には333個の学習用データ(カテゴリ)が分類されている(要素数=333)。具体的には、クラスタ3には、91個の「構成」カテゴリが含まれ、52個の「概要」カテゴリが含まれている。これは、「構成」カテゴリに予め分類された91個の学習用データが、クラスタリング部18によってクラスタ3に分類され、「概要」カテゴリに予め分類された52個の学習用データが、クラスタリング部18によってカテゴリ3に分類されたことを意味する。また、クラスタ3においては、「構成」カテゴリの出現割合は0.27(27%)であり、「概要」カテゴリの出現割合は0.16(16%)である。
カテゴリ更新部24は、クラスタ1に属する各カテゴリ(経歴、概要、・・・)と各カテゴリの出現割合(0.23、0.20、・・・)とを、CID=1のクラスタカテゴリとして新たに定義する。同様に、カテゴリ更新部24は、クラスタ2に属する「概要」カテゴリと出現割合(1.00)とを、CID=2のクラスタカテゴリとして新たに定義し、クラスタ3に属する各カテゴリ(構成、概要、・・・)と各カテゴリの出現割合(0.27、0.16、・・・)とを、CID=3のクラスタカテゴリとして新たに定義する。他のクラスタについても同様である。
カテゴリ更新部24は、クラスタ1に属する学習用データに、クラスタ1のクラスタ識別情報(CID=1)を付与し、CID=1のクラスタカテゴリを示すクラスタカテゴリ情報を関連付ける。他のクラスタに属する学習用データについても同様に、クラスタカテゴリ情報を関連付ける。以下では、説明の便宜上、CID=1のクラスタカテゴリを「クラスタカテゴリ1」と称し、CID=2のクラスタカテゴリを「クラスタカテゴリ2」と称する。他のCIDのクラスタカテゴリについても同様である。
図8に、クラスタカテゴリが付与された学習用データの一例を示す。ID=1,3の学習用データはクラスタ1に属しているため、クラスタカテゴリ1を示すクラスタカテゴリ情報が関連付けられている。すなわち、「経歴」カテゴリ、「経歴」カテゴリの出現割合、「概要」カテゴリ及び「概要」カテゴリの出現割合を含むクラスタカテゴリ情報が、ID=1,3の学習用データに関連付けられている。また、ID=2の学習用データはクラスタ2に属しているため、クラスタカテゴリ2を示すクラスタカテゴリ情報が関連付けられている。すなわち、「概要」カテゴリ及び「概要」カテゴリの出現割合を示すクラスカテゴリ情報が、ID=2の学習用データに関連付けられている。
ID=1の学習用データを例にして説明すると、ID=1の学習用データに付与されたクラスタカテゴリは、例えば、以下のように解釈され得る。
(1)ID=1の学習用データは、23%の確率で「経歴」カテゴリ、20%の確率で「概要」カテゴリに分類されるデータである。
(2)ID=1の学習用データは、23%の「経歴」カテゴリの特徴と20%の「概要」カテゴリの特徴とを有するデータである。
(3)ID=1の学習用データは、「経歴」カテゴリの特徴と「概要」カテゴリの特徴とを有するデータである。
ID=1の学習用データは「概要」カテゴリに予め分類されていたが、「経歴」カテゴリの出現割合(23%)が「概要」カテゴリの出現割合(20%)よりも大きいため、「概要」カテゴリよりも「経歴」カテゴリの特徴が強いと分析されている。他のクラスカテゴリについても同様に解釈され得る。
以上のように、予め特定のカテゴリに分類された学習用データの特徴情報に基づいて学習用データをクラスタに分類し、クラスタに属するカテゴリと当該カテゴリの出現割合とをクラスタカテゴリとして新たに定義して学習用データに関連付けることで、カテゴリ間の境界が曖昧でカテゴリの定義に曖昧性がある場合であっても、その曖昧性を表現したクラスタカテゴリが学習用データに付与されることになる。言葉は様々な意味や概念を持つため、各カテゴリが互いに独立していないことがあり、学習用データに予め付与されたカテゴリは、当該学習用データの特徴を正確に表していないことがある。本実施形態によると、カテゴリの曖昧性を表現したクラスタカテゴリが学習用データに付与されるため、当該学習用データの特徴をより正確に表したカテゴリが学習用データに付与されることになる。
例えば、上述したID=1の学習用データのように、元々は「概要」カテゴリが付与されていたが、「経歴」の要素が「概要」よりも強い可能性がある。この場合に、「概要」カテゴリ又は「経歴」カテゴリのいずれか一方のみをID=1の学習用データに付与するのではなく、出現割合も含めて両カテゴリをクラスタカテゴリとしてID=1の学習用データに付与することで、クラスタカテゴリを付与しない場合と比べて、ID=1の学習用データの特徴がより正確に表現されることになる。例えば、「概念」カテゴリだけがID=1の学習用データに付与されている場合、ID=1の学習用データが「経歴」カテゴリの特徴を有しているにもかかわらず、その特徴が表されない。これに対して、クラスタカテゴリを学習用データに付与することで、ID=1の学習用データが「概要」及び「経歴」カテゴリの特徴を有していることが表されるため、ID=1の学習用データの特徴がより正確に表現されることになる。
以上のように、予め特定のカテゴリに分類された学習用データを対象にして分類処理を行い、学習用データを新たなクラスタカテゴリに分類することで、学習用データを用いた文書分類の精度が向上し得る。
なお、図示しない表示装置によって、カテゴリ、クラスタカテゴリ及び学習用データの対応関係を表示してもよい。例えば図8に示す表形式で、その対応関係を表示してもよい。これにより、ユーザが学習用データの概念や意味を把握するための情報や、ユーザがカテゴリを付与し直すための情報が、ユーザに提供されることになる。
(変形例)
次に、図9を参照して、変形例に係る文書分類装置について説明する。変形例に係る文書分類装置1Aは、上記の文書分類装置1の構成に加えて、処理部30、入力部42及び出力部44を備えている。処理部30は、識別器作成部32、カテゴリ分類部34、検索部36及び学習用データ更新部38を備えている。未分類データ記憶部46には、特定のカテゴリに分類されていない文書データ(「未分類データ」と称する)が記憶されている。
入力部42は例えばユーザインターフェースであり、ユーザによる情報の入力を受け付ける。出力部44は、例えば表示装置、ネットワークインターフェース又は印刷装置等であり、処理部30の処理結果を出力する。
識別器作成部32は、特定のカテゴリに分類された学習用データから識別器(「カテゴリ識別器」)を作成する。例えば、学習用データの主成分ベクトルを識別器として用いる。また、識別器作成部32は、クラスタカテゴリに分類された学習用データから識別器(「クラスタカテゴリ識別器」)を作成してもよい。
カテゴリ分類部34は、識別器を用いて未分類データのカテゴリを求め、未分類データをカテゴリに分類する。また、カテゴリ分類部34は、識別器を用いて未分類データのクラスタカテゴリを求め、未分類データをクラスタカテゴリに分類してもよい。
検索部36は、クラスタカテゴリが付与された学習用データを検索対象とし、入力部42が受け付けた検索クエリを用いてデータを検索する。検索部36は、学習用データと検索クエリとの一致度によってスコアを算出し、スコア降順で検索結果(より高いスコアのデータをより上位とする結果)を出力する。さらに、検索クエリにカテゴリの用語が含まれている場合、検索部36は、クラスタカテゴリも検索対象とし、クラスタカテゴリに属するカテゴリの構成に応じて、検索クエリと検索対象データとの一致度を表すスコアを調整する。例えば、検索クエリに含まれる用語と一致するカテゴリの出現割合に応じた重みをスコアに付けることで、スコアを調整する。これにより、検索クエリに含まれる用語と一致するカテゴリの出現割合が大きいほど、当該カテゴリに分類された学習用データのスコアは高くなる。
学習用データ更新部38は、未分類データにカテゴリ又はクラスタカテゴリが付与された場合、各種データを更新する。例えば、学習用データ更新部38は、カテゴリやクラスタカテゴリが付与された未分類データを学習用データとしてデータ記憶部12に記憶させる。また、学習用データ更新部38は、カテゴリ記憶部14やクラスタカテゴリ記憶部22に記憶されているデータを更新してもよい。また、学習用データ更新部38は、検索部36の検索結果に基づいて学習用データのカテゴリを更新してもよい。
(動作例3)
次に、図10を参照して、変形例に係る文書分類装置1Aの動作例(動作例3)を説明する。動作例3では、未分類データにカテゴリやクラスタカテゴリを付与して学習用データを更新する。
まず、カテゴリ分類部34は、識別器作成部32によって作成されたクラスタカテゴリ識別器を用いて未分類データのクラスタカテゴリを求め、未分類データをクラスタカテゴリに分類する(S20)。そして、クラスタカテゴリに属するカテゴリからカテゴリを選択する(S21)。例えば、カテゴリ分類部34は、クラスタカテゴリに属するカテゴリのうち、出現割合が最大のカテゴリを、未分類データに付与してもよい。出現割合が最大のカテゴリは、当該未分類データの特徴をより正確に表している可能性があるため、出現割合が最大のカテゴリを未分類データに付与することで、未分類データの特徴をより正確に表すカテゴリが未分類データに付与されることになる。または、出力部44がクラスタカテゴリに属するカテゴリの一覧を表示し、ユーザが入力部42を用いてカテゴリを選択してもよい。この場合、カテゴリ分類部34は、ユーザによって選択されたカテゴリを未分類データに付与する。なお、クラスタカテゴリのみを未分類データに付与してもよい。
そして、学習用データ更新部38は、各種データを更新する(S22)。例えば、学習用データ更新部38は、カテゴリやクラスタカテゴリが付与された未分類データを学習用データとしてデータ記憶部12に記憶させる。また、学習用データ更新部38は、選択されたカテゴリの出現数を1つインクリメントし、クラスタの要素数及びカテゴリの出現割合を更新する。これにより、カテゴリ記憶部14及びクラスタカテゴリ記憶部22に記憶されているデータが更新される。図7を参照して説明すると、ステップS21にて、クラスタカテゴリ1(CID=1)に属する「経歴」カテゴリが選択された場合、学習用データ更新部38は、クラスタカテゴリ1における「経歴」カテゴリの出現数を1つインクリメントし、クラスタカテゴリ1の要素数を1つインクリメントし、クラスタカテゴリ1における「経歴」カテゴリの出現割合を更新する。なお、未分類データにカテゴリが付与された場合、識別器作成部32は識別器を更新してもよい。
以上のように、未分類のデータにカテゴリやクラスタカテゴリを付与して学習用データを更新することで、クラスタカテゴリの作成の基礎となる情報が更新されるため、クラスタカテゴリの分類の精度が向上する。
また、別の例として、カテゴリや段落の見出し等が付与されていない文書データに、カテゴリや見出しを付与したい場合、動作例3を適用してもよい。例えば、カテゴリ分類部34は、識別器を用いて対象データをクラスタカテゴリに分類し、クラスタカテゴリ、クラスタカテゴリに属するカテゴリのうち出現割合が最大のカテゴリ、又は、クラスタカテゴリに属するカテゴリのうちユーザによって選択されたカテゴリを、対象データに付与する。この場合も、学習用データ更新部38は、各種データを更新する。
なお、動作例3によって文書分類装置1Aが動作する場合、処理部30は検索部36を備えていなくてもよい。
(動作例4)
次に、図11を参照して、変形例に係る文書分類装置1Aの別の動作例(動作例4)を説明する。動作例4では、クラスタカテゴリが付与された学習用データを検索対象として検索を行い、その検索結果に基づいて学習用データを更新する。
まず、入力部42を介して検索クエリが入力されると、検索部36は、クラスタカテゴリが付与された学習用データを検索対象とし、検索対象の学習用データと検索クエリとの一致度によってスコアを算出する(S30)。
検索クエリにカテゴリの用語(例えば、「概要」や「経歴」等)が含まれていない場合(S31,No)、検索部36は、ステップS30での検索結果を出力し、検索処理は終了する。例えば、出力部44はスコア降順で検索結果を表示する。
一方、検索クエリにカテゴリの用語が含まれている場合(S31,Yes)、検索部36は、クラスタカテゴリも検索対象として検索する(S32)。図8を参照して説明すると、例えば検索クエリが「経歴」というカテゴリの用語を含む場合、検索部36は、クラスタカテゴリを検索対象として検索を行い、検索クエリの用語「経歴」を含むクラスタカテゴリを特定し、当該クラスタカテゴリが付与されている学習用データを抽出する。図8に示す例では、クラスタカテゴリ1が付与されているID=1,3の学習用データが抽出される。仮にID=1,3の学習用データのテキストに「経歴」という用語が含まれていなくても、ID=1,3の学習用データに付与されたクラスタカテゴリ1には「経歴」カテゴリが含まれているため、ID=1,3の学習用データが検索によって抽出されることになる。
そして、検索部36は、検索クエリの用語と一致するカテゴリの出現割合が大きいほど、当該カテゴリに分類された学習用データのスコアを高くし、ステップS30での検索結果を再ランキングする(S33)。例えば、出力部44は、再ランキングされた検索結果を表示する。
ユーザは再ランキングされた検索結果を参照し、入力部42を用いて任意の学習用データを選択する(S34)。
ユーザによって学習用データが選択されると、学習用データ更新部38は各種データを更新する(S35)。この更新処理について、図8を参照して説明する。例えば、検索クエリに「経歴」というカテゴリの用語が含まれ、検索結果の中から「概要」カテゴリに分類されたID=1の学習用データがユーザによって選択された場合、学習用データ更新部38は、ID=1の学習用データのカテゴリを「概要」カテゴリから「経歴」カテゴリに変更する。このようにカテゴリを変更することで、ID=1の学習用データのカテゴリが修正され、ID=1の学習用データの特徴をより正確に表すカテゴリがID=1の学習用データに付与されることになる。また、動作例3と同様に、学習用データ更新部38は、カテゴリの選択に応じて、クラスタの要素数、カテゴリの出現数及び出現割合を更新する。
以上のようにクラスタカテゴリも検索対象とすることで、検索クエリが学習用データのテキストに存在せず、学習用データのみを検索対象とした場合には抽出されることのない学習用データも抽出される。これにより、検索クエリと関係があり得る学習用データが抽出される。例えば、学習用データのテキストに検索クエリが含まれておらず、検索クエリが学習用データの概念や意味を示す場合、学習用データのみを検索対象とすると、検索クエリと概念や意味が一致する学習用データは抽出されないが、クラスタカテゴリも検索対象とすることで、検索クエリと概念や意味が一致する学習用データが抽出されることになる。従って、単に学習用データのテキストを対象として検索する場合と異なり、概念や意味をも含めて学習用データを検索しているともいえる。
上記の文書分類装置1,1Aは、一例としてハードウェア資源とソフトウェアとの協働により実現される。具体的には、文書分類装置1,1Aは、図示しないCPU等のプロセッサを備えている。プロセッサは、図示しない記憶装置に記憶されたプログラムを読み出して実行することにより、上述した特徴抽出部16、クラスタリング部18、クラスタ分析部20、カテゴリ更新部24及び処理部30のそれぞれの機能を実行する。上記プログラムは、CDやDVD等の記録媒体を経由して、又は、ネットワーク等の通信手段を経由して、ハードディスクドライブ(HDD)等の記憶装置に記憶される。なお、上記プログラムは、ハードディスクドライブ等の記憶装置に予め記憶されていてもよい。ハードディスクドライブ等の記憶装置に記憶されたプログラムが、RAM等のメモリに読み出されてプロセッサによって実行されることにより、上述した各部の機能が実現される。
1,1A 文書分類装置、10 記憶部、12 データ記憶部、14 カテゴリ記憶部、16 特徴抽出部、18 クラスタリング部、20 クラスタ分析部、22 クラスタカテゴリ記憶部、24 カテゴリ更新部、30 処理部、32 識別器作成部、34 カテゴリ分類部、36 検索部、38 学習用データ更新部、42 入力部、44 出力部、46 未分類データ記憶部。

Claims (16)

  1. 予め特定のカテゴリに分類された複数の文書データのそれぞれから特徴情報を抽出する特徴抽出手段と、
    前記特徴情報に基づいて文書データを同一クラスタに分類するクラスタリング手段と、
    同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データのカテゴリも自己のカテゴリとして付与するカテゴリ更新手段と、
    を有し、
    前記カテゴリ更新手段は、前記同一クラスタにおける各文書データのカテゴリの出現割合を、前記同一クラスタに分類された文書データに付与する、
    ことを特徴とする文書分類装置。
  2. 請求項1に記載の文書分類装置であって、
    前記特徴抽出手段は、前記特定のカテゴリに関連する情報を特徴情報として前記複数の文書データのそれぞれから抽出する、
    ことを特徴とする文書分類装置。
  3. 請求項1又は請求項2に記載の文書分類装置であって、
    検索クエリを受け、前記検索クエリにカテゴリに関する情報が含まれている場合、文書データに予め付与されたカテゴリ及び前記カテゴリ更新手段によって付与されたカテゴリも検索対象とし、前記検索クエリを用いて検索し、検索結果を出力する検索手段を更に有する、
    ことを特徴とする文書分類装置。
  4. 予め特定のカテゴリに分類された複数の文書データのそれぞれから特徴情報を抽出する特徴抽出手段と、
    前記特徴情報に基づいて文書データを同一クラスタに分類するクラスタリング手段と、
    同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データのカテゴリも自己のカテゴリとして付与するカテゴリ更新手段と、
    検索クエリを受け、前記検索クエリにカテゴリに関する情報が含まれている場合、文書データに予め付与されたカテゴリ及び前記カテゴリ更新手段によって付与されたカテゴリも検索対象とし、前記検索クエリを用いて検索し、検索結果を出力する検索手段と、
    を有することを特徴とする文書分類装置。
  5. 請求項3又は請求項4に記載の文書分類装置であって、
    前記検索手段は、前記同一クラスタにおける各文書データのカテゴリの出現割合に応じた検索結果を出力する、
    ことを特徴とする文書分類装置。
  6. 請求項3から請求項5のいずれか一項に記載の文書分類装置であって、
    前記検索クエリによって検索された文書データのカテゴリと前記検索クエリに含まれるカテゴリに関する情報とが一致しない場合、前記検索された文書データのカテゴリを、前記検索クエリに含まれるカテゴリに変更する更新手段を更に有する、
    ことを特徴とする文書分類装置。
  7. 請求項1から請求項6のいずれか一項に記載の文書分類装置であって、
    前記カテゴリ更新手段によってカテゴリが付与された文書データに基づいて作成された識別器を用いて未分類の文書データにカテゴリを付与するカテゴリ分類手段を更に有する、
    ことを特徴とする文書分類装置。
  8. 請求項7に記載の文書分類装置であって、
    前記カテゴリ分類手段は、出現割合が最大のカテゴリを前記未分類の文書データに付与する、
    ことを特徴とする文書分類装置。
  9. 予め特定のカテゴリに分類された複数の文書データのそれぞれから特徴情報を抽出する特徴抽出手段と、
    前記特徴情報に基づいて文書データを同一クラスタに分類するクラスタリング手段と、
    同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データのカテゴリも自己のカテゴリとして付与するカテゴリ更新手段と、
    前記カテゴリ更新手段によってカテゴリが付与された文書データに基づいて作成された識別器を用いて未分類の文書データにカテゴリを付与するカテゴリ分類手段と、
    を有し、
    前記カテゴリ分類手段は、出現割合が最大のカテゴリを前記未分類の文書データに付与する、
    ことを特徴とする文書分類装置。
  10. 請求項7から請求項9のいずれか一項に記載の文書分類装置であって、
    前記カテゴリ分類手段によって処理された前記未分類の文書データを、前記特徴抽出手段、前記クラスタリング手段及び前記カテゴリ更新手段の処理対象の文書データに追加する手段を更に有する、
    ことを特徴とする文書分類装置。
  11. 請求項1から請求項10のいずれか一項に記載の文書分類装置であって、
    前記特徴抽出手段は、文書データにおける特徴情報の出現頻度に応じて、前記クラスタリング手段によるクラスタ分けに用いられる特徴情報を選択する、
    ことを特徴とする文書分類装置。
  12. 請求項1から請求項1のいずれか一項に記載の文書分類装置であって、
    前記カテゴリ更新手段は、前記同一クラスタにおける各文書データのカテゴリの出現割合に応じてカテゴリを選択して文書データに付与する、
    ことを特徴とする文書分類装置。
  13. 予め特定のカテゴリに分類された複数の文書データのそれぞれから特徴情報を抽出する特徴抽出手段と、
    前記特徴情報に基づいて文書データを同一クラスタに分類するクラスタリング手段と、
    同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データのカテゴリも自己のカテゴリとして付与するカテゴリ更新手段と、
    を有し、
    前記カテゴリ更新手段は、前記同一クラスタにおける各文書データのカテゴリの出現割合に応じてカテゴリを選択して文書データに付与する、
    ことを特徴とする文書分類装置。
  14. コンピュータに、
    予め特定のカテゴリに分類された複数の文書データのそれぞれから特徴情報を抽出するステップと、
    前記特徴情報に基づいて文書データを同一クラスタに分類するステップと、
    同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データのカテゴリも自己のカテゴリとして付与するステップと、
    を実行させ
    前記付与するステップでは、前記同一クラスタにおける各文書データのカテゴリの出現割合を、前記同一クラスタに分類された文書データに付与する、
    ことを特徴とするプログラム。
  15. 予め特定のカテゴリに分類された複数の文書データのそれぞれから特徴情報を抽出する特徴抽出手段と、
    前記特徴情報に基づいて文書データを同一クラスタに分類するクラスタリング手段と、
    同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データの少なくとも一部のカテゴリも自己のカテゴリとして付与するカテゴリ更新手段と、
    を有し、
    前記カテゴリ更新手段は、前記同一クラスタにおける各文書データのカテゴリの出現割合を、前記同一クラスタに分類された文書データに付与する、
    ことを特徴とする文書分類装置。
  16. コンピュータに、
    予め特定のカテゴリに分類された複数の文書データのそれぞれから特徴情報を抽出するステップと、
    前記特徴情報に基づいて文書データを同一クラスタに分類するステップと、
    同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データの少なくとも一部のカテゴリも自己のカテゴリとして付与するステップと、
    を実行させ、
    前記付与するステップでは、前記同一クラスタにおける各文書データのカテゴリの出現割合を、前記同一クラスタに分類された文書データに付与する、
    ことを特徴とするプログラム。
JP2012279624A 2012-12-21 2012-12-21 文書分類装置及びプログラム Active JP6007784B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012279624A JP6007784B2 (ja) 2012-12-21 2012-12-21 文書分類装置及びプログラム
PCT/JP2013/068852 WO2014097670A1 (ja) 2012-12-21 2013-07-10 文書分類装置及びプログラム
AU2013365452A AU2013365452B2 (en) 2012-12-21 2013-07-10 Document classification device and program
US14/717,034 US10353925B2 (en) 2012-12-21 2015-05-20 Document classification device, document classification method, and computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012279624A JP6007784B2 (ja) 2012-12-21 2012-12-21 文書分類装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2014123286A JP2014123286A (ja) 2014-07-03
JP6007784B2 true JP6007784B2 (ja) 2016-10-12

Family

ID=50978024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012279624A Active JP6007784B2 (ja) 2012-12-21 2012-12-21 文書分類装置及びプログラム

Country Status (4)

Country Link
US (1) US10353925B2 (ja)
JP (1) JP6007784B2 (ja)
AU (1) AU2013365452B2 (ja)
WO (1) WO2014097670A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858330B2 (en) * 2013-10-21 2018-01-02 Agile Legal Technology Content categorization system
US20160019284A1 (en) * 2014-07-18 2016-01-21 Linkedln Corporation Search engine using name clustering
US20180039822A1 (en) * 2015-08-20 2018-02-08 Mitsubishi Electric Corporation Learning device and learning discrimination system
WO2017124024A1 (en) * 2016-01-14 2017-07-20 Sumo Logic Single click delta analysis
US10606899B2 (en) 2016-05-23 2020-03-31 International Business Machines Corporation Categorically filtering search results
JP7198900B2 (ja) * 2017-08-14 2023-01-04 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP6985059B2 (ja) * 2017-08-14 2021-12-22 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
US20200026767A1 (en) * 2018-07-17 2020-01-23 Fuji Xerox Co., Ltd. System and method for generating titles for summarizing conversational documents
CN109739975B (zh) * 2018-11-15 2021-03-09 东软集团股份有限公司 热点事件抽取方法、装置、可读存储介质及电子设备
US20220335928A1 (en) * 2019-08-19 2022-10-20 Nippon Telegraph And Telephone Corporation Estimation device, estimation method, and estimation program
CN111078987A (zh) * 2019-12-21 2020-04-28 武汉比特空间科技有限公司 基于互联网的同类别数据提取整理系统
JP7357830B1 (ja) 2021-11-18 2023-10-06 三菱電機株式会社 文書検索装置、文書検索方法及び文書検索プログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1078971A (ja) * 1996-09-02 1998-03-24 Canon Inc 文書分類装置及び文書分類方法
JP3488063B2 (ja) 1997-12-04 2004-01-19 株式会社エヌ・ティ・ティ・データ 情報分類方法、装置及びシステム
JP2002041544A (ja) * 2000-07-25 2002-02-08 Toshiba Corp テキスト情報分析装置
KR20020049164A (ko) * 2000-12-19 2002-06-26 오길록 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법
JP4407272B2 (ja) 2003-12-22 2010-02-03 富士ゼロックス株式会社 文書分類方法、文書分類装置及び文書分類プログラム
US20070011020A1 (en) * 2005-07-05 2007-01-11 Martin Anthony G Categorization of locations and documents in a computer network
JP5019315B2 (ja) * 2007-04-23 2012-09-05 公立大学法人広島市立大学 情報処理装置、情報処理方法、及びプログラム
JP2009070321A (ja) * 2007-09-18 2009-04-02 Fuji Xerox Co Ltd 文書分類装置、及び文書分類プログラム
US20090077028A1 (en) * 2007-09-18 2009-03-19 Gosby Desiree D G Web services access to classification engines
CN101561805B (zh) * 2008-04-18 2014-06-25 日电(中国)有限公司 文档分类器生成方法和系统

Also Published As

Publication number Publication date
AU2013365452B2 (en) 2017-05-25
WO2014097670A1 (ja) 2014-06-26
JP2014123286A (ja) 2014-07-03
US10353925B2 (en) 2019-07-16
US20150254332A1 (en) 2015-09-10
AU2013365452A1 (en) 2015-06-04

Similar Documents

Publication Publication Date Title
JP6007784B2 (ja) 文書分類装置及びプログラム
US10268758B2 (en) Method and system of acquiring semantic information, keyword expansion and keyword search thereof
US9916304B2 (en) Method of creating translation corpus
AU2015203818B2 (en) Providing contextual information associated with a source document using information from external reference documents
JP6232478B2 (ja) 単一文書からのキーワード抽出装置及び方法
US20160189057A1 (en) Computer implemented system and method for categorizing data
US9898464B2 (en) Information extraction supporting apparatus and method
KR20210083706A (ko) 데이터의 범주를 분류하는 컴퓨팅 장치 및 방법
US20150199609A1 (en) Self-learning system for determining the sentiment conveyed by an input text
US10515267B2 (en) Author identification based on functional summarization
KR20150037924A (ko) 제품 인식에 근거한 정보 분류 기법
TW201913411A (zh) 同義詞辭典作成裝置、記錄有同義詞辭典作成程式之電腦可讀取之記錄媒體及同義詞辭典作成方法
US20130066898A1 (en) Matching target strings to known strings
JP2010061176A (ja) テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
CN109753646B (zh) 一种文章属性识别方法以及电子设备
JP4640593B2 (ja) 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
US10353927B2 (en) Categorizing columns in a data table
CN111339778B (zh) 文本处理方法、装置、存储介质和处理器
US8135573B2 (en) Apparatus, method, and computer program product for creating data for learning word translation
CN111625619B (zh) 查询省略方法、装置、计算机可读介质及电子设备
JP5439235B2 (ja) 文書分類方法、文書分類装置、およびプログラム
CN108733733B (zh) 基于机器学习的生物医学文本分类方法、系统和存储介质
US10380151B2 (en) Information processing to search for related expressions
US20230032208A1 (en) Augmenting data sets for machine learning models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160829

R150 Certificate of patent or registration of utility model

Ref document number: 6007784

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350