JP2009211277A - 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体 - Google Patents

文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体 Download PDF

Info

Publication number
JP2009211277A
JP2009211277A JP2008052118A JP2008052118A JP2009211277A JP 2009211277 A JP2009211277 A JP 2009211277A JP 2008052118 A JP2008052118 A JP 2008052118A JP 2008052118 A JP2008052118 A JP 2008052118A JP 2009211277 A JP2009211277 A JP 2009211277A
Authority
JP
Japan
Prior art keywords
document
vector
context
vectors
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008052118A
Other languages
English (en)
Other versions
JP4594992B2 (ja
Inventor
Shinji Tamoto
真詞 田本
Yoshiaki Noda
喜昭 野田
Satoshi Takahashi
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008052118A priority Critical patent/JP4594992B2/ja
Publication of JP2009211277A publication Critical patent/JP2009211277A/ja
Application granted granted Critical
Publication of JP4594992B2 publication Critical patent/JP4594992B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】1つの文書中に複数の文脈が混在する場合や、エラーが混在する場合であっても、高速かつ高精度に文書データを分類する。
【解決手段】文脈抽出部30が入力文書から各推定文脈を出力し、文書ベクトル生成部40が、各推定文脈の文書ベクトルである第1の文書ベクトルを生成し、文脈結合部50が、入力文書ごとに第1の文書ベクトルを対象とした第1のクラスタリングを行い、クラスタごとに第1の文書ベクトルを合成した第2の文書ベクトルを生成し、クラスタ分類部60が、すべての第2の文書ベクトルを対象とした第2のクラスタリングを行う。
【選択図】図1

Description

本発明は、複数の文書データを分類する技術に関する。
近年、音声認識技術の進歩とともに大量の音声対話がテキスト化されるようになってきた。一方、文書を中心とした大量テキス卜の中から必要なテキストを探し出す技術として、テキストの内容によって探索対象を絞り込むための文書分類技術が進歩してきた。
文書の分類方法は、クラスタリングとカテゴライズに大別される。
クラスタリングは、類似するテキストを集結させることによって各テキストの集合(クラスタ)を構築する(例えば、非特許文献1,2参照)。クラスタリングでは、カテゴライズと異なり、あらかじめ分類を定めておく必要がなく、未知のテキストに対して適用できる。また、分類によってテキスト内容の分布についで把握でき、内容の現況把握や、新しい発見が得られるなど、カテゴライズにはない特徴がある。
一般的に、文書のクラスタリングは、文書をベクトル表現した文書ベクトルのクラスタリングとして行われる。文書ベクトルは、文書集合に含まれるすべての異なる単語の各出現傾向を示す重みを成分とした列ベクトルで表現される(例えば、非特許文献1,3,4参照)。
文書ベクトルのクラスタリングでは、文書同士の類似度に文書ベクトル間の距離を用い、ベクトル成分の類似した、すなわち単語の出現傾向が類似した文書の文書ベクトルを同一のクラスタに分類する。単語の出現傾向は文書に現れる話題に依存するため、同一クラスタに分類された文書ベクトルの話題は互いに類似する可能性が高い。
また、特許文献1には、大量の文書でも高速かつ高精度にクラスタリングを行うことができる文書分類方法が開示されている。この方法では、まず、クラスタリング対象の文書を複数の文書群に分割し、各文書群について予備クラスタリングを行う。各予備クラスタリングは、それぞれ、各文書群のみを対象とし、サンプル数が少ないため、高速に処理できる。次に、このとき作成された予備クラスタ内の文書を統合して統合文書とし、統合文書に対して再クラスタリングを行う。このように、予備クラスタリングによってある程度類似する文書を統合文書としてまとめてから再クラスタリングを行うことにより、各文書の特徴を各統合文書に反映さえつつ、再クラスタリングの対象となるサンプル数を減らすことができる。その結果、特許文献1の方法では、全体として高速かつ高精度にクラスタリングを行うことができる。
岸田和明,「文書クラスタリングの技法:文献レビュー」,三田図書館・情報学会,N0.49(2003),p.33−75 梶博行,森本康嗣,相薗敏子,山崎紀之,飯田恵子,内田安彦,「コーパス対応の関連シソーラスナビゲーション」,情報処理学会データベースシステム研究会118−13(1999),p.97−104 徳永健伸著,辻井潤一編,「情報検索と言語処理 言語と計算」,東京大学出版会,1999年 北研二,津田和彦,獅々堀正幹,「情報検索アルゴリズム」,共立出版,2002年 特開2003−271620号公報
しかし、従来方法では、1つの文書中に複数の分野分類されるべき複数の文章(文脈)が混在する場合や、文章本来の意味とは無関係な単語(エラー)が混在する場合に分類精度が低下するという問題があった。以下、この問題点を説明する。
従来方法では、各文書内に複数の文脈が存在する場合やエラーが存在する場合を想定しておらず、文書ごとに1つずつ設定される文書ベクトルをクラスタリングの処理単位としている。そのため、1つの文書中の文脈数やエラー数が増加した場合、文書ベクトルの成分にノイズが重畳し、類似度の誤差が増大し、分類精度が低下してしまうという問題が生じる。例えば、複数の文脈を含む文書全体の1つの文書ベクトルは、これら各文脈の文書ベクトルのいずれとも異なり、その類似度は文書に含まれる文脈数が多くなればなるほど低下する。そして、文書に含まれる文脈数の階乗に比例して文書ベクトルが多様化し、クラスタ数の増加、クラスタの近接化、クラスタのメンバー数減少等が顕著になり、高精度な分類が困難となる。
例えば、特許文献1に開示された従来方法では、クラスタリング対象の各文書を複数の文書群に分割しているが、この分割は各文書内の文脈数やエラーを考慮することなく、予め決められた方法に沿って固定的に行われる。そして、この方法でのクラスタリングの処理単位はあくまで各文書の文書ベクトルである。そのため、各文書内に複数の文脈が存在する場合やエラーが存在する場合には、予備クラスタリング及び再クラスタリングの過程において上述した問題が発生し、高精度な分類が困難となる。
また、各文書内に複数の文脈が存在する場合に分類精度を向上させる手法として、例えば、各文書からいくつかの文脈を抽出し、抽出した文脈集合に対してベクトル化を行って文書ベクトル集合を作成し、文書ベクトル集合全体を対象にクラスタリングする手法も想定できる。しかし、この手法ではクラスタリング対象となる文書ベクトルの数が大きくなり、クラスタリングの処理時間は文書ベクトル数のべき乗で増大することから現実的ではない。
本発明はこのような点に鑑みてなされたものであり、1つの文書中に複数の分野に分類されるべき複数の文章(文脈)が混在する場合や、文章本来の意味とは無関係な単語(エラー)が混在する場合であっても、高速かつ高精度に文書データを分類することが可能な技術を提供することを目的とする。
本発明では上記課題を解決するために、複数の入力文書をメモリに格納し、まず、文脈抽出手段が、メモリから入力文書を読み込み、当該入力文書中の各単語と予め設定された何れかの主要単語とが一致するか否かを判定し、一致した当該入力文書中の単語の位置を基準として定まる当該入力文書中の一部の単語列をそれぞれ推定文脈として抽出し、各推定文脈を出力する。次に、文書ベクトル生成手段が、各推定文脈の文書ベクトルである第1の文書ベクトルを生成し、各第1の文書ベクトルを出力する。次に、文脈結合手段が、入力文書ごとに、当該入力文書に含まれる各推定文脈にそれぞれ対応する第1の文書ベクトルを対象とした第1のクラスタリングを行い、複数の第1の文書ベクトルが属するクラスタについてはそれに属する複数の第1の文書ベクトルを合成した合成ベクトルを第2の文書ベクトルとして出力し、1個の第1の文書ベクトルが属するクラスタについてはそれに属する1個の第1の文書ベクトルを第2の文書ベクトルとして出力する。そして、クラスタ分類手段が、すべての第2の文書ベクトルを対象とした第2のクラスタリングを行い、当該第2のクラスタリングの結果を出力する。
ここで、本発明では、文脈抽出手段が入力文書から各文脈の推定である推定文脈を抽出し、文書ベクトル生成手段が、推定文脈ごとの文書ベクトルである第1の文書ベクトルを生成する。これにより、入力文書に複数の文脈が含まれている場合であっても、文脈ごとに第1の文書ベクトルが生成されることが期待される。また、入力文書中にエラーが含まれている場合であっても、当該エラーがベクトル化の対象とならない可能性が高い。以上により、第1の文書ベクトルの成分誤差を低減できる。
また、本発明では、文脈結合手段が、入力文書ごとに第1の文書ベクトルを対象とした第1のクラスタリングを行い、クラスタごとの第2の文書ベクトルを生成する。このクラスタリングは、入力文書ごとに行われるため、サンプル数が少なく高速で処理できる。そして、クラスタ分類手段が、すべての第2の文書ベクトルを対象とした第2のクラスタリングを行い、当該第2のクラスタリングの結果を出力する。このクラスタリングの対象は、それぞれ第1のクラスタリングにおいて同一のクラスタに分類された第1の文書ベクトルが反映された第2の文書ベクトルであり、なおかつ、その総数は推定文脈の総数よりも少ない。
本発明では、推定文脈ごとの文書ベクトルである第1の文書ベクトルを用いることにより、第1の文書ベクトルの成分誤差を低減し、さらに、文書ごとに第1の文書ベクトルを対象とした第1のクラスタリングを行ってクラスタごとの第2の文書ベクトルを生成し、当該第2の文書ベクトルを対象とした第2のクラスタリングを行うことにより、クラスタリングの速度と精度を向上させた。その結果、本発明では、1つの文書中に複数の分野に分類されるべき複数の文章(文脈)が混在する場合や、文章本来の意味とは無関係な単語(エラー)が混在する場合であっても、高速かつ高精度に文書データを分類できる。
以下、本発明を実施するための最良の形態を図面を参照して説明する。
<構成>
図1は、本形態の文書データ分類装置1の構成を示すブロック図である。また、図2は、本形態の文脈抽出部30の詳細構成を示すブロック図であり、図3(a)は、文脈結合部50の詳細構成を示すブロック図であり、図3(b)は、クラスタ分類部60の詳細構成を示すブロック図である。
図1に示すように、本形態の文書データ分類装置1は、メモリ10、文書入力部20、文脈抽出部30、文書ベクトル生成部40、文脈結合部50、クラスタ分類部60、結果表示部70及び制御部80を有する。また、図2に示すように、この例の文脈抽出部30は、一致判定部31、単語列抽出部32及び文脈統合部33を有する。また、図3(a)に示すように、この例の文脈結合部50は、初期集合設定部51及び集合更新部52を有し、この例のクラスタ分類部60は、セントロイド設定部61、クラスタリング部62及び終了条件判定部63を有する。
なお、本形態の文書データ分類装置1は、CPU(Central Processing Unit)、RAM(Random Access Memory)、補助記憶装置、表示ディスプレイ等を有する公知のコンピュータに所定のプログラムが読み込まれることによって構成される。具体的には、メモリ10は、例えば、RAM、キャッシュメモリ、レジスタ、補助記憶装置の何れか、又は、少なくともそれらの一部の結合によって構成される記憶部である。なお、記載の便宜上、各図ではメモリ10を分離した態様で記載しているが、これはメモリ10の物理的構成を特徴付けるものではない。また、文書入力部20、文脈抽出部30、文書ベクトル生成部40、文脈結合部50、クラスタ分類部60及び制御部80は、例えば、所定のプログラムが読み込まれそれを実行するCPUである。また、結果表示部70は、例えば、所定のプログラムが読み込まれそれを実行するCPUの制御のもと駆動する表示ディスプレイである。なお、文書データ分類装置1は、制御部80の制御のもと各処理を実行する。
<処理>
図4は、本形態の文書データ分類方法の全体を説明するためのフローチャートである。また、図5は、図4のステップS2の詳細を例示したフローチャートであり、図6は、図4のステップS4の詳細を例示したフローチャートであり、図7は、図4のステップS5の詳細を例示したフローチャートである。また、図8は、本形態の文書データ分類方法の全体を説明するための概念図である。以下、これらの図を用いて、本形態の文書データ分類処理を説明する。
まず、文書入力部20に複数の入力文書が入力され、メモリ10に格納される(ステップS1/文書入力過程)。これらの入力文書は、1つの文書中に複数の分野に分類されるべき複数の文章(文脈)が混在する文書や、文章本来の意味とは無関係な単語(エラー)が混在する文書である。そのような文書の例としては、例えば、音声認識技術を用いて音声対話をテキスト化した文書を例示できる。このような文書には、複数の話題や、対話中に生じる話題とは無関係な単語、言い誤りや言い直し、テキスト化の過程で生じる誤り等が混在することが多い。また、入力文書のその他の例としては、電子メールの通信文書、インターネット上のホームページ、文字放送字幕等を例示できる。これらの文書もエラーや複数の文脈が混在する可能性が高い文書である。なお、文書入力部20に入力される各入力文書は、事前に形態素解析がなされ、それぞれを構成する単語が抽出されているものとする。また、メモリ10に格納される各入力文書には、それらを識別するための文書ラベルが付与され、各文書ラベルは対応する入力文書にそれぞれ関連付けられてメモリ10に格納される。
また、入力文書の分野ごとに予め入力文書中の単語の解析等を行い、推定文脈を抽出するための1個以上の主要単語が準備され、メモリ10に格納されているものとする。主要単語の例としては、例えば、各文脈に特徴的な単語を例示できる。このような主要単語の設定は、例えば、対象分野の複数の入力文書を対象として各単語のTF-IDF(Term Frequency - Inverse Document Frequency)を求め、TF-IDFが高い単語を主要単語として選択することによって可能である。また、「ところで」などの話題を変更する際に使用される接続詞を主要単語としてもよいし、「以上」のように話題の最後に使用される単語を主要単語としてもよい。さらには、話題が変更される際に表れる一定長以上のスペースやポーズなどを主要単語としてもよい。
次に、文脈抽出部30が、メモリ10から入力文書を読み込み、当該入力文書中の各単語とメモリ10に格納された予め設定された何れかの主要単語とが一致するか否かを判定する。そして、文脈抽出部30は、一致した当該入力文書中の単語の位置を基準として定まる当該入力文書中の所定範囲の単語列をそれぞれ推定文脈として抽出し、各推定文脈をメモリ10出力し、当該メモリ10に格納する(ステップS2/文脈抽出過程)。
[ステップS2/文脈抽出過程の詳細]
ここで、図2及び図5を用い、ステップS2の詳細を例示する。
まず、文脈抽出部30の一致判定部31が、メモリ10から未処理の1つの入力文書を選択する(ステップS11)。次に、一致判定部31が、選択した入力文書の先頭の単語を判定対象の単語に設定する(ステップS12)。次に、一致判定部31は、メモリ10に格納された主要単語を参照し、判定対象の単語が何れかの主要単語と一致するか否かを判定する(ステップS13)。
ここで、判定対象の単語が何れかの主要単語と一致していなかったならばステップS17の処理に移行する。
一方、判定対象の単語が何れかの主要単語と一致していたならば、その一致位置を示す一致位置情報(例えば、入力文書の何番目の単語であるかを示す情報)をメモリ10に格納する。そして、単語列抽出部32が、メモリ10から一致位置情報を読み込み、それに示される単語の一致位置を基準として定まる入力文書中の一部の単語列を推定文脈として特定する。そして、単語列抽出部32は、特定した推定文脈をメモリ10に格納された当該入力文書から抽出し、抽出した推定文脈をメモリ10に格納する(ステップS14)。なお、単語の一致位置を基準として定まる入力文書中の一部の単語列としては、(1)主要単語と一致した単語を含む所定範囲の単語列、(2)主要単語と一致した単語の直後に位置する所定範囲の単語列、(3)主要単語と一致した単語の直前に位置する所定範囲の単語列などを例示できる。また、主要単語の種類に応じ、どのような範囲の単語列を推定文脈として抽出するかが変化する構成でもよい。例えば、主要単語が各推定文脈に特徴的な単語である場合には、上記の(1)の基準に従って推定文脈を抽出し、主要単語が話題を変更する際に使用される接続詞である場合には、上記の(2)の基準に従って推定文脈を抽出し、主要単語が話題の最後に使用される単語である場合には、上記の(3)の基準に従って推定文脈を抽出することとしてもよい。また、推定文脈として抽出する単語列の範囲(単語数)を大きくすると、異なる文脈を包含することにならない限り分類精度は向上するが、後述のステップS3で述べる文書ベクトル化時の処理速度が低下する。一方、推定文脈として抽出する単語列の範囲(単語数)を小さくすると、文書ベクトル化時の処理速度は向上するが、分類精度が低下する。従って、入力文書の分野ごとに処理速度と分類精度とを考慮し、適切な単語列の範囲を推定文脈として抽出する。
次に、文脈統合部33がメモリ10に格納された推定文脈を参照し、複数の推定文脈の一部分が相互に重複するか否かを判定する(ステップS15)。なお、複数の推定文脈の一部分が相互に重複するとは、複数の推定文脈をそれぞれ構成する単語の範囲が互いに重複することを意味する。ここで、複数の推定文脈の一部分が相互に重複していなかった場合には、処理がステップS17に以降する。一方、複数の推定文脈の一部分が相互に重複していた場合には、文脈統合部33は、当該複数の推定文脈を、当該複数の推定文脈に対応する範囲の単語列からなる1つの推定文脈に統合して出力する(ステップS16)。例えば、「単語a」「単語b」「単語c」「単語d」「単語e」からなる「推定文脈A」と、「単語d」「単語e」「単語f」「単語g」「単語h」からなる「推定文脈B」とが存在する場合、文脈統合部33は、「推定文脈A」「推定文脈B」を、「推定文脈A」「推定文脈B」に対応する範囲の単語列「単語a」「単語b」「単語c」「単語d」「単語e」「単語f」「単語g」「単語h」からなる1つの「推定文脈C」に統合して出力する。そして、文脈統合部33から出力された統合された推定文脈がメモリ10に格納されるとともに、その推定文脈に統合された各推定文脈がメモリ10から削除される。上記の例では、文脈統合部33から出力された統合された「推定文脈C」がメモリ10に格納されるとともに、「推定文脈C」に統合された「推定文脈A」「推定文脈B」がメモリ10から削除される。その後、処理がステップS17に以降する。
ステップS17では、制御部80が、判定対象の単語が入力文書の最後の単語であるか否かを判定する(ステップS17)。ここで、判定対象の単語が入力文書の最後の単語でないと判定された場合、一致判定部31は、その単語の次の単語を新たな判定対象の単語に設定し(ステップS18)、処理がステップS13に戻される。
一方、判定対象の単語が入力文書の最後の単語であると判定された場合、制御部80が、未処理の入力文書がメモリ10に存在するか否かを判定する(ステップS19)。ここで、未処理の入力文書がメモリ10に存在すると判定された場合には、処理がステップS11に戻される。一方、未処理の入力文書がメモリ10に存在しないと判定された場合には、ステップS2の処理が終了する([ステップS2の詳細]の説明終わり)。
次に、文書ベクトル生成部40が、メモリ10から各推定文脈を読み込み、各推定文脈の文書ベクトルである第1の文書ベクトルをそれぞれ生成し、各第1の文書ベクトルをメモリ10に出力し、そこに格納する(ステップS3/文書ベクトル生成過程)。なお、文書ベクトルは、文書集合に含まれるすべての異なる単語の各出現傾向を示す重みを成分とした列ベクトルで表現される(例えば、非特許文献1,3,4参照)。文書ベクトルの生成には公知の方法を用いればよい。例えば、TF-IDF尺度を用いて文書群から複数の単語を選別し、選別された各単語の推定文脈における出現頻度(TF)を当該推定文脈の文書ベクトルの要素としてもよい。また、単語間共起頻度行列をもとに次元数を圧縮した文書ベクトルを生成してもよい(例えば、非特許文献3,4参照)。また、生成された各第1の文書ベクトルには対応する各推定文脈を識別するための推定文脈IDが付与される。そして、各推定文脈IDは、対応する各第1の文書ベクトル及び推定文脈並びに当該推定文脈が属する入力文書の文書ラベルに関連付けられてメモリ10に格納される。
次に、文脈結合部50が、入力文書ごとに、当該入力文書に含まれる各推定文脈にそれぞれ対応する第1の文書ベクトルを対象とした第1のクラスタリングを行い、複数の第1の文書ベクトルが属するクラスタについてはそれに属する複数の第1の文書ベクトルを合成した合成ベクトルを第2の文書ベクトルとして出力し、1個の第1の文書ベクトルが属するクラスタについてはそれに属する1個の第1の文書ベクトルを第2の文書ベクトルとして出力する(ステップS4/文脈結合過程)。出力された各第2の文書ベクトルには、それぞれに対応する何れかの第1文書ベクトルの推定文脈ID及び文書ラベルが関連付けられ、それらはメモリ10に格納される。
[ステップS4/文脈結合過程の詳細]
ここで、図3(a)及び図6を用い、ステップS4の詳細を例示する。
このステップS4の処理は、入力文書ごとにクラスタリングを行う点に特徴がある。クラスタリング方法には様々な方法を用いることができるが、本形態では、入力文書ごとに、階層的クラスタリングによって第1の文書ベクトルをクラスタリングし、その過程において各クラスタごとに第1の文書ベクトルを合成して各第2の文書ベクトルを生成する。
まず、初期集合設定部51が、メモリ10から各第1の文書ベクトルを読み込み、それらに関連付けられた推定文脈ID及び文書ラベルを参照し、入力文書ごとに、当該入力文書に含まれる各推定文脈にそれぞれ対応する第1の文書ベクトルの集合を設定する(ステップS21)。この例では、初期集合設定部51が、さらに、各入力文書にそれぞれ対応する集合ごとの結束度テーブルを生成し、各結束度テーブルをメモリ10に格納する。結束度テーブルとは、入力文書ごとに、第1の文書ベクトルの組とそれらの類似度(結束度)とを、当該入力文書に対応する推定文脈のすべての組合せについて対応つけたテーブルである。また、本形態の結束度テーブルには、さらにその結束度テーブルに対応する文書ラベルが関連付けられ、また、それを構成する各第1の文書ベクトルには対応する各推定文脈IDが関連付けられる。なお、第1の文書ベクトル間の類似度としては、例えば、コサイン距離やユークリッド距離を用いることもできる(例えば、非特許文献1参照)。
次に、集合更新部52が、未処理の1つの集合を選択する(ステップS22)。次に、集合更新部52が、選択した集合の元であるベクトルから、最も距離が近いベクトルの組を選択する(ステップS23)。この例では、集合更新部52が、選択した集合に対応する結束度テーブルから、類似度が最も小さなベクトルの組を選択する。なお、当該ベクトルは、初期状態の第1の文書ベクトル、又は、集合の更新処理によって生成された合成ベクトルである。
次に、集合更新部52は、選択したベクトルの組の合成ベクトルを生成し、当該合成ベクトルをその生成に用いられたベクトルの組が属する集合に追加し、当該合成ベクトルの生成に用いられたベクトルの組を集合から削除し、これによってメモリ10に格納された当該集合を更新する(ステップS24)。この例では、このような集合の更新に応じ、さらにそれに対応する結束度テーブルが更新される。すなわち、集合更新部52は、更新された集合に属するベクトルの組とそれらの類似度(結束度)とを、当該集合に属するすべてのベクトルの組合せついて対応つけた結束度テーブルを生成し、これによってメモリ10に格納された結束度テーブルを更新する。また、更新された結束度テーブルにも、対応する推定文脈ID及び文書ラベルが関連付けられるが、新たに生成された合成ベクトルには、その生成に用いられたベクトルに関連付けられていた何れかの推定文脈IDが関連付けられる。
次に、集合更新部52が、所定の終了条件を充足したか否かを判定する(ステップS25)。なお、ここでの「所定の終了条件」としては、以下の条件を例示できる。
(a)更新対象の集合に含まれるベクトルの個数が一定値以下になること。
(b)更新対象の集合に含まれるベクトルの個数に対する、当該集合に含まれる第1の文書ベクトルの個数の割合が一定値以下になること。
(c)更新対象の集合に含まれる最も距離が近い一組のベクトル間の距離が一定値以上になること。
(d)更新対象の集合に含まれる最も距離が近い一組のベクトル間の距離が、初期集合設定部51で設定された初期状態の当該集合に含まれる最も距離が近い一組のベクトル間の距離に対して一定割合以上になること。
(e)更新対象の集合に対する更新処理回数が一定値以上となったこと。
これらの何れかの条件をステップS25の判定での「所定の終了条件」としてもよいし、これらの条件の組合せをステップS25の判定での「所定の終了条件」としてもよいし、これらすべての条件をステップS25の判定での「所定の終了条件」としてもよい。
ここで、所定の終了条件を充足していないと判定された場合には、処理がステップS23に戻される。一方、所定の終了条件を充足していると判定された場合には、集合更新部52が、未処理の集合が存在するか否かを判定する(ステップS26)。
ここで、未処理の集合が存在すると判定された場合には、処理がステップS22に戻される。一方、未処理の集合が存在しないと判定された場合には、集合更新部52が、メモリ10から各集合に属するベクトルをそれぞれ読み込み、それらを第2の文書ベクトルとしてメモリ10に出力し、そこに格納する(ステップ27)。この際、集合更新部52は、結束度テーブルを参照し、各第2の文書ベクトルに対応する推定文脈ID及び文書ラベルを当該第2の文書ベクトルに関連つけ、メモリ10に格納する([ステップS4の詳細]の説明終わり)。
次に、クラスタ分類部60が、メモリ10から各第2の文書ベクトルを読み込み、すべての第2の文書ベクトルを対象とした第2のクラスタリングを行い、当該第2のクラスタリングの結果をメモリ10に出力し、そこに格納する(ステップS5/クラスタ分類過程)。
[ステップS5/クラスタ分類過程の詳細]
ここで、図3(b)及び図7を用い、ステップS5の詳細を例示する。
このステップS5の処理は、様々なクラスタリング方法を用いて実現できるが、本形態では、分割最適化による非階層的クラスタリング手法(k−means法)を用いる。
まず、セントロイド設定部61が、複数個のクラスタに対し、それぞれセントロイド(各クラスタに属するベクトルの中心ベクトル)の初期値を設定し、それらをメモリ10に格納する(図7(a)/ステップS31)。なお、クラスタの個数は入力文書の分野等を考慮し事前に決定され、例えば、想定される話題の種類以上の個数がクラスタの個数として設定される。また、セントロイドの初期値はどのように定めてもよいが、高精度なクラスタリングのためには各セントロイドが一部に集中しないように設定されることが望ましい。そのための手法としては、クラスタ分のセントロイドを任意に設定し、セントロイド間のコサイン距離が所定の閾値以下であった場合にセントロイドを設定しなおすといった手法が考えられる。
次に、クラスタリング部62が、メモリ10から各第2の文書ベクトルと各セントロイドとを読み込み、第2の文書ベクトルとそれが属するクラスタのセントロイドとの距離の総和が最小となるように、各第2の文書ベクトルに何れかのクラスタを割り当てる(ステップS32)。ここでの距離としては、例えば、コサイン距離やユークリッド距離を用いることもできる(例えば、非特許文献1参照)。そして、各第2の文書ベクトルに割り当てられた各クラスタを示すクラスタ情報がメモリ10に格納される。
次に、セントロイド設定部61が、メモリ10からクラスタ情報と第2の文書ベクトルとを読み込み、クラスタごとに当該クラスタに属する第2の文書ベクトルから新たなセントロイドを算出する(ステップS33)。具体的には、セントロイド設定部61は、クラスタ情報を用いて各第2の文書ベクトルがそれぞれ属するクラスタを特定し、クラスタごとにそれに属する各第2の文書ベクトルの平均ベクトルを求め、新たなセントロイドを算出する。算出された新たなセントロイドはメモリ10に格納され、これによって古いセントロイドを更新する。
次に、終了条件判定部63が、所定の終了条件を充足したか否かを判定する(ステップS34)。なお、ここでの「所定の終了条件」としては、以下の条件を例示できる。
(a)各クラスタの更新前のセントロイドと更新後のセントロイドとの距離をすべてのクラスタについて合計した値が一定値以下となること。
(b)更新の前後で最も大きくセントロイドが変動したクラスタでのセントロイドの変化量が一定値以下となること。
(c)更新前の各クラスタの各メンバーと更新後の各クラスタの各メンバーとの相違数の合計が一定値以下となること。
(d)更新の前後で最も大きくメンバーが変動したクラスタでのメンバー変動数が一定値以下となること。
(e)クラスタの更新回数が一定値以上となること。
これらの何れかの条件をステップS34の判定での「所定の終了条件」としてもよいし、これらの条件の組合せをステップS34の判定での「所定の終了条件」としてもよいし、これらすべての条件をステップS34の判定での「所定の終了条件」としてもよい。
ここで、所定の終了条件を充足していないと判定された場合には、処理がステップS32に戻される。一方、所定の終了条件を充足していると判定された場合には、終了条件判定部63が、メモリ10のクラスタ情報をクラスタリング結果として出力して、メモリ10に格納する(ステップS35)。
なお、以前に同様な分野の入力文書の分類処理を行い、セントロイドが既に設定されている場合には、そのセントロイドを用い、新たな各入力文書から生成された各第2の文書ベクトルのクラスタリングを行ってもよい。
この場合には、まず、クラスタリング部62が、メモリ10から各第2の文書ベクトルと各セントロイドとを読み込み、第2の文書ベクトルとそれが属するクラスタのセントロイドとの距離の総和が最小となるように、各第2の文書ベクトルに何れかのクラスタを割り当てる(図7(b)/ステップS41)。そして、終了条件判定部63が、メモリ10のクラスタ情報をクラスタリング結果として出力して、メモリ10に格納する(ステップS42/ [ステップS5の詳細]の説明終わり)。
次に、メモリ10から結果表示部70に、クラスタリング結果と各第2の文書ベクトルに対応する推定文脈ID及び文書ラベルとが読み込まれ、結果表示部70が、例えば、各クラスタとそれぞれに属する第2の文書ベクトルに対応する推定文脈ID及び文書ラベルとを対応付けたリストを表示する。その他、結果表示部70が、各クラスタごとにそれらに対応する各推定文脈を表示してもよいし、その他の方法で分類結果を表示してもよい(ステップS6/結果表示過程)。
<本形態の特徴>
以上説明した通り、本形態では、1つの文書中に複数の分野に分類されるべき複数の文章(文脈)が混在したり、文章本来の意味とは無関係な単語(エラー)が混在する場合を仮定している。そして、固定的な文書結合ではなく、文書から抽出した推定文脈の内容に応じて動的に推定文脈を結合し、クラスタリングを行うことで最終的な分類を決める。具体的には、メモリ10から各入力文書を読み込み、当該入力文書中の各単語と予め設定された何れかの主要単語とが一致するか否かを判定し、一致した当該入力文書中の単語の位置を基準として定まる当該入力文書中の一部の単語列をそれぞれ推定文脈として抽出し(ステップS2)、各推定文脈の文書ベクトルである第1の文書ベクトルを生成し(ステップS3)、入力文書ごとに、当該入力文書に含まれる各推定文脈にそれぞれ対応する第1の文書ベクトルを対象とした第1のクラスタリングを行い、複数の第1の文書ベクトルが属するクラスタについてはそれに属する複数の第1の文書ベクトルを合成した合成ベクトルを第2の文書ベクトルとし、1個の第1の文書ベクトルが属するクラスタについてはそれに属する1個の第1の文書ベクトルを第2の文書ベクトルとし(ステップS4)、すべての第2の文書ベクトルを対象とした第2のクラスタリングを行い、最終的な分類を決める(ステップS5)。
これにより、1つの文書中に複数の分野に分類されるべき複数の文章(文脈)が混在したり、文章本来の意味とは無関係な単語(エラー)が混在する場合であっても、高速かつ高精度で文書データを分類することができる。
また、本形態では、ステップS2の処理において、抽出した複数の推定文脈の一部が相互に重複する場合、当該複数の推定文脈を、当該複数の推定文脈に対応する範囲の単語列からなる1つの推定文脈に統合することとした。抽出された複数の推定文脈の一部分が相互に重複するほど推定文脈が近接している場合、これらが同一の推定文脈に属する可能性が高い。本形態では、それらの推定文脈を文脈抽出段階で統合しておくことで、文脈結合過程(ステップS4)の処理を軽減し、処理をさらに高速化する。
また、本形態の文脈結合過程(ステップS4)では、入力文書ごとに当該入力文書に含まれる各推定文脈にそれぞれ対応する第1の文書ベクトルの集合を設定し、集合ごとに最も距離が近いベクトルの組を選択し、当該ベクトルの組の合成ベクトルを生成し、当該合成ベクトルをその生成に用いられたベクトルの組が属する集合に追加するとともに、当該ベクトルの組を当該集合から削除することにより、メモリに格納された当該集合を更新する処理を、集合ごとに所定の終了条件を満たすまで繰り返し、所定の終了条件を満たした時点で各集合に属する各ベクトルを、各第2の文書ベクトルとして出力することとした。このように階層的クラスタリングの過程において、クラスタを統合するたびに合成ベクトルを生成していくことにより、クラスタリングがすすむたびにサンプル数が減少するため、この処理に必要なメモリの記憶容量を削減することができる。
<変形例等>
なお、本発明は上述の実施の形態に限定されるものではない。例えば、入力文書ごとに非階層的クラスタリングを行い、文脈結合過程(ステップS4)を実行してもよい。
図9は、k−means法を用いて文脈結合過程を実行する文脈結合部150の構成を示すブロック図である。また、図10は、k−means法を用いて実行される文脈結合過程を説明するためのフローチャートである。以下、これらの図を用いてk−means法を用いて実行される文脈結合過程(ステップS4)を説明する。
まず、セントロイド設定部151が、メモリ10から各第1の文書ベクトルを読み込み、それらに関連付けられた推定文脈ID及び文書ラベルを参照し、入力文書ごとに、当該入力文書に含まれる各推定文脈にそれぞれ対応する第1の文書ベクトルの集合を設定する(ステップS121)。次に、セントロイド設定部151が、未処理の1つの集合を選択し(ステップS122)する。次に、セントロイド設定部151が、複数個設定されたクラスタに対し、それぞれセントロイドの初期値を設定し、それらをメモリ10に格納する(ステップS123)。
次に、クラスタリング部152が、メモリ10から選択された集合の第1の文書ベクトルと各セントロイドとを読み込み、当該第1の文書ベクトルとそれが属するクラスタのセントロイドとの距離の総和が最小となるように、選択された集合の各第1の文書ベクトルに何れかのクラスタを割り当てる(ステップS124)。
次に、セントロイド設定部151が、メモリ10からクラスタ情報と選択された集合の第1の文書ベクトルとを読み込み、クラスタごとに当該クラスタに属する第1の文書ベクトルから新たなセントロイドを算出する(ステップS125)。
次に、終了条件判定部153が、所定の終了条件を充足したか否かを判定する(ステップS126)。なお、ここでの「所定の終了条件」としては、例えば、ステップS34と同様なものを用いる。
ここで、所定の終了条件を充足していないと判定された場合には、処理がステップS124に戻される。一方、所定の終了条件を充足していると判定された場合には、複数の第1の文書ベクトルが属するクラスタについてはそれに属する複数の第1の文書ベクトルを合成した合成ベクトルを第2の文書ベクトルとして生成・出力し、1個の第1の文書ベクトルが属するクラスタについてはそれに属する1個の第1の文書ベクトルを第2の文書ベクトルとして出力し、出力した各第2の文書ベクトルをメモリ10に格納する(ステップS127)。
一方、所定の終了条件を充足していると判定された場合には、セントロイド設定部151が、未処理の集合がメモリ10に存在するか否かを判定する(ステップS128)。ここで、未処理の集合がメモリ10に存在すると判定された場合には、処理がステップS122に戻される。一方、未処理の集合がメモリ10に存在しないと判定された場合には、ステップS4の処理が終了する。
なお、同様な分野の入力文書についてk−means法を用いて文脈結合過程を繰り返し実行する場合には、以前の文脈結合過程で設定されたセントロイドを用い、新たな入力文書に対応する第2の文書ベクトルを生成してもよい。この場合には、各集合に対してステップS124及びS127の処理を実行するだけでよい。
また、上記の実施形態では、文脈抽出過程(ステップS2)において、抽出した複数の推定文脈の一部が相互に重複する場合に、当該複数の推定文脈を、当該複数の推定文脈に対応する範囲の単語列からなる1つの推定文脈に統合することとした。しかし、抽出した複数の推定文脈の一部が相互に重複する場合であっても、当該複数の推定文脈を統合せずにそのまま推定文脈として用いる変形も可能である。
その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
複数の文脈が混在したりエラーが混在したりする文書の例としては、例えば、音声認識技術を用いて音声対話をテキスト化した文書を例示できる。このような文書には、複数の話題や、対話中に生じる話題とは無関係な単語、言い誤りや言い直し、テキスト化の過程で生じる誤り等が混在することが多い。本発明を適用することにより、このように複数の文脈が混在したりエラーが混在したりする文書であっても、高速かつ高精度に分類することができる。
図1は、本形態の文書データ分類装置1の構成を示すブロック図である。 図2は、本形態の文脈抽出部の詳細構成を示すブロック図である。 図3(a)は、文脈結合部の詳細構成を示すブロック図であり、図3(b)は、クラスタ分類部の詳細構成を示すブロック図である。 図4は、本形態の文書データ分類方法の全体を説明するためのフローチャートである。 図5は、図4のステップS2の詳細を例示したフローチャートである。 図6は、図4のステップS4の詳細を例示したフローチャートである。 図7は、図4のステップS5の詳細を例示したフローチャートである。 図8は、本形態の文書データ分類方法の全体を説明するための概念図である。 図9は、k−means法を用いて文脈結合過程を実行する文脈結合部の構成を示すブロック図である。 図10は、k−means法を用いて実行される文脈結合過程を説明するためのフローチャートである。
符号の説明
1 文書データ分類装置
10 メモリ
30 文脈抽出部
40 文書ベクトル生成部
50 文脈結合部
60 クラスタ分類部

Claims (8)

  1. 複数の入力文書を格納するメモリと、
    メモリから前記入力文書を読み込み、当該入力文書中の各単語と予め設定された何れかの主要単語とが一致するか否かを判定し、一致した当該入力文書中の単語の位置を基準として定まる当該入力文書中の一部の単語列をそれぞれ推定文脈として抽出し、各推定文脈を出力する文脈抽出手段と、
    前記各推定文脈の文書ベクトルである第1の文書ベクトルを生成し、各第1の文書ベクトルを出力する文書ベクトル生成手段と、
    前記入力文書ごとに、当該入力文書に含まれる前記各推定文脈にそれぞれ対応する前記第1の文書ベクトルを対象とした第1のクラスタリングを行い、複数の前記第1の文書ベクトルが属するクラスタについてはそれに属する複数の第1の文書ベクトルを合成した合成ベクトルを第2の文書ベクトルとして出力し、1個の前記第1の文書ベクトルが属するクラスタについてはそれに属する1個の第1の文書ベクトルを第2の文書ベクトルとして出力する文脈結合手段と、
    すべての前記第2の文書ベクトルを対象とした第2のクラスタリングを行い、当該第2のクラスタリングの結果を出力するクラスタ分類手段と、
    を有することを特徴とする文書データ分類装置。
  2. 請求項1に記載の文書データ分類装置であって、
    前記文脈抽出手段は、
    前記主要単語と一致した単語を含む所定範囲の単語列、又は、前記主要単語と一致した単語の直後に位置する所定範囲の単語列、又は、前記主要単語と一致した単語の直前に位置する所定範囲の単語列を前記推定文脈として抽出する手段である、
    ことを特徴とする文書データ分類装置。
  3. 請求項1又は2に記載の文書データ分類装置であって、
    前記文脈抽出手段は、
    抽出した複数の前記推定文脈の一部分が相互に重複する場合、当該複数の推定文脈を、当該複数の推定文脈に対応する範囲の単語列からなる1つの推定文脈に統合して出力する文脈統合手段を含む、
    ことを特徴とする文書データ分類装置。
  4. 請求項1から3の何れかに記載の文書データ分類装置であって、
    前記文脈結合手段は、
    前記入力文書ごとに当該入力文書に含まれる前記各推定文脈にそれぞれ対応する前記第1の文書ベクトルの集合を設定し、当該各集合をメモリに格納する初期集合設定手段と、
    前記集合ごとに最も距離が近いベクトルの組を選択し、当該ベクトルの組の合成ベクトルを生成し、当該合成ベクトルをその生成に用いられたベクトルの組が属する集合に追加するとともに、当該ベクトルの組を当該集合から削除することにより、メモリに格納された当該集合を更新する処理を、前記集合ごとに所定の終了条件を満たすまで繰り返す集合更新手段と、
    前記所定の終了条件を満たした時点で前記各集合に属する各ベクトルを、前記各第2の文書ベクトルとして出力する出力手段と、
    を有することを特徴とする文書データ分類装置。
  5. 請求項4に記載の文書データ分類装置であって、
    前記所定の終了条件は、
    (a)更新対象の前記集合に含まれるベクトルの個数が一定値以下になること、(b)更新対象の前記集合に含まれるベクトルの個数に対する、当該集合に含まれる前記第1の文書ベクトルの個数の割合が一定値以下になること、(c)更新対象の前記集合に含まれる最も距離が近い一組のベクトル間の距離が一定値以上になること、(d)更新対象の前記集合に含まれる最も距離が近い一組のベクトル間の距離が、前記初期集合設定手段で設定された初期状態の当該集合に含まれる最も距離が近い一組のベクトル間の距離に対して一定割合以上になること、(e)更新対象の前記集合に対する更新処理回数が一定値以上となったこと、の少なくとも1つである、
    を特徴とする文書データ分類装置。
  6. 文書データ分類装置が実行する文書データ分類方法であって、
    複数の入力文書をメモリに格納する入力文書格納過程と、
    文脈抽出手段が、メモリから前記入力文書を読み込み、当該入力文書中の各単語と予め設定された何れかの主要単語とが一致するか否かを判定し、一致した当該入力文書中の単語の位置を基準として定まる当該入力文書中の一部の単語列をそれぞれ推定文脈として抽出し、各推定文脈を出力する文脈抽出過程と、
    文書ベクトル生成手段が、前記各推定文脈の文書ベクトルである第1の文書ベクトルを生成し、各第1の文書ベクトルを出力する文書ベクトル生成過程と、
    文脈結合手段が、前記入力文書ごとに、当該入力文書に含まれる前記各推定文脈にそれぞれ対応する前記第1の文書ベクトルを対象とした第1のクラスタリングを行い、複数の前記第1の文書ベクトルが属するクラスタについてはそれに属する複数の第1の文書ベクトルを合成した合成ベクトルを第2の文書ベクトルとして出力し、1個の前記第1の文書ベクトルが属するクラスタについてはそれに属する1個の第1の文書ベクトルを第2の文書ベクトルとして出力する文脈結合過程と、
    クラスタ分類手段が、すべての前記第2の文書ベクトルを対象とした第2のクラスタリングを行い、当該第2のクラスタリングの結果を出力するクラスタ分類過程と、
    を有することを特徴とする文書データ分類方法。
  7. 請求項1から5の何れかに記載の文書データ分類装置としてコンピュータを機能させるためのプログラム。
  8. 請求項7に記載のプログラムを格納したコンピュータ読み取り可能な記録媒体。
JP2008052118A 2008-03-03 2008-03-03 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体 Active JP4594992B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008052118A JP4594992B2 (ja) 2008-03-03 2008-03-03 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008052118A JP4594992B2 (ja) 2008-03-03 2008-03-03 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2009211277A true JP2009211277A (ja) 2009-09-17
JP4594992B2 JP4594992B2 (ja) 2010-12-08

Family

ID=41184363

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008052118A Active JP4594992B2 (ja) 2008-03-03 2008-03-03 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4594992B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013191194A (ja) * 2012-02-15 2013-09-26 Nippon Telegr & Teleph Corp <Ntt> 文書カテゴライズ装置とその方法とプログラム
WO2014208298A1 (ja) * 2013-06-28 2014-12-31 日本電気株式会社 文章分類装置、文章分類方法、及び記録媒体
CN104679826A (zh) * 2015-01-09 2015-06-03 北京京东尚科信息技术有限公司 基于分类模型的上下文识别的方法和系统
JP6012814B1 (ja) * 2015-05-22 2016-10-25 日本電信電話株式会社 逐次クラスタリング装置、方法、及びプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207911A (ja) * 1996-11-25 1998-08-07 Fuji Xerox Co Ltd 文書検索装置
JP2000285140A (ja) * 1998-12-24 2000-10-13 Ricoh Co Ltd 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001290826A (ja) * 2000-04-05 2001-10-19 Ricoh Co Ltd 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体
JP2005107705A (ja) * 2003-09-29 2005-04-21 Hitachi Ltd 複数言語を対象とした文書分類装置及び文書分類方法
JP2005122510A (ja) * 2003-10-17 2005-05-12 Nippon Telegr & Teleph Corp <Ntt> 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP2006040058A (ja) * 2004-07-28 2006-02-09 Mitsubishi Electric Corp 文書分類装置
JP2006293616A (ja) * 2005-04-08 2006-10-26 Nippon Telegr & Teleph Corp <Ntt> 文書集約方法及び装置及びプログラム
JP2006350656A (ja) * 2005-06-15 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207911A (ja) * 1996-11-25 1998-08-07 Fuji Xerox Co Ltd 文書検索装置
JP2000285140A (ja) * 1998-12-24 2000-10-13 Ricoh Co Ltd 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001290826A (ja) * 2000-04-05 2001-10-19 Ricoh Co Ltd 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体
JP2005107705A (ja) * 2003-09-29 2005-04-21 Hitachi Ltd 複数言語を対象とした文書分類装置及び文書分類方法
JP2005122510A (ja) * 2003-10-17 2005-05-12 Nippon Telegr & Teleph Corp <Ntt> 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP2006040058A (ja) * 2004-07-28 2006-02-09 Mitsubishi Electric Corp 文書分類装置
JP2006293616A (ja) * 2005-04-08 2006-10-26 Nippon Telegr & Teleph Corp <Ntt> 文書集約方法及び装置及びプログラム
JP2006350656A (ja) * 2005-06-15 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013191194A (ja) * 2012-02-15 2013-09-26 Nippon Telegr & Teleph Corp <Ntt> 文書カテゴライズ装置とその方法とプログラム
WO2014208298A1 (ja) * 2013-06-28 2014-12-31 日本電気株式会社 文章分類装置、文章分類方法、及び記録媒体
JPWO2014208298A1 (ja) * 2013-06-28 2017-02-23 日本電気株式会社 文章分類装置、文章分類方法、及び文章分類プログラム
CN104679826A (zh) * 2015-01-09 2015-06-03 北京京东尚科信息技术有限公司 基于分类模型的上下文识别的方法和系统
CN104679826B (zh) * 2015-01-09 2019-04-30 北京京东尚科信息技术有限公司 基于分类模型的上下文识别的方法和系统
JP6012814B1 (ja) * 2015-05-22 2016-10-25 日本電信電話株式会社 逐次クラスタリング装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP4594992B2 (ja) 2010-12-08

Similar Documents

Publication Publication Date Title
JP5788015B2 (ja) 複数の粒度でのテキスト分割
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
EP1808788B1 (en) Information type identification method and apparatus, e.g. for music file name content identification
US20070156404A1 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
JPH11203294A (ja) 情報検索システム、装置、方法及び記録媒体
JP2016536659A (ja) 内容ベースの医療マクロのソート及び検索システムのためのシステム及び方法
US8725766B2 (en) Searching text and other types of content by using a frequency domain
Martín et al. Using semi-structured data for assessing research paper similarity
WO2019082362A1 (ja) 単語意味関係推定装置および単語意味関係推定方法
JP4594992B2 (ja) 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体
KR102345401B1 (ko) 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체
JP4640593B2 (ja) 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
WO2008062822A1 (fr) Dispositif d&#39;exploration de texte, procédé d&#39;exploration de texte et programme d&#39;exploration de texte
Oliveira et al. A regression-based approach using integer linear programming for single-document summarization
JP2006227823A (ja) 情報処理装置及びその制御方法
JP5355483B2 (ja) 略語完全語復元装置とその方法と、プログラム
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
JP7055764B2 (ja) 対話制御システム、対話制御方法及びプログラム
JP7098502B2 (ja) 報告書作成装置、方法、およびプログラム
JP2009098811A (ja) 文書分類装置およびプログラム
US20150052140A1 (en) Information processing apparatus, information processing method, and program
JP2002251412A (ja) 文書検索装置および方法ならびに記憶媒体
JP2009116593A (ja) 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体
JP2007183927A (ja) 情報処理装置および方法、並びにプログラム
Merkel et al. Comparing improved language models for sentence retrieval in question answering

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100907

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100917

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130924

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4594992

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350