JP2004054303A - System for making electronic dictionary for document classification and system using it for classifying document - Google Patents
System for making electronic dictionary for document classification and system using it for classifying document Download PDFInfo
- Publication number
- JP2004054303A JP2004054303A JP2002206549A JP2002206549A JP2004054303A JP 2004054303 A JP2004054303 A JP 2004054303A JP 2002206549 A JP2002206549 A JP 2002206549A JP 2002206549 A JP2002206549 A JP 2002206549A JP 2004054303 A JP2004054303 A JP 2004054303A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- document
- category
- dictionary
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、複数のサンプル文書に基づいて文書分類用の電子的な辞書を作成するための新規な技術、及び、その電子的な辞書を利用した新規な文書分類技術に関する。
【0002】
【従来の技術】
従来、文字のみからなる文書(以下、「テキスト」と言う)を自動分類するテキスト分類システムが知られている。従来のテキスト分類システムでは、以下のようにしてテキストの自動分類が行われている。
【0003】
すなわち、従来のテキスト分類システムでは、テキストについての複数のカテゴリの各々について、そのカテゴリが付与されている多数の学習用テキスト(サンプル的なテキスト)から成る学習用テキスト群が用意されている。テキスト分類システムは、各カテゴリについて、学習用テキスト群から各単語を抽出して統計的な処理を行うことで、単語統計データ(例えば、そのカテゴリにおける各単語の分布を示すデータ)を作成する。そして、テキスト分類システムは、分類対象のテキスト(以下、分類対象テキスト)が入力されたときは、入力された分類対象テキストから各単語を抽出し、抽出された各単語と、カテゴリ別に作成された単語統計データとに基づいて分類対象テキストにカテゴリを付与することで、分類対象テキストの自動分類が行われる。
【0004】
【発明が解決しようとする課題】
従来のテキスト分類システムには例えば以下のような問題点がある。
【0005】
すなわち、統計データに基づく分類手法であるため、例えば、(1)辞書構築及び分類判定に膨大な計算を要するという問題点、(2)統計データは単なる数値でしかないので、分類の特徴を的確に表すのが困難であるという問題点、(3)人間が分類結果を正しいかどうか判断するための情報をシステムから得ることができないという問題点、及び、(4)分類対象テキストの内容を正確に記憶しておく必要があり、そのため、分類対象テキストの内容を知らない人間では付与カテゴリ適否判断は全く行うことができないという問題点がある。
【0006】
また、従来は、カテゴリ別に作成された統計データに基づいて上述の自動分類が行われるにすぎないため、分類対象テキストに最終的に人間が付与したカテゴリをフィードバックして辞書を再構築するには膨大な処理時間が必要となるため実用上は困難である。
【0007】
以上のような問題点は、テキストに限らず、画像や線画等を含んだ他の種類の文書についても存在すると考えられる。
【0008】
従って、本発明の目的は、分類対象の文書に対して適切なカテゴリが付与することの確実性を高められるようにすることにある。
【0009】
本発明の別の目的は、分類対象の文書に付与されるカテゴリが適切か否かの判断を容易に行うことができるようにすることにある。
【0010】
本発明のまた別の目的は、分類対象の文書に対して人間が判断したカテゴリの結果に基づいて、文書の自動分類を行うシステムに対して適宜にフィードバックをかけることができるようにすることにある。
【0011】
【課題を解決するための手段】
本発明の第1の側面に従うシステムは、関連度合判定手段と辞書作成手段とを備える。関連度合判定手段は、文書分類用の電子的な辞書を作成するためのシステムであって、文書についての複数のカテゴリの各々に属する複数のサンプル文書を入力し、各カテゴリについて、上記複数のサンプル文書に含まれている多数の文字列の各々について、その文字列とそのカテゴリとの関連度合の判定を行う。辞書作成手段は、その判定の結果を基に、上記多数の文字列の中から、上記関連度合が所定度合以上である各特定文字列を選択し、上記選択された各特定文字列とそれに対応した1以上のカテゴリとが記録された電子的な辞書を作成する。
【0012】
ここで、「文書」とは、文字を含んだ文書、例えば、文字のみの文書や、文字の他に画像或いは線画等が含まれた文書である。
【0013】
また、「カテゴリ」は、文書を分類可能にせしめるものであれば何でも良く、例えば、人間が理解できる言葉(例えば、小説、随筆など)であっても良いし、数字や英字等から成るコード群であっても良い。
【0014】
また、「文字列」とは、例えば、文法上の単語(すなわち言語の最小単位)や、連続する単語(例えば「文書作成システム」という文字列)や、助詞を介して連なる複数の単語(例えば「私の物」という文字列)や、複数の助詞と複数の単語から成る文字列である。
【0015】
本発明の第1の側面に従うシステムの好適な実施形態では、上記関連度合判定手段は、上記多数の文字列の各々について、(1)同一のカテゴリに属する上記複数のサンプル文書に含まれているその文字列の総数と、(2)存在するサンプル文書の総数、又は、上記存在するサンプル文書に含まれているその文字列の総数とに基づいて、その文字列に関する上記関連度合を判定する。
【0016】
本発明の第2の側面に従うシステムは、文書を分類するためのシステムであって、辞書取得手段と、文書取得手段と、比較照合手段と、文書分類手段とを備える。辞書取得手段は、文書についての複数のカテゴリの各々に対応した1以上の文字列(例えば、そのカテゴリに対して特徴的な文字列)が記載されている電子的な辞書を取得する。文書入力手段は、分類対象の文書を取得する(例えば、ユーザから分類対象の文書を受ける、或いは、ユーザの要求に応じた文書を作成することで、分類対象の文書を取得する)。比較照合手段は、取得された分類対象の文書に含まれている各文字列と、上記電子的な辞書に記載されている各文字列(例えば上述の特徴的な文字列)との比較照合を行う。文書分類手段は、その比較照合の結果、互いに一致した文字列が存在する場合、上記電子的な辞書を参照して上記一致した文字列に対応したカテゴリを把握し、上記取得された文書に対して上記把握されたカテゴリである付与対象カテゴリを付与することで上記取得された文書を分類する。
【0017】
本発明の第2の側面に従うシステムの好適な実施形態では、システムは、根拠文字列抽出手段と、報知手段と、問い出力手段と、回答受け手段とを更に備える。根拠文字列抽出手段は、上記付与対象カテゴリが付与されることとなる根拠となった上記一致した文字列又はその文字列を含んだ第1の長い文字列を上記取得された文書から抽出する。報知手段と、上記抽出された上記一致した文字列又は上記第1の長い文字列と、上記付与対象カテゴリとを、上記文書を入力したユーザに報知する。問い出力手段は、上記取得された文書に対し上記報知された付与対象カテゴリを付与して良いか否かの問いを上記ユーザに出力する。回答受け手段は、上記出力された問いに対する回答を上記ユーザから受ける。
【0018】
この場合、上記文書分類手段は、上記回答受け手段が肯定的な回答を受けたときにのみ、上記取得された文書に対し上記付与対象カテゴリを付与する。
【0019】
これの更に好適な実施形態では、上記根拠文字列抽出手段は、上記複数のカテゴリの各々に属する複数のサンプル文書に含まれている、上記一致した文字列を含んだ特定のサンプル文書から、上記一致した文字列を含んだ第2の長い文字列を上記特定のサンプル文書から抽出し、上記報知手段は、上記第1の長い文字列と、上記付与対象カテゴリと、上記第2の長い文字列と、上記特定のサンプル文書が属するカテゴリとを上記ユーザに報知する(例えば、上記第1の長い文字列と上記付与対象カテゴリとの組合せと、上記第2の長い文字列とそれが含まれているサンプル文書が属するカテゴリとの組合せとを並べて所定の画面に表示する)。
【0020】
また、好適な実施形態では、電子的な辞書は複数個存在し、複数個の電子的な辞書には、各ユーザによって作成された各ユーザ専用のユーザ辞書が含まれており、システムは、ユーザからの要求に応答してそのユーザに専用のユーザ辞書を編集する辞書編集手段を更に備える。
【0021】
本発明の第3の側面に従う方法は、文書分類用の電子的な辞書を作成するための方法であって、文書についての複数のカテゴリの各々に属する複数のサンプル文書を入力し、各カテゴリについて、上記複数のサンプル文書に含まれている多数の文字列の各々について、その文字列とそのカテゴリとの関連度合の判定を行うステップと、上記判定の結果を基に、上記多数の文字列の中から、上記関連度合が所定度合以上である各特定文字列を選択し、上記選択された各特定文字列とそれに対応した1以上のカテゴリとが記録された電子的な辞書を作成するステップとを有する。
【0022】
本発明の第4の側面に従う方法は、文書を分類するための方法であって、文書についての複数のカテゴリの各々に対応した文字列であってそのカテゴリに対して特徴的な文字列が2個以上記載されている電子的な辞書を取得するステップと、分類対象の文書を取得するステップと、上記取得された文書に含まれている各文字列と、上記電子的な辞書に記載されている各特徴的な文字列との比較照合を行うステップと、上記比較照合の結果、互いに一致した文字列が存在する場合、上記電子的な辞書を参照して上記一致した文字列に対応したカテゴリを把握し、上記取得された文書に対して上記把握されたカテゴリである付与対象カテゴリを付与することで上記取得された文書を分類するステップとを有する。
【0023】
本発明の第5の側面に従うコンピュータプログラムは、文書分類用の電子的な辞書を作成するためのコンピュータプログラムであって、文書についての複数のカテゴリの各々に属する複数のサンプル文書を入力し、各カテゴリについて、上記複数のサンプル文書に含まれている多数の文字列の各々について、その文字列とそのカテゴリとの関連度合の判定を行うステップと、上記判定の結果を基に、上記多数の文字列の中から、上記関連度合が所定度合以上である各特定文字列を選択し、上記選択された各特定文字列とそれに対応した1以上のカテゴリとが記録された電子的な辞書を作成するステップとをコンピュータに実行させるためのものである。
【0024】
本発明の第6の側面に従うコンピュータプログラムは、文書を分類するためのコンピュータプログラムであって、文書についての複数のカテゴリの各々に対応した文字列が含まれている(例えば、そのカテゴリに対して特徴的な文字列が2個以上記載されている)電子的な辞書を取得するステップと、分類対象の文書を取得するステップと、上記取得された文書に含まれている各文字列と、上記電子的な辞書に記載されている各特徴的な文字列との比較照合を行うステップと、上記比較照合の結果、互いに一致した文字列が存在する場合、上記電子的な辞書を参照して上記一致した文字列に対応したカテゴリを把握し、上記取得された文書に対して上記把握されたカテゴリである付与対象カテゴリを付与することで上記取得された文書を分類するステップとをコンピュータに実行させるためのものである。
【0025】
本発明の第7の側面に従うデータは、文書分類用の電子的な辞書であって、文書についての複数のカテゴリの各々に対応した、そのカテゴリに対して特徴的であるとみなされた又は推定された1又は複数の文字列を含んでいる。各文字列は、1つのカテゴリに対して1個以上が対応付けられている。例えば、2種類の文字列にそれぞれ同一のカテゴリが対応付けられている場合もあれば、同一の文字列に、2種類のカテゴリが対応付けられている場合もある。前者の場合は、2種類の文字列のうちいずれが出現しても、その同一のカテゴリを付与することができ、後者の場合は、その同一の文字列が出現したら、必ず2種類のカテゴリの両方を付与することができる。
【0026】
上述した本発明の各システムに備えられる複数の手段は、1台のコンピュータシステムに搭載することもできるし、分散された複数台のコンピュータシステムに分けて搭載することもできる。
【0027】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
【0028】
図1は、本発明の一実施形態に係るシステムの全体構成を示す。
【0029】
この実施形態では、学習用テキスト群保存部3と、辞書作成装置5と、テキスト分類装置1とが備えられる。なお、辞書作成装置5とテキスト分類装置1は、それぞれが1台のコンピュータマシンであって物理的に独立したものであっても良いし、それぞれが1つのアプリケーションプログラムであって1台のコンピュータマシンに搭載されても良いし、2台のコンピュータマシンに分けて搭載されても良い。
【0030】
学習用テキスト群保存部3には、例えば図2に示すように、複数の学習用テキスト群21A、21B、…が保存されている。各学習用テキスト群、例えば学習用テキスト群21Aは、テキストについての同一のカテゴリ(例えば「カテゴリA」)が付与されている複数の学習用テキスト21A1、21A2、21A3、…から成っている(これについては、他の学習用テキスト群21B・・・についても同様である)。その結果、各学習用テキスト群は、複数のカテゴリのうちのいずれか1つに対応付けられている。なお、「学習用テキスト」とは、記述した通り、既にカテゴリが付与されているテキストであってサンプル的なもの(例えば、過去にテキスト分類がされたテキスト)である。学習用テキストは、2以上のカテゴリが付与されている場合は、それら2以上のカテゴリに対応した各学習用テキスト群に存在することとなる。
【0031】
辞書作成装置5は、学習用テキスト群保存部3に保存されている各学習用テキスト群から各文字列を抽出し、抽出された各文字列のそれに対応したカテゴリにおける重要度を算出し、算出された重要度の結果に基づいて、テキスト分類用の電子的な辞書を作成する。作成された辞書は、後述のシステム辞書13として出力される(このため、その電子的な辞書を以下「システム辞書」と称する)。
【0032】
テキスト分類装置1は、複数人のユーザが利用することができる。テキスト分類装置1は、分類対象のテキスト(以下、分類対象テキスト)19を特定の方法で取得し、辞書作成装置5によって作成されたシステム辞書13と、複数のユーザによって作成された電子的な辞書(以下、ユーザ辞書)11A、11B、…とに基づいて、取得された分類対象テキスト19に対し、上述した複数のカテゴリのうちの少なくとも1つを付与する。テキスト分類装置1は、システム辞書記憶部7と、ユーザ辞書記憶部9と、テキスト分類部15と、ユーザ辞書更新部17とを有する。
【0033】
システム辞書記憶部7は、辞書作成装置5によって作成されて出力されたシステム辞書13を記憶する(記憶されているシステム辞書13は、例えばハッシュ化されている)。システム辞書13は、例えば図3に示すように、各特徴的文字列(図3には「語句」と表記)と、各特徴的文字列に対応した1又は2以上のカテゴリとが記載されている(「特徴的文字列」とは、後述の方法で、辞書作成装置5によって、そのカテゴリにおいて特徴的であると推定された文字列である)。このシステム辞書13は、特定の方法で(例えば、フロッピー(登録商標)ディスクやMOディスク等の可搬記録媒体を介して、或いは、有線又は無線の通信システムを利用して)、辞書作成装置5からテキスト分類装置1のシステム辞書記憶部7に取り込むことができる。
【0034】
ユーザ辞書記憶部9は、例えば図4に示すように、複数のユーザの各々が作成したユーザ辞書(具体的には例えば、ユーザAのユーザ辞書11Aや、ユーザBのユーザ辞書11Bや、・・・)を記憶する(記憶されている各ユーザ辞書11A、11B、…は、例えばハッシュ化されている)。各ユーザ辞書、例えばユーザ辞書11Aには、ユーザAの1以上の所望の文字列(図4には「語句」と表記、以下、ユーザ所望文字列)と、各ユーザ所望文字列に対応した1又は2以上のカテゴリとが記載されている(他のユーザ辞書11B、…の構成も同様である)。各ユーザ辞書11A、11B、…は、テキスト分類装置1に搭載されている所定のアプリケーションプログラムを利用して作成することもできるし、図示しない外部機器(例えば、パーソナルコンピュータや、それから出力されたユーザ辞書を記憶した可搬記録媒体など)からテキスト分類装置1に入力することでユーザ辞書記憶部9に記憶させることもできる。
【0035】
テキスト分類部15は、分類対象テキスト19を特定の方法で取得し、システム辞書記憶部7が記憶しているシステム辞書13と、ユーザ辞書記憶部9が記憶しているユーザ辞書11A、11B、…とに基づいて、取得された分類対象テキスト19に対して付与の対象となるカテゴリ(以下、付与対象カテゴリ)を上述した複数のカテゴリの中から把握する。そして、テキスト分類部15は、把握された付与対象カテゴリを分類対象テキスト19に付与して良いか否かの問い(以下、付与適否問い)等を表示する。テキスト分類部15は、付与適否問いに対して肯定的な回答を受けた場合は、分類対象テキスト19に上記の付与対象カテゴリを付与し、一方、付与適否問いに対して否定的な回答を受けた場合は、所定の処理(例えば、付与対象となり得る別のカテゴリを探す処理)を実行する。
【0036】
ユーザ辞書更新部17は、複数のユーザのうちの或るユーザからの要求を受け、そのユーザの要求に応答して、ユーザ辞書記憶部9が記憶している1又は複数のユーザ辞書11A、11B、…のうちそのユーザに対応したユーザ辞書を編集して更新する。
【0037】
以上が、本実施形態に係るシステムの概要である。以下、このシステムにおいての処理流れ、換言すれば、辞書作成装置5、テキスト分類部15、及びユーザ辞書更新部17が行う処理内容について詳細に説明する。
【0038】
図5は、辞書作成装置5がシステム辞書13を作成する際の処理流れを示す。なお、図5以降及び以下の説明では、「ステップ」を「S」と略記する。
【0039】
辞書作成装置5は、所定のイベントが発生したときに(例えばユーザから要求を受けたときに)起動する。辞書作成装置5は、まず、学習用テキスト群保存部3内の各学習用テキスト群21A、21B、…に含まれている各学習用テキストから、各文字列を抽出する(S1)。ここで、「文字列」は、文法上の単語(すなわち言語の最小単位)であっても良いし、連続する単語であっても良いし(例えば図3に示したように「自動焦点調節」の如くであっても良いし)や、助詞を介して連なる複数の単語であっても良い(例えば「私の物」の如くであっても良いし)、複数の助詞と複数の単語から成る文字列であっても良い(例えば「私は特許出願をした」の如くであっても良い)。
【0040】
次に、辞書作成装置5は、抽出された各文字列について、その文字列が含まれていた学習用テキストが属するカテゴリ(以下、「該当カテゴリ」と言う)においての重要度、換言すれば、抽出された各文字列とそれの該当カテゴリとの関連度合を算出する。具体的には、例えば、辞書作成装置5は、抽出された各文字列について、全体に対して該当カテゴリで出現するその文字列の出現比率(以下、「文字列出現比率」と言う)を算出する(S2)。辞書作成装置5は、以下の(1)式
文字列出現比率=該当カテゴリに対応した学習用テキスト群での出現頻度/全ての学習用テキスト群での出現頻度・・・(1)
を用いて、上記抽出された各文字列についての文字列出現比率を算出する。ここで、「出現頻度」とは、出現した回数のことである(なお、上記(1)式は、一例であり、具体的な記載はしないが、他の算出方法もある)。
【0041】
辞書作成装置5は、上記抽出された各文字列について、算出された文字列出現比率が所定の閾値を超えているか否かの判定を行う。その判定の結果、辞書作成装置5は、肯定的な結果が得られた文字列(すなわち、文字列出現比率が所定の閾値を超えている文字列)を、システム辞書に登録する候補とする(S3)(以下、その文字列を「登録候補文字列」と言う)。
【0042】
ここで、複数の登録候補文字列の文字列出現比率の中には、文字列出現比率の算出の際に母数(つまり上記(1)式の分母の値)が所定値以下であったために、上記閾値を超えることとなった文字列出現比率がある可能性がある。そこで、辞書作成装置5は、各登録候補文字列について、それの文字列出現比率の算出の際に母数が所定数以下であった登録候補文字列に対しては、母比率検定を行うことによって、その登録候補文字列がシステム辞書13に登録されることが妥当であるか否かの判定を行う(S4)。
【0043】
その後、辞書作成装置5は、S4の判定において妥当であると判断された登録候補文字列、及び、S4の判定が行われなかった登録候補文字列(すなわち、S4の判定を行う必要性がなかった登録候補文字列)と、それに対応した該当カテゴリとを、システム辞書13となる所定のファイルに記録する(S5)。
【0044】
以上の処理流れが完了することで、各カテゴリにおいて重要度が一定値以上である文字列(換言すれば、各カテゴリにおいて特徴的であると推定された文字列)とそれに対応したカテゴリとのみが記録されたシステム辞書13が作成される。このシステム辞書13に記載されている複数の文字列(以下、「特徴的文字列」と言う)と、上述したユーザ辞書11A、11B、…に記載されている複数のユーザ所望文字列とに基づいて、テキスト分類部15によって分類対象テキスト19の分類が行われる。
【0045】
図6は、テキスト分類部15が分類対象テキスト19を分類する際の処理流れを示す。
【0046】
テキスト分類装置1には、ユーザによって特定の方法で分類対象テキスト19が入力される(S10)。ここで言う「特定の方法」とは、例えば、ユーザの要求に応答してテキスト分類装置1内で新たな分類対象テキストが作成されることや、フロッピー(登録商標)ディスク等の可搬記録媒体や有線又は無線の通信システムを介すること等である。
【0047】
分類対象テキスト19が入力されたら、テキスト分類部15は、その分類対象テキスト19に記載されている各文字列を抽出する(S11)。
【0048】
そして、テキスト分類部15は、ユーザ辞書記憶部9にアクセスして、分類対象テキスト19を入力したユーザ(以下、そのユーザを「ユーザA」とする)のユーザ辞書11Aを参照し、S11で抽出された各文字列(以下、その文字列を「抽出文字列」と言う)と、ユーザ辞書11Aに記載されている1以上のユーザ所望文字列との比較照合(以下、「ユーザ辞書比較照合」と言う)を実行する(S12)。なお、複数のユーザ辞書11A、11B、…のうちどれがユーザAのユーザ辞書であるかは、所定の方法で判別することができる(例えば、各ユーザ辞書11A、11B、…にユーザ識別コードを対応付けておき、ユーザAがユーザAのユーザ識別コードを入力すれば、入力されたユーザ識別コードと、各ユーザ辞書11A、11B、…に対応付けられているユーザ識別コードとを比較照合することでユーザ辞書11Aを判別することができる)。また、S12では、テキスト分類部15は、例えば、複数のユーザからなるグループで辞書を共有、あるいはそのグループのユーザが利用可能なグループ辞書を作成し、共有の辞書及びグループ辞書の少なくとも1つを用いて上述のユーザ辞書比較照合を実行してもよい。
【0049】
S12の後、テキスト分類部15は、システム辞書記憶部7にアクセスしてシステム辞書13を参照し、S11で抽出された各文字列と、システム辞書13に記載されている1以上のユーザ所望文字列との比較照合(以下、「システム辞書比較照合」と言う)を実行する(S13)。
【0050】
テキスト分類部15は、S12のユーザ辞書比較照合の結果と、S13のシステム辞書比較照合の結果とのうち、ユーザ辞書比較照合の結果を優先的に用いて、分類対象テキスト19に付与するカテゴリの候補を取得する(なお、必ずしもユーザ辞書比較照合の結果を優先的に用いなければならないわけではなく、システム辞書比較照合の結果を優先的に用いても良いし、優劣つけることなく双方の結果を利用しても良い)。
【0051】
具体的には、例えば、テキスト分類部15は、S12のユーザ辞書比較照合の結果、複数の抽出文字列の中に、ユーザ辞書11A上のユーザ所望文字列と一致する抽出文字列がある場合は、ユーザ辞書11Aを参照して、その抽出文字列と一致したユーザ所望文字列に対応付けられているカテゴリを識別し、そのカテゴリを、分類対象テキスト19に付与する候補とする(なお、この処理は、S12の実行後、S13の実行前に行っても良い)。
【0052】
また、テキスト分類部15は、S12のユーザ辞書比較照合の結果、複数の抽出文字列の中に、ユーザ辞書11A上のユーザ所望文字列と一致する抽出文字列がなく、且つ、S13のシステム辞書比較照合の結果、複数の抽出文字列の中に、システム辞書13上の特徴的文字列と一致する抽出文字列がある場合は、システム辞書13を参照して、その抽出文字列と一致した特徴的文字列に対応付けられているカテゴリを識別し、そのカテゴリを、分類対象テキスト19に付与する候補として決定する。
【0053】
以上の処理によって、付与される候補となったカテゴリ(以下、「付与候補カテゴリ」と言う)が決定したら、テキスト分類部15は、その付与候補カテゴリと、付与候補カテゴリを分類対象テキスト19に付与しても良いか否かの付与適否問いと等が所定のディスプレイ画面(図示せず)に表示されるための処理を実行する(S14)。
【0054】
具体的には、例えば、テキスト分類部15は、S12のユーザ辞書比較照合の結果のみに基づいて1以上の付与候補カテゴリを決定した場合には、各付与候補カテゴリが付与の候補となった根拠の文字列(以下、「根拠文字列」と言う)を含んだ長い文字列(例えば、その根拠の文字列の前後50字を含んだ文字列)を分類対象テキスト19から抽出し、抽出された長い文字列と、各付与候補カテゴリと、付与適否問いと、付与適否問いに対する回答を受けるためのユーザインタフェースとが表示されるための処理を実行する。
【0055】
また、例えば、テキスト分類部15は、S13のシステム辞書比較照合の結果に基づいて1以上の付与候補カテゴリ(例えば、「カテゴリG」というカテゴリ)を決定した場合には、図7に示すように、付与候補カテゴリ「カテゴリG」についての根拠文字列(図7の例では「静電写真用」)を含んだ長い文字列70を、分類対象テキスト19から抽出する。さらに、テキスト分類部15は、学習用テキスト群保存部3にアクセスし、付与候補カテゴリ「カテゴリG」に対応した学習用テキスト群内の、上記根拠文字列「静電写真用」を含んだ学習用テキスト21G1、21G3を識別する。また、テキスト分類部15は、各学習用テキスト21G1、21G3から、上記根拠文字列「静電写真用」を含んだ長い文字列50、60を抽出する。そして、テキスト分類部15は、抽出された長い文字列50、60、70に基づいて、付与適否回答受付画面100を生成してそれが表示されるための処理を実行する(勿論、このような処理は、S12のユーザ辞書比較照合の結果のみに基づいて1以上の付与候補カテゴリを決定したときに、その付与候補カテゴリに属する学習用テキストがある場合に行なっても良い)。
【0056】
付与適否回答受付画面100には、分類対象テキスト19から抽出された長い文字列70と、各学習用テキスト21G1、21G3から抽出された長い文字列50、60とが、左右に並べて表示される。また、付与適否回答受付画面100には、各学習用テキスト21G1、21G3に対応したカテゴリ「カテゴリG」と、今回の付与候補カテゴリ「カテゴリG」も表示される。更に、付与適否回答受付画面100には、付与適否問い110と、付与適否問い110に対して肯定的な回答をする場合に操作する「OK」ボタン111と、付与適否問い110に対して否定的な回答をする場合に操作する「変更する」ボタン113と、ユーザ辞書11Aを編集したい場合に操作する「ユーザ辞書更新」ボタン115とが表示される。
【0057】
この画面構成により、ユーザAは、分類対象テキスト19に対して「カテゴリG」が付与候補となった原因70と、既存の学習用テキスト21G1、21G3に対して「カテゴリG」が付与された原因50、60とを比較することができるので、「カテゴリG」が分類対象テキスト19に付与されることが適切か否かを容易に判断することができる。
【0058】
ユーザAは、付与適否回答受付画面100を見て、「カテゴリG」が分類対象テキスト19に付与されることが適切であると判断したならば、「OK」ボタン111を操作する。テキスト分類部15は、「OK」ボタン111が操作されたならば(図6のS15でY)、「カテゴリG」が分類対象テキスト19に付与することで(S17)、分類対象テキスト19の分類を終える。このとき、テキスト分類部15は、ユーザ辞書11A又はシステム辞書13に対し、文字列「静電写真用」を含んだ分類対象テキスト19に対して「カテゴリG」が付与された旨をフィードバックしても良い。
【0059】
ユーザAは、付与適否回答受付画面100を見て、「カテゴリG」が分類対象テキスト19に付与されることが適切でないと判断したならば、「変更する」ボタン113を操作する。テキスト分類部15は、「変更する」ボタン113が操作されたならば(図6のS15でN)、所定の操作、例えば、別の付与候補カテゴリを探す処理を実行する(S16)。また、このとき、テキスト分類部15は、ユーザ辞書11A又はシステム辞書13に対し、分類対象テキスト19が文字列「静電写真用」を含んでいたにもかかわらず「カテゴリG」が付与されなかった旨をフィードバックしても良い。
【0060】
ユーザAは、付与適否回答受付画面100を見て、ユーザ辞書11Aを編集したいならば、「ユーザ辞書更新」ボタン115を操作する。この場合は、その操作に応答してユーザ辞書更新部(図1参照)17が起動し、以降、ユーザAの要求に応じてユーザ辞書11Aのみを編集し更新する(他人のユーザ辞書11B、…は編集できないようにする)。すなわち、分類対象テキスト19の分類の結果に基づいて、ユーザAが自分で自分のユーザ辞書11Aに対してフィードバックをかける。
【0061】
また、図6に示した流れにおいて、S12とS13の処理の結果、分類対象テキスト19に含まれている複数の文字列のどれも、ユーザ辞書11Aにもシステム辞書13にも全く記載されていなければ、分類対象テキスト19に対して分類候補カテゴリが取得されることはない。その場合、テキスト分類部15は、分類対象テキスト19を分類することができなかった旨を表示するための処理を実行する。その後、ユーザAからテキスト分類装置1に対して、ユーザA自らが分類対象テキスト19の分類を行う旨の要求があった場合には、以下のような処理が行われる。
【0062】
すなわち、図8に示すように、何のカテゴリも付与されなかった分類対象テキスト19´が表示され、ユーザAの操作に応答して、分類対象テキスト19´中のユーザ所望の文字列(図8の例では「インクジェットプリンタ」)が識別される(例えば、ユーザAがマウスを操作して網掛けした文字列が識別される)。その後、ユーザAからテキスト分類装置1に対して、分類対象テキスト19´に「カテゴリB」を付与する旨が入力された場合には、ユーザ辞書更新部17が、ユーザAのユーザ辞書11Aに、新たなレコードとして、ユーザA所望の文字列「インクジェットプリンタ」と、それに対応したカテゴリとして「カテゴリB」とを登録する。なお、ここでユーザ辞書11Aに登録できる文字列とカテゴリとの組合せは1つに限られない。また、1つの文字列に対応付けられるカテゴリの数も1つに限られない。
【0063】
以上が、本実施形態についての説明である。上述の実施形態は、テキストに限らず画像等を含んだ他の種類の文書の分類にも利用可能であるし、また、種々の目的に応じた文書分類に利用することもできる。具体的には、例えば、上記実施形態において、学習用テキストを、既に国際特許分類が付与されている特許明細書とし、カテゴリを国際特許分類とし、分類対象テキストを国際特許分類が付与されていない特許明細書とすれば、特許明細書に対して国際特許分類を自動的に付与するが行われることとなる。
【0064】
以上、上述した実施形態によれば、システム辞書13やユーザ辞書11A、11B、…を用いて、分類対象テキスト19に対してカテゴリが付与される。システム辞書13やユーザ辞書11A、11B、…は、単なる統計データとは異なり、各文字列と、その文字列の写像となる1以上のカテゴリとが記載されているものである。このため、分類対象テキスト19中に、システム辞書13或いはユーザ辞書11A、11B、…上の文字列と同一の文字列があれば、従来よりも高い確率で、適切なカテゴリを自動的に分類対象テキスト19に対して付与されるようになる。
【0065】
また、上述した実施形態によれば、図7に例示した付与適否回答受付画面100が生成されて表示されるので、分類対象テキスト19に対して或るカテゴリが付与候補となった原因70と、既存の或る学習用テキストに対して或るカテゴリが付与された原因50、60とを比較して、その或るカテゴリが分類対象テキスト19に付与されることが適切か否かを容易に判断することができる。それにより、分類対象テキスト19に対して付与されるカテゴリが適切であることの確実性を高めることができ、かつ、ユーザサイドに立ったシステム構築が容易となる。
【0066】
また、上述した実施形態によれば、ユーザは、適宜に、自分のユーザ辞書を編集することができる。このことは、ユーザ辞書のカスタマイズの支援環境としても有効である。
【0067】
以上、本発明の好適な実施形態を説明したが、これは本発明の説明のための例示であって、本発明の範囲をこの実施形態にのみ限定する趣旨ではない。本発明は、他の種々の形態でも実施することが可能である。
【0068】
例えば、学習用テキスト群保存部13内を定期的に又は不定期に更新し、それに応じて、辞書作成装置5が、図5に示した処理流れを実行することにより、システム辞書13を定期的に又は不定期に更新しても良い。
【0069】
また、例えば、辞書作成装置5は、学習用テキスト上の複数のエリアの中から所定のエリアを判別し(特許明細書を例に言うと、例えば、「発明の名称」という文字列と「特許請求の範囲」という文字列との間のエリアを判別し)、判別されたエリア内のみから文字列を抽出して、抽出された文字列を特徴的な文字列としても良い。
【0070】
また、例えば、ユーザは、自分で1以上のサンプル的なテキストを用意し(以下、ユーザに用意されたサンプル的なテキストを「ユーザテキスト」と言う)、そのユーザテキスト(例えば、ユーザに作成されたテキスト文書や所望のサイトからダウンロードされたWebページ等の、ユーザ辞書の更新の際に参照したテキスト)を、カテゴリ別に学習用テキスト群保存部3内に格納しても良い。これにより、分類対象テキスト19をカテゴリ別に分類する際には、予め用意されている学習用テキストのみならず、ユーザが用意したユーザテキストからも、分類候補カテゴリの決定の根拠となった言葉(以下、「根拠ワード」と言う)が含まれている文字列が抜き出されて、その文字列と、分類対象テキスト19上の根拠ワードが含まれている文字列とが、付与適否回答受付画面100上に並べて表示される。このため、より一層、容易且つ正確に、分類対象テキスト19に付与されるカテゴリを決定することができる。なお、その際、学習用テキストとユーザテキストとの両方或いは片方だけが用いられても良いし、どちらのテキストを優先的に用いるかの優先度を予めユーザが設定しておいて、その優先度に基づいて学習用テキスト及びユーザテキストのいずれかが自動で選択的に用いられても良い。後者の場合は、例えば、先に用いられた一方のテキスト(例えばユーザテキスト)上に根拠ワードが存在しなければ、自動的に、他方のテキスト(例えば学習用テキスト)上から根拠ワードが検索されても良い。
【図面の簡単な説明】
【図1】本発明の一実施形態に係るシステムの全体構成を示すブロック図。
【図2】学習用テキスト群保存部3内の様子を示す図。
【図3】システム辞書13の構成を示す図。
【図4】ユーザ辞書11A、11B、…の構成を示す図。
【図5】辞書作成装置5がシステム辞書13を作成する際の処理流れを示す図。
【図6】テキスト分類部15が分類対象テキスト19を分類する際の処理流れを示す図。
【図7】S13のシステム辞書比較照合の結果に基づいて1以上の付与候補カテゴリを決定した場合に、付与適否問い等が表示される際に行われる処理の内容を説明するための図。
【図8】分類対象テキスト19に対して付与候補カテゴリが選ばれなかった場合にユーザ辞書が更新されるときのことを説明するための図。
【符号の説明】
1 テキスト分類装置
3 学習用テキスト群保存部
5 辞書作成装置
7 システム辞書記憶部
9 ユーザ辞書記憶部
11A、11B、… ユーザ辞書
13 システム辞書
15 テキスト分類部
17 ユーザ辞書更新部
19 分類対象テキスト[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a novel technique for creating an electronic dictionary for document classification based on a plurality of sample documents, and a novel document classification technique using the electronic dictionary.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, there has been known a text classification system for automatically classifying a document including only characters (hereinafter, referred to as “text”). In a conventional text classification system, automatic text classification is performed as follows.
[0003]
That is, in the conventional text classification system, for each of a plurality of text categories, a learning text group including a large number of learning texts (sample texts) to which the categories are assigned is prepared. The text classification system creates word statistical data (for example, data indicating the distribution of each word in the category) by extracting each word from the learning text group and performing statistical processing for each category. Then, when a text to be classified (hereinafter referred to as a text to be classified) is input, the text classification system extracts each word from the input text to be classified, and generates each extracted word and each word. By assigning a category to the classification target text based on the word statistical data, the classification target text is automatically classified.
[0004]
[Problems to be solved by the invention]
The conventional text classification system has the following problems, for example.
[0005]
That is, since the classification method is based on statistical data, for example, (1) a problem that a huge amount of calculation is required for dictionary construction and classification determination, and (2) statistical data is merely a numerical value. (3) that humans cannot obtain information from the system to determine whether the classification result is correct, and (4) that the content of the text to be classified is accurate. Therefore, there is a problem that a person who does not know the contents of the text to be classified cannot judge the appropriateness of the assigned category at all.
[0006]
Conventionally, since the above-described automatic classification is merely performed based on statistical data created for each category, it is necessary to feed back a category finally assigned to a classification target text by a human to reconstruct a dictionary. Since it requires a huge amount of processing time, it is practically difficult.
[0007]
It is considered that the above problems exist not only in text but also in other types of documents including images and line drawings.
[0008]
Therefore, an object of the present invention is to improve the certainty that an appropriate category is assigned to a document to be classified.
[0009]
Another object of the present invention is to make it possible to easily determine whether a category assigned to a document to be classified is appropriate.
[0010]
Still another object of the present invention is to enable appropriate feedback to be provided to a system for automatically classifying documents based on the result of a category determined by a human for a document to be classified. is there.
[0011]
[Means for Solving the Problems]
A system according to a first aspect of the present invention includes an association degree determination unit and a dictionary creation unit. The relevance determination means is a system for creating an electronic dictionary for classifying documents, and inputs a plurality of sample documents belonging to each of a plurality of categories of the document, and, for each category, For each of a large number of character strings included in the document, the degree of association between the character string and the category is determined. The dictionary creating means selects, based on the result of the determination, each specific character string whose degree of association is equal to or more than a predetermined degree from among the many character strings, and selects each of the selected specific character strings and the corresponding specific character string. An electronic dictionary in which the obtained one or more categories are recorded is created.
[0012]
Here, the “document” is a document including characters, for example, a document including only characters, or a document including an image or a line drawing in addition to characters.
[0013]
The "category" may be anything as long as it makes the document categorizable, for example, words that can be understood by humans (for example, novels, essays, etc.), or a code group consisting of numbers, alphabetic characters, and the like. It may be.
[0014]
The “character string” is, for example, a grammatical word (that is, a minimum unit of language), a continuous word (for example, a character string “document creation system”), or a plurality of words (for example, Or a character string consisting of multiple particles and multiple words.
[0015]
In a preferred embodiment of the system according to the first aspect of the present invention, the relevance determination means is included in (1) the plurality of sample documents belonging to the same category for each of the plurality of character strings. Based on the total number of the character strings and (2) the total number of the existing sample documents or the total number of the character strings included in the existing sample documents, the degree of association with respect to the character strings is determined.
[0016]
A system according to a second aspect of the present invention is a system for classifying documents, and includes a dictionary acquisition unit, a document acquisition unit, a comparison / collation unit, and a document classification unit. The dictionary acquisition means acquires an electronic dictionary in which one or more character strings corresponding to each of a plurality of categories of the document (for example, character strings characteristic to the category) are described. The document input unit acquires a document to be classified (for example, receives a document to be classified from a user, or creates a document according to a user's request to acquire a document to be classified). The comparison and collation unit compares and compares each character string included in the acquired document to be classified with each character string (for example, the characteristic character string described above) described in the electronic dictionary. Do. As a result of the comparison and collation, if there is a character string that matches each other, the document classifying unit refers to the electronic dictionary to grasp a category corresponding to the matched character string, and The acquired document is classified by assigning the category to be assigned, which is the above-identified category.
[0017]
In a preferred embodiment of the system according to the second aspect of the present invention, the system further includes a basis character string extracting unit, a notifying unit, a question output unit, and an answer receiving unit. The basis character string extracting means extracts, from the acquired document, the matched character string or the first long character string including the matched character string, which became the basis for the provision of the category to be provided. The notification unit notifies the user who has input the document of the extracted matched character string or the first long character string and the assignment target category. The question output means outputs to the user a question as to whether the notified category to be provided may be assigned to the acquired document. The answer receiving means receives an answer to the output question from the user.
[0018]
In this case, the document classifying means assigns the assignment target category to the acquired document only when the answer receiving means receives a positive answer.
[0019]
In a further preferred embodiment of the present invention, the basis character string extracting means includes the plurality of sample documents belonging to each of the plurality of categories, the specific sample document including the matched character string, A second long character string including the matched character string is extracted from the specific sample document, and the notifying unit determines the first long character string, the assignment target category, and the second long character string. And the category to which the specific sample document belongs to the user (for example, the combination of the first long character string and the category to be given, the second long character string and the The combination with the category to which the sample document belongs is displayed side by side on a predetermined screen).
[0020]
In a preferred embodiment, there are a plurality of electronic dictionaries, and the plurality of electronic dictionaries include a user dictionary created by each user and dedicated to each user. Further comprising dictionary editing means for editing a user dictionary dedicated to the user in response to a request from the user.
[0021]
A method according to a third aspect of the present invention is a method for creating an electronic dictionary for classifying documents, comprising inputting a plurality of sample documents belonging to each of a plurality of categories of documents, and For each of a number of character strings included in the plurality of sample documents, a step of determining the degree of association between the character string and its category; and, based on the result of the determination, Selecting, from among them, specific character strings whose degree of association is equal to or greater than a predetermined degree, and creating an electronic dictionary in which the selected specific character strings and one or more categories corresponding thereto are recorded. Having.
[0022]
A method according to a fourth aspect of the present invention is a method for classifying a document, wherein a character string corresponding to each of a plurality of categories of the document and a character string characteristic to the category is 2 or more. Obtaining an electronic dictionary in which at least one document is described, obtaining a document to be classified, and each character string included in the obtained document, and being described in the electronic dictionary. Performing a comparison and collation with each characteristic character string, and if there is a character string that matches each other as a result of the comparison and collation, refer to the electronic dictionary to find a category corresponding to the matched character string. And classifying the acquired document by assigning an assignment target category that is the identified category to the acquired document.
[0023]
A computer program according to a fifth aspect of the present invention is a computer program for creating an electronic dictionary for document classification, and inputs a plurality of sample documents belonging to each of a plurality of categories of documents, and For each category, for each of a large number of character strings included in the plurality of sample documents, determining a degree of association between the character string and the category; and, based on a result of the determination, determining the number of the character strings. From the columns, select each specific character string whose degree of association is equal to or higher than a predetermined degree, and create an electronic dictionary in which the selected specific character string and one or more categories corresponding to the selected specific character string are recorded. And a step for causing a computer to execute the steps.
[0024]
A computer program according to a sixth aspect of the present invention is a computer program for classifying a document, and includes a character string corresponding to each of a plurality of categories of the document (for example, for the category, Obtaining an electronic dictionary (in which two or more characteristic character strings are described), obtaining a document to be classified, each character string included in the obtained document, Performing a comparison and comparison with each characteristic character string described in the electronic dictionary; and as a result of the comparison and collation, if there is a character string that matches each other, The category corresponding to the matched character string is grasped, and the acquired document is classified by assigning the granted category which is the grasped category to the acquired document. That it is intended to execute the steps in the computer.
[0025]
The data according to the seventh aspect of the present invention is an electronic dictionary for document classification, which corresponds to each of a plurality of categories of a document, and is considered or characteristic of the category. Contains one or more character strings. One or more character strings are associated with one category. For example, the same category may be associated with two types of character strings, or two types of categories may be associated with the same character string. In the former case, no matter which of the two types of character strings appears, the same category can be assigned. In the latter case, if the same character string appears, the two categories must be assigned. Both can be provided.
[0026]
The plurality of means provided in each system of the present invention described above can be mounted on one computer system, or can be mounted separately on a plurality of distributed computer systems.
[0027]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0028]
FIG. 1 shows an overall configuration of a system according to an embodiment of the present invention.
[0029]
In this embodiment, a learning text
[0030]
The learning text
[0031]
The
[0032]
The text classification device 1 can be used by a plurality of users. The text classification device 1 acquires a text to be classified (hereinafter referred to as a text to be classified) 19 by a specific method, and a
[0033]
The system dictionary storage unit 7 stores the
[0034]
As shown in FIG. 4, for example, the user dictionary storage unit 9 stores user dictionaries created by a plurality of users (specifically, for example, the
[0035]
The
[0036]
The user
[0037]
The above is the outline of the system according to the present embodiment. Hereinafter, the processing flow in this system, in other words, the processing contents performed by the
[0038]
FIG. 5 shows a processing flow when the
[0039]
The
[0040]
Next, the
Character string appearance ratio = appearance frequency in learning text group corresponding to corresponding category / appearance frequency in all learning text groups (1)
Is used to calculate the character string appearance ratio for each of the extracted character strings. Here, the “appearance frequency” refers to the number of appearances (the above equation (1) is an example, and although not specifically described, there are other calculation methods).
[0041]
The
[0042]
Here, among the character string appearance ratios of a plurality of registration candidate character strings, the parameter (that is, the value of the denominator in the above equation (1)) was not more than a predetermined value when calculating the character string appearance ratio. There is a possibility that there is a character string appearance ratio that exceeds the threshold. Therefore, the
[0043]
Thereafter, the
[0044]
By completing the above processing flow, only a character string whose importance is equal to or more than a certain value in each category (in other words, a character string estimated to be characteristic in each category) and a corresponding category A recorded
[0045]
FIG. 6 shows a processing flow when the
[0046]
The text to be classified 19 is input to the text classification device 1 by a user using a specific method (S10). Here, the “specific method” means, for example, that a new text to be classified is created in the text classification device 1 in response to a user request, or a portable recording medium such as a floppy (registered trademark) disk. Or via a wired or wireless communication system.
[0047]
When the
[0048]
Then, the
[0049]
After S12, the
[0050]
The
[0051]
Specifically, for example, as a result of the user dictionary comparison and collation in S12, if the
[0052]
In addition, as a result of the user dictionary comparison and collation in S12, the
[0053]
When the category that is a candidate to be assigned (hereinafter, referred to as “assignment candidate category”) is determined by the above processing, the
[0054]
Specifically, for example, when the
[0055]
For example, when the
[0056]
The assignment appropriateness
[0057]
With this screen configuration, the user A can determine the
[0058]
The user A operates the “OK”
[0059]
The user A operates the “change”
[0060]
The user A operates the “update user dictionary”
[0061]
In the flow shown in FIG. 6, as a result of the processing in S12 and S13, none of the plurality of character strings included in the
[0062]
That is, as shown in FIG. 8, the classification target text 19 'to which no category is assigned is displayed, and in response to the operation of the user A, the character string desired by the user in the classification target text 19' (FIG. In the example, "inkjet printer" is identified (for example, a character string shaded by the user A operating the mouse is identified). After that, when the user A inputs to the text classification device 1 that "category B" is to be assigned to the classification target text 19 ', the user
[0063]
The above is the description of the present embodiment. The above-described embodiment can be used for classifying other types of documents including images as well as texts, and can also be used for classifying documents for various purposes. Specifically, for example, in the above embodiment, the learning text is a patent specification to which an international patent classification has already been assigned, the category is an international patent classification, and the classification target text is not assigned an international patent classification. In the case of a patent specification, an international patent classification is automatically assigned to the patent specification.
[0064]
As described above, according to the above-described embodiment, a category is assigned to the
[0065]
Further, according to the above-described embodiment, the assignment appropriateness
[0066]
Further, according to the above-described embodiment, the user can appropriately edit his / her own user dictionary. This is also effective as a support environment for customizing the user dictionary.
[0067]
The preferred embodiment of the present invention has been described above, but this is an exemplification for describing the present invention, and is not intended to limit the scope of the present invention only to this embodiment. The present invention can be implemented in other various forms.
[0068]
For example, the content of the learning text
[0069]
Further, for example, the
[0070]
In addition, for example, the user prepares one or more sample texts by himself (hereinafter, the sample text prepared by the user is referred to as “user text”), and the user text (for example, a text created by the user). The texts referred to when updating the user dictionary, such as a text document or a Web page downloaded from a desired site, may be stored in the learning text
[Brief description of the drawings]
FIG. 1 is a block diagram showing an overall configuration of a system according to an embodiment of the present invention.
FIG. 2 is a diagram showing a state in a learning text
FIG. 3 is a diagram showing a configuration of a
FIG. 4 is a diagram showing a configuration of
FIG. 5 is a diagram showing a processing flow when the
FIG. 6 is a diagram showing a processing flow when the
FIG. 7 is a diagram for explaining the contents of processing performed when an assignment suitability question or the like is displayed when one or more assignment candidate categories are determined based on the result of the system dictionary comparison / collation in S13.
FIG. 8 is a view for explaining a case where a user dictionary is updated when an assignment candidate category is not selected for a
[Explanation of symbols]
1 Text classifier
3 Text group storage for learning
5 Dictionary creation device
7 System dictionary storage
9 User dictionary storage
11A, 11B, ... User dictionary
13 System dictionary
15 Text Classification Unit
17 User dictionary update unit
19 Classification target text
Claims (10)
文書についての複数のカテゴリの各々に属する複数のサンプル文書を入力し、各カテゴリについて、前記複数のサンプル文書に含まれている多数の文字列の各々について、その文字列とそのカテゴリとの関連度合の判定を行う関連度合判定手段と、
前記判定の結果を基に、前記多数の文字列の中から、前記関連度合が所定度合以上である各特定文字列を選択し、前記選択された各特定文字列とそれに対応した1以上のカテゴリとが含まれた電子的な辞書を作成する辞書作成手段と
を備える辞書作成システム。A system for creating an electronic dictionary for document classification,
A plurality of sample documents belonging to each of a plurality of categories of the document are input, and for each of the plurality of character strings included in the plurality of sample documents, the degree of association between the character strings and the category is determined. Means for determining the degree of association,
Based on the result of the determination, select each specific character string whose degree of association is equal to or higher than a predetermined degree from among the many character strings, and select each of the selected specific character strings and one or more categories corresponding thereto. And a dictionary creating means for creating an electronic dictionary including the following.
(1)同一のカテゴリに属する前記複数のサンプル文書に含まれているその文字列の総数と、
(2)存在するサンプル文書の総数、又は、前記存在するサンプル文書に含まれているその文字列の総数と
に基づいて、その文字列に関する前記関連度合を判定する
請求項1記載の辞書作成システム。The association degree determination means may include, for each of the plurality of character strings,
(1) the total number of the character strings included in the plurality of sample documents belonging to the same category;
(2) The dictionary creation system according to claim 1, wherein the degree of association of the character string is determined based on the total number of existing sample documents or the total number of the character strings included in the existing sample document. .
文書についての複数のカテゴリの各々に対応した文字列が記載されている電子的な辞書を取得する辞書取得手段と、
分類対象の文書を取得する文書取得手段と、
前記取得された文書に含まれている各文字列と、前記電子的な辞書に記載されている各文字列との比較照合を行う比較照合手段と、
前記比較照合の結果、互いに一致した文字列が存在する場合、前記電子的な辞書を参照して前記一致した文字列に対応したカテゴリを把握し、前記取得された文書に対して前記把握されたカテゴリである付与対象カテゴリを付与することで前記取得された文書を分類する文書分類手段と
を備える文書分類システム。A system for classifying documents,
Dictionary acquisition means for acquiring an electronic dictionary in which character strings corresponding to each of a plurality of categories of the document are described;
A document acquisition unit for acquiring a document to be classified;
Each character string included in the acquired document, a comparison and collation unit that performs comparison and collation with each character string described in the electronic dictionary,
As a result of the comparison and collation, when there is a character string that matches each other, the category corresponding to the matched character string is grasped by referring to the electronic dictionary, and the grasp is performed on the acquired document. A document classification unit that classifies the acquired document by assigning an assignment target category that is a category.
前記抽出された前記一致した文字列又は前記第1の長い文字列と、前記付与対象カテゴリとを所定のユーザに報知する報知手段と、
前記文書に対して、前記報知された付与対象カテゴリを付与して良いか否かの問いを前記ユーザに出力する問い出力手段と、
前記出力された問いに対する回答を前記ユーザから受ける回答受け手段と
を更に備え、前記文書分類手段は、前記回答受け手段が肯定的な回答を受けたときにのみ、前記取得された文書に対し前記付与対象カテゴリを付与する
請求項3記載の文書分類システム。Ground character string extracting means for extracting the matched character string or the first long character string including the character string that became the ground to be given the target category from the acquired document,
Notifying means for notifying a predetermined user of the extracted matched character string or the first long character string, and the assignment target category;
A question output unit that outputs to the user a question as to whether or not to give the notified category to be given to the document,
Further comprising: answer receiving means for receiving an answer to the output question from the user, wherein the document classifying means only receives a positive answer from the answer receiving means for the acquired document. The document classification system according to claim 3, wherein a category to be provided is provided.
前記報知手段は、前記第1の長い文字列と、前記付与対象カテゴリと、前記第2の長い文字列と、前記特定のサンプル文書が属するカテゴリとを前記ユーザに報知する
請求項4記載の文書分類システム。The basis character string extracting means includes a second sample including the matched character string from a specific sample document including the matched character string included in a plurality of sample documents belonging to each of the plurality of categories. Extracting a long character string from the specific sample document,
The document according to claim 4, wherein the notifying unit notifies the user of the first long character string, the category to be provided, the second long character string, and a category to which the specific sample document belongs. Classification system.
文書についての複数のカテゴリの各々に属する複数のサンプル文書を入力し、各カテゴリについて、前記複数のサンプル文書に含まれている多数の文字列の各々について、その文字列とそのカテゴリとの関連度合の判定を行うステップと、
前記判定の結果を基に、前記多数の文字列の中から、前記関連度合が所定度合以上である複数の特定文字列を選択し、前記選択された各特定文字列とそれに対応した1以上のカテゴリとが記録された電子的な辞書を作成するステップと
を有する辞書作成方法。A method for creating an electronic dictionary for document classification,
A plurality of sample documents belonging to each of a plurality of categories of the document are input, and for each of the plurality of character strings included in the plurality of sample documents, the degree of association between the character strings and the category is determined. Performing a determination of
Based on the result of the determination, a plurality of specific character strings whose degree of association is equal to or more than a predetermined degree are selected from among the many character strings, and each of the selected specific character strings and one or more corresponding thereto are selected. Creating an electronic dictionary in which categories are recorded.
文書についての複数のカテゴリの各々に対応した文字列であってそのカテゴリに対して特徴的な文字列が2個以上含まれている電子的な辞書を取得するステップと、
分類対象の文書を取得するステップと、
前記文書に含まれている各文字列と、前記電子的な辞書に記載されている各特徴的な文字列との比較照合を行うステップと、
前記比較照合の結果、互いに一致した文字列が存在する場合、前記電子的な辞書を参照して前記一致した文字列に対応したカテゴリを把握し、前記取得された文書に対して前記把握されたカテゴリである付与対象カテゴリを付与することで前記取得された文書を分類するステップと
を有する文書分類方法。A method for classifying documents, wherein
Obtaining an electronic dictionary that is a character string corresponding to each of a plurality of categories of the document and includes two or more character strings characteristic of the category;
Obtaining a document to be classified;
Comparing and comparing each character string included in the document with each characteristic character string described in the electronic dictionary;
As a result of the comparison and collation, when there is a character string that matches each other, the category corresponding to the matched character string is grasped by referring to the electronic dictionary, and the grasp is performed on the acquired document. Classifying the acquired document by assigning an assignment target category that is a category.
文書についての複数のカテゴリの各々に属する複数のサンプル文書を入力し、各カテゴリについて、前記複数のサンプル文書に含まれている多数の文字列の各々について、その文字列とそのカテゴリとの関連度合の判定を行うステップと、
前記判定の結果を基に、前記多数の文字列の中から、前記関連度合が所定度合以上である複数の特定文字列を選択し、前記選択された各特定文字列とそれに対応した1以上のカテゴリとが記録された電子的な辞書を作成するステップと
をコンピュータに実行させるためのコンピュータプログラム。A computer program for creating an electronic dictionary for document classification,
A plurality of sample documents belonging to each of a plurality of categories of the document are input, and for each of the plurality of character strings included in the plurality of sample documents, the degree of association between the character strings and the category is determined. Performing a determination of
Based on the result of the determination, a plurality of specific character strings whose degree of association is equal to or more than a predetermined degree are selected from among the many character strings, and each of the selected specific character strings and one or more corresponding thereto are selected. Creating an electronic dictionary in which categories are recorded, and a computer program for causing the computer to execute the steps.
文書についての複数のカテゴリの各々に対応した文字列であってそのカテゴリに対して特徴的な文字列が2個以上記載されている電子的な辞書を取得するステップと、
分類対象の文書と入力を受けるステップと、
前記取得された文書に含まれている各文字列と、前記電子的な辞書に記載されている各特徴的な文字列との比較照合を行うステップと、
前記比較照合の結果、互いに一致した文字列が存在する場合、前記電子的な辞書を参照して前記一致した文字列に対応したカテゴリを把握し、前記取得された文書に対して前記把握されたカテゴリである付与対象カテゴリを付与することで前記取得された文書を分類するステップと
をコンピュータに実行させるためのコンピュータプログラム。A computer program for classifying documents,
Obtaining an electronic dictionary which is a character string corresponding to each of a plurality of categories of the document, and in which two or more character strings characteristic of the category are described;
Receiving documents to be classified and input;
Performing a comparison and comparison between each character string included in the acquired document and each characteristic character string described in the electronic dictionary;
As a result of the comparison and collation, when there is a character string that matches each other, the category corresponding to the matched character string is grasped by referring to the electronic dictionary, and the grasp is performed on the acquired document. Categorizing the acquired document by assigning an assignment target category, which is a category, to the computer.
文書についての複数のカテゴリの各々に対応した、そのカテゴリに対して特徴的であるとみなされた又は推定された1又は複数の文字列を含んだ電子的な辞書。An electronic dictionary for document classification,
An electronic dictionary corresponding to each of a plurality of categories of a document and including one or more character strings considered or estimated to be characteristic for the category.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002206549A JP2004054303A (en) | 2002-07-16 | 2002-07-16 | System for making electronic dictionary for document classification and system using it for classifying document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002206549A JP2004054303A (en) | 2002-07-16 | 2002-07-16 | System for making electronic dictionary for document classification and system using it for classifying document |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004054303A true JP2004054303A (en) | 2004-02-19 |
Family
ID=31931239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002206549A Pending JP2004054303A (en) | 2002-07-16 | 2002-07-16 | System for making electronic dictionary for document classification and system using it for classifying document |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004054303A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008242689A (en) * | 2007-03-27 | 2008-10-09 | Kddi Corp | Content classification system, server, terminal device, program, and recording medium |
JP2014020797A (en) * | 2012-07-12 | 2014-02-03 | Toyota Infotechnology Center Co Ltd | Document distribution system and document distribution device |
-
2002
- 2002-07-16 JP JP2002206549A patent/JP2004054303A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008242689A (en) * | 2007-03-27 | 2008-10-09 | Kddi Corp | Content classification system, server, terminal device, program, and recording medium |
JP2014020797A (en) * | 2012-07-12 | 2014-02-03 | Toyota Infotechnology Center Co Ltd | Document distribution system and document distribution device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106650943B (en) | Auxiliary writing method and device based on artificial intelligence | |
KR102056822B1 (en) | Method for providing learning service and apparatus thereof | |
KR101981075B1 (en) | Data analysis system, data analysis method, data analysis program, and recording medium | |
CN105824959B (en) | Public opinion monitoring method and system | |
JP2005157524A (en) | Question response system, and method for processing question response | |
US20110219299A1 (en) | Method and system of providing completion suggestion to a partial linguistic element | |
WO2007146809A2 (en) | Identifying content of interest | |
JP2020135891A (en) | Methods, apparatus, devices and media for providing search suggestions | |
KR102185733B1 (en) | Server and method for automatically generating profile | |
JP2005115867A (en) | Private information storing device and method, and private information managing device and method | |
KR102099364B1 (en) | Artificial intelligence book writing guiding system and thereof | |
CN117420998A (en) | Client UI interaction component generation method, device, terminal and medium | |
JP6802332B1 (en) | Information processing method and information processing equipment | |
JP2005115868A (en) | Private information storage device and method, and private information management device and method | |
JP2005267095A (en) | Information display method and device, and information display program | |
JP2004054303A (en) | System for making electronic dictionary for document classification and system using it for classifying document | |
JP3677006B2 (en) | Information processing apparatus and method | |
JP6696344B2 (en) | Information processing device and program | |
CN114090777A (en) | Text data processing method and device | |
CN113343012A (en) | News matching method, device, equipment and storage medium | |
JP4615279B2 (en) | Document classification recognition apparatus, method thereof, document classification apparatus, and program thereof | |
CN111681776A (en) | Medicine object relation analysis method and system based on medicine big data | |
JPH113356A (en) | Information co-helping method, its system and recording medium storing information co-helping program | |
JP3910823B2 (en) | Questionnaire analysis apparatus, questionnaire analysis method and program | |
KR20190014195A (en) | System and method for presenting fonts through retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040521 |
|
RD05 | Notification of revocation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7425 Effective date: 20040526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060117 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060523 |