JP2005182218A - Dictionary editing device, and document classifying device and its program - Google Patents
Dictionary editing device, and document classifying device and its program Download PDFInfo
- Publication number
- JP2005182218A JP2005182218A JP2003418871A JP2003418871A JP2005182218A JP 2005182218 A JP2005182218 A JP 2005182218A JP 2003418871 A JP2003418871 A JP 2003418871A JP 2003418871 A JP2003418871 A JP 2003418871A JP 2005182218 A JP2005182218 A JP 2005182218A
- Authority
- JP
- Japan
- Prior art keywords
- word
- idf
- dictionary
- document
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、辞書編集装置、文書分類装置及びそのプログラムに関し、特に、電子メールやWeb等で入力した電子文書を、適切な担当者に自動的に正確に分類するための辞書編集装置、文書分類装置及びそのプログラムに関する。 The present invention relates to a dictionary editing apparatus, a document classification apparatus, and a program thereof, and more particularly, to a dictionary editing apparatus and document classification for automatically and accurately classifying an electronic document input by e-mail, Web, or the like to an appropriate person in charge. The present invention relates to an apparatus and a program thereof.
最近、企業のコールセンター等では、電話やFAXに依らず、電子メールやWebで顧客からの問い合わせに対応することへのニーズが高まっている。しかし、電子メール等による問い合わせ(問い合わせメール)に少人数で対応するためには、適切な担当者へ問い合わせメールを分類し、回答しなければならない場合が多い。電子メールやWebにより充実したサービスを提供するためには、このような分類業務の効率化が重要であり、これを自動分類するシステムが強く望まれている。 In recent years, there has been an increasing need for responding to inquiries from customers by e-mail or the Web, regardless of telephone or FAX, in a call center of a company. However, in order to respond to an inquiry (inquiry mail) by e-mail or the like with a small number of people, it is often necessary to classify and answer the inquiry mail to an appropriate person in charge. In order to provide a rich service by e-mail or Web, it is important to improve the efficiency of such classification work, and a system for automatically classifying this is strongly desired.
このような電子メールの自動分類の手段としては、電子メールを分類するための類推ルールをサンプルデータから学習して生成し、これに基づいて電子メールを自動分類できるようにした装置が知られている(例えば、特許文献1参照)。 As a means for automatically classifying such e-mails, there is known an apparatus that learns and generates analogy rules for classifying e-mails from sample data and can automatically classify e-mails based on the learning rules. (For example, refer to Patent Document 1).
一方、文書分類に関する多くの研究において、単語単独の重要度であるtf・idf 値(term frequency times inverse document frequency)が応用されている。更に、本発明者等により、tf・idf 値の他に、2単語間の共起性を表すidf/conf値を用いて、電子メール等の文書分類を行うことが提案されている(非特許文献1参照)。
前述のように、本発明者等は、先にtf・idf 値及びidf/conf値を用いて電子メール等の文書分類を行うことを提案した。しかし、その後の本発明者の検討によれば、tf・idf 値とidf/conf値を用いただけの文書分類では、電子メールの分類等に用いた場合、実用的な分類精度が得られないことが判った。即ち、tf・idf 値及びidf/conf値を併せて1個のパラメータとして用いて1個の辞書を作成及び使用したのでは実用に耐え得る分類結果が得られず、一方、tf・idf 値とidf/conf値とを別々の独立した2個のパラメータとして用いて2個の辞書を作成及び使用すると、実用的な分類の実現に有効であることが判った。更に、辞書の作成後も単語の重み(ウェイト)を学習することが有効であるが、別々の独立した2個のパラメータであるtf・idf 値とidf/conf値とについて個々に学習すると、実用的な分類の実現に有効であることが判った。そして、この学習の課程において、3種類の学習(重要語、特定語、不要語)を行うことが有効であることが判った。 As described above, the present inventors have previously proposed to classify documents such as e-mails using the tf · idf value and idf / conf value. However, according to the inventor's examination after that, the document classification using only the tf / idf value and idf / conf value does not provide practical classification accuracy when used for e-mail classification. I understood. That is, if one dictionary is created and used using tf · idf value and idf / conf value together as one parameter, a practical classification result cannot be obtained, while tf · idf value and It was found that creating and using two dictionaries using idf / conf values as two separate independent parameters is effective in realizing a practical classification. In addition, it is effective to learn word weights after creating a dictionary, but it is practical to learn two separate independent parameters, tf · idf value and idf / conf value. It was found to be effective in realizing a realistic classification. It was found that it is effective to perform three types of learning (important words, specific words, unnecessary words) in this learning process.
本発明は、文書を適切な担当者に自動的に正確に分類するための辞書を作成する辞書編集装置を提供することを目的とする。 It is an object of the present invention to provide a dictionary editing apparatus that creates a dictionary for automatically and accurately classifying a document to an appropriate person in charge.
また、本発明は、文書を適切な担当者に自動的に正確に分類する文書分類装置を提供することを目的とする。 It is another object of the present invention to provide a document classification device that automatically and accurately classifies a document to an appropriate person in charge.
また、本発明は、文書を適切な担当者に自動的に正確に分類する文書分類プログラムを提供することを目的とする。 It is another object of the present invention to provide a document classification program that automatically and accurately classifies a document to an appropriate person in charge.
本発明の辞書編集装置は、属するカテゴリの判っている文書に基づいて辞書を作成する辞書編集装置であって、当該カテゴリにおいて出現した単語毎に、単語単独の重要度を表すtf・idf 値を格納する重要性辞書を作成し、当該カテゴリにおいて出現した単語についての複数の単語の組み合わせ毎に、当該単語間の共起性を表すidf/conf値を格納する同時出現性辞書を作成する。 The dictionary editing apparatus of the present invention is a dictionary editing apparatus that creates a dictionary based on a document in which a category belongs, and for each word that appears in the category, a tf · idf value that represents the importance of the word alone is obtained. An importance dictionary to be stored is created, and a co-occurrence dictionary for storing an idf / conf value representing co-occurrence between the words is created for each combination of a plurality of words with respect to the words that appear in the category.
本発明の文書分類装置は、複数のカテゴリの各々について設けられる複数のカテゴリ辞書からなり、各々のカテゴリ辞書が当該カテゴリにおいて出現した単語毎に単語単独の重要度を表すtf・idf 値を格納する重要性辞書と、当該カテゴリにおいて出現した単語についての第1単語と第2単語の組み合わせ毎に2単語間の共起性を表すidf/conf値を格納する同時出現性辞書とからなる辞書と、入力された文書に出現する単語を用いて前記辞書で当該単語を照合して、前記辞書の単語毎のtf・idf 値とidf/conf値とを求め、これらに基づいて所定の演算を行って前記単語毎のスコアを算出し、前記単語毎のスコアに基づいて前記カテゴリ毎のスコアを算出し、これに基づいて前記入力された文書を前記複数のカテゴリのいずれかに分類する文書分類装置とからなる。 The document classification apparatus according to the present invention includes a plurality of category dictionaries provided for each of a plurality of categories, and each category dictionary stores a tf · idf value representing the importance of a single word for each word that appears in the category. A dictionary comprising an importance dictionary and a co-occurrence dictionary storing idf / conf values representing co-occurrence between two words for each combination of the first word and the second word for the words appearing in the category; Using the words that appear in the input document, the words are compared in the dictionary to obtain tf · idf values and idf / conf values for each word in the dictionary, and a predetermined calculation is performed based on these values. A document classification device that calculates a score for each word, calculates a score for each category based on the score for each word, and classifies the input document into one of the plurality of categories based on the score Consists of.
本発明のプログラムは、文書分類装置を実現するプログラムであって、前記プログラムは、コンピュータに、入力された文書に出現する単語を用いて、複数のカテゴリの各々について設けられる複数のカテゴリ辞書からなり、各々のカテゴリ辞書が当該カテゴリにおいて出現した単語毎に単語単独の重要度を表すtf・idf 値を格納する重要性辞書と、当該カテゴリにおいて出現した単語についての第1単語と第2単語の組み合わせ毎に2単語間の共起性を表すidf/conf値を格納する同時出現性辞書とからなる辞書で当該単語を照合して、前記辞書の単語毎のtf・idf 値とidf/conf値とを求める処理と、前記単語毎のtf・idf 値とidf/conf値とに基づいて所定の演算を行って前記単語毎のスコアを算出する処理と、前記単語毎のスコアに基づいて前記カテゴリ毎のスコアを算出する処理と、前記カテゴリ毎のスコアに基づいて前記入力された文書を前記複数のカテゴリのいずれかに分類する処理とを実行させる。 The program of the present invention is a program for realizing a document classification device, and the program includes a plurality of category dictionaries provided for each of a plurality of categories using words appearing in an input document in a computer. An importance dictionary that stores tf · idf values representing the importance of each word for each word that appears in the category, and a combination of the first word and the second word for the word that appears in the category Each word is collated with a dictionary composed of a co-occurrence dictionary that stores idf / conf values representing co-occurrence between two words every time, and the tf · idf value and idf / conf value for each word in the dictionary A process for calculating a score for each word by performing a predetermined calculation based on the tf · idf value and idf / conf value for each word, and the category based on the score for each word A process of calculating the score, a document that was the input based on the scores for each of the categories to perform the processing for classifying the one of the plurality of categories.
本発明の辞書編集装置によれば、単語単独の重要度を表すtf・idf 値と複数の単語間の共起性を表すidf/conf値とを別々の独立した2個のパラメータとして用いて2個の辞書(tf・idf辞書、idf/conf辞書)を作成することができるので、これを文書分類装置の辞書として用いることにより、電子メール等の文書の分類に用いた場合、実用的な分類精度を得ることができる。従って、文書を適切な担当者に自動的に正確に分類するための辞書を容易に作成することができる。 According to the dictionary editing apparatus of the present invention, the tf · idf value representing the importance of a single word and the idf / conf value representing the co-occurrence between a plurality of words are used as two independent independent parameters. Individual dictionaries (tf / idf dictionaries, idf / conf dictionaries) can be created. By using this as a dictionary for document classification devices, practical classification is possible when used for classification of documents such as e-mails. Accuracy can be obtained. Therefore, it is possible to easily create a dictionary for automatically and accurately classifying a document to an appropriate person in charge.
本発明の文書分類装置によれば、前述の2個の辞書tf・idf辞書、idf/conf辞書を用いることにより、入力した文書を基本的には単語単独の重要度を表すtf・idf 値と複数(2つ)の単語間の共起性を表すidf/conf値とに基づいてカテゴリに分類できるので、電子メール等の文書の分類に用いた場合、実用的な分類精度を得ることができる。従って、文書を適切な担当者に自動的に正確に分類することができる。 According to the document classification apparatus of the present invention, by using the above-described two dictionaries tf / idf dictionary and idf / conf dictionary, the input document basically has a tf · idf value representing the importance of a single word. Since it can be classified into categories based on the idf / conf value representing the co-occurrence between multiple (two) words, practical classification accuracy can be obtained when used for classification of documents such as e-mails. . Accordingly, it is possible to automatically and accurately classify the document into an appropriate person in charge.
本発明の文書分類プログラムによれば、これをフレキシブルディスク、CD−ROM、CD−R/W、DVD等の媒体に格納すること、又は、インターネット等のネットワークを介してダウンロードすることにより供給することができ、これにより前述の文書分類システムを容易に実現することができ、正確な文書分類を可能とすることができる。 According to the document classification program of the present invention, the program is supplied by being stored in a medium such as a flexible disk, a CD-ROM, a CD-R / W, a DVD, or downloaded via a network such as the Internet. Thus, the above-described document classification system can be easily realized, and accurate document classification can be realized.
図1は、文書分類システム構成図であり、本発明の文書分類システムの構成を示す。文書分類システムは、3個のサブシステム、即ち、辞書編集装置1、文書分類装置2、強化学習装置3からなる。これらの間は、例えばLAN(Local Area Network)により相互に接続される。この例では、文書分類装置2は、例えばメール解析装置2からなる。従って、以下の例においては、分類(解析)対象である前記入力された文書は例えば電子メール8であり、前記カテゴリは文書を分配すべき担当者(回答者)であり、前記文書分類装置2は入力された文書を当該分類された担当者に配信(分配)する。
FIG. 1 is a block diagram of the document classification system, showing the configuration of the document classification system of the present invention. The document classification system includes three subsystems, that is, a
辞書編集装置1は、文書ファイル6に基づいて辞書を作成する辞書編集装置であって、当該担当者において出現した単語毎に、単語単独の重要度を表すtf・idf 値を格納する重要性辞書(tf・idf辞書)41を作成し、また、当該担当者において出現した単語についての複数の単語の組み合わせ毎に、当該単語間の共起性を表すidf/conf値を格納する同時出現性辞書(idf/conf辞書)42を作成する。文書ファイル6は、各担当者が日常業務で作成した文書である(文書を格納している)ので、属するカテゴリ即ちその担当者の判っている文書である。従って、当該担当者において出現した単語とは、当該担当者の作成した文書ファイル6に出現した単語である。この例では、同時出現性辞書42は、当該担当者において出現した単語についての第1単語と第2単語の組み合わせ毎に2単語間の共起性を表すidf/conf値を格納する。従って、辞書4は、複数の担当者の各々について設けられる複数の担当者(の)辞書40からなり、各々の担当者辞書40が重要性辞書41と同時出現性辞書42とからなる。
The
辞書編集装置1は、実際には、文書ファイル(担当者毎のフォルダ)6に保存された各種の文書を変換して得たテキストファイルを読み込み、読み込んだテキストデータから改行とスペースを取り除いた後に、周知の形態素解析処理により単語に分割することにより抽出した単語を、担当者毎の辞書40に登録する。抽出した単語において、品詞が助詞、助動詞、接続詞、接頭詞、副詞、連体詞、感動詞、記号は不要語と考えられるので、辞書4には登録しない。
The
即ち、本発明では、辞書4の作成及び編集において、単語単独の重要度であるtf・idf 値を用い、更に、単語間の共起性をidf/conf値(idf divided by confidence)をも用いる。ここで、tf値は文書中に現れた単語の頻度(即ち、単語の重要性)を示し、idf 値は単語がどの程度特定の分類に現れるか(即ち、単語の特定性)を示し、tf・idf 値は文書分類の研究で用いられているものであり単語の重要性と特定性とを加味した重み(即ち、単語単独の重要度)を示し、conf値は単語の共起性を示す確信度を示し、idf/conf値は特定性の高い単語間の共起性を示す。
That is, in the present invention, in the creation and editing of the
図2(A)はtf・idf 値の辞書(重要性辞書)41の一例を示す。重要性辞書41は、その担当者が使用した単語a1、a2、a3、・・毎に、そのtf値、idf 値、tf・idf 値を格納する。tf値、idf 値、tf・idf 値の算出については後述する。図2(B)はidf/conf値の辞書(同時出現性辞書)42の一例を示す。同時出現性辞書42は、その担当者が使用した単語b1、b2、b3、・・における第1単語と第2単語の組み合わせ毎に、当該第1単語のidf 値、第1単語と第2単語間のconf値、第1単語と第2単語間のidf/conf値を格納する。前述のように、この例におけるidf/conf値は、当該2単語間の特定性を考慮した共起性を示す。conf値、idf/conf値の算出については後述する。
FIG. 2A shows an example of a dictionary (importance dictionary) 41 of tf · idf values. The
メール解析装置2は、入力された文書である問い合わせの電子メール(問い合わせメール)8に出現する単語を用いて辞書4で当該単語を照合して、辞書4の単語毎のtf・idf 値とidf/conf値とを求め、これらに基づいて所定の演算を行って単語毎のスコアを算出し、単語毎のスコアに基づいて担当者毎のスコアを算出し、これに基づいて入力された文書を複数の担当者のいずれかに分類する。この例では、メール解析装置2は、前記所定の演算として、辞書4の単語毎のtf・idf 値とidf/conf値と入力された文書に出現する単語との一致率との積を算出して、単語毎のスコアを算出する。また、メール解析装置2は、担当者毎のスコアに基づいて、入力された文書である問い合わせメール(以下、単にメール)8を、当該スコアが上位から所定の数の担当者に分類する。
The
メール解析装置2は、辞書編集装置1と同様に、入力されたメール8の本文について、改行とスペースを取り除いた後に周知の形態素解析処理を行って、単語に分割することにより得られた単語と辞書4とを照合する。この時、メール解析装置2は、マッチした(照合できた)単語又は単語の組み合わせに関するtf・idf 値とidf/conf値と単語の一致率とから、当該メール8に対する全ての担当者のスコアを算出して、最後にスコアの高い一人又は複数の担当者を当該メール8への回答者(当該メール8に回答すべき担当者)として推定し、図3に示すように、その結果を例えばメール解析装置2に表示する。即ち、質問者からのメール8を入力として、これに回答すべき担当者の候補(即ち、図3)を出力として得る。また、この例では、メール解析装置2は、この分類の結果(スコア)に従って、図3において「〇」の付された担当者の担当者(回答者)端末5に、当該入力されたメール8を分配する(配信する)。
Similarly to the
図3は、メール解析結果の一例を示す。当該結果は、担当者d毎に、回答者とするか否かの結果、スコアScore(d)、メール8と辞書とで照合できた単語t、当該単語毎のスコア(d,t)からなる。担当者d及び照合単語tはスコアの高い順に表示される。最もスコアの高いもの(第1(i)位)を第1(i)位照合単語という。図3において、「〇」の付された担当者が回答者とされる。この例では上位2人が回答者として推定される。入力された(受信された)メール8は、回答者とされた担当者にメール8として分類(送信)される。一方、「×」の付された担当者は回答者と推定されない。人間の分類者を介在させる場合や分類を受けた担当者が他の担当者に再分類する場合は、図3に示す推定結果を参照して分類を行うようにすれば良い。 FIG. 3 shows an example of the mail analysis result. The result consists of a score score (d), a word t that can be collated between the mail 8 and the dictionary, and a score (d, t) for each word for each person in charge d. . The person in charge d and the matching word t are displayed in descending order of score. The one with the highest score (first (i) position) is called the first (i) position collation word. In FIG. 3, the person in charge with “◯” is the respondent. In this example, the top two people are estimated as respondents. The input (received) mail 8 is classified (transmitted) as the mail 8 to the person in charge who is the respondent. On the other hand, the person in charge with “x” is not estimated as a respondent. In the case of interposing a human classifier or when the person in charge who has received the classification reclassifies to another person in charge, the classification may be performed with reference to the estimation result shown in FIG.
なお、図示はしないが、メール解析装置2は、例えばLANを介して回答者端末5に接続され、また、メールサーバに接続される。メールサーバは、インターネットに接続され、外部からのメール8を受信し、これを内部の各端末5に配信するために、メール解析装置2に送る。メール8は、例えば質問者が周知のWebブラウザを用いて、問い合わせ内容、氏名、返信用電子メールアドレス等を入力することにより作成(入力)する。
Although not shown, the
本発明では、2個の辞書41、42に基づいて得た2個の重みをそのまま用いるのではなく、マッチした(照合できた)単語の一致率をも考慮してスコアを算出する。即ち、処理対象であるメール8に出現する単語と辞書の単語との照合を、完全一致ではなく、部分一致で行うと共に、当該部分一致の割合(単語の一致率)をスコアの算出に用いる。これにより、同一の用語についての僅少な個人差の影響等を排除することができる。
In the present invention, the two weights obtained based on the two
強化学習装置3は、所定の文書(即ち、別文書ファイル7)をメール解析装置2により複数の担当者のいずれかに分類した結果に基づいて、一旦作成した重要性辞書41におけるtf・idf 値を更新し、同時出現性辞書42におけるidf/conf値を更新する(強化する)。即ち、強化学習装置3は、重要語学習、特定語学習、不要語学習を行う。重要語学習処理は、所定の文書が真の担当者に分類された場合、前記所定の文書に出現する単語であって当該真の担当者の辞書40で照合された単語を重要語として、その重みを大きくする。特定語学習の処理は、所定の文書が真の担当者に分類されなかった場合、前記所定の文書に出現する単語の中で当該真の担当者について特定性の高い単語を再評価することにより、当該真の担当者の特定語の重みを大きくする。不要語学習は、所定の文書が真の担当者以外の担当者に分類された場合、前記所定の文書に出現する単語であって当該誤って分類された担当者(真の担当者以外の担当者(カテゴリ))の辞書40で照合した単語を不要語として、当該誤って分類された担当者の辞書40における重みを小さくし、真の担当者以外の担当者の辞書40における重みを小さくする。これにより、メール8の分類精度を更に向上することができる。
The
本発明では、一旦作成した辞書4におけるtf・idf 値とidf/conf値を強化するために、別文書ファイル7、即ち、分類を受ける各担当者自身が様々な業務の中で作成した文書を読み込んだファイルを用いる。別文書ファイル7は、文書ファイル6及びメール8とは別の文書(文書ファイル)であって、各担当者が作成した別文書である(別文書を格納する)。即ち、別文書ファイル7は、担当者が随時作成する文書を随時取り込んで格納したものである。別文書ファイル7は、文書ファイル6と同様にして、メール解析装置2により複数の担当者のいずれかに分類される。別文書ファイル7の担当者も明確であるのでこの結果は正確に評価することができ、また、担当者の業務内容の変化に応じて随時tf・idf 値とidf/conf値を強化することができ、メール8の正確な分類に有効である。
In the present invention, in order to reinforce the tf · idf value and idf / conf value in the
また、本発明では、重要語学習、特定語学習、不要語学習即ち、tf・idf 値とidf/conf値の強化を、プロフィットシェアリング(以下PSと言う)により行う。即ち、別文書ファイル7についてその担当者(分類先)を推定し、その推定結果の適切さに応じた報酬(プロフィット)によりtf・idf 値とidf/conf値を補正する。PSは強化学習において注目されている。これにより、分類の専門家と同等レベルの分類精度を得ることができる。PSは、周知のように、報酬を得たときに複数ルール(本発明では複数単語の重み)を一括して強化するので、効率的にメール8の分類精度を向上することができる。なお、このように強化学習を文書分類に取り入れたシステムは、これまでに開発されていない。 In the present invention, important word learning, specific word learning, unnecessary word learning, that is, enhancement of tf · idf value and idf / conf value is performed by profit sharing (hereinafter referred to as PS). That is, the person in charge (classification destination) of the separate document file 7 is estimated, and the tf · idf value and idf / conf value are corrected by the reward (profit) according to the appropriateness of the estimation result. PS is attracting attention in reinforcement learning. This makes it possible to obtain a classification accuracy equivalent to that of a classification specialist. As is well known, PS reinforces a plurality of rules (a weight of a plurality of words in the present invention) at a time when a reward is obtained, so that the classification accuracy of the mail 8 can be improved efficiently. In addition, a system that incorporates reinforcement learning into document classification in this way has not been developed so far.
以上のように、本発明によれば、2個の辞書41、42に基づいて得た2個の重みを用いてメール8等の文書を分類することにより、実用的な分類を実現することができる。即ち、日常業務としてメール8を分類している専門家の分類結果(分類精度)が、実用上必要な精度と考えることができる。本発明のメール解析装置2による分類精度として、当該専門家の分類精度とほぼ同等の精度を得ることができる。従って、本発明のメール解析装置2(による分類)は十分に実用に耐え得るものである。なお、本発明者の検討によれば、実際は、2個の辞書41、42のみを用いた分類精度は当該専門家の精度を少し下回るが、tf・idf 値とidf/conf値を別文書ファイル7を用いて強化学習することにより、分類の専門家と同等な精度でメール8を分類することができる。
As described above, according to the present invention, a practical classification can be realized by classifying a document such as the mail 8 using two weights obtained based on the two
以下、処理フローを参照して、本発明の文書分類システムにおける処理について、詳細に説明する。図4は、文書分類処理フローであり、本発明の図1に示す文書分類システムにおける文書分類処理を示す。辞書編集装置1が、各担当者が作成した文書ファイル6を収集して、この中の出現単語の重みを、単語単独の重要度を表すtf・idf 値と2単語間の共起性を表すidf/conf値として算出し、この2種類の辞書41、42を担当者毎に作成する(ステップS101)。強化学習装置3が、PSを応用して、これらの重み又はウェイト(を示すtf・idf 値及びidf/conf値)を強化学習する(ステップS102)。即ち、メール解析装置2が、メール8の受信の有無を判断し、当該受信がない場合、別文書ファイル7の文書と2種類の辞書41、42を照合して、単語の重みと単語の一致率とから、担当者毎にスコアを算出し、このスコアが高い担当者を当該メール8への回答者として推定し、当該推定の結果を強化学習装置3に入力してtf・idf 値及びidf/conf値の重みを更新する。一方、メール8を受信すると、メール解析装置2は当該メール8を解析する(ステップS103)。即ち、メール8と2種類の辞書41、42を照合して、単語の重みと単語の一致率とから、担当者毎にスコアを算出する。そして、メール解析装置2は、このスコアが高い担当者を当該メール8への回答者として推定し、これをメール解析装置2の端末(図示せず)に表示する(ステップS104)。
Hereinafter, the processing in the document classification system of the present invention will be described in detail with reference to the processing flow. FIG. 4 is a document classification processing flow, and shows the document classification processing in the document classification system shown in FIG. 1 of the present invention. The
図5は、辞書編集処理フローであり、図1の辞書編集装置1がステップS101において実行する辞書編集処理を示す。辞書編集装置1が、全担当者の全文書ファイル6を読み込み(ステップS111)、全文書について前処理を行う(ステップS112)。即ち、全文書から、その改行とスペースとを除去し、残りの部分について周知の形態素解析を行い、分かち書きした単語を得る。そして、当該得られた全単語から不要な品詞の単語を削除する。次に、辞書編集装置1が、図2(C)に示す担当者・単語テーブルを生成し(ステップS113)、これに基づいてtf・idf 値を算出して(ステップS114)、当該単語及びtf・idf 値をtf・idf 辞書(重要性辞書)41に書き込む(ステップS115)。これにより、tf・idf 辞書41が作成される。担当者・単語テーブル及びその生成については、図6を参照して後述する。次に、辞書編集装置1が、図8に示す単語の組み合わせテーブルを生成し(ステップS116)、これに基づいてidf/conf値を算出して(ステップS117)、当該単語とその組み合わせ及びidf/conf値をidf/conf辞書(同時出現性辞書)42に書き込む(ステップS118)。これにより、idf/conf辞書42が作成される。単語の組み合わせテーブル及びその生成については、図7を参照して後述する。
FIG. 5 is a dictionary editing process flow, and shows the dictionary editing process executed by the
図6は、担当者・単語テーブル生成処理フローであり、辞書編集装置1がステップS113において実行する担当者・単語テーブル生成処理を示す。辞書編集装置1が、dに最初の担当者を設定し(ステップS121)、図2(C)の担当者・単語テーブルの当該列にdを追加しその要素tf(t,d) を全て「0」に初期化し(ステップS122)、tに最初の単語を設定し(ステップS123)、担当者・単語テーブルの行t1、t2、t3、・・にtが存在するか否かを調べる(ステップS124)。存在しない場合、辞書編集装置1は、担当者・単語テーブルの行にtを追加し、その要素tf(t,d) を全て「0」に初期化する(ステップS125)。存在する場合、辞書編集装置1は、ステップS125を省略し、当該担当者d及び単語tに対応する要素に「1」を加算する(ステップS126)。即ち、tf(t,d) =tf(t,d) +1を実行する。この後、辞書編集装置1は、担当者dの全単語について処理が終了したか否かを調べ(ステップS127)、終了していない場合、tに次の単語を設定し(ステップS128)、ステップS124以下を繰り返す。終了している場合、辞書編集装置1は、全担当者について処理が終了したか否かを調べ(ステップS129)、終了していない場合、dに次の担当者を設定し(ステップS1210 )、ステップS122以下を繰り返す。終了している場合、当該処理を終了する。これにより、担当者・単語テーブルが生成される。
FIG. 6 is a flowchart of the person-in-charge / word table generation process, and shows the person-in-charge / word table generation process executed by the
今、tf・idf 値は、式(1)のように定義される。即ち、 Now, the tf · idf value is defined as in equation (1). That is,
ここで、右辺第1項のtf(t,d) は、担当者dが作成した全ての文書(文書ファイル6)中における単語tの出現回数を表す。従って、右辺第1項は同一の担当者が何度も繰り返して使用する単語に大きい重みを与える。例えば、図2(C)において、担当者d1における単語t1の出現回数tf(t1,d1)=1である。右辺第1項の分母は担当者dが使用した単語の頻度の総和を表している。例えば、図2(C)において、担当者d1についての当該値Σtf(t',d1)=8538である。右辺第2項のNは分類先である全ての担当者数を、df(t)は単語tを使用した担当者数を表す。従って、右辺第2項は特定少数の担当者が使用する単語に大きな重みを与え、各担当者を特徴付ける特定性の指標となる。以上から、担当者・単語テーブルに基づいて、tf値(tft d)、idf 値(idft d )、tf・idf 値を算出することができる。 Here, tf (t, d) in the first term on the right side represents the number of appearances of the word t in all documents (document file 6) created by the person in charge d. Therefore, the first term on the right side gives a large weight to a word used repeatedly by the same person in charge. For example, in FIG. 2C, the number of appearances tf (t1, d1) = 1 of the word t1 in the person in charge d1. The denominator of the first term on the right side represents the sum of the frequencies of words used by the person in charge d. For example, in FIG. 2C, the value Σtf (t ′, d1) = 8538 for the person in charge d1. N in the second term on the right side represents the number of all persons in charge as classification destinations, and df (t) represents the number of persons in charge using the word t. Therefore, the second term on the right side gives a large weight to the words used by a small number of persons in charge, and serves as an index of specificity that characterizes each person in charge. From the above, the tf value (tf t d ), idf value (idf t d ), and tf · idf value can be calculated based on the person-in-charge / word table.
図7は、単語の組み合わせテーブル生成処理フローであり、辞書編集装置1がステップS116において実行する単語の組み合わせテーブル生成処理を示す。辞書編集装置1が、最小支持度及び最小確信度を読み込み(ステップS131)、dに最初の担当者を設定し(ステップS132)、句点の検索をしてセンテンス集合Sd を生成し(ステップS133)、最小支持度とセンテンス集合Sd の全センテンス数とからLSCを算出する(ステップS134)。次に、辞書編集装置1が、単語の組み合わせ数を「1」とし、即ち、単語組み合わせテーブル(以下、同じ)C=C1とし(ステップS135)、(Cの単語の組み合わせ)=(センテンス集合Sd から抽出した各センテンスにおける重複のない単語)とし(ステップS136)、Cのカウント値(Count )をCの単語の組み合わせが出現するセンテンス集合Sd のセンテンス数とする(ステップS137)。次に、辞書編集装置1が、Cにおける単語の組み合わせの全てについて、当該組み合わせについてのCのカウント値がLSC以上であるか否かを調べ、そうでない場合にはCから当該単語の組み合わせを除き、そうである場合にはCから当該単語の組み合わせを除かないようにする(ステップS138)。この後、辞書編集装置1が、単語の組み合わせ数が「2」か否かを調べる(ステップS139)。「2」でない場合、即ち、単語の組み合わせ数が「1」の場合、辞書編集装置1が、単語の組み合わせ数を「2」とし、即ち、C=C2とし(ステップS1310 )、(Cの単語の組み合わせ)=(C1から生成した2単語の組み合わせ)とし(ステップS1311 )、ステップS137以下を繰り返す。
FIG. 7 is a word combination table generation processing flow, and shows the word combination table generation processing executed by the
ステップS139において単語の組み合わせ数が「2」である場合、辞書編集装置1が、t1をC2の単語の組み合わせの第1単語とし(ステップS1312)、t1のカウント値(t1_Count)をC1のt1のカウント値(Count)とし(ステップS1313 )、最小確信度とt1のC1のカウント値とからLCCを算出する(ステップS1314 )。次に、辞書編集装置1が、C2における単語の組み合わせの全てについて、当該組み合わせについてのC2のカウント値がLCC以上か否かを調べ、そうでない場合にはC2から当該単語の組み合わせを除き、そうである場合にはC2から当該単語の組み合わせを除かないようにする(ステップS1315 )。この後、辞書編集装置1が、全担当者について処理済みか否かを調べ(ステップS1316 )、そうでない場合、dに次の担当者を設定し(ステップS1317 )、ステップS133以下を繰り返す。全担当者について処理済みである場合、処理を終了する。
When the number of word combinations is “2” in step S139, the
ここで、idf/conf値は、相関ルールの抽出に用いられる周知の確信度に基づいている。相関ルールの手法を本発明に応用するために、担当者dが使用した単語を要素とする集合をTd =(t1,t2,t3,・・,tm)とする。また、担当者dが作成した文書から抽出したセンテンス(句点で区切られる1文)の集合をSd=(s1,s2,s3,・・sn)(si⊆Td )とする。ここで、単語tの支持度support(t)はSd 全体に対しtを含むセンテンスの割合を表す。また、相関ルールはt⇒t’で表現され、単語tが出現したセンテンスには単語t’が出現する確率が高いこと、即ちtとt’の共起性が高いことを表す。相関ルールは支持度(support)及び確信度(confidence)の2つのパラメータを有し、これらの値により相関ルールの有意性を示す。ここで、support(t⇒t' )はSd 全体に対しtとt’を共に含むセンテンスの割合、confidence(t⇒t' )はtを含むセンテンスの中でt’を含むセンテンスの割合と定義されている。 Here, the idf / conf value is based on a well-known certainty factor used for extracting an association rule. In order to apply the method of the association rule to the present invention, let T d = (t1, t2, t3,..., Tm ) be a set having the words used by the person in charge d as elements. Also, let S d = (s1, s2, s3,... Sn) (si⊆T d ) be a set of sentences (one sentence delimited by the punctuation marks) extracted from the document created by the person in charge d. Here, the support level (t) of the word t represents the ratio of sentences including t to the entire S d . The association rule is expressed as t⇒t ′, which indicates that the probability that the word t ′ appears in the sentence in which the word t appears is high, that is, the co-occurrence of t and t ′ is high. The association rule has two parameters, support and confidence, and these values indicate the significance of the association rule. Here, support (t⇒t ') is t and t with respect to the entire S d' and percentage of sentences percentage sentences containing both, confidence (t⇒t ') is the t in the sentence that contains the t' containing Is defined.
本発明では、図8に示すように、最小支持度と最小確信度を設定して、共起性の高い単語の組み合わせを求め、この共起性を表す重みとして確信度を用いる。この例では、最小支持度及び最小確信度を、各々、0.3及び0.7とした。これらの値は経験的に定めることができる。なお、索引語抽出の研究で良く知られているように、頻度の低い単語は不要語であるが、頻度が上位の単語も特徴語ではなく一般語であることが多く、不要語となる。ここでも同様に、最小支持度と最小確信度を満足しない単語の組み合わせは不要であり、辞書4には登録しない。これと同時に、支持度もしくは確信度が上位の組み合わせは一般語の組み合わせとなり不要である。そこで、上述のように最小支持度と最小確信度を満足した単語の組み合わせの共起性を表す具体的な重みとして、確信度の逆数に単語の特定性を考慮して第1単語のidf 値を積算した値を用いる。なお、更に、第1単語に加えて第2単語のidf 値も積算した値を重みとしても良いし、確信度の代わりに支持度を用いても良い。
In the present invention, as shown in FIG. 8, a minimum support level and a minimum confidence level are set, a combination of words having high co-occurrence is obtained, and the confidence level is used as a weight representing the co-occurrence level. In this example, the minimum support level and the minimum confidence level were set to 0.3 and 0.7, respectively. These values can be determined empirically. As is well known in research on index word extraction, infrequent words are unnecessary words, but words with higher frequencies are often general words, not feature words, and are unnecessary words. Similarly, a combination of words that does not satisfy the minimum support level and the minimum certainty level is unnecessary and is not registered in the
例えば、図8に示すように、担当者dのセンテンス集合Sdが求まるとする。単語の組み合わせを1個とすると、各々の出現回数Count が求まる(最初のC1)。これから、(最小支持度)×(Sdのセンテンス数)=0.3×4よりもCount 値の小さい単語{単語4}を除く(2番目のC1)。これにより、各々の単語についての最小支持度を満足する値が定まる。次に、残りの単語について出現する2個の単語の組み合わせの全てについて、各々の出現回数Count を求め(最初のC2)、これから、0.3×4よりもCount 値の小さい単語の組み合わせ{単語1,単語2}及び{単語1,単語5}を除く(2番目のC2)。次に、残りの単語の組み合わせについて、(最小確信度)×(各々の第1単語についての最小支持度を満足する値)よりもCount 値の小さい単語の組み合わせ{単語2,単語3}及び{単語3,単語5}を除く(3番目のC2)。即ち、{単語2,単語3}については2(C2におけるCount 値、以下同じ)<0.7×3(2番目のC1の単語2のCount 値、以下同じ)であり、{単語3,単語5}については2<0.7×3であり、除かれる。一方、{単語1,単語3}については2>0.7×2であり、{単語2,単語5}については3>0.7×3であり、残される。
For example, as shown in FIG. 8, it is assumed that the sentence set S d of the person in charge d is obtained. If the number of word combinations is one, each occurrence count Count is obtained (first C1). Now, (minimum support) × except small words {word 4} of Count value than (S d number sentences) = 0.3 × 4 (2-th C1). Thus, a value satisfying the minimum support level for each word is determined. Next, for all combinations of two words appearing for the remaining words, the number of occurrences of each count is obtained (first C2), and from this, a combination of words having a count value smaller than 0.3 × 4 {
なお、本発明者の検討によれば、単語の組み合わせ数を3以上にしても、メール8(文書)の分類精度は向上しないことが判った。従って、この例においては、計算量の低減のために、単語の組み合わせは「2」に制限される。従って、この例では、同時出現性辞書42は、第1単語と第2単語の組み合わせ毎にidf/conf値を格納する。
According to the study of the present inventor, it has been found that the classification accuracy of the mail 8 (document) is not improved even if the number of word combinations is 3 or more. Accordingly, in this example, word combinations are limited to “2” in order to reduce the amount of calculation. Therefore, in this example, the
今、単語tが出現したとき単語t’が共起する指標であるidf/conf値を式(2)で定義する。 Now, an idf / conf value, which is an index with which the word t ′ co-occurs when the word t appears, is defined by equation (2).
ここで、右辺第2項の分子はある担当者dにおけるconfidence値(即ち、確信度)の最大値(max )であり、担当者毎に大きさの異なるconfidence値を標準化している。以上から、図8の単語の組み合わせテーブルに基づいて、conf値、idf/conf値を算出することができる。conf値の定義は、式(2)の両辺よりidft d を除くことにより明らかであろう。 Here, the numerator of the second term on the right side is the maximum value (max) of the confidence value (that is, the certainty factor) for a certain person in charge d, and the confidence value having a different size for each person in charge is standardized. From the above, the conf value and idf / conf value can be calculated based on the word combination table of FIG. The definition of the conf value will be clear by removing idf t d from both sides of equation (2).
図9は、メール(問い合わせメール)解析処理フローであり、図1のメール解析装置2がステップS103及びS104において実行するメール解析処理を示す。メール解析装置2が、処理対象である受信したメール(問い合わせメール)8を読み込み(ステップS141)、これについて、その改行とスペースとを除去し、残りの部分について周知の形態素解析を行い(ステップS142)、分かち書きした単語を得る。次に、メール解析装置2が、dに最初の担当者を設定し(ステップS143)、t1にメール8の最初の単語を設定し(ステップS144)、tf・idf 値重み付き加算を行い(ステップS145)、idf/conf値重み付き加算を行い(ステップS146)、メール8の全単語について処理を終了した否かを調べる(ステップS147)。tf・idf 値重み付き加算については図10を参照して後述し、idf/conf値重み付き加算については図11を参照して後述する。
FIG. 9 is a flow of mail (inquiry mail) analysis processing, and shows mail analysis processing executed by the
全単語について処理を終了していない場合、メール解析装置2は、t1にメール8の次の単語を設定し(ステップS148)、ステップS145以下を繰り返す。全単語について処理を終了している場合、メール解析装置2は、担当者dのスコアを当該メール8の全単語についてのスコアの総計、即ち、Score(d)=ΣScore(d,t1)として算出し(ステップS149)、全担当者について処理を終了した否かを調べる(ステップS1410 )。全担当者について処理を終了していない場合、メール解析装置2は、dに次の担当者を設定し(ステップS1411 )、ステップS144以下を繰り返す。全担当者について処理を終了している場合、メール解析装置2は、全担当者についてのScore(d)の平均及び標準偏差を算出して、これに基づいて、当該メール8に回答すべき担当者(回答者)の候補を決定し(ステップS1412 )、これを表示する(ステップS1413 )。
If the processing has not been completed for all words, the
図10は、tf・idf 値重み付き加算処理フローであり、メール解析装置2がステップS145において実行するtf・idf 値重み付き加算処理を示す。メール解析装置2が、Max_tf・idf _Ratio に「0」を設定(代入)し、Score(d,t1)に「0」を設定し、mを読み込み(ステップS151)、t_dic に担当者dのtf・idf 辞書41の最初の単語を設定し(ステップS152)、t1とt_dic とが部分一致するか否かを調べる(ステップS153)。部分一致する場合、メール解析装置2が、tf・idf にt_dic のtf・idf 値を設定し、Matched_Ratio に、t1とt_dic との一致率のm乗を設定し、tf・idf とMatched_Ratio とからtf・idf _Ratio を算出し(ステップS154)、tf・idf _Ratio がMax _tf・idf _Ratio よりも大きいか否かを調べる(ステップS155)。大きい場合、メール解析装置2が、Max _tf・idf _Ratio にtf・idf _Ratio を設定し(ステップS156)、担当者dのtf・idf 辞書41の全単語について処理が終了したか否かを調べる(ステップS157)。
FIG. 10 is a tf · idf value weighted addition process flow, and shows the tf · idf value weighted addition process executed by the
全単語について処理が終了していない場合、t_dic に担当者dのtf・idf 辞書41の次の単語を設定し(ステップS158)、ステップS153以下を繰り返す。ステップS153においてt1とt_dic とが部分一致しない場合、ステップS154〜ステップS156を省略して、ステップS157を実行する。ステップS155においてtf・idf _Ratio がMax _tf・idf _Ratio よりも大きくない場合、ステップS156を省略して、ステップS157を実行する。ステップS157において全単語について処理が終了している場合、Score(d,t1)にMax _tf・idf _Ratio を設定して処理を終了する(ステップS159)。
If the processing has not been completed for all words, the next word in the tf /
図11は、idf/conf値重み付き加算処理フローであり、メール解析装置2がステップS145において実行するidf/conf値重み付き加算処理を示す。メール解析装置2が、Max _idf/conf _Ratioに「0」を設定し、mを読み込み(ステップS161)、t_dic1に担当者dのidf/conf辞書42の最初の第1単語を設定し、t_dic2に担当者dのidf/conf辞書42の最初の第2単語を設定し(ステップS162)、t1とt_dic1とが部分一致するか否かを調べる(ステップS163)。部分一致する場合、メール解析装置2が、t2にメール8のt1の次の単語を設定し(ステップS164)、t2とt_dic2とが部分一致するか否かを調べる(ステップS165)。部分一致する場合、メール解析装置2が、idf/confにt_dic1とt_dic2のidf/conf値を設定し、Matched _Ratio1にt1とt_dic1の一致率のm乗を設定し、Matched _Ratio2にt2とt_dic2の一致率のm乗を設定し、idf/confとMatched _Ratio1とMatched_Ratio2とに基づいてidf/conf_Ratio を算出する(ステップS166)。
FIG. 11 is an idf / conf value weighted addition processing flow, and shows the idf / conf value weighted addition processing executed by the
ステップS165においてt2とt_dic2とが部分一致しない場合、メール解析装置2が、メール8の最後の単語まで処理済か否かを調べ(ステップS1611 )、最後の単語まで処理を終了していない場合、t2にメール8のt2の次の単語を設定し(ステップS1612 )、ステップS165以下を繰り返す。
If t2 and t_dic2 do not partially match in step S165, the
ステップS166の後、メール解析装置2が、idf/conf_Ratio がMax _idf/conf_Ratio よりも大きいか否かを調べ(ステップS167)、大きい場合、Max _idf/conf_Ratio にidf/conf _Ratio を設定して(ステップS168)、担当者dのidf/conf辞書42の全単語について処理済か否かを調べる(ステップS169)。全単語について処理を終了していない場合、メール解析装置2が、t_dic1に担当者dのidf/conf辞書42の次の第1単語を設定し、t_dic2に担当者dのidf/conf辞書42の次の第2単語を設定し(ステップS1610 )、ステップS163以下を繰り返す。全単語について処理を終了している場合、メール解析装置2が、定数αを読み込み(ステップS1613 )、Score(d,t1)にαとMax _idf/conf_Ratio とにより求まる値を加算することによりScore(d,t1)を算出する(ステップS1614 )。
After step S166, the
ステップS163においてt1とt_dic1とが部分一致しない場合、メール解析装置2が、ステップS164〜S168(S1611 及びS1612 を含む)を省略して、ステップS169を実行する。ステップS167においてidf/conf_Ratio がMax _idf/conf_Ratio よりも大きくない場合、メール解析装置2が、ステップS168を省略して、ステップS169を実行する。ステップS1611 においてメール8の最後の単語まで処理を終了している場合、メール解析装置2が、ステップS1612 (S166〜S168を含む)を省略して、ステップS169を実行する。
If t1 and t_dic1 do not partially match in step S163, the
このように、本発明では、メール8中の全ての出現単語を辞書4と照合して、メール8に対する各担当者のスコアを算出する。このとき、形態素解析により分割された単語の単語長が変化することがある。また、質問者と担当者とが同一の単語を使用する保証はない。このため、メール8に含まれる単語と辞書4中の単語を完全一致を条件に照合するとマッチする単語が少なくなり、結局は分類の精度が向上しない。そこで、本発明では、単語の照合は部分一致によって行い、この一致率を単語の重みに乗ずることによる重み付き加算を行って、メール8に対する担当者dのスコアを算出する。
Thus, in the present invention, all the appearance words in the mail 8 are checked against the
まず、メール8中のある単語tのtf・idf 値とidf/conf値を加味したスコアを式(3)で定義する。なお、単語t及びこれと共起性を示す単語t’は、ともに上記の部分一致のために辞書4中の複数の単語又は単語の組み合わせに照合する可能性があるので、このうち、各々tf・idf 値とidf/conf値に一致率を乗じた値が最大値となるものを加算する。
First, a score that takes into account the tf · idf value and idf / conf value of a word t in the mail 8 is defined by equation (3). Note that the word t and the word t ′ indicating co-occurrence with the word t may collate with a plurality of words or combinations of words in the
ここで、Match _Ratio (t)は単語の一致率、即ちメール8中の単語tと辞書4中の単語の単語長に対する一致した文字数の比率を表し、式(4)で定義される。
Here, Match_Ratio (t) represents the word matching rate, that is, the ratio of the number of matched characters to the word length of the word t in the mail 8 and the word in the
ここで、tdicは辞書4中の単語を表し、Length(t)は単語tの文字数、Match _Length(t,tdic)はtとtdicの一致した文字数を表している。また、式(3)のαは、第1項と第2項の重みを決める係数である。更に、式(4)のmは単語の一致率をどのオーダでスコアに反映するかを表す。この一致率は1以下であるため、mを大きくするほどこの率によってスコアに差が生じる。なお、このαとmのいずれも適当な範囲で変動させて、経験則により、最大の分類精度を得るαとmを採用することができる。
Here, t dic represents a word in the
最後に、式(3)で与えられる単語tのスコアScoret dについて、メール8本文に出現する単語で総和を取ることにより、入力されたメール8に対する担当者dのスコアを式(5)で定義する。 Finally, the score Score t d of term t given by equation (3), by taking the sum with words that appear in the mail 8 body, a score representative d to the mail 8 entered by the formula (5) Define.
ここで、入力したメール8に対する回答者は、全ての担当者のScored の分布を正規分布と仮定して、その平均スコアより2σ(σは標準偏差)以上大きいスコアを持つ担当者と推定する。これは、実際のメール8において、特に問い合わせ内容を限定しない場合は、複数の事柄について複合して質問していることや複数の専門分野にまたがって質問していることが多く、複数の担当者が連携して回答する必要があるためである。 Here, the respondent to the input mail 8 assumes that the distribution of Score d of all the persons in charge is a normal distribution, and assumes that the person in charge has a score that is 2σ (σ is a standard deviation) or more than the average score. . This is because, in the actual mail 8, when the inquiry content is not particularly limited, there are many cases where multiple questions are asked in combination with multiple matters or questions across multiple specialized fields. This is because it is necessary to answer in cooperation.
図12は、強化学習処理フローであり、主として図1の強化学習装置3がステップS102において実行する単語の重みの強化学習処理を示す。強化学習装置3が、別文書ファイル7を読み込み(ステップS171)、真の回答者集合を抽出する(ステップS172)。なお、別文書ファイル7には、例えば学習用メール8が含まれる(以下同じ)。メール解析装置2が、別文書ファイル7について前述のようにメール解析を実行し、図3の結果を得る。強化学習装置3が、当該結果をメール解析結果テーブルとして取得し(ステップS173)、メール解析結果テーブル中の全ての回答者について、当該回答者が真の回答者集合に含まれるか否かを調べ(ステップS174)、含まれる場合には当該回答者について重要語学習処理を実行し(ステップS175)、含まれない場合には当該回答者について不要語学習処理を実行する(ステップS176)。なお、実際には、点線で示すように、一人の回答者についてステップS174とS175又はS176とを実行することを、各回答者について繰り返す。この後、強化学習装置3が、メール解析結果テーブル中の全ての非回答者について、当該非回答者が真の回答者集合に含まれるか否かを調べ(ステップS177)、含まれる場合には当該非回答者について特定語学習処理を実行し(ステップS178)、含まれない場合にはステップS178を省略する。なお、実際には、点線で示すように、一人の非回答者についてステップS177又はS177及びS178を実行することを、各非回答者について繰り返す。この後、強化学習装置3が、全ての別文書ファイル7について処理済か否かを調べ(ステップS179)、処理済でない場合にはステップS171以下を繰り返し、処理済である場合には処理を終了する。
FIG. 12 is a flowchart of reinforcement learning processing, and mainly shows the word weight reinforcement learning processing executed in step S102 by the
本発明では、別文書ファイル7の解析結果を受けて、PSにより、推定した回答者の正しさから担当者毎の辞書4のtf・idf 値とidf/conf値を更新する。この例では、作成者即ち担当者が判明している別文書ファイル7をメール解析装置2に入力する。この場合、真の文書作成者が判っているので、当該システムの分類結果の正否を判断できる。なお、人間の分類者が参照して別文書ファイル7を分類した結果を正しいとして学習しても良い。
In the present invention, the analysis result of the separate document file 7 is received and the tf · idf value and idf / conf value of the
本発明では、以下の3種類の強化学習を行う。即ち、重要語の学習は、真の回答者をシステムが回答者であると推定できた場合に、別文書ファイル7とこの回答者の辞書40で照合した単語を重要語として、その重みを大きくする。また、特定語の学習は、真の回答者をシステムが回答者であると推定できなかった場合に、別文書ファイル7に出現した単語の中で真の回答者について特定性の高い単語を再評価することにより、この回答者の特定語の重みを大きくする。更に、不要語の学習は、真の回答者以外をシステムが回答者であると誤推定した場合に、別文書ファイル7とこの担当者の辞書40で照合した単語を不要語として、この担当者の辞書40における不要語の重みを小さくする。これと同時に、この単語を真の回答者以外の他の担当者の辞書40でも、同様に不要語として学習する。
In the present invention, the following three types of reinforcement learning are performed. That is, in the learning of the important word, when the true respondent can be estimated that the system is the respondent, the word collated in the separate document file 7 and the respondent's
図13は、重要語学習処理フローであり、強化学習装置3がステップS175において実行する重要語の学習処理を示す。強化学習装置3が、定数c1、L、Sを定義ファイルから読み込み(ステップS181)、単語tにメール解析結果テーブルにおいて対象回答者の第1位照合単語を設定する(ステップS182)。次に、強化学習装置3が、対象回答者のtf・idf 辞書41でtを検索してtf・idf にtと照合した単語のtf・idf 値を設定し、tf・idf とc1とからf_tf・idf を算出し(ステップS183)、対象回答者のidf/conf辞書42の第1単語でtを検索してidf/confにtと照合した単語のidf/conf値を設定し、idf/confとc1とからf_idf/confを算出し(ステップS184)、tf・idf 辞書41及びidf/conf辞書42におけるtのtf・idf 値及びidf/conf値を更新する(ステップS185)。即ち、新たなtf・idf 値を、それまでのtf・idf 値にf_tf・idf を加算した値とする。新たなidf/conf値を、それまでのidf/conf値にf_idf/confを加算した値とする。
FIG. 13 is a flowchart of important word learning processing, showing the important word learning processing executed by the
次に、強化学習装置3が、i=2として(ステップS186)、単語tにメール解析結果テーブルにおいて対象回答者の第i位照合単語を設定する(ステップS187)。次に、強化学習装置3が、対象回答者のtf・idf 辞書41でtを検索してtf・idf にtと照合した単語のtf・idf 値を設定し、f_tf・idf とSとから新たなf_tf・idf を算出し(ステップS188)、対象回答者のidf/conf辞書42の第1単語でtを検索してidf/confにtと照合した単語のidf/conf値を設定し、f_idf/confとSとから新たなf_idf/confを算出し(ステップS189)、tf・idf 辞書41及びidf/conf辞書42におけるtのtf・idf 値及びidf/conf値を更新する(ステップS1810 )。即ち、新たなtf・idf 値を、それまでのtf・idf 値にf_tf・idf を加算した値とし、新たなidf/conf値を、それまでのidf/conf値にf_idf/confを加算した値とする。この後、強化学習装置3が、iがLに等しいか否かを調べ(ステップS1811 )、等しくない場合、iをi+1とし(ステップS1812 )、ステップS187以下を繰り返す。等しい場合、ステップS1812 を省略して、処理を終了する。なお、メール8の文章が極めて短いとiの最大値がLより小さくなることがあるが、この場合、読み込んだLに代えて当該iの最大値が用いられる。即ち、ステップS1811においてiが当該iの最大値に等しい場合、処理を終了する(以下、ステップS1911及びS2120において同じ)。
Next, the
PSでは、エピソード単位にルールに付加された重みを強化する。エピソードとは、初期状態あるいは報酬を得た直後から、次の報酬までのルール系列を表す。この強化には報酬からどれだけ過去かを引数とする強化関数が用いられる。長さlのエピソード(rl,・・ri,・・r2,r1)に対して、ルールri の重みwi は式(6)のように強化関数fi で強化される。 In PS, the weight added to the rule is strengthened for each episode. An episode represents a rule sequence from the initial state or immediately after obtaining a reward to the next reward. For this strengthening, a strengthening function with an argument of how far in the past from the reward is used. Episodes of length l with respect to (rl, ·· ri, ·· r2 , r1), the weights w i of the rule r i is reinforced with reinforcing function f i as in Equation (6).
本発明では、ルールは辞書4中の単語又は単語の組み合わせに相当し、エピソードのルール系列は式(5)でスコアScored を決定した単語(tl,・・ti,・・t2,t1)である。即ち別文書ファイル7と担当者dの辞書40中で照合した単語である。更に、系列中の順序iは式(5)のスコアScored への寄与の順、即ち式(3)のScoret dの大きさの順とし、このScoret dが最大となるスコア1位の単語t(第1位照合単語)をt1とする。また、本発明では、単語の重みをtf・idf 値とidf/conf値の2種類で構成しているので、式(6)はそれぞれ式(7)及び式(8)のようになり、当該システムが推定した回答者と真の回答者が一致した場合に担当者dの単語tiに、iが上位であるほど大きな正の報酬を与える。
In the present invention, a rule corresponds to a word or a combination of words in the
但し、本発明の学習方法においては、tf・idf 値とidf/conf値について、それぞれ別に強化するが、その方法は全く同様である(図13中の処理を参照)。 However, in the learning method of the present invention, the tf · idf value and the idf / conf value are enhanced separately, but the method is exactly the same (see the processing in FIG. 13).
PSでは、有効な単語の重みが強化され、無効な単語の重みが抑制されることを保証しなければならない。この条件は合理性定理により式(9)を満足することであることが周知のように証明されている。 In PS, it must be ensured that valid word weights are enhanced and invalid word weights are suppressed. It is well known that this condition satisfies the expression (9) by the rationality theorem.
ここで、Wはエピソードの最大長、Lは同一感覚入力下に存在する有効ルールの最大数であり、本発明では学習を有効にする単語数を限定し、別文書ファイル7と辞書4で一致した単語でスコアScoredの上位何単語を学習するかを設定することとし、その単語数をLとした(例えば、L=10なら上位10位の単語を学習する、以下同じ)。また、この式(9)の定理を満足する最も簡単な強化関数には、式(10)で表される等比減少関数を用いる。
Here, W is the maximum length of an episode, L is the maximum number of valid rules that exist under the same sense input, and in the present invention, the number of words that enables learning is limited, and is matched between the separate document file 7 and the
ここで、周知のように、S≧L+1を満足しなければならない。また、式(10)の初期値f1 d、即ちスコアScoret d が最大となる単語の強化値は以下の式(11)とする。ここで、c1は定数である。 Here, as is well known, S ≧ L + 1 must be satisfied. Further, the initial value f 1 d of equation (10), that is, the reinforcement value of the word having the maximum score Score t d is defined by the following equation (11). Here, c1 is a constant.
このように、重要語の学習は、推定した回答者が真の回答者であった場合に行い、スコアScoret d が上位である単語の重みに正の報酬を与え、その重みを大きくする。 As described above, learning of the important word is performed when the estimated respondent is a true answerer, and a positive reward is given to the weight of a word having a higher score Score t d and the weight is increased.
図14は、不要語学習処理フローであり、強化学習装置3がステップS176において実行する不要語の学習処理を示す。強化学習装置3が、定数c2、L、Sを定義ファイルから読み込み(ステップS191)、単語tにメール解析結果テーブルにおいて対象回答者の第1位照合単語を設定する(ステップS192)。次に、強化学習装置3が、対象回答者のtf・idf 辞書41でtを検索してtf・idf にtと照合した単語のtf・idf 値を設定し、tf・idf とc2とからf_tf・idf を算出し(ステップS193)、対象回答者のidf/conf辞書42の第1単語でtを検索してidf/confにtと照合した単語のidf/conf値を設定し、idf/confとc2とからf_idf/confを算出し(ステップS194)、不要語強化処理を実行する(ステップS195)。不要語強化処理については図15を参照して後述する。
FIG. 14 is an unnecessary word learning process flow, and shows the unnecessary word learning process executed by the
次に、強化学習装置3が、i=2として(ステップS196)、単語tにメール解析結果テーブルにおいて対象回答者の第i位照合単語を設定する(ステップS197)。次に、強化学習装置3が、対象回答者のtf・idf 辞書41でtを検索してtf・idf にtと照合した単語のtf・idf 値を設定し、f_tf・idf とSとから新たなf_tf・idf を算出し(ステップS198)、対象回答者のidf/conf辞書42の第1単語でtを検索してidf/confにtと照合した単語のidf/conf値を設定し、f_idf/confとSとから新たなf_idf/confを算出し(ステップS199)、ステップS195と同様の不要語強化処理を実行する(ステップS1910 )。この後、強化学習装置3が、iがLに等しいか否かを調べ(ステップS1911 )、等しくない場合、iをi+1とし(ステップS1912 )、ステップS197以下を繰り返す。等しい場合、ステップS1912 を省略して、処理を終了する。
Next, the
図15は、不要語強化処理フローであり、強化学習装置3がステップS195及びS1910 において実行する不要語の強化処理を示す。強化学習装置3が、担当者dに対象回答者を設定し(ステップS201)、tf・idf −f_tf・idf が「0」より大きいか否かを調べ(ステップS202)、大きい場合、tf・idf 辞書41のtのtf・idf 値をtf・idf −f_tf・idf に更新し(ステップS203)、大きくない場合、tf・idf 辞書41のtのtf・idf 値を「0」に更新する(ステップS204)。次に、強化学習装置3が、idf/conf−f_idf/confが「0」より大きいか否かを調べ(ステップS205)、大きい場合、idf/conf辞書42のtのidf/conf値をidf/conf−f_idf/confに更新し(ステップS206)、大きくない場合、idf/conf辞書42のtのidf/conf値を「0」に更新する(ステップS207)。次に、強化学習装置3が、真の回答者集合以外の全担当者について処理済か否かを調べ(ステップS208)、処理済でない場合、担当者dに次の担当者(対象回答者)を設定し(ステップS209)、担当者dのtf・idf 辞書41でtを検索してtf・idf にtと照合した単語のtf・idf 値を設定し(ステップS2010 )、担当者dのidf/conf辞書42の第1単語でtを検索してidf/confにtと照合した単語のidf/conf値を設定し(ステップS2011 )、ステップS202以下を繰り返す。ステップS208において全担当者について処理済である場合、処理を終了する。
FIG. 15 is a flow of unnecessary word reinforcement processing, and shows the reinforcement processing of unnecessary words executed by the
不要語の学習は、真の回答者以外をシステムが回答者であると誤推定した場合に行う。この場合は、推定した回答者の上位単語は本来不要語であるが、大きな重みが付与されているものと考えられる。そこで、このような単語の重みには負の報酬を与え、式(12)によりその重みを小さくする。 Unnecessary words are learned when it is incorrectly estimated that the system is the answerer except for the true answerer. In this case, the estimated upper word of the respondent is originally an unnecessary word, but it is considered that a large weight is given. Therefore, a negative reward is given to the weight of such a word, and the weight is reduced by Expression (12).
なお、式(12)では重みが負になることを防いでいる。また、強化値の等比関数は式(10)と同様で、その初期値は式(13)で与える。 Note that the weight is prevented from being negative in the equation (12). Further, the geometric ratio function of the reinforcement value is the same as that in the equation (10), and the initial value is given by the equation (13).
ここで、c2は定数である。更に、経験的にこのような不要語は一般用語であることが大多数であり、システムが回答者として推定した者だけではなく、真の回答者以外の辞書40でも負の報酬を与えることにより、不要語の学習効率が大きく向上する。そこで、この場合の学習は、システムが誤推定した回答者の上位単語について、真の回答者以外の他の担当者の辞書40にその単語が登録されている場合、同様に負の報酬を与え、その重みを小さくする。
Here, c2 is a constant. Furthermore, the majority of such unnecessary words are empirically found in general terms, and not only those who the system estimates as respondents, but also by giving negative rewards in the
図16は、特定語学習処理フローであり、強化学習装置3がステップS178において実行する特定語の学習処理を示す。強化学習装置3が、定数c3、L、S、min _idf 、max _ave _ratio を定義ファイルから読み込み(ステップS211)、idf 値再評価処理を実行する(ステップS212)。idf 値再評価処理については図17を参照して後述する。次に、強化学習装置3が、単語tにメール解析結果テーブルにおいて対象非回答者の第1位照合単語を設定し(ステップS213)、対象非回答者のtf・idf 辞書41でtを検索してtf・idf にtと照合した単語のtf・idf 値を設定し(ステップS214)、max _tf・idf に対象非回答者のtf・idf 辞書41での最大tf・idf 値を設定し(ステップS215)、tf・idf がmax _tf・idf とmax _ave _ratio との積以上であるか否かを調べる(ステップS216)。なお、max _ave _ratio は全担当者のtf・idf 値及びidf/conf値の最大値で標準化した平均的な重みを表し、このmax _ave _ratio とmax _tf・idf との積は後述する式(14)のwp dとなり、対象非回答者のスコアに有効となる重みを表す。max _ave _ratio の算出方法は(図18で)後述する。f_tf・idf がmax _tf・idf とmax _ave _ratio との積以上でない場合、f_tf・idf にmax _tf・idf とmax _ave _ratio との積を設定し(ステップS217)、積以上である場合、f_tf・idf にtf・idf とc3とから求まる値を設定する(ステップS218)。
FIG. 16 is a specific word learning process flow, and shows the specific word learning process executed by the
この後、強化学習装置3が、対象非回答者のidf/conf辞書42の第1単語でtを検索してidf/confにtと照合した単語のidf/conf値を設定し(ステップS219)、max _idf/confに対象非回答者のidf/conf辞書42での最大idf/conf値を設定し(ステップS2110 )、idf/confがmax _idf/confとmax _ave _ratio との積以上であるか否かを調べる(ステップS2111 )。なお、max _ave _ratio については、図16において前述した通りである。f_idf/confがmax _idf/confとmax _ave _ratio との積以上でない場合、f_idf/confにmax _idf/confとmax _ave _ratio との積を設定し(ステップS2112 )、積以上である場合、f_idf/confにidf/confとc3とから求まる値を設定する(ステップS2113 )。
Thereafter, the
この後、強化学習装置3が、tf・idf 辞書41及びidf/conf辞書42におけるtのtf・idf 値及びidf/conf値を更新する(ステップS2114 )。即ち、新たなtf・idf 値を、それまでのtf・idf 値にf_tf・idf を加算した値とし、新たなidf/conf値を、それまでのidf/conf値にf_idf/confを加算した値とする。この後、強化学習装置3が、i=2として(ステップS2115 )、単語tにメール解析結果テーブルにおいて対象回答者の第i位照合単語を設定する(ステップS2116 )。次に、強化学習装置3が、対象回答者のtf・idf 辞書41でtを検索してtf・idf にtと照合した単語のtf・idf 値を設定し、f_tf・idf とSとから新たなf_tf・idf を算出し(ステップS2117 )、対象回答者のidf/conf辞書42の第1単語でtを検索してidf/confにtと照合した単語のidf/conf値を設定し、f_idf/confとSとから新たなf_idf/confを算出し(ステップS2118 )、tf・idf 辞書41及びidf/conf辞書42におけるtのtf・idf 値及びidf/conf値を更新する(ステップS2119 )。即ち、新たなtf・idf 値を、それまでのtf・idf 値にf_tf・idf を加算した値とし、新たなidf/conf値を、それまでのidf/conf値にf_idf/confを加算した値とする。この後、強化学習装置3が、iがLに等しいか否かを調べ(ステップS2120 )、等しくない場合、iをi+1とし(ステップS2121 )、ステップS2116 以下を繰り返す。等しい場合、ステップS2121 を省略して、処理を終了する。
Thereafter, the
図17は、idf 値再評価処理フローであり、強化学習装置3がステップS212において実行するidf 値再評価処理を示す。強化学習装置3が、メール解析結果テーブルにおいて全非回答者の上位L位までの単語集合でidf 値を算出し(ステップS221)、メール解析結果テーブルにおいて対象非回答者の上位L位までの単語のScore(d,t) をidf 値に書き換え(ステップS222)、メール解析結果テーブルから対象非回答者のmin _idf 未満のidf 値の単語と、L+1位以下の単語とを削除し(ステップS223)、メール解析結果テーブルにおいて対象非回答者の単語をidf 値で降順に整列させる(ステップS224)。なお、ステップS223において、min _idf 未満のidf 値の単語、又は、L+1位以下の単語が存在しない場合には、削除すべき単語が存在しない場合がある。また、ステップS223における単語の削除によりiの最大値がLより小さくなることがあるが、この場合、読み込んだLに代えて当該iの最大値が用いられる。即ち、ステップS2120においてiが当該iの最大値に等しい場合、処理を終了する。
FIG. 17 is an idf value re-evaluation process flow, and shows the idf value re-evaluation process executed by the
特定語の学習は、真の回答者をシステムが回答者であると推定できなかった場合に行う。この場合は、真の回答者の辞書40内で重要語の重みが本来の値より小さくなっている恐れがある。これは、真の回答者がある専門用語を固定的に多く使用し、その同意語や類似語を滅多に使用しない場合等では同意語や類似語のtf値が極端に小さくなるために起こり得る。そこで、真の回答者のスコア上位単語と他の担当者の上位単語を比較して、単語の特定性をidf 値の算出方法と同様にして再評価する。即ち、回答者としては推定されなかった真の回答者の上位単語に特定性が認められれば特定語として正の報酬を与え、その重みを大きくする。ここでの強化方法は、idf 値で単語系列を決定する以外は式(10)の真の回答者を推定できた場合と同様であるが、idf 値が最大となる単語の強化値は式(11)の代わりに式(14)を用いる。
A specific word is learned when a true respondent cannot be estimated as a respondent by the system. In this case, the weight of the important word may be smaller than the original value in the
ここで、式(11)と同様にc3は定数である。なお、辞書4中の全ての単語について、標準化した順位と重みの関係は図18に示したような曲線となる。図18の横軸は、各担当者の単語の最大順位(即ち、登録単語数)で各単語の順位を割った値を表し、縦軸は、同様に重みの最大値で各単語の重みを割った値を表す。図18は横軸の各順位に該当する全担当者の平均重み(tf・idf 値とidf/conf値の両方の平均)をプロットしたものである。この曲線の平均傾きを「−1」と仮定し、この曲線と、傾きが「−1」の直線との接点における重みの値を図16におけるmax _ave _ratio とした。式(14)のwp dはこのmax _ave _ratio と最大重みとの積を表す。真の回答者を当該システムが回答者であると推定(分類)できなかった場合は、真の回答者のスコアScoret dの上位単語は当該担当者の辞書40内で低順位であることが多いと考えられる。このような低順位のものの重みは、高順位のものの重みと比較して何桁も小さな値となっている。このため、強化値を元の重みの定数倍として与えても全体のスコアに影響する大きさにならない。そこで、学習の効果が現れないことを受け、スコア1位のw1 dがこのwp dより小さければ、一度にwp dまで引き上げ、強化することとした。なお、本発明者の検討によれば、単純な重みの平均値をwp dとすると、重みの小さい単語が非常に多いために、wp dは小さな値となり、学習効果が上がらないことが判った。
Here, c3 is a constant as in equation (11). Note that the relationship between the standardized rank and weight for all the words in the
学習時の単語の照合は、この例では完全一致としている(従って、図13〜図17においては単語は必ず照合されることになる)が、これは本発明者の検討により、別文書ファイル7を学習に用いる場合、メール解析のように部分一致としなくても学習効果が上がることが確かめられたためであり、学習にメール8を用いる場合には、部分一致として強化値に単語の一致率を掛けて、強化しても良い。 In this example, word matching at the time of learning is completely matched (therefore, words are always checked in FIGS. 13 to 17). When learning is used for learning, it is confirmed that the learning effect is improved without using partial matching as in mail analysis. When using mail 8 for learning, the word matching rate is set as the partial matching value. It may be multiplied and strengthened.
以上、本発明をその実施の形態に従って説明したが、本発明は、その主旨の範囲内で種々の変形が可能である。例えば、本発明の文書分類システムは、メール8に限られず、広く文書の分類に用いることができる。更に、分類の対象である文書に、例えばホームページを含むことができる。更には、分類の対象である文書に、例えば音声入力されたデータを音声認識して得た電子データを含むことができる。本発明の文書分類システムは、自然言語(記号を含む)により構成された電子データであれば、これを分類することができる。また、文書の分類先は、個々の担当者に限られず、種々の組織内における担当部署であっても良い。本発明の文書分類システムは、3個のサブシステムの全てを備えなくとも良い。即ち、辞書編集装置1、文書分類装置2、強化学習装置3の各々を独立に設けても良く、文書分類装置2のみを設けても良く、文書分類装置2に辞書編集装置1又は強化学習装置3を併設しても良い。
As mentioned above, although this invention was demonstrated according to the embodiment, this invention can be variously deformed within the scope of the gist. For example, the document classification system of the present invention is not limited to the mail 8 and can be widely used for document classification. Further, the document to be classified can include a home page, for example. Furthermore, the document to be classified can include, for example, electronic data obtained by voice recognition of data input by voice. The document classification system of the present invention can classify electronic data configured in a natural language (including symbols). The document classification destination is not limited to each person in charge, and may be a department in charge in various organizations. The document classification system of the present invention may not include all three subsystems. That is, the
以上説明したように、本発明によれば、辞書編集装置において、tf・idf 値とidf/conf値とを別々の独立した2個のパラメータとして用いてtf・idf辞書、idf/conf辞書を作成することができるので、これを文書分類装置の辞書として用いることにより、電子メール等の文書の分類に用いた場合、実用的な分類精度を得ることができ、文書を適切な担当者に自動的に正確に分類するための辞書を容易に作成することができる。 As described above, according to the present invention, in the dictionary editing apparatus, a tf / idf dictionary and an idf / conf dictionary are created by using tf / idf value and idf / conf value as two independent parameters. By using this as a dictionary for document classification devices, when used for classification of documents such as e-mails, practical classification accuracy can be obtained, and documents are automatically assigned to the appropriate person in charge. It is possible to easily create a dictionary for classifying correctly.
また、本発明によれば、文書分類装置において、前述の2個の辞書tf・idf辞書、idf/conf辞書を用いることにより、電子メール等の文書の分類に用いた場合、実用的な分類精度を得ることができ、文書を適切な担当者に自動的に正確に分類することができる。 Further, according to the present invention, in the document classification apparatus, when the above two dictionaries tf / idf dictionary and idf / conf dictionary are used for classification of documents such as e-mails, practical classification accuracy is obtained. And automatically and accurately classify documents to the appropriate personnel.
また、本発明によれば、文書分類システムプログラムを、フレキシブルディスク、CD−ROM、CD−R/W、DVD等の媒体に格納すること、又は、インターネット等のネットワークを介してダウンロードすることにより供給することができ、前述の文書分類装置を容易に実現することができ、正確な文書分類を可能とすることができる。 Further, according to the present invention, the document classification system program is supplied by being stored in a medium such as a flexible disk, CD-ROM, CD-R / W, or DVD, or downloaded via a network such as the Internet. Therefore, the above-described document classification device can be easily realized, and accurate document classification can be performed.
1 辞書編集装置
2 文書分類装置(メール解析装置)
3 強化学習装置
4 辞書
40 カテゴリ辞書
41 重要性辞書(tf・idf 辞書)
42 同時出現性辞書(idf/conf辞書)
1
3
42 Co-occurrence dictionary (idf / conf dictionary)
Claims (9)
当該カテゴリにおいて出現した単語毎に、単語単独の重要度を表すtf・idf 値を格納する重要性辞書を作成し、
当該カテゴリにおいて出現した単語についての複数の単語の組み合わせ毎に、当該単語間の共起性を表すidf/conf値を格納する同時出現性辞書を作成する
ことを特徴とする辞書編集装置。 A dictionary editing device for creating a dictionary based on a document in which a category belongs,
For each word that appears in the category, create an importance dictionary that stores tf and idf values that represent the importance of the word alone,
A dictionary editing apparatus that creates a co-occurrence dictionary that stores an idf / conf value representing co-occurrence between words for each combination of a plurality of words for words that appear in the category.
ことを特徴とする請求項1記載の辞書編集装置。 The co-occurrence dictionary stores an idf / conf value representing co-occurrence between two words for each combination of a first word and a second word for a word that appears in the category. The dictionary editing device described.
入力された文書に出現する単語を用いて前記辞書で当該単語を照合して、前記辞書の単語毎のtf・idf 値とidf/conf値とを求め、これらに基づいて所定の演算を行って前記単語毎のスコアを算出し、前記単語毎のスコアに基づいて前記カテゴリ毎のスコアを算出し、これに基づいて前記入力された文書を前記複数のカテゴリのいずれかに分類する
ことを特徴とする文書分類装置。 An importance dictionary that includes a plurality of category dictionaries provided for each of a plurality of categories, and each category dictionary stores a tf / idf value that represents the importance of a single word for each word that appears in the category, and A dictionary comprising a co-occurrence dictionary for storing an idf / conf value representing co-occurrence between two words for each combination of the first word and the second word for the appearing word;
Using the words that appear in the input document, the words are compared in the dictionary to obtain tf · idf values and idf / conf values for each word in the dictionary, and a predetermined calculation is performed based on these values. A score for each word is calculated, a score for each category is calculated based on the score for each word, and the input document is classified into one of the plurality of categories based on the score. Document classification device.
ことを特徴とする請求項3記載の文書分類装置。 4. The document according to claim 3, wherein the document is an e-mail, the category is a person in charge of distributing the document, and the document classification device distributes the input document to the classified person in charge. Document classification device.
ことを特徴とする請求項3記載の文書分類装置。 4. The document classification apparatus according to claim 3, wherein the document classification apparatus classifies the input document into a predetermined number of categories from the top in accordance with the score for each category.
ことを特徴とする請求項3記載の文書分類装置。 The document classification device calculates a score for each word by calculating a product of a tf · idf value for each word in the dictionary, an idf / conf value, and a matching rate between words appearing in the input document. The document classification device according to claim 3.
所定の文書を前記文書分類装置により前記複数のカテゴリのいずれかに分類した結果に基づいて、前記重要性辞書におけるtf・idf 値を更新し、前記同時出現性辞書におけるidf/conf値を更新する学習装置とからなる
ことを特徴とする請求項3記載の文書分類装置。 The document classification device further includes:
Based on the result of classifying a predetermined document into one of the plurality of categories by the document classification device, the tf · idf value in the importance dictionary is updated, and the idf / conf value in the co-occurrence dictionary is updated. The document classification device according to claim 3, comprising: a learning device.
前記所定の文書が真のカテゴリに分類された場合、前記所定の文書に出現する単語であって当該真のカテゴリの辞書で照合された単語を重要語として、その重みを大きくし、
前記所定の文書が真のカテゴリに分類されなかった場合、前記所定の文書に出現する単語の中で当該真のカテゴリについて特定性の高い単語を再評価することにより、当該真のカテゴリの特定語の重みを大きくし、
前記所定の文書が真のカテゴリ以外のカテゴリに分類された場合、前記所定の文書に出現する単語であって当該誤って分類されたカテゴリの辞書で照合した単語を不要語として、当該誤って分類されたカテゴリの辞書における重みを小さくし、真のカテゴリ以外のカテゴリの辞書における重みを小さくする
ことを特徴とする請求項7記載の文書分類装置。 The learning device
When the predetermined document is classified into a true category, a word that appears in the predetermined document and collated in the dictionary of the true category is regarded as an important word, and its weight is increased.
When the predetermined document is not classified into the true category, the specific word of the true category is re-evaluated by re-evaluating a word having high specificity with respect to the true category among the words appearing in the predetermined document. Increase the weight of
If the predetermined document is classified into a category other than the true category, the word that appears in the predetermined document and is matched with the dictionary of the category that has been incorrectly classified is used as an unnecessary word, and is erroneously classified. The document classification apparatus according to claim 7, wherein the weight in the dictionary of the selected category is reduced and the weight in the dictionary of a category other than the true category is reduced.
前記プログラムは、コンピュータに、
入力された文書に出現する単語を用いて、複数のカテゴリの各々について設けられる複数のカテゴリ辞書からなり、各々のカテゴリ辞書が当該カテゴリにおいて出現した単語毎に単語単独の重要度を表すtf・idf 値を格納する重要性辞書と、当該カテゴリにおいて出現した単語についての第1単語と第2単語の組み合わせ毎に2単語間の共起性を表すidf/conf値を格納する同時出現性辞書とからなる辞書で当該単語を照合して、前記辞書の単語毎のtf・idf 値とidf/conf値とを求める処理と、
前記単語毎のtf・idf 値とidf/conf値とに基づいて所定の演算を行って前記単語毎のスコアを算出する処理と、
前記単語毎のスコアに基づいて前記カテゴリ毎のスコアを算出する処理と、
前記カテゴリ毎のスコアに基づいて前記入力された文書を前記複数のカテゴリのいずれかに分類する処理とを実行させる
ことを特徴とする文書分類プログラム。 A program for realizing a document classification device,
The program is stored in a computer.
Tf ・ idf that consists of a plurality of category dictionaries provided for each of a plurality of categories using words that appear in the input document, and each category dictionary represents the importance of each word for each word that appears in the category An importance dictionary for storing values, and a co-occurrence dictionary for storing idf / conf values representing co-occurrence between two words for each combination of the first word and the second word for words appearing in the category A process for collating the word with a dictionary to obtain a tf · idf value and an idf / conf value for each word in the dictionary;
A process of calculating a score for each word by performing a predetermined calculation based on the tf · idf value and the idf / conf value for each word;
Processing for calculating a score for each category based on the score for each word;
A document classification program for executing a process of classifying the input document into any of the plurality of categories based on a score for each category.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003418871A JP4496347B2 (en) | 2003-12-17 | 2003-12-17 | Document classification device and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003418871A JP4496347B2 (en) | 2003-12-17 | 2003-12-17 | Document classification device and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005182218A true JP2005182218A (en) | 2005-07-07 |
JP4496347B2 JP4496347B2 (en) | 2010-07-07 |
Family
ID=34780935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003418871A Expired - Fee Related JP4496347B2 (en) | 2003-12-17 | 2003-12-17 | Document classification device and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4496347B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011128760A (en) * | 2009-12-16 | 2011-06-30 | Ntt Data Corp | Device, method and program for evaluating information |
JP2013077084A (en) * | 2011-09-29 | 2013-04-25 | Fujitsu Ltd | Sentence example dictionary generation program and sentence example dictionary generation device |
KR101308210B1 (en) * | 2012-09-04 | 2013-09-13 | 이예행 | Classification system of e-mail by personalization with automatically and operating method thereof |
JP5876144B2 (en) * | 2014-02-04 | 2016-03-02 | 株式会社Ubic | Digital information analysis system, digital information analysis method, and digital information analysis program |
JP6172694B1 (en) * | 2016-11-14 | 2017-08-02 | 国立大学法人名古屋大学 | Report classification system |
CN113128211A (en) * | 2020-01-14 | 2021-07-16 | 北京京东振世信息技术有限公司 | Article classification method and device |
-
2003
- 2003-12-17 JP JP2003418871A patent/JP4496347B2/en not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011128760A (en) * | 2009-12-16 | 2011-06-30 | Ntt Data Corp | Device, method and program for evaluating information |
JP2013077084A (en) * | 2011-09-29 | 2013-04-25 | Fujitsu Ltd | Sentence example dictionary generation program and sentence example dictionary generation device |
KR101308210B1 (en) * | 2012-09-04 | 2013-09-13 | 이예행 | Classification system of e-mail by personalization with automatically and operating method thereof |
JP5876144B2 (en) * | 2014-02-04 | 2016-03-02 | 株式会社Ubic | Digital information analysis system, digital information analysis method, and digital information analysis program |
JP6172694B1 (en) * | 2016-11-14 | 2017-08-02 | 国立大学法人名古屋大学 | Report classification system |
CN113128211A (en) * | 2020-01-14 | 2021-07-16 | 北京京东振世信息技术有限公司 | Article classification method and device |
Also Published As
Publication number | Publication date |
---|---|
JP4496347B2 (en) | 2010-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177365B (en) | Unsupervised automatic abstract extraction method based on graph model | |
US10496928B2 (en) | Non-factoid question-answering system and method | |
US20100205198A1 (en) | Search query disambiguation | |
Donato et al. | Investigating redundancy in emoji use: Study on a twitter based corpus | |
Salvetti et al. | Automatic opinion polarity classification of movie reviews | |
Zahoor et al. | Twitter sentiment analysis using lexical or rule based approach: a case study | |
WO2005041063A1 (en) | Information retrieval | |
CN114528919A (en) | Natural language processing method and device and computer equipment | |
Bestgen | Building Affective Lexicons from Specific Corpora for Automatic Sentiment Analysis. | |
JP4496347B2 (en) | Document classification device and program thereof | |
CN114139537A (en) | Word vector generation method and device | |
CN111191413B (en) | Method, device and system for automatically marking event core content based on graph sequencing model | |
Tahrat et al. | Text2geo: from textual data to geospatial information | |
Hamada et al. | Sentimental text processing tool for Russian language based on machine learning algorithms | |
Shahriar et al. | A dynamic topic identification and labeling approach for COVID-19 tweets | |
Salvetti et al. | Impact of lexical filtering on overall opinion polarity identification | |
Strohm | The impact of intensifiers, diminishers and negations on emotion expressions | |
Xu et al. | Incorporating Feature-based and Similarity-based Opinion Mining-CTL in NTCIR-8 MOAT. | |
Jebbor et al. | Overview of knowledge extraction techniques in five question-answering systems | |
KR20210012606A (en) | Method of bio information analysis and storage medium storing a program for performing the same | |
Sari et al. | Comparison of K-Nearest Neighbor and Support Vector Machine for Sentiment Analysis of the Second COVID-19 Booster Vaccination | |
Alrehaili et al. | Extraction of multi-word terms and complex terms from the Classical Arabic text of the Quran | |
CN117972025B (en) | Massive text retrieval matching method based on semantic analysis | |
Mestric et al. | Aspect Level Sentiment Analysis Methods Applied to Text in Formal Military Reports | |
Makruf et al. | Public hospital review on map service with part of speech tagging and biterm topic modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060725 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061017 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070116 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100316 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130423 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130423 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |