JP2010026923A

JP2010026923A - 文書分類方法、文書分類装置、文書分類プログラム、および、コンピュータ読取り可能記録媒体

Info

Publication number: JP2010026923A
Application number: JP2008189920A
Authority: JP
Inventors: Takako Onishi; 貴子大西; Katsumi Ohashi; 勝己大橋
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2008-07-23
Filing date: 2008-07-23
Publication date: 2010-02-04

Abstract

【課題】ユーザが容易に文書を分類するためのルールの作成、または、修正ができる文書分類方法を提供する。
【解決手段】予め分類された教師データに対して形態素解析を行い、教師データとして分類された文書において使用されている単語を抽出する（Ｓ１１）。使用されている単語の集合から重要語を抽出しユーザに提示する（Ｓ１２）。この表示の中から、ユーザに自分の分類したい内容に関連する主題語を選択させる（Ｓ１３，Ｓ１４））。ユーザによって選択された主題語を基に主題部を抽出し（Ｓ１５）、抽出された主題部に、抽出元である教師データと同じ分類を示すタグが付与して主題部を教師データに追加する（Ｓ１６，Ｓ１７）。主題部が追加された新しい分類ルールを作成し（Ｓ１８）、新しい分類ルールに基づいて新しい分類対象文書を分類する（Ｓ１９）。
【選択図】図３

Description

この発明は文書分類方法、文書分類装置、文書分類プログラム、および、コンピュータ読取り可能記録媒体に関し、特に、大量の文書を自動で分類する、文書分類方法、文書分類装置、文書分類プログラム、および、コンピュータ読取り可能記録媒体に関する。

従来、さまざまな事例の不具合傾向を分析するために、不具合報告書を分類するニーズがある。また、市場調査のための顧客アンケートのような大量の文書を分類するニーズがある。これらのニーズに対応して、事例文書の分類作業を支援するための技術が提案されている。これらによれば、文書を分類するには、（Ａ）人手で文書を分類するための分類ルールを作成する、または、（Ｂ）人手で少数の文書を分類して分類済みデータ（教師データ）を準備し、それを用いて自動で分類ルールを作成する、のいずれかの方法があった。

（Ａ）の方法では、文書を分類するための知識の処理（以下、「知識処理」という）に関する経験やスキルがなければ適切な分類ルールを作成できない。（Ｂ）では、知識処理に関する経験やスキルは不要である。このような知識処理を用いた文書の分類方法として、ＳＶＭ（Support Vector Machine）を用いた文書分類方法が、たとえば、特開２００１−０２２７２７号公報（特許文献１）に開示されている。

実際に事例文書の分類を行う担当者（不具合文書を分類する場合であれば品質管理部門の担当者等）は、知識処理に関する経験やスキルを保有していない場合が多いため、（Ｂ）の手法で自動分類を行うことが望ましい。しかし、通常、自動作成された分類ルールがどのような特徴に基づいているのかをユーザが理解することは困難である。これは、例えば、上記したＳＶＭを用いて分類すると、分類ルールが数十次元の識別関数になることがあるからである。そのため、少数の教師データに対しては正しく分類できていても、その分類ルールがユーザの意図に合致するルールになっているかどうかの目安を得ることはできない。その結果、例えば、不具合を部品種で分類しているはずが、原因で分類されてしまうということが起こりうる。

これに対処して、意図に合致した分類がされているか否かを確認するために、分類結果を可視化して、カテゴリーに分類された文書間の関係を分かり易くする方法が、たとえば、特開２００６−００４１０５号公報（特許文献２）に記載されている。

同公報は、文書群に含まれている各文書について、登録済みのカテゴリーに属する確率と、属さない確率とをベクトルで表した事後確立ベクトルを推定する可視化装置を開示している。可視化装置は推定した事後確率ベクトルで表された各確率に従って、可視化空間上に各文書と各カテゴリーとの関係を配置し、配置した可視化空間を利用者端末に送信している。
特開２００１−０２２７２７号公報（要約）特開２００６−００４１０５号公報（要約）

従来の、文書の分類方法、および、分類された文書間の関係を分かり易くする方法は上記のように行なわれていた。ユーザは分類結果が可視化されたマップを参照して、分類が意図と合致しているか否かを確認することができた。しかしながら、確認した結果、分類が意図と合致していないと判明した場合にユーザはどうしてよいか分からないという問題があった。すなわち、どのように分類ルールを修正すればよいのか分からないという問題があった。

また、ユーザが文書を自動で所望の意図で分類するにも、どのようにして分類ルールを作成すればよいかわからないという問題があった。

この発明は上記のような問題に鑑みてなされたもので、ユーザが容易に文書を分類するためのルールの作成、または、修正ができる文書分類方法、文書分類装置、文書分類プログラム、および、コンピュータ読取り可能記録媒体を提供することを目的とする。

この発明に係る、文書分類方法は、分類済みのデータから分類ルールに関連する第１用語を抽出するステップと、抽出された第１用語の中から分類ルールとして追加したい所望の第２用語を選択させるステップと、選択された第２用語を含む文書の一部を、分類済みのデータから抽出して新たな分類のためのデータとして追加するステップとを含む。

この発明によれば、分類済みのデータから分類ルールに関連する用語を抽出して、その中から分類ルールとして追加したい所望の用語をユーザに選択させて、選択された用語を含む文書の一部を新たな分類のためのデータとして追加するようにしたため、ユーザの意図に沿った分類が可能になる。

その結果、ユーザが容易に文書を分類するためのルールの作成、または、修正ができる文書分類方法、文書分類装置、文書分類プログラム、および、コンピュータ読取り可能記録媒体を提供できる。

好ましくは、分類済みのデータは予め準備された分類のためのデータを用いて分類され、予め準備された分類のためのデータと追加された分類のためのデータとを用いて分類ルールを新たに作成するステップを含む。

さらに好ましくは、作成された新たな分類ルールを用いて分類されていない文書を分類するステップを含む。

第１用語を抽出するステップは分類済みのデータの中に出現する用語の頻度に基づいて抽出してもよいし、所望の第２用語を選択させるステップは、ユーザに第１用語を表示してユーザに選択させるステップを含んでもよい。

また、第２用語を含む文書の一部を分類済みのデータから抽出するステップは、第２用語を多く含む文書の一部を抽出するステップを含んでもよい。

選択された第２用語を含む文書の一部を、分類済みのデータから抽出して新たな分類のためのデータとして追加するステップは、第２用語を含む文書を、文書を構成する単位である構造単位に分けて、文書の一部を抽出するステップを含むのが好ましい。

この発明の他の局面においては、文書分類装置は、分類済みのデータから分類ルールに関連する第１用語を抽出する第１用語抽出手段と、抽出手段によって抽出された第１用語の中から分類ルールとして追加したい所望の第２用語を選択させる選択手段と、選択手段によって選択された第２用語を含む文書の一部を、分類済みのデータから抽出して新たな分類のためのデータとして追加する追加手段と、を含む。

この発明のさらに他の局面においては、文書分類プログラムは、上記に記載の文書分類方法をコンピュータに実行させる。この文書分類プログラムはコンピュータ読取り可能記録媒体に格納してもよい。

まず、この発明の原理について説明する。図１はこの発明の文書分類ルールを作成する原理を説明するための図である。図１（Ａ）は分類済みの文書の集合（すなわち、教師データ）を示す図であり、図１（Ｂ）は教師データから重要語を提示し、ユーザが主題語を選択する場合の画面表示例を示す。ここで、図１（Ｂ）の横軸は単語を示し、縦軸はその単語の出現回数を示す。図１（Ｃ）は主題部として、主題語を多く含む箇所を取出す状態を示し、図１（Ｄ）は取出した主題部を教師データに追加する状態を示す。

図１（Ａ）を参照して、予め定められた分類ルールにしたがって文書が２つに分類されているものとする。これらを教師データ２１,３１とする。本発明における教師データとは、分類済みの文書の集合のことをいう。

これらの教師データ２１,３１から文書に含まれている重要な単語である、重要語（第１用語）を抽出する。重要語は、たとえば、出現頻度によって決定する。図１（Ｂ）に示すように、教師データ２１,３１から単語の出現頻度を表したヒストグラム２２,３２を作成してユーザに提示する。また、事前に同じ意味の単語は同一語として同義語辞書を作成しておき、これを用いて複数の異なる単語を同一語とみなして処理してもよい。ユーザはこの重要語の中から、自分が分類するのに必要と考える単語を、新たな分類のためのデータとしての、主題語（第２用語）として選択する。主題語としては、複数の単語を選択したり、複数の単語に順位を付けて選択してもよい。

次に、図１（Ｃ）に示すように、分類済みの教師データ２１,３１から主題語を多く含む箇所だけを主題部２３,３３として取り出す。そして、図１（Ｄ）に示すように、この主題部２３,３３を教師データ２１,３１に追加した新しい分類のための教師データ２４,３４を作成し、これらの教師データから作成した新しい分類ルール用いて分類対象文書５１を分類する。

次に、具体的に例をあげて説明する。不具合事例を分類する場合に、教師データとしての不具合事例文書に「不具合現象」、「原因」、「対策」の３つの重要語が含まれていたとする。このとき、主題語として「原因」が選択され、「原因」が記述された箇所を主題部として取り出し、教師データに追加することで、より「原因」に焦点をあてた分類ルールが作成できる。上記のように、頻度によって抽出した重要語から主題語を選択させることによって、一度しか出現しない単語など、追加しても分類ルール作成結果に影響しないような単語が選択されることを防止できる。

次に、上記原理に示したような文書分類ルールが組み込まれた文書分類装置について説明する。図２は、文書分類装置の機能ブロック図である。文書分類装置１０は基本的にコンピュータであり、ＣＰＵ（Central Processing Unit）を含む制御部１１と、制御部１１によって制御される表示部１７やハードディスクのような記憶部１８や、図示のない入出力装置とを含む。図２を参照して、この実施の形態に係る文書分類装置１０の制御部１１は、機能として、図示のない入力装置から予め分類された教師データ２１，３１を入力して、重要語を抽出する重要語抽出部１２と、重要語抽出部１２が抽出した重要語からユーザに主題語を選択させるための主題語選択部１３と、抽出された主題語を含む主題部を教師データ２１から抽出する主題部抽出部１４と、主題部抽出部１４で抽出された主題部を教師データ２１に追加して新たな分類ルールを作成する分類ルール作成部１５と、分類ルール作成部１５が作成した新しい分類ルールで分類対象文書５１を分類する分類実行部１６とを含む。なお、表示部１７は、制御部１１が、重要語を基にユーザに主題語を選択させるとき等に使用され、記憶部１８は、分類ルールを記憶するため等に使用される。

次に、文書分類装置１０における動作について説明する。図３は文書分類ルールの作成時に文書分類装置１０の制御部のＣＰＵが行なう動作を示すフローチャートである。図３と図２とを参照して、この場合の動作について説明する。まず、予め分類された教師データに対して形態素解析を行い、教師データとして分類された文書において使用されている単語を抽出する（ステップＳ１１、以下ステップを省略する）。この時、事前に作成した同義語辞書を用いて、同じ意味の単語は同一語として処理してもよい。たとえば、「トランジスタ」、「ＴＲ」はどちらも「トランジスタ」として扱う。

次に、使用されている単語の集合から重要語を抽出し、表示部１７等を介してユーザに提示する（Ｓ１２）。図４は重要語を抽出する処理を説明するための図である。図４（Ａ）は図１（Ａ）および（Ｂ）と同様の内容を示す図であり、分類された教師データ２１,３１ごとに出現回数が多い単語をヒストグラムで表示したものである。横軸は単語を示し、縦軸はその単語の出現回数を示す。図４（Ｂ）は２つの教師データ２１,３１をまとめて表示した状態を示す図である。図４（Ｂ）においては、教師データ２１の頻度を白のヒストグラムで、教師データ３１の頻度を黒のヒストグラムで表示している。いずれにおいても、出現回数の多い順に既定の個数の単語を重要語として抽出している。なお、重要語として抽出する単語の数は出現回数が既定値以上としてもよい。

図４（Ａ）に示すように、分類ごとに表示すれば、特定の分類でのみ出現回数が多い単語を評価できる。図４（Ｂ）に示すように、ある分類のグラフで選択された主題語を、別分類のグラフでも明示的に色を変えて表示するようにしてもよい。このように表示することにより、よりユーザが主題語を選択しやすくなる。

また、出現回数が多い単語の評価方法として、２分類に限らず、全分類に共通して出現回数が多い単語を評価してもよいし、上記のように特定の分類でのみ出現回数が多い単語を評価してもよい。

なお、このようなヒストグラムに限らず、任意の形態で表示を行なってもよいし、頻度のみを数値等で表示してもよい。

このような表示の中から、ユーザに自分の分類したい内容に関連する主題語を選択させる（図３、Ｓ１３）。図４に示すように、出現回数が可視化された状態で重要語を提示するため、ユーザは、この中から容易に主題語を選択できる。したがって、制御部１１は、第１用語（重要語）抽出手段および選択手段として作動する。

次に、重要語の抽出方法の他の例について説明する。重要語を抽出する他の例としては、分類された文書において出現する単語を評価して重要語を抽出する。単語を評価する方法としては、全分類に共通して出現回数が多い単語を評価する方法と、特定の分野でのみ出現回数の多い単語を評価する方法とがある。

全分類に共通して出現回数が多い単語Ｗを評価する方法としては、
単語Ｗの評価値＝（（単語Ｗが含まれる分類数）／（全分類数））×単語Ｗの出現回数
として評価値を求める。評価値が高い単語から順に、重要語として抽出する。

この方法であれば、「原因」、「対策」、「故障」など、主題部に共通して使用される単語Ｗを抽出できる。

特定の分類でのみ出現回数が多い単語Ｗを評価する方法としては、
単語Ｗの評価値＝（（全分類数）／（単語Ｗが含まれる分類数））×単語Ｗの出現回数
として評価値を求める。この場合も評価値が高い単語Ｗから順に、重要語として抽出する。

この方法であれば、「コンデンサ」、「ショート」など、各分類に特徴的な単語を抽出できる。

なお、重要語の抽出方法としては、上記のいずれか一つの方法を用いて抽出してもよいし、これらの中から複数の方法を用いてもよい。さらに、重要語はユーザが決めた任意のルールに基づいて抽出されるものであってもよい。また、同様の効果が得られる公知技術を用いてもよい。

次に、ユーザによって選択された主題語を基に主題部を抽出する（Ｓ１５）。１件の教師データから主題部を抽出する方法について説明する。教師データが、ＷＯＲＤ（登録商標）、ＨＴＭＬ，ＸＭＬのような構造化された文書の場合は、章、節などの構造のうち、最小の単位で文書を複数の文章（単位）に分割する。構造化されていない文書の場合は、文単位で文書を分割する。ここでは、以下、分割された個々の文章（単位）を構造単位としているが、構造単位とは複数文章を含むものであってもよいし、この例に限らず、ユーザが任意に設定可能である。

各構造単位に対して評価値を算出する。評価値として、各構造単位における主題語の出現回数を用いる。複数の主題語に優先順位が設定されている場合は、優先順位によって重み付けを行ってもよい。

図５は、評価値を算出する方法を示す図である。主題語「故障」、「原因」、「異物」が優先順位によって図５（Ａ）に示すように重み付けがされているものとする。ここで、構造単位は「故障原因は、異物によるショートと判明。異物は長さ２ｍｍの金属片」であるものとする。すると、この構造単位上に出現する各々の主題語の出現回数は、「故障」が１回、「原因」が１回、「異物」が２回であるから、重みと出現回数をかけて合計して、評価値＝３＋２＋１＋１＝７となる。

次に、主題部の抽出方法について説明する。図６は複数の構造単位Ｕ１〜Ｕ３から主題部を抽出する方法を示す図である。図６（Ａ）は複数の構造単位の評価値を示し、図６（Ｂ）は主題部の決定方法を示す。構造単位Ｕの評価値をＵeval、構造単位Ｕ内の全単語数をＵwordとする。連続した複数の構造単位Ｕ１からＵ３のうち、主題語比率Ｒ＝Ｕevalの合計／Ｕwordの合計が最も高くなるものを主題部として抽出する。

具体的には、図６（Ａ）に示すようにそれぞれの構造単位Ｕ１からＵ３について、Ｕevalの合計とＵwordの合計を求めたマトリックスを作成する。ここでは、極端に評価値や単語数が低い主題部が抽出されるのを避けるため、評価値および単語数が一定値以上の構造単位のみを対象とするように閾値を定めている。ここでは、評価値の閾値は３であり、単語数の閾値は１０とする。

次に、図６（Ｂ）に示すように、それぞれの構造単位Ｕ１からＵ３について、個別、隣接する２単位、連続する３単位について、主題語比率Ｒ＝Ｕevalの合計／Ｕwordの合計を求める。

ここで、図６（Ｂ）に示す６個の構造単位列のうち、構造単位Ｕ３は閾値を満たさないため、対象外となる。そして、他の５個のうち、主題語比率Ｒが最大である構造単位Ｕ２＋Ｕ３を主題部とする。

なお、教師データには予め分類を示す所定のタグが付与されており、このようにして抽出された主題部は、抽出元である教師データと同じ分類を示すタグが付与される（Ｓ１６）。教師データに含まれる全ての文書に対して、主題部の抽出とタグの付与とを繰り返す（Ｓ１４）。その結果、主題部は教師データに追加される（Ｓ１７）。

制御部１１は主題部が追加された教師データを用いて新しい分類ルールを作成し（Ｓ１８）、新しい分類ルールに基づいて新しい分類対象文書を分類する（Ｓ１９）。したがって、制御部１１は追加手段として作動する。

以上のように、この実施の形態においては、重要語の中からユーザが選択した所望の主題語を含む主題部を新しい教師データとして追加し、分類ルールを新しく作成するようにしたため、分類ルールが複雑でユーザが理解できない場合であっても、容易に分類ルールをユーザの所望の方向へ変更できる。

なお、上記実施の形態では、極端に評価値が低い、または、単語数が少ない主題部が抽出されるのを避けるため、評価値および単語数に閾値を設けたが、閾値は設けなくてもよい。

また、教師データから主題部を抽出する方法は上記実施の形態に限らず、同様の結果が得られる公知技術を用いてもよい。

また、上記実施の形態においては、予め分類された教師データを用いて新しい分類ルールを追加する場合について説明したが、これに限らず、ユーザが所望の分類ルールで文書を分類する場合に適用してもよい。この場合は、図３のフローチャートにおいて、基本となる１つの文書を決め、それを教師データとして処理を進めればよい。

また、上記実施の形態においては、文書分類装置が専用のコンピュータである場合について説明したが、これに限らず、上記したＣＰＵの行なう制御をプログラムとし、それを汎用コンピュータに実行させてもよい。また、この場合、プログラムは記録媒体に格納してもよい。

以上、図面を参照してこの発明の実施形態を説明したが、この発明は、図示した実施形態のものに限定されない。図示された実施形態に対して、この発明と同一の範囲内において、あるいは均等の範囲内において、種々の修正や変形を加えることが可能である。

この発明の原理を説明するための図である。文書分類装置の構成を示す機能ブロック図である。文書分類装置の動作を示すフローチャートである。重要語を表示する場合の例を示す図である。評価値を算出する方法を示す図である。主題部の抽出方法を説明する図である。

符号の説明

１０文書分類装置、１１制御部、１２重要語抽出部、１３主題語選択部、１４主題部抽出部、１５分類ルール作成部、１６分類実行部、１７表示部、１８記憶部、２１，３１教師データ。

Claims

文書を分類する方法であって、
分類済みのデータから分類ルールに関連する第１用語を抽出するステップと、
抽出された第１用語の中から分類ルールとして追加したい所望の第２用語を選択させるステップと、
選択された第２用語を含む文書の一部を、分類済みのデータから抽出して新たな分類のためのデータとして追加するステップと、
を含む、文書分類方法。
分類済みのデータは予め準備された分類のためのデータを用いて分類され、
予め準備された分類のためのデータと追加された分類のためのデータとを用いて分類ルールを新たに作成するステップを含む、請求項１に記載の文書分類方法。
作成された新たな分類ルールを用いて分類されていない文書を分類するステップを含む、請求項２に記載の文書分類方法。
第１用語を抽出するステップは分類済のデータの中に出現する用語の頻度に基づいて抽出するステップを含む、請求項１から３のいずれかに記載の文書分類方法。
所望の第２用語を選択させるステップは、ユーザに第１用語を表示してユーザに選択させるステップを含む、請求項１から４のいずれかに記載の文書分類方法。
第２用語を含む文書の一部を分類済みのデータから抽出するステップは、第２用語を多く含む文書の一部を抽出するステップを含む、請求項１から５のいずれかに記載の文書分類方法。
選択された第２用語を含む文書の一部を、分類済みのデータから抽出して新たな分類のためのデータとして追加するステップは、第２用語を含む文書を、文書を構成する単位である構造単位に分けて、文書の一部を抽出するステップを含む、請求項１から６のいずれかに記載の文書分類方法。
分類済みのデータから分類ルールに関連する第１用語を抽出する第１用語抽出手段と、
前記抽出手段によって抽出された第１用語の中から分類ルールとして追加したい所望の第２用語を選択させる選択手段と、
前記選択手段によって選択された第２用語を含む文書の一部を、分類済みのデータから抽出して新たな分類のためのデータとして追加する追加手段と、
を含む、文書分類装置。
請求項１から７のいずれかに記載の文書分類方法をコンピュータに実行させるための文書分類プログラム。
請求項９に記載の文書分類プログラムを格納したコンピュータ読取り可能記録媒体。