JP2011090447A

JP2011090447A - 文書判定条件生成装置および文書判定条件生成方法

Info

Publication number: JP2011090447A
Application number: JP2009242379A
Authority: JP
Inventors: Tomomichi Takayama; 智道高山; Hiroshi Kitauchi; 啓北内
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 2009-10-21
Filing date: 2009-10-21
Publication date: 2011-05-06
Anticipated expiration: 2029-10-21
Also published as: JP5297972B2

Abstract

【課題】より精度が高い文書判定を行なうための文書判定条件を生成する。
【解決手段】複数のカテゴリのうちいずれかのカテゴリが予め対応付けられた複数の文書データを記憶し、文書判定条件を生成する対象である対象カテゴリに対応する複数のキーワードと、キーワードが対象カテゴリに対して適合する度合いを示す適合率とを対応付けて記憶し、キーワードリストに含まれるキーワードに対応付けられた適合率と予め定められた閾値とを比較して、閾値未満である適合率に対応するキーワードを抽出し、抽出したキーワードが含まれる文書データを抽出し、抽出した文書データのうち、対象カテゴリが対応付けられた正解文書データを抽出し、抽出した正解文書データに含まれる語から、対象カテゴリに対する適合率が相対的に高い語である付加キーワードを抽出し、抽出したキーワードと付加キーワードとが含まれることを示す文書判定条件を生成する。
【選択図】図１

Description

本発明は、文書データに含まれる語に応じて、その内容に応じた分類を示すカテゴリを判定するための文書判定条件を生成する技術に関する。

近年では、様々な情報が電子化された文書データがコンピュータによって処理されており、このような文書データを、その内容に応じてカテゴリ毎に分類する技術が研究されている（例えば、特許文献１、特許文献２）。例えば、予め定められた複数のカテゴリ毎に、そのカテゴリの文書データに特徴的に現れるキーワードを定めておき、カテゴリの判定対象となる文書データに含まれる語と定められたキーワードとを比較して、キーワードが含まれるか否かを判定することにより判定対象の文書データがそのカテゴリに属するか否かを判定する。このような技術を用いれば、例えば、様々なジャンルのニュース記事である文書データをその内容に応じて分類したり、製品を販売する企業が、様々な顧客から受信する電子メールである文書データをその内容に応じて製品毎に分類したりすることができる。

特開２００７−７９９４８号公報特開２００８−２１０２８号公報

しかしながら、上述のような単一のキーワードにより文書データがいずれのカテゴリに属するかの文書判定を行なう場合、内容が対応しないカテゴリに文書データが判定されたり、対応するカテゴリに文書データが判定されなかったりする場合があった。例えば、医療カテゴリのキーワードとして「回復」というキーワードが対応付けられていた場合、景気についての「回復」の語が含まれる経済カテゴリの文書データが医療カテゴリに分類されるといったように、分類ノイズが発生する場合がある。ここで、カテゴリに対応するより適切なキーワードを文書判定条件として文書判定を行い、分類ノイズを低減させることが望ましい。

本発明は、このような状況に鑑みてなされたもので、より分類ノイズが少ない文書判定を行なうための文書判定条件を生成する文書判定条件生成装置および文書判定条件生成方法を提供する。

上述した課題を解決するために、本発明は、定められた文書データに含まれる語に応じて、文書データの内容に応じた分類を示すカテゴリを判定するための文書判定条件を生成する文書判定条件生成装置であって、複数のカテゴリのうちいずれかのカテゴリが予め対応付けられた複数の文書データが記憶される文書データ記憶部と、複数のカテゴリのうち、文書判定条件を生成する対象である対象カテゴリに対応する複数のキーワードと、キーワードが対象カテゴリに対して適合する度合いを示す適合率とが対応付けられて記憶されるキーワードリスト記憶部と、キーワードリストに含まれるキーワードに対応付けられた適合率と予め定められた閾値とを比較して、閾値未満である適合率が対応付けられたキーワードである改善対象キーワードをキーワードリスト記憶部から抽出する改善対象キーワード抽出部と、改善対象キーワード抽出部によって抽出された改善対象キーワードが含まれ、かつ対象カテゴリが対応付けられた文書データである正解文書データを文書データ記憶部から抽出する文書データ抽出部と、文書データ抽出部によって抽出された正解文書データに含まれる語から、対象カテゴリに対する適合率が相対的に高い語である第１の付加キーワードを抽出する付加キーワード抽出部と、改善対象キーワード抽出部によって抽出された改善対象キーワードが含まれ、かつ付加キーワード抽出部によって抽出された第１の付加キーワードが含まれることを示す文書判定条件を生成する条件生成部と、を備えることを特徴とする。

また、本発明は、文書データ抽出部によって抽出された正解文書データに含まれる文を形態素解析し、正解文書データに含まれる形態素と形態素に対応する品詞とを出力する形態素解析部と、形態素解析部による形態素解析の結果に基づいて、品詞が名詞である形態素が含まれる語である処理対象語を抽出する処理対象語抽出部と、を備え、付加キーワード抽出部は、処理対象語抽出部によって抽出された処理対象語から、第１の付加キーワードを抽出することを特徴とする。

また、本発明は、文書データ抽出部は、改善対象キーワード抽出部によって抽出された改善対象キーワードおよび付加キーワード抽出部によって抽出された第１の付加キーワードが含まれ、かつ対象カテゴリ以外のカテゴリが対応付けられた文書データである不正解文書データを抽出し、付加キーワード抽出部は、文書データ抽出部によって抽出された不正解文書データに含まれる語から、対象カテゴリ以外のカテゴリに対する適合率が相対的に高い語である第２の付加キーワードを抽出し、条件生成部は、改善対象キーワード抽出部によって抽出された改善対象キーワードが含まれ、かつ付加キーワード抽出部によって抽出された第２の付加キーワードが含まれないことを示す文書判定条件を生成することを特徴とする。

また、本発明は、文書データ抽出部によって抽出された正解文書データの数と、文書判定条件を用いて文書データ記憶部に記憶された文書データから抽出する文書データの数との比である再現率を算出する再現率算出部と、再現率算出部が算出した再現率と、予め定められた再現率の閾値とを比較して、再現率が閾値未満であるか否かを判定する再現率比較部と、を備え、付加キーワード抽出部は、文書データ抽出部によって抽出された正解文書データに含まれる語から、対象カテゴリに対する適合率が相対的に高い複数の第１の付加キーワードを抽出し、条件生成部は、再現率比較部によって再現率が閾値未満であると判定された場合、改善対象キーワード抽出部によって抽出された改善対象キーワードが含まれ、かつ付加キーワード抽出部によって抽出された複数の第１の付加キーワードのうちいずれかのキーワードが含まれることを示す文書判定条件を生成することを特徴とする。

また、本発明は、付加キーワード抽出部は、文書データ抽出部によって抽出された不正解文書データに含まれる語から、対象カテゴリ以外のカテゴリに対する適合率が相対的に高い複数の第２の付加キーワードを抽出し、条件生成部は、再現率比較部によって再現率が閾値以上であると判定された場合、改善対象キーワード抽出部によって抽出された改善対象キーワードが含まれ、かつ付加キーワード抽出部によって抽出された複数の第２の付加キーワードのいずれもが含まれないことを示す文書判定条件を生成することを特徴とする。

また、本発明は、カテゴリに対するキーワードの適合率は、文書データ記憶部に記憶された文書データのうち、カテゴリが対応付けられた文書データの数と、キーワードが含まれる全てのカテゴリの文書データの数との比によって表されることを特徴とする。

また、本発明は、定められた文書データの内容に応じた分類を示す複数のカテゴリのうちいずれかのカテゴリが予め対応付けられた複数の文書データが記憶される文書データ記憶部と、複数のカテゴリのうち、文書データに含まれる語に応じて文書データのカテゴリを判定するための文書判定条件を生成する対象である対象カテゴリに対応する複数のキーワードと、キーワードが対象カテゴリに対して適合する度合いを示す適合率とが対応付けられて記憶されるキーワードリスト記憶部とを備えた文書判定条件生成装置の文書判定条件生成方法であって、キーワードリストに含まれるキーワードに対応付けられた適合率と予め定められた閾値とを比較して、閾値未満である適合率に対応するキーワードをキーワードリスト記憶部から抽出するステップと、抽出したキーワードが含まれ、かつ対象カテゴリが対応付けられた文書データである正解文書データを文書データ記憶部から抽出するステップと、抽出した正解文書データに含まれる語から、対象カテゴリに対する適合率が相対的に高い語である第１の付加キーワードを抽出するステップと、抽出したキーワードが含まれ、かつ抽出した第１の付加キーワードが含まれることを示す文書判定条件を生成するステップと、を備えることを特徴とする。

以上説明したように、本発明によれば、複数のカテゴリのうちいずれかのカテゴリが予め対応付けられた複数の文書データを記憶し、文書判定条件を生成する対象である対象カテゴリに対応する複数のキーワードと、キーワードが対象カテゴリに対して適合する度合いを示す適合率とを対応付けて記憶し、キーワードリストに含まれるキーワードに対応付けられた適合率と予め定められた閾値とを比較して、閾値未満である適合率に対応するキーワードを抽出し、抽出したキーワードが含まれる文書データを抽出し、抽出した文書データのうち、対象カテゴリが対応付けられた正解文書データを抽出し、抽出した正解文書データに含まれる語から、対象カテゴリに対する適合率が相対的に高い語である付加キーワードを抽出し、抽出したキーワードと付加キーワードとが含まれることを示す文書判定条件を生成するようにしたので、対象カテゴリに対応するキーワードのうち適合率が閾値未満であるキーワードについて、そのキーワードが含まれる文書データに含まれる語のうち、前記対象カテゴリに対する適合率が相対的に高い付加キーワードを抽出して、キーワードとの複合条件である文書判定条件を生成することができ、より分類ノイズが少ない文書判定を行なうための文書判定条件を生成する文書判定条件生成装置を提供することができる。

本発明の一実施形態による文書判定条件生成装置の構成例を示すブロック図である。本発明の一実施形態によるカテゴリとキーワードとの関係を示す図である。本発明の一実施形態による文書判定条件生成装置の動作例を示すフローチャートである。本発明の一実施形態による付加キーワード抽出処理の動作例を示すフローチャートである。本発明の一実施形態による文書判定条件生成処理の動作例を示すフローチャートである。本発明の一実施形態による文書判定条件生成処理に応じた再現率と抽出文書数との関係を示す図である。本発明の一実施形態による文書判定条件の例を示す図である。

以下、本発明の一実施形態について、図面を参照して説明する。
図１は、本実施形態による文書判定条件生成装置１００の構成を示すブロック図である。文書判定条件生成装置１００は、定められた文書データに含まれる語に応じて、文書データの内容に応じた分類を示すカテゴリを判定するための文書判定条件を生成するコンピュータ装置である。図２は、特定のカテゴリが対応付けられた文書データの集合と、特定のキーワードが含まれる文書データの集合との関係を概念的に示す図である。例えば、内容に応じたカテゴリが予め対応付けられた文書データの集合のうち、医療カテゴリが予め対応付けられた文書データ集合（符号ａ）と、経済カテゴリが予め対応付けられた文書データ集合（符号ｂ）とが存在する。各カテゴリには、そのカテゴリの文書データに特徴的に現れるキーワードが予め対応付けられている。

例えば、医療カテゴリには、「骨折」（符号ａ１）、「膝」（符号ａ２）、「リンパ性白血病」（符号ａ３）、「回復」（符号ａ４）などのキーワードが対応付けられる。このようなキーワードを文書判定条件として、キーワードが含まれる文書データ集合を抽出することによって医療カテゴリに属する文書データを抽出することができる。ここでは、カテゴリが未知である文書データにそのキーワードが含まれるか否かによって文書データのカテゴリが判定される。

この例では、符号ａ３に示される「リンパ性白血病」のキーワードが含まれる文書データ集合は、医療カテゴリが対応付けられた文書データ集合に包含される部分集合となっている。すなわち、カテゴリ未知の文書データに「リンパ性白血病」のキーワードが含まれている場合、その文書データのカテゴリは医療であると判定すれば、精度良い文書判定が可能である。これに対し、例えば符号ａ４に示される「回復」のキーワードが含まれる文書データ集合は、医療カテゴリと経済カテゴリとに含まれている。すなわち、カテゴリ未知の文書データに「回復」のキーワードが含まれている場合、その文書データのカテゴリが医療であると判定すると、経済カテゴリの文書データを医療カテゴリであると判定する場合がある。このような判定を分類ノイズという。

そこで、本実施形態では、より精度の高い文書判定が可能な文書判定条件を生成し、分類ノイズを低減する。例えば、キーワード「回復」が含まれる文書データ集合のうち、医療カテゴリに属する文書データに特徴的なキーワード（ＡＮＤ付加キーワード）を、キーワード「回復」に対して論理積演算子（ＡＮＤ）で結合した文書判定条件によれば、文書判定の精度を高めることが可能であると考えられる。この場合、キーワード「回復」が含まれる文書データのうち、医療カテゴリに属する符号ａ４−１の領域の文書データを抽出することができる。一方、経済カテゴリに属する文書データに特徴的なキーワード（ＮＯＴ付加キーワード）を、キーワード「回復」に対して否定演算子（ＮＯＴ）で結合した文書判定条件によっても、文書判定の精度を高めることが可能であると考えられる。この場合、キーワード「回復」が含まれる文書データのうち、医療カテゴリに属さない符号ａ４−２の領域の文書データを抽出して除外することができる。

例えば、医療カテゴリの文書データのうち、キーワード「回復」と、キーワード「回復」に対応し、医療カテゴリに特徴的な付加キーワード「容態」とを論理積演算子によって結合した文書判定条件によれば、より精度良い文書判定を行なうことが可能であると考えられる。本実施形態の文書判定条件生成装置１００は、このように、カテゴリ未知の文書データに対して、より精度良く文書判定を行なうための最適な付加キーワードを判定し、文書判定条件を生成するものである。ここで、文書データをその内容に応じて文書判定を行なう方法として、キーワードにより分類する他に、出現率などに基づいた機械学習により構築したモデルによる分類方法があるが、分類の根拠に明瞭性を求める場合には、本実施形態に示すように、キーワードによる分類方法の方が優れていると考えられる。

図１に戻り、文書判定条件生成装置１００は、キーワードリスト記憶部１１１と、改善対象キーワード抽出部１１２と、文書データ記憶部１１０と、文書データ抽出部１２１と、形態素解析部１２２と、処理対象語抽出部１２３と、付加キーワード抽出部１２４と、第１の再現率算出部１３１と、第１の再現率比較部１３２と、抽出文書数比較部１３３と、ＮＯＴ付加キーワード候補再抽出部１３４と、第２の再現率算出部１３５と、第２の再現率比較部１３６と、条件生成部１３７とを備えている。

文書データ記憶部１１０には、定められた複数のカテゴリのうちいずれかのカテゴリが予め対応付けられた複数の文書データが記憶される。文書データには、複数の文または語が含まれている。例えば、ニュース記事である文書データの内容に応じて、政治、経済、社会、スポーツ、芸能などのカテゴリが対応付けられて記憶される。例えば、文書データ記憶部１１０には、文書データを識別する文書ＩＤ（Identifier）と、文書データと、その文書データの内容に対応するカテゴリとが対応付けられて記憶される。文書データに対応付けられているカテゴリは、管理者によって文書データの内容に応じて入力されたカテゴリが対応付けられるようにしても良いし、文書データの作成者によって予め定められたカテゴリを対応付けても良いし、本実施形態の文書判定条件生成装置１００によって生成される文書判定条件を用いて判定されたカテゴリを対応付けるようにしても良い。ここで、文書データ記憶部１１０に記憶される文書データとしては、ニュース記事の他に、例えば医療におけるレセプトデータ、各種学術論文、企業等のコールセンター等への問合せ内容データ、電子メール、保険金の支払分類データなどを適用することができる。

キーワードリスト記憶部１１１には、予め定められた複数のカテゴリ毎に、そのカテゴリに対応する複数のキーワードと、そのキーワードがカテゴリに対して適合する度合いを示す適合率とが対応付けられたキーワードリストが記憶される。例えば、政治カテゴリに対応付けて、「選挙」、「政党」、「政策」などの語や、政党名や政治家名などの複数のキーワードと、各キーワードの政治カテゴリに対する適合率が対応付けられたキーワードリストが記憶される。

対象カテゴリに対して適合する度合いを示すキーワードの適合率は、例えば、文書データ記憶部１１０に記憶された文書データのうち、対象カテゴリが対応付けられており、かつそのキーワードが含まれる文書データの数と、そのキーワードが含まれる全てのカテゴリの文書データの数との比によって表される。ここでは、「適合率＝（対応するカテゴリに属する文書データのうち対応するキーワードが含まれる文書データの数）／（対応するキーワードが含まれる全てのカテゴリの文書データの数））」により表される。例えば、政治カテゴリに対するキーワード「選挙」の適合率は、「適合率＝（文書データ記憶部１１０に記憶された政治カテゴリに属する文書データのうち、キーワード「選挙」が含まれる文書データの数）／（文書データ記憶部１１０に記憶された全ての文書データのうち、キーワード「選挙」が含まれる文書データの数）」によって表される。

改善対象キーワード抽出部１１２は、キーワードリスト記憶部１１１に記憶されたキーワードリストに含まれるキーワードに対応付けられた適合率と予め定められた閾値とを比較して、閾値未満である適合率に対応するキーワードである改善対象キーワードを抽出する。すなわち、改善対象キーワード抽出部１１２は、キーワードの見直しを行なう対象であるカテゴリに対応するキーワードリストをキーワードリスト記憶部１１１から読み出し、読み出したキーワードリストに含まれる複数のキーワードのうち、キーワードに対応付けられた適合率と予め定められた閾値とを比較して、閾値未満である適合率が対応付けられたキーワードを、文書判定条件としての見直しを行なう対象である改善対象キーワードとして抽出する。ここで、改善対象キーワード抽出部１１２は、例えば「８０％」などの適合率の閾値を自身の記憶領域に予め記憶させている。このようにして、改善対象キーワード抽出部１１２は、対象カテゴリに対応するキーワードリストに含まれるキーワードのうち、文書判定条件として用いた場合に分類ノイズが多く、分類精度が低いと思われる改善対象キーワードを抽出する。ここで、改善対象キーワード抽出部１１２によって、適合率が閾値未満である複数の改善対象キーワード群が抽出された場合には、抽出した改善対象キーワード群のそれぞれについて以降の機能部による処理が行われる。

文書データ抽出部１２１は、改善対象キーワード抽出部１１２によって抽出された改善対象キーワードが含まれ、かつ対象カテゴリが対応付けられた文書データである正解文書データを、文書データ記憶部１１０から抽出する。また、文書データ抽出部１２１は、改善対象キーワード抽出部１１２によって抽出された改善対象キーワードが含まれ、かつ対象カテゴリ以外のカテゴリが対応付けられた文書データである不正解文書データを抽出する。例えば、文書データ抽出部１２１は、改善対象キーワードが含まれる文書データを文書判定条件生成装置１００から抽出し、抽出した文書データに対応付けられたカテゴリが対象カテゴリであれば正解文書と判定し、文書データに対応付けられたカテゴリが対象カテゴリ以外のカテゴリであれば不正解文書と判定する。

形態素解析部１２２は、文書データ抽出部１２１によって抽出された正解文書データまたは不正解文書データに含まれる文を形態素解析し、正解文書データに含まれる形態素とその形態素に対応する品詞とを出力する。形態素解析は、定められた文法や辞書に基づいて、文を解析して意味を持つ最小単位（形態素）に分割する処理である。例えば、形態素解析部１２２は、複数の語と、その語の品詞を示す情報とが対応付けられた辞書を自身の記憶領域に予め記憶する。また、形態素解析部１２２は、品詞の接続関係を示す文法規則を示す情報を、自身の記憶領域に予め記憶する。形態素解析部１２２は、解析対象の文を予め記憶した辞書に含まれる語毎に分割する。形態素解析部１２２は、分割した語毎に対応する品詞の接続関係が、予め定められた文法規則に応じた正しい並び順であるか否かを判定し、正しい並び順となった場合に分割した語を正解とする。例えば、形態素解析部１２２は、解析対象文が「リンパ性白血病を発症した」である場合、解析対象文を「リンパ」（名詞）、「性」（名詞）、「白血病」（名詞）、「を」（助詞）、「発症」（名詞）、「し」（動詞）、「た」（助動詞）の７語に分割する。

処理対象語抽出部１２３は、形態素解析部１２２による形態素解析の結果に基づいて、品詞が名詞である形態素を抽出する。ここで、処理対象語抽出部１２３は、品詞が名詞である語のうち非自立名詞や副詞可能名詞などの名詞は抽出しないようにしても良い。また、処理対象語抽出部１２３は、抽出した形態素に基づいて、連続する名詞の組み合わせである複合語を生成する。例えば、「リンパ」、「性」、「白血病」の３形態素が連続する場合、「リンパ性」、「性白血病」、「リンパ性白血病」の複合語を生成する。また、処理対象語抽出部１２３は、形態素解析部１２２によって抽出された形態素および生成した複合語から、定められた条件に基づいて不適切な形態素または複合語を削除する。例えば、処理対象語抽出部１２３は、接尾語で始まる複合語、接頭語で終わる複合語、アルファベットまたはひらがな一文字の形態素、数字のみで構成される形態素または複合語などを不適切として削除する。この例では、「性白血病」という複合語は接尾語で始まっているため削除され、「リンパ」、「性」、「白血病」、「リンパ性」、「リンパ性白血病」の５つの形態素及び複合語が処理対象語として抽出される。

付加キーワード抽出部１２４は、文書データ抽出部１２１によって抽出された正解文書データに含まれる語から、対象カテゴリに対する適合率が相対的に高い複数の語をＡＮＤ付加キーワードとして抽出する。ＡＮＤ付加キーワードは、改善対象キーワードと論理積演算子によって結合するキーワードである。付加キーワード抽出部１２４は、文書データ抽出部１２１によって抽出された正解文書データに含まれる語のうち、処理対象語抽出部１２３によって抽出された処理対象語から、予め定められた複数（例えば、５０キーワード）のＡＮＤ付加キーワードを抽出する。ここで、付加キーワード抽出部１２４によって抽出されたＡＮＤ付加キーワードは、改善対象キーワードと論理積演算子によって結合される。また、複数のＡＮＤ付加キーワードが抽出された場合は、複数のＡＮＤ付加キーワード同士は論理和演算子によって結合される。

ここでは、付加キーワード抽出部１２４は、処理対象語抽出部１２３によって抽出された処理対象語のそれぞれについて、対象カテゴリに対する適合率を算出する。付加キーワード抽出部１２４は、処理対象語抽出部１２３によって抽出された処理対象語の対象カテゴリに対する適合率、対象カテゴリに属する文書データのうち処理対象語が属する文書データ数、処理対象語に含まれる形態素の数などに基づいて、予め定められた数のＡＮＤ付加キーワードを抽出する。付加キーワード抽出部１２４は、付加キーワードを抽出する数の閾値を自身の記憶領域に予め記憶している。同様に、付加キーワード抽出部１２４は、文書データ抽出部１２１によって抽出された不正解文書データに含まれる語から、対象カテゴリ以外のカテゴリに対する適合率が相対的に高い語である複数のＮＯＴ付加キーワードを抽出する。このように、付加キーワード抽出部１２４は、対象カテゴリに対する適合率が相対的に高いＡＮＤ付加キーワードと、対象カテゴリ以外のカテゴリに対する適合率が相対的に高いＮＯＴ付加キーワードとの付加キーワードを抽出する。

第１の再現率算出部１３１は、文書データ抽出部１２１によって抽出された正解文書データの数と、後述する条件生成部１３７によって生成される文書判定条件を用いて文書データ記憶部１１０に記憶された文書データから抽出する文書データの数との比である再現率を算出する。ここで、第１の再現率算出部１３１は、改善対象キーワードと、付加キーワード抽出部１２４によって抽出された複数のＡＮＤ付加キーワードとを論理積演算子で結合した文書判定条件を生成し、生成した文書判定条件に一致する文書データを文書データ記憶部１１０から抽出し、再現率を算出する。再現率は、改善対象キーワードのみで抽出された正解文書の数に対して、ＡＮＤ付加キーワードまたはＮＯＴ付加キーワードを付加した文書判定条件を用いて抽出された正解文書の数の割合を示す。すなわち、再現率は、「再現率＝（改善対象キーワードと、付加キーワード抽出部１２４によって抽出された複数のＡＮＤ付加キーワードのうち一番目の候補として抽出されたＡＮＤ付加キーワードとを論理積演算子で結合した文書判定条件に基づいて抽出される文書データの数）／（文書データ抽出部１２１によって抽出された正解文書データの数）」によって表される。また、第１の再現率算出部１３１は、算出した再現率が、第１の再現率比較部１３２によって許容再現率未満であると判定されると、付加キーワード抽出部１２４によって抽出された次候補のＡＮＤ付加キーワードを、改善対象キーワードに対して論理積演算子で結合した文書判定条件を生成し、生成した文書判定条件に一致する文書データを文書データ記憶部１１０から抽出し、再現率を算出する。このように、第１の再現率算出部１３１による再現率の算出処理は、第１の再現率比較部１３２によって算出した再現率が容再現率未満であると判定される度に繰り返しループして行なわれる。ここで、第１の再現率算出部１３１によって改善対象キーワードに付加されるＡＮＤ付加キーワードは、改善対象キーワードに対しては論理積演算子によって結合される。また、複数のＡＮＤ付加キーワードを改善対象キーワードに付加する場合は、複数のＡＮＤ付加キーワード同士は論理和演算子によって結合される。

第１の再現率比較部１３２は、第１の再現率算出部１３１が算出した再現率と、予め定められた再現率の閾値（許容再現率）とを比較して、再現率が閾値未満であるか否かを判定する。許容再現率は、例えば８０（％）などの値であり、自身の記憶領域に予め記憶する。許容再現率は、再現率を指標として、どの程度まで正解文書の抽出が再現できれば文書判定条件を許容するかを定めた閾値である。例えば、許容再現率が８０％であれば、改善対象キーワードのみで抽出された正解文書を１００とした場合に、付加キーワードを付加したカテゴリ判定条件を用いて抽出された正解文書がその８０％以上であれば、その文書判定条件は妥当であるとして許容される。ここで、第１の再現率比較部１３２により再現率が許容再現率未満であると判定されると、第１の再現率算出部１３１によって次候補のＡＮＤ付加キーワードが付加された文書判定条件を用いた再現率が算出され、第１の再現率比較部１３２による判定処理が繰り返しループして行なわれる。

抽出文書数比較部１３３は、改善対象キーワードのみを文書判定条件として文書データ記憶部１１０から文書データを抽出した場合の文書データ数（抽出文書数）と、第１の再現率算出部１３１または第２の再現率算出部１３５によって生成された文書判定条件を用いて文書データ記憶部１１０から文書データを抽出した場合の文書データ数（抽出文書数）とを比較する。

ＮＯＴ付加キーワード候補再抽出部１３４は、抽出文書数比較部１３３によって、改善対象キーワードのみに基づく抽出文書数と、第１の再現率算出部１３１によって生成された文書判定条件に基づく抽出文書数とが一致しないと判定されると、改善対象キーワードを含み、かつ第１の再現率算出部１３１によって付加されたＡＮＤ付加キーワード（ＡＮＤ付加キーワードが複数個である場合は、複数個のＡＮＤ付加キーワードのいずれか）を含む文書データを文書データ記憶部１１０から抽出する。そして、ＮＯＴキーワード候補再抽出部１３４は、抽出した文書データのうちの不正解文書データを新たな不正解文書として、ＮＯＴ付加キーワードを再抽出する。

第２の再現率算出部１３５は、付加キーワード抽出部１２４またはＮＯＴキーワード候補再抽出部１３４によって抽出されたＮＯＴ付加キーワードのうち一番目の候補として抽出されたＮＯＴ付加キーワードに否定演算子を付加し、否定演算子を付加したＮＯＴ付加キーワードと改善対象キーワードとを論理積演算子で結合した文書判定条件を生成し、生成した文書判定条件に一致する文書データを文書データ記憶部１１０から抽出し、再現率を算出する。また、第２の再現率算出部１３５は、算出した再現率が、第２の再現率比較部１３６によって許容再現率以上であると判定されると、付加キーワード抽出部１２４によって抽出された次候補のＮＯＴ付加キーワードに否定演算子を付加し、改善対象キーワードに対して論理積演算子で結合した文書判定条件を生成し、生成した文書判定条件に一致する文書データを文書データ記憶部１１０から抽出し、再現率を算出する。

第２の再現率比較部１３６は、第２の再現率算出部１３５が算出した再現率と、予め定められた再現率の閾値（許容再現率）とを比較して、再現率が閾値以上であるか否かを判定する。許容再現率は、例えば８０（％）などの値であり、第１の再現率比較部１３２に記憶された値を参照する。

条件生成部１３７は、改善対象キーワード抽出部１１２によって抽出された改善対象キーワードが含まれ、かつ付加キーワード抽出部１２４によって抽出されたＡＮＤ付加キーワードが含まれる文書判定条件を生成する。また、条件生成部１３７は、改善対象キーワード抽出部１１２によって抽出されたキーワードが含まれ、かつ付加キーワード抽出部１２４によって抽出されたＮＯＴ付加キーワードが含まれないことを示す文書判定条件を生成する。ここでは、条件生成部１３７は、自身の記憶領域に、最低抽出文書数と、最適ＡＮＤ付加キーワード数と、最適ＡＮＤ付加キーワード数との変数を記憶しており、これらの変数は、第１の再現率算出部１３１や第２の再現率算出部１３５等によって更新される。

ここで、条件生成部１３７は、付加キーワード抽出部１２４によって抽出された複数のＡＮＤ付加キーワードのうち、最適ＡＮＤ付加キーワード数に示される数のＡＮＤ付加キーワードを論理和演算子（ＯＲ）によって結合する。また、条件生成部１３７は、論理和演算子によって結合した複数のＡＮＤ付加キーワードと、改善対象キーワード抽出部１１２によって抽出されたキーワードとを論理積演算子で結合する。

また、条件生成部１３７は、付加キーワード抽出部１２４によって抽出された複数のＮＯＴ付加キーワードのうち、最適ＮＯＴ付加キーワード数に示される数のＮＯＴ付加キーワードに否定演算子を付加し、否定演算子を付加した複数のＮＯＴ付加キーワードを論理積演算子によって結合する。また、条件生成部１３７は、論理積演算子によって結合した複数のＮＯＴ付加キーワードと、改善対象キーワード抽出部１１２によって抽出されたキーワードとを論理積演算子で結合する。

次に、本実施形態による文書判定条件生成装置１００の動作例を説明する。図３は、文書判定条件生成装置１００が、判定条件の見直し対象となる対象カテゴリの判定条件を生成する動作例を示すフローチャートである。ここでは、文書判定条件生成装置１００は、例えば表示装置であるディスプレイや、ユーザからの入力を受け付ける入力装置であるキーボードやマウスなどを備えており、定められた複数のカテゴリを表示装置に表示し、判定条件の見直しを行なう対象カテゴリの入力を受け付ける。

文書判定条件生成装置１００の改善対象キーワード抽出部１１２は、対象カテゴリに対応するキーワードリストをキーワードリスト記憶部１１１から読み出す。改善対象キーワード抽出部１１２は、読み出したキーワードリストに含まれる複数のキーワードのうち、キーワードに対応付けられた適合率と予め定められた閾値とを比較して、閾値未満である適合率が対応付けられたキーワードを、判定条件の見直しを行なう改善対象キーワード（複数存在する場合は、改善対象キーワード群）として抽出する（ステップＳ１００）。

次に、文書判定条件生成装置１００は、ステップＳ１００において抽出された改善対象キーワードに対する付加キーワードを抽出する処理を行う（ステップＳ２００）。図４は、文書判定条件生成装置１００による付加キーワード抽出処理を示すフローチャートである。文書データ抽出部１２１は、改善対象キーワード抽出部１１２が抽出した改善対象キーワードが含まれる正解文書データと不正解文書データとを、文書データ記憶部１１０から読み出す（ステップＳ２０１）。形態素解析部１２２は、改善対象キーワード抽出部１１２によって抽出された文書データに含まれる文の形態素解析の処理を行ない、形態素と、形態素に対応する品詞との情報を出力する（ステップＳ２０２）。処理対象語抽出部１２３は、形態素解析部１２２によって出力された形態素から、品詞が名詞である形態素を抽出する。また、処理対象語抽出部１２３は、品詞が名詞である形態素の組み合わせである複数の複合語を生成する（ステップＳ２０３）。処理対象語抽出部１２３は、抽出した形態素および生成した複数の複合語とから、定められた不適切な形態素または複合語を削除し、処理対象語を出力する（ステップＳ２０４）。

付加キーワード抽出部１２４は、処理対象語抽出部１２３が出力した処理対象語の対象カテゴリに対する適合率を算出し、対象カテゴリの正解文書に対する適合率が最も高い処理対象語を抽出する（ステップＳ２１０）。ここで、付加キーワード抽出部１２４は、既にＡＮＤ付加キーワード候補として抽出されている処理対象語を抽出対象から除外する。そして、付加キーワード抽出部１２４は、ステップＳ２１０において抽出した処理対象語が複数件であるか否かを判定する（ステップＳ２１１）。ここで、抽出した処理対象語が１件であれば（ステップＳ２１１：ＮＯ）、ステップＳ２１７に進む。抽出した処理対象語が複数件であれば（ステップＳ２１１：ＹＥＳ）、付加キーワード抽出部１２４は、ステップＳ２１０において抽出した処理対象語のうち、その処理対象語が含まれる正解文書データの数を算出し、文書データの数が大きい処理対象語を抽出する（ステップＳ２１２）。

付加キーワード抽出部１２４は、ステップＳ２１２において抽出した処理対象語が複数件であるか否かを判定する（ステップＳ２１３）。ここで、抽出した処理対象語が１件であれば（ステップＳ２１３：ＮＯ）、ステップＳ２１７に進む。抽出した処理対象語が複数件であれば（ステップＳ２１３：ＹＥＳ）、付加キーワード抽出部１２４は、ステップＳ２１２において抽出した処理対象語のうち、その処理対象語に含まれる形態素の数が大きい処理対象語を抽出する（ステップＳ２１４）。

付加キーワード抽出部１２４は、ステップＳ２１４において抽出した処理対象語が複数件であるか否かを判定する（ステップＳ２１５）。ここで、抽出した処理対象語が１件であれば（ステップＳ２１５：ＮＯ）、ステップＳ２１７に進む。抽出した処理対象語が複数件であれば（ステップＳ２１５：ＹＥＳ）、付加キーワード抽出部１２４は、ステップＳ２１４において抽出した処理対象語のうち、任意の処理対象語を抽出する（ステップＳ２１６）。ここで、任意の処理対象語を抽出する場合、付加キーワード抽出部１２４は、例えば、文書データ中から最初または最後に抽出された処理対象語を抽出する。

付加キーワード抽出部１２４は、ステップＳ２１０、ステップＳ２１２、ステップＳ２１４またはステップＳ２１６のいずれかにおいて抽出された処理対象語をＡＮＤ付加キーワード候補として判定する（ステップＳ２１７）。付加キーワード抽出部１２４は、予め指定した数のＡＮＤ付加キーワード候補を抽出したか否かを判定する（ステップＳ２１８）。付加キーワード抽出部１２４は、予め指定した数のＡＮＤ付加キーワード候補を抽出していなければ（ステップＳ２１８：ＮＯ）、ステップＳ２１０に戻り、他のＡＮＤ付加キーワード候補を抽出する。一方、付加キーワード抽出部１２４は、予め指定した数のＡＮＤ付加キーワード候補を抽出していれば（ステップＳ２１８：ＹＥＳ）、ステップＳ２２０に進む。付加キーワード抽出部１２４は、ステップＳ２１０〜ステップＳ２１８と同様に、ステップＳ２０１において文書データ抽出部１２１によって抽出された不正解文書データに基づいて処理対象語抽出部１２３が抽出した処理対象語から、予め定められた数のＮＯＴ付加キーワードを抽出する（ステップＳ２２０〜ステップＳ２２８）。
この例では、ステップＳ２１０において、付加キーワード抽出部１２４は、既にＡＮＤ付加キーワード候補として抽出されている処理対象語を抽出対象から除外することで、同一のＡＮＤ付加キーワード候補が複数抽出されることを防ぐこととしたが、例えば、ステップＳ２１７において、抽出されたＡＮＤ付加キーワードを含む文書データを正解文書から除いて、ステップＳ２１０に戻るようにしても良い。ＮＯＴ付加キーワード候補の抽出時にも、同様に、ステップＳ２２０において、既にＮＯＴ付加キーワード候補として抽出されている処理対象語を抽出対象から除外することで、同一のＮＯＴ付加キーワード候補が複数抽出されることを防ぐようにしても良いし、ステップＳ２２７において、抽出されたＮＯＴ付加キーワードを含む文書データを不正解文書から除いて、ステップＳ２２０に戻るようにしても良い。

図３に戻り、文書判定条件生成装置１００は、ステップＳ２００において抽出された複数の付加キーワードに基づいて、最適な文書判定条件を生成する（ステップＳ３００）。図５は、文書判定条件生成装置１００による文書判定条件生成処理を示すフローチャートである。条件生成部１３７は、最低抽出文書数と、最適ＡＮＤキーワード数と、最適ＮＯＴキーワード数との変数を自身の記憶領域に記憶し、それぞれの値を初期化する（ステップＳ３０１）。最低抽出文書数は、生成した複数の文書判定条件を用いて文書データ記憶部１１０から抽出される文書データの数（文書数）のうち、最も小さい文書数を示す値である。最適ＡＮＤキーワード数は、最低抽出文書数に対応する文書判定条件において付加したＡＮＤキーワードの数を示す値である。最適ＮＯＴキーワード数は、最低抽出文書数に対応する文書判定条件において付加したＮＯＴキーワードの数を示す値である。

第１の再現率算出部１３１は、改善対象キーワードと、付加キーワード抽出部１２４によって抽出された複数のＡＮＤ付加キーワードのうち一番目の候補として抽出されたＡＮＤ付加キーワードとを論理積演算子で結合した文書判定条件を生成し、生成した文書判定条件に一致する文書データを文書データ記憶部１１０から抽出し、再現率を算出する。第１の再現率比較部１３２は、第１の再現率算出部１３１によって算出された再現率と、自身の記憶領域に記憶した許容再現率とを比較し、再現率が許容再現率を上回ったか否かを判定する（ステップＳ３０２）。第１の再現率比較部１３２が、再現率は許容再現率を上回っていると判定すると（ステップＳ３０２：ＹＥＳ）、ステップＳ３０４に進む。

一方、第１の再現率比較部１３２が、再現率は許容再現率を上回っていないと判定すると（ステップＳ３０２：ＮＯ）、第１の再現率算出部１３１は、付加キーワード抽出部１２４によって抽出されたＡＮＤ付加キーワードのうち次候補のＡＮＤ付加キーワードを付加した文書判定条件を生成する（ステップＳ３０３）。ここでは、第１の再現率算出部１３１は、複数のＡＮＤ付加キーワードを論理和演算子で結合し、複数のＡＮＤ付加キーワードと改善対象キーワードとを論理積演算子で結合する。第１の再現率算出部１３１は、ステップＳ３０２に戻り、生成した文書判定条件に一致する文書データを文書データ記憶部１１０から抽出し、再現率を算出する。そして、文書判定条件生成装置１００は、第１の再現率比較部１３２によって再現率が許容再現率を上回っていると判定されるまで、ステップＳ３０２とステップＳ３０２との処理を繰り返す。

ステップＳ３０２において、第１の再現率比較部１３２が、再現率は許容再現率を上回っていると判定すると、抽出文書数比較部１３３は、改善対象キーワードのみを文書判定条件として文書データ記憶部１１０から文書データを抽出した場合の文書データ数（抽出文書数）と、ステップＳ３０３において第１の再現率算出部１３１によって生成された文書判定条件を用いて文書データ記憶部１１０から文書データを抽出した場合の文書データ数（抽出文書数）とを比較する（ステップＳ３０４）。抽出文書数比較部１３３が、改善対象キーワードのみに基づく抽出文書数と、第１の再現率算出部１３１によって生成された文書判定条件に基づく抽出文書数とが一致すると判定すると（ステップＳ３０４：ＹＥＳ）、第２の再現率算出部１３５は、条件生成部１３７の記憶領域に記憶された最適ＡＮＤキーワード数の変数に０（ゼロ）を代入する（ステップＳ３０５）。

第２の再現率算出部１３５は、付加キーワード抽出部１２４によって抽出されたＮＯＴ付加キーワードのうち一番目の候補として抽出されたＮＯＴ付加キーワードに否定演算子を付加し、否定演算子を付加したＮＯＴ付加キーワードと改善対象キーワードとを論理積演算子で結合した文書判定条件を生成し、生成した文書判定条件に一致する文書データを文書データ記憶部１１０から抽出し、再現率を算出する。また、条件生成部１３７は、この時点での文書判定条件を用いた抽出文書数を、最低抽出文書数として自身の記憶領域に記憶させる。第２の再現率比較部１３６は、第２の再現率算出部１３５によって算出された再現率と、自身の記憶領域に記憶した許容再現率とを比較し、再現率が許容再現率を上回っているか否かを判定する（ステップＳ３０６）。

ステップＳ３０６において、第２の再現率比較部１３６が再現率は許容再現率を上回っていると判定すると（ステップＳ３０６：ＹＥＳ）、第２の再現率算出部１３５は、付加キーワード抽出部１２４によって抽出されたＮＯＴ付加キーワードのうち次候補のＮＯＴ付加キーワードを付加した文書判定条件を生成する（ステップＳ３０７）。ここでは、第２の再現率算出部１３５は、否定演算子が付加された複数のＮＯＴ付加キーワードを論理和演算子で結合し、結合した複数のＮＯＴ付加キーワードと改善対象キーワードとを論理積演算子で結合する。第２の再現率算出部１３５は、ステップＳ３０６に戻り、生成した文書判定条件に一致する文書データを文書データ記憶部１１０から抽出し、再現率を算出する。そして、文書判定条件生成装置１００は、第２の再現率比較部１３６によって再現率が許容再現率を上回っていないと判定されるまで、ステップＳ３０６とステップＳ３０７との処理を繰り返す。ステップＳ３０６において、第２の再現率比較部１３６が再現率は許容再現率を上回っていないと判定すると（ステップＳ３０６：ＮＯ）、第２の再現率比較部１３６は、再現率が許容再現率を上回るＮＯＴ付加キーワードの数を、条件生成部１３７の記憶領域に記憶された最適ＮＯＴキーワード数の変数に代入する（ステップＳ３０８）。

一方、ステップＳ３０４において、抽出文書数比較部１３３が、改善対象キーワードのみに基づく抽出文書数と、第１の再現率算出部１３１によって生成された文書判定条件に基づく抽出文書数とが一致しないと判定すると（ステップＳ３０４：ＮＯ）、ＮＯＴ付加キーワード候補再抽出部１３４は、改善対象キーワードを含み、かつ第１の再現率算出部１３１によって付加されたＡＮＤ付加キーワード（ＡＮＤ付加キーワードが複数個である場合は、複数個のＡＮＤ付加キーワードのいずれか）を含む文書データを文書データ記憶部１１０から抽出する。

第２の再現率算出部１３５は、ステップＳ３０６と同様に、付加キーワード抽出部１２４によって抽出されたＮＯＴ付加キーワードのうち一番目の候補として抽出されたＮＯＴ付加キーワードに否定演算子を付加し、否定演算子を付加したＮＯＴ付加キーワードと改善対象キーワードとを論理積演算子で結合した文書判定条件を生成し、生成した文書判定条件に一致する文書データを文書データ記憶部１１０から抽出し、再現率を算出する。また、条件生成部１３７は、この時点での文書判定条件を用いた抽出文書数を、最低抽出文書数として自身の記憶領域に記憶させる。第２の再現率比較部１３６は、第２の再現率算出部１３５によって算出された再現率と、自身の記憶領域に記憶した許容再現率とを比較し、再現率が許容再現率を上回っているか否かを判定する（ステップＳ３１１）。

ステップＳ３１１において、第２の再現率比較部１３６が再現率は許容再現率を上回っていると判定すると（ステップＳ３１１：ＹＥＳ）、第２の再現率算出部１３５は、付加キーワード抽出部１２４によって抽出されたＮＯＴ付加キーワードのうち次候補のＮＯＴ付加キーワードを付加した文書判定条件を生成する（ステップＳ３１２）。第２の再現率算出部１３５は、ステップＳ３１１に戻り、生成した文書判定条件に一致する文書データを文書データ記憶部１１０から抽出し、再現率を算出する。そして、文書判定条件生成装置１００は、第２の再現率比較部１３６によって再現率が許容再現率を上回っていないと判定されるまで、ステップＳ３１１とステップＳ３１２との処理を繰り返す。ステップＳ３１１において、第２の再現率比較部１３６が再現率は許容再現率を上回っていないと判定すると（ステップＳ３１１：ＮＯ）、抽出文書数比較部１３３は、条件生成部１３７に記憶された最低抽出文書数と、ステップＳ３１１において第２の再現率算出部１３５が生成した文書判定条件を用いて文書データ記憶部１１０から抽出される文書数とを比較する（ステップＳ３１３）。

抽出文書数比較部１３３が、条件生成部１３７に記憶された最低抽出文書数はステップＳ３１１において第２の再現率算出部１３５が生成した文書判定条件に基づく抽出文書数以上であると判定すると（ステップＳ３１３：ＹＥＳ）、条件生成部１３７は、最適抽出文書数の変数に、ステップＳ３１１において第２の再現率算出部１３５が生成した文書判定条件に基づく抽出文書数を代入する。また、最適ＡＮＤキーワード数に、第１の再現率算出部１３１によって付加されたＡＮＤ付加キーワードの数を代入し、最適ＮＯＴキーワード数に、第２の再現率算出部１３５によって付加されたＮＯＴ付加キーワードの数を代入し、文書判定条件の最適解を上書きする（ステップＳ３１４）。

ステップＳ３１４における文書判定条件の最適解の上書き処理を行った場合、またはステップＳ３１３において抽出文書数比較部１３３が、最低抽出文書数は文書判定条件に基づく抽出文書数以上でないと判定した場合（ステップＳ３１３：ＮＯ）、条件生成部１３７は、文書判定条件に基づく再現率が１００％であるか、もしくは付加キーワード抽出部１２４によって抽出されたＡＮＤ付加キーワード候補の全てを文書判定条件に設定したかを判定する（ステップＳ３１５）。

条件生成部１３７は、文書判定条件に基づく再現率が１００％でなく、かつ付加キーワード抽出部１２４によって抽出されたＡＮＤ付加キーワード候補の全てが文書判定条件に設定されていないと判定すると（ステップＳ３１５：ＮＯ）、次のＡＮＤ付加キーワード候補を文書判定条件に付加し、ステップＳ３１０に戻る。一方、ステップＳ３１５において、条件生成部１３７が、文書判定条件に基づく再現率が１００％であるか、もしくは付加キーワード抽出部１２４によって抽出されたＡＮＤ付加キーワード候補の全てを文書判定条件に設定したと判定すると（ステップＳ３１５：ＹＥＳ）、自身の記憶部に記憶された最適ＡＮＤキーワード数と、最適ＮＯＴキーワード数とを最適解であると判定する（ステップＳ３０９）。条件生成部１３７は、最適ＡＮＤキーワード数と、最適ＮＯＴキーワード数とに基づいて、文書判定条件を生成する（ステップＳ３０９）。

図６は、図５を用いて説明した文書判定条件生成処理における抽出文書数と再現率との関係を示す図である。この図において、Ｘ軸は抽出文書数を示し、Ｙ軸は再現率を示す。ここで、改善対象キーワードのみを文書判定条件とした場合の抽出文書数をＴ０とする。Ｔ０に示される抽出文書数は、分類ノイズを含んだ数であると考えられる。符号ａ１は、改善対象キーワードに対してＡＮＤ付加キーワードを１個付加した場合の再現率と抽出文書数とに対応する点である。このように、ＡＮＤ付加キーワード同士を論理和演算子により結合して付加すると、再現率と抽出文書数とが増加する。第１の再現率算出部１３１は、再現率が許容再現率を超えるまでＡＮＤ付加キーワードを付加する（符号ａ２〜符号ａ８）。ＡＮＤ付加キーワードを８個付加し、再現率が許容再現率を超えると、ＮＯＴ付加キーワードを付加する。符号ｄ１は、ＡＮＤ付加キーワードが８個付加された文書判定条件にさらにＮＯＴ付加キーワードを１個付加した場合の再現率と抽出文書数とに対応する点である。第２の再現率算出部１３５は、このようにＮＯＴ付加キーワードを付加して、文書判定条件によって抽出される抽出文書数を減少させる。

第２の再現率算出部１３５は、文書判定条件にＮＯＴ付加キーワードを付加し続け、再現率が許容再現率以下にならない最大のＮＯＴ付加キーワード数を判定する。この例では、符号ａ８の点から、ＮＯＴ付加キーワードを６個付加した場合（ｄ６）には再現率が許容再現率以下になるため、ＮＯＴ付加キーワードを５個付加した場合の抽出文書数（Ｔ１）の値を最低抽出文書数に代入し、最適ＮＯＴキーワード数に５を代入し、最適ＡＮＤキーワード数に８を代入する。ここで、再現率は１００％でなく、ＡＮＤキーワード候補の全てが文書判定条件に付加されていないので（上述したフローにおけるステップＳ３１５において、ＮＯに進む）、９個目のＡＮＤ付加キーワードを付加し、９個目のＡＮＤ付加キーワードに対して同様にＮＯＴキーワードを付加する。文書判定条件生成装置１００は、このようにして、複数の文書判定条件に基づく再現率と抽出文書数とを算出し、許容再現率を満たし、かつ抽出文書数が最も小さくなる場合の文書判定条件を、最適な文書判定条件として出力する。すなわち、許容再現率を満たす文書データ群の中には、不正解文書（ノイズ）が含まれていることが考えられるため、許容再現率を満たす文書データ群のうち、最も抽出文書数が少ない文書データ群が、最もノイズの少ない文書データ群であると考えられる。このため、カテゴリ判定条件生成装置１００は、抽出文書数が最も小さくなる場合の文書判定条件を、最適な文書判定条件として出力する。

図７は、従来の文書判定条件と、本実施形態の文書判定条件生成装置１００によって生成される文書判定条件との例を示す図である。例えば、従来において「障害」カテゴリに属する文書データを抽出するための文書判定条件として「指切断」、「膝」、「骨折」、「音声障害」などのキーワードが独立に設定されており、このうち「膝」と「骨折」とのキーワードの適合率が低く、これらを用いた場合の分類ノイズが多いとする。ここで、これらについて最適なＡＮＤ付加キーワード、ＮＯＴ付加キーワードを判定し、文書判定条件に付加する。例えば、キーワード「膝」に対して、論理和演算子（Ｏｒ）によって結合されたＡＮＤ付加キーワード「切断」およびＡＮＤ付加キーワード「壊死」と、否定演算子が付加されたＮＯＴ付加キーワード「両脚」とが、論理積演算子（＆）によって結合されている。また、キーワード「骨折」に対して、ＡＮＤ付加キーワード「大腿骨」と、否定演算子が付加され、論理積演算子（＆）によって結合されたＮＯＴ付加キーワード「認めず」および「軽度」とが、論理積演算子（＆）によって結合されている。
以上説明したように、本実施形態によれば、許容再現率を超える再現率を保った状態で、文書判定の分類ノイズを最小化し、最適な文書判定条件を生成することが可能である。

なお、本発明における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより文書判定条件の生成を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

１００文書判定条件生成装置
１１０文書データ記憶部
１１１キーワードリスト記憶部
１１２改善対象キーワード抽出部
１２１文書データ抽出部
１２２形態素解析部
１２３処理対象語抽出部
１２４付加キーワード抽出部
１３１第１の再現率算出部
１３２第１の再現率比較部
１３３抽出文書数比較部
１３４ＮＯＴキーワード候補再抽出部
１３５第２の再現率算出部
１３６第２の再現率比較部
１３７条件生成部

Claims

定められた文書データに含まれる語に応じて、文書データの内容に応じた分類を示すカテゴリを判定するための文書判定条件を生成する文書判定条件生成装置であって、
複数の前記カテゴリのうちいずれかのカテゴリが予め対応付けられた複数の文書データが記憶される文書データ記憶部と、
複数の前記カテゴリのうち、前記文書判定条件を生成する対象である対象カテゴリに対応する複数のキーワードと、当該キーワードが前記対象カテゴリに対して適合する度合いを示す適合率とが対応付けられて記憶されるキーワードリスト記憶部と、
前記キーワードリストに含まれる前記キーワードに対応付けられた前記適合率と予め定められた閾値とを比較して、前記閾値未満である前記適合率が対応付けられた前記キーワードである改善対象キーワードを前記キーワードリスト記憶部から抽出する改善対象キーワード抽出部と、
前記改善対象キーワード抽出部によって抽出された前記改善対象キーワードが含まれ、かつ前記対象カテゴリが対応付けられた前記文書データである正解文書データを前記文書データ記憶部から抽出する文書データ抽出部と、
前記文書データ抽出部によって抽出された前記正解文書データに含まれる語から、前記対象カテゴリに対する前記適合率が相対的に高い語である第１の付加キーワードを抽出する付加キーワード抽出部と、
前記改善対象キーワード抽出部によって抽出された前記改善対象キーワードが含まれ、かつ前記付加キーワード抽出部によって抽出された前記第１の付加キーワードが含まれることを示す前記文書判定条件を生成する条件生成部と、
を備えることを特徴とする文書判定条件生成装置。
前記文書データ抽出部によって抽出された前記正解文書データに含まれる文を形態素解析し、前記正解文書データに含まれる形態素と当該形態素に対応する品詞とを出力する形態素解析部と、
前記形態素解析部による形態素解析の結果に基づいて、品詞が名詞である前記形態素が含まれる語である処理対象語を抽出する処理対象語抽出部と、を備え、
前記付加キーワード抽出部は、前記処理対象語抽出部によって抽出された前記処理対象語から、前記第１の付加キーワードを抽出する
ことを特徴とする請求項１に記載の文書判定条件生成装置。
前記文書データ抽出部は、前記改善対象キーワード抽出部によって抽出された前記改善対象キーワードおよび前記付加キーワード抽出部によって抽出された前記第１の付加キーワードが含まれ、かつ前記対象カテゴリ以外の前記カテゴリが対応付けられた前記文書データである不正解文書データを抽出し、
前記付加キーワード抽出部は、前記文書データ抽出部によって抽出された前記不正解文書データに含まれる語から、前記対象カテゴリ以外の前記カテゴリに対する前記適合率が相対的に高い語である第２の付加キーワードを抽出し、
前記条件生成部は、前記改善対象キーワード抽出部によって抽出された前記改善対象キーワードが含まれ、かつ前記付加キーワード抽出部によって抽出された前記第２の付加キーワードが含まれないことを示す前記文書判定条件を生成する
ことを特徴とする請求項１または請求項２に記載の文書判定条件生成装置。
前記文書データ抽出部によって抽出された前記正解文書データの数と、前記文書判定条件を用いて前記文書データ記憶部に記憶された前記文書データから抽出する前記文書データの数との比である再現率を算出する再現率算出部と、
前記再現率算出部が算出した前記再現率と、予め定められた再現率の閾値とを比較して、前記再現率が前記閾値未満であるか否かを判定する再現率比較部と、を備え、
前記付加キーワード抽出部は、前記文書データ抽出部によって抽出された前記正解文書データに含まれる語から、前記対象カテゴリに対する前記適合率が相対的に高い複数の前記第１の付加キーワードを抽出し、
前記条件生成部は、前記再現率比較部によって前記再現率が前記閾値未満であると判定された場合、前記改善対象キーワード抽出部によって抽出された前記改善対象キーワードが含まれ、かつ前記付加キーワード抽出部によって抽出された複数の前記第１の付加キーワードのうちいずれかのキーワードが含まれることを示す前記文書判定条件を生成する
ことを特徴とする請求項１から請求項３までのいずれか１項に記載の文書判定条件生成装置。
前記付加キーワード抽出部は、前記文書データ抽出部によって抽出された前記不正解文書データに含まれる語から、前記対象カテゴリ以外のカテゴリに対する前記適合率が相対的に高い複数の前記第２の付加キーワードを抽出し、
前記条件生成部は、前記再現率比較部によって前記再現率が前記閾値以上であると判定された場合、前記改善対象キーワード抽出部によって抽出された前記改善対象キーワードが含まれ、かつ前記付加キーワード抽出部によって抽出された複数の前記第２の付加キーワードのいずれもが含まれないことを示す前記文書判定条件を生成する
ことを特徴とする請求項４に記載の文書判定条件生成装置。
前記カテゴリに対する前記キーワードの適合率は、前記文書データ記憶部に記憶された前記文書データのうち、当該カテゴリが対応付けられた前記文書データの数と、当該キーワードが含まれる全てのカテゴリの文書データの数との比によって表される
ことを特徴とする請求項１から請求項５までのいずれか１項に記載の文書判定条件生成装置。
定められた文書データの内容に応じた分類を示す複数の前記カテゴリのうちいずれかのカテゴリが予め対応付けられた複数の文書データが記憶される文書データ記憶部と、複数の前記カテゴリのうち、文書データに含まれる語に応じて文書データのカテゴリを判定するための文書判定条件を生成する対象である対象カテゴリに対応する複数のキーワードと、当該キーワードが前記対象カテゴリに対して適合する度合いを示す適合率とが対応付けられて記憶されるキーワードリスト記憶部とを備えた文書判定条件生成装置の文書判定条件生成方法であって、
前記キーワードリストに含まれる前記キーワードに対応付けられた前記適合率と予め定められた閾値とを比較して、前記閾値未満である前記適合率に対応する前記キーワードを前記キーワードリスト記憶部から抽出するステップと、
抽出した前記キーワードが含まれ、かつ前記対象カテゴリが対応付けられた前記文書データである正解文書データを前記文書データ記憶部から抽出するステップと、
抽出した前記正解文書データに含まれる語から、前記対象カテゴリに対する前記適合率が相対的に高い語である第１の付加キーワードを抽出するステップと、
抽出した前記キーワードが含まれ、かつ抽出した前記第１の付加キーワードが含まれることを示す前記文書判定条件を生成するステップと、
を備えることを特徴とする文書判定条件生成方法。