JP2011090447A - 文書判定条件生成装置および文書判定条件生成方法 - Google Patents

文書判定条件生成装置および文書判定条件生成方法 Download PDF

Info

Publication number
JP2011090447A
JP2011090447A JP2009242379A JP2009242379A JP2011090447A JP 2011090447 A JP2011090447 A JP 2011090447A JP 2009242379 A JP2009242379 A JP 2009242379A JP 2009242379 A JP2009242379 A JP 2009242379A JP 2011090447 A JP2011090447 A JP 2011090447A
Authority
JP
Japan
Prior art keywords
keyword
document data
extracted
document
determination condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009242379A
Other languages
English (en)
Other versions
JP5297972B2 (ja
Inventor
Tomomichi Takayama
智道 高山
Hiroshi Kitauchi
啓 北内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2009242379A priority Critical patent/JP5297972B2/ja
Publication of JP2011090447A publication Critical patent/JP2011090447A/ja
Application granted granted Critical
Publication of JP5297972B2 publication Critical patent/JP5297972B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】より精度が高い文書判定を行なうための文書判定条件を生成する。
【解決手段】複数のカテゴリのうちいずれかのカテゴリが予め対応付けられた複数の文書データを記憶し、文書判定条件を生成する対象である対象カテゴリに対応する複数のキーワードと、キーワードが対象カテゴリに対して適合する度合いを示す適合率とを対応付けて記憶し、キーワードリストに含まれるキーワードに対応付けられた適合率と予め定められた閾値とを比較して、閾値未満である適合率に対応するキーワードを抽出し、抽出したキーワードが含まれる文書データを抽出し、抽出した文書データのうち、対象カテゴリが対応付けられた正解文書データを抽出し、抽出した正解文書データに含まれる語から、対象カテゴリに対する適合率が相対的に高い語である付加キーワードを抽出し、抽出したキーワードと付加キーワードとが含まれることを示す文書判定条件を生成する。
【選択図】図1

Description

本発明は、文書データに含まれる語に応じて、その内容に応じた分類を示すカテゴリを判定するための文書判定条件を生成する技術に関する。
近年では、様々な情報が電子化された文書データがコンピュータによって処理されており、このような文書データを、その内容に応じてカテゴリ毎に分類する技術が研究されている(例えば、特許文献1、特許文献2)。例えば、予め定められた複数のカテゴリ毎に、そのカテゴリの文書データに特徴的に現れるキーワードを定めておき、カテゴリの判定対象となる文書データに含まれる語と定められたキーワードとを比較して、キーワードが含まれるか否かを判定することにより判定対象の文書データがそのカテゴリに属するか否かを判定する。このような技術を用いれば、例えば、様々なジャンルのニュース記事である文書データをその内容に応じて分類したり、製品を販売する企業が、様々な顧客から受信する電子メールである文書データをその内容に応じて製品毎に分類したりすることができる。
特開2007−79948号公報 特開2008−21028号公報
しかしながら、上述のような単一のキーワードにより文書データがいずれのカテゴリに属するかの文書判定を行なう場合、内容が対応しないカテゴリに文書データが判定されたり、対応するカテゴリに文書データが判定されなかったりする場合があった。例えば、医療カテゴリのキーワードとして「回復」というキーワードが対応付けられていた場合、景気についての「回復」の語が含まれる経済カテゴリの文書データが医療カテゴリに分類されるといったように、分類ノイズが発生する場合がある。ここで、カテゴリに対応するより適切なキーワードを文書判定条件として文書判定を行い、分類ノイズを低減させることが望ましい。
本発明は、このような状況に鑑みてなされたもので、より分類ノイズが少ない文書判定を行なうための文書判定条件を生成する文書判定条件生成装置および文書判定条件生成方法を提供する。
上述した課題を解決するために、本発明は、定められた文書データに含まれる語に応じて、文書データの内容に応じた分類を示すカテゴリを判定するための文書判定条件を生成する文書判定条件生成装置であって、複数のカテゴリのうちいずれかのカテゴリが予め対応付けられた複数の文書データが記憶される文書データ記憶部と、複数のカテゴリのうち、文書判定条件を生成する対象である対象カテゴリに対応する複数のキーワードと、キーワードが対象カテゴリに対して適合する度合いを示す適合率とが対応付けられて記憶されるキーワードリスト記憶部と、キーワードリストに含まれるキーワードに対応付けられた適合率と予め定められた閾値とを比較して、閾値未満である適合率が対応付けられたキーワードである改善対象キーワードをキーワードリスト記憶部から抽出する改善対象キーワード抽出部と、改善対象キーワード抽出部によって抽出された改善対象キーワードが含まれ、かつ対象カテゴリが対応付けられた文書データである正解文書データを文書データ記憶部から抽出する文書データ抽出部と、文書データ抽出部によって抽出された正解文書データに含まれる語から、対象カテゴリに対する適合率が相対的に高い語である第1の付加キーワードを抽出する付加キーワード抽出部と、改善対象キーワード抽出部によって抽出された改善対象キーワードが含まれ、かつ付加キーワード抽出部によって抽出された第1の付加キーワードが含まれることを示す文書判定条件を生成する条件生成部と、を備えることを特徴とする。
また、本発明は、文書データ抽出部によって抽出された正解文書データに含まれる文を形態素解析し、正解文書データに含まれる形態素と形態素に対応する品詞とを出力する形態素解析部と、形態素解析部による形態素解析の結果に基づいて、品詞が名詞である形態素が含まれる語である処理対象語を抽出する処理対象語抽出部と、を備え、付加キーワード抽出部は、処理対象語抽出部によって抽出された処理対象語から、第1の付加キーワードを抽出することを特徴とする。
また、本発明は、文書データ抽出部は、改善対象キーワード抽出部によって抽出された改善対象キーワードおよび付加キーワード抽出部によって抽出された第1の付加キーワードが含まれ、かつ対象カテゴリ以外のカテゴリが対応付けられた文書データである不正解文書データを抽出し、付加キーワード抽出部は、文書データ抽出部によって抽出された不正解文書データに含まれる語から、対象カテゴリ以外のカテゴリに対する適合率が相対的に高い語である第2の付加キーワードを抽出し、条件生成部は、改善対象キーワード抽出部によって抽出された改善対象キーワードが含まれ、かつ付加キーワード抽出部によって抽出された第2の付加キーワードが含まれないことを示す文書判定条件を生成することを特徴とする。
また、本発明は、文書データ抽出部によって抽出された正解文書データの数と、文書判定条件を用いて文書データ記憶部に記憶された文書データから抽出する文書データの数との比である再現率を算出する再現率算出部と、再現率算出部が算出した再現率と、予め定められた再現率の閾値とを比較して、再現率が閾値未満であるか否かを判定する再現率比較部と、を備え、付加キーワード抽出部は、文書データ抽出部によって抽出された正解文書データに含まれる語から、対象カテゴリに対する適合率が相対的に高い複数の第1の付加キーワードを抽出し、条件生成部は、再現率比較部によって再現率が閾値未満であると判定された場合、改善対象キーワード抽出部によって抽出された改善対象キーワードが含まれ、かつ付加キーワード抽出部によって抽出された複数の第1の付加キーワードのうちいずれかのキーワードが含まれることを示す文書判定条件を生成することを特徴とする。
また、本発明は、付加キーワード抽出部は、文書データ抽出部によって抽出された不正解文書データに含まれる語から、対象カテゴリ以外のカテゴリに対する適合率が相対的に高い複数の第2の付加キーワードを抽出し、条件生成部は、再現率比較部によって再現率が閾値以上であると判定された場合、改善対象キーワード抽出部によって抽出された改善対象キーワードが含まれ、かつ付加キーワード抽出部によって抽出された複数の第2の付加キーワードのいずれもが含まれないことを示す文書判定条件を生成することを特徴とする。
また、本発明は、カテゴリに対するキーワードの適合率は、文書データ記憶部に記憶された文書データのうち、カテゴリが対応付けられた文書データの数と、キーワードが含まれる全てのカテゴリの文書データの数との比によって表されることを特徴とする。
また、本発明は、定められた文書データの内容に応じた分類を示す複数のカテゴリのうちいずれかのカテゴリが予め対応付けられた複数の文書データが記憶される文書データ記憶部と、複数のカテゴリのうち、文書データに含まれる語に応じて文書データのカテゴリを判定するための文書判定条件を生成する対象である対象カテゴリに対応する複数のキーワードと、キーワードが対象カテゴリに対して適合する度合いを示す適合率とが対応付けられて記憶されるキーワードリスト記憶部とを備えた文書判定条件生成装置の文書判定条件生成方法であって、キーワードリストに含まれるキーワードに対応付けられた適合率と予め定められた閾値とを比較して、閾値未満である適合率に対応するキーワードをキーワードリスト記憶部から抽出するステップと、抽出したキーワードが含まれ、かつ対象カテゴリが対応付けられた文書データである正解文書データを文書データ記憶部から抽出するステップと、抽出した正解文書データに含まれる語から、対象カテゴリに対する適合率が相対的に高い語である第1の付加キーワードを抽出するステップと、抽出したキーワードが含まれ、かつ抽出した第1の付加キーワードが含まれることを示す文書判定条件を生成するステップと、を備えることを特徴とする。
以上説明したように、本発明によれば、複数のカテゴリのうちいずれかのカテゴリが予め対応付けられた複数の文書データを記憶し、文書判定条件を生成する対象である対象カテゴリに対応する複数のキーワードと、キーワードが対象カテゴリに対して適合する度合いを示す適合率とを対応付けて記憶し、キーワードリストに含まれるキーワードに対応付けられた適合率と予め定められた閾値とを比較して、閾値未満である適合率に対応するキーワードを抽出し、抽出したキーワードが含まれる文書データを抽出し、抽出した文書データのうち、対象カテゴリが対応付けられた正解文書データを抽出し、抽出した正解文書データに含まれる語から、対象カテゴリに対する適合率が相対的に高い語である付加キーワードを抽出し、抽出したキーワードと付加キーワードとが含まれることを示す文書判定条件を生成するようにしたので、対象カテゴリに対応するキーワードのうち適合率が閾値未満であるキーワードについて、そのキーワードが含まれる文書データに含まれる語のうち、前記対象カテゴリに対する適合率が相対的に高い付加キーワードを抽出して、キーワードとの複合条件である文書判定条件を生成することができ、より分類ノイズが少ない文書判定を行なうための文書判定条件を生成する文書判定条件生成装置を提供することができる。
本発明の一実施形態による文書判定条件生成装置の構成例を示すブロック図である。 本発明の一実施形態によるカテゴリとキーワードとの関係を示す図である。 本発明の一実施形態による文書判定条件生成装置の動作例を示すフローチャートである。 本発明の一実施形態による付加キーワード抽出処理の動作例を示すフローチャートである。 本発明の一実施形態による文書判定条件生成処理の動作例を示すフローチャートである。 本発明の一実施形態による文書判定条件生成処理に応じた再現率と抽出文書数との関係を示す図である。 本発明の一実施形態による文書判定条件の例を示す図である。
以下、本発明の一実施形態について、図面を参照して説明する。
図1は、本実施形態による文書判定条件生成装置100の構成を示すブロック図である。文書判定条件生成装置100は、定められた文書データに含まれる語に応じて、文書データの内容に応じた分類を示すカテゴリを判定するための文書判定条件を生成するコンピュータ装置である。図2は、特定のカテゴリが対応付けられた文書データの集合と、特定のキーワードが含まれる文書データの集合との関係を概念的に示す図である。例えば、内容に応じたカテゴリが予め対応付けられた文書データの集合のうち、医療カテゴリが予め対応付けられた文書データ集合(符号a)と、経済カテゴリが予め対応付けられた文書データ集合(符号b)とが存在する。各カテゴリには、そのカテゴリの文書データに特徴的に現れるキーワードが予め対応付けられている。
例えば、医療カテゴリには、「骨折」(符号a1)、「膝」(符号a2)、「リンパ性白血病」(符号a3)、「回復」(符号a4)などのキーワードが対応付けられる。このようなキーワードを文書判定条件として、キーワードが含まれる文書データ集合を抽出することによって医療カテゴリに属する文書データを抽出することができる。ここでは、カテゴリが未知である文書データにそのキーワードが含まれるか否かによって文書データのカテゴリが判定される。
この例では、符号a3に示される「リンパ性白血病」のキーワードが含まれる文書データ集合は、医療カテゴリが対応付けられた文書データ集合に包含される部分集合となっている。すなわち、カテゴリ未知の文書データに「リンパ性白血病」のキーワードが含まれている場合、その文書データのカテゴリは医療であると判定すれば、精度良い文書判定が可能である。これに対し、例えば符号a4に示される「回復」のキーワードが含まれる文書データ集合は、医療カテゴリと経済カテゴリとに含まれている。すなわち、カテゴリ未知の文書データに「回復」のキーワードが含まれている場合、その文書データのカテゴリが医療であると判定すると、経済カテゴリの文書データを医療カテゴリであると判定する場合がある。このような判定を分類ノイズという。
そこで、本実施形態では、より精度の高い文書判定が可能な文書判定条件を生成し、分類ノイズを低減する。例えば、キーワード「回復」が含まれる文書データ集合のうち、医療カテゴリに属する文書データに特徴的なキーワード(AND付加キーワード)を、キーワード「回復」に対して論理積演算子(AND)で結合した文書判定条件によれば、文書判定の精度を高めることが可能であると考えられる。この場合、キーワード「回復」が含まれる文書データのうち、医療カテゴリに属する符号a4−1の領域の文書データを抽出することができる。一方、経済カテゴリに属する文書データに特徴的なキーワード(NOT付加キーワード)を、キーワード「回復」に対して否定演算子(NOT)で結合した文書判定条件によっても、文書判定の精度を高めることが可能であると考えられる。この場合、キーワード「回復」が含まれる文書データのうち、医療カテゴリに属さない符号a4−2の領域の文書データを抽出して除外することができる。
例えば、医療カテゴリの文書データのうち、キーワード「回復」と、キーワード「回復」に対応し、医療カテゴリに特徴的な付加キーワード「容態」とを論理積演算子によって結合した文書判定条件によれば、より精度良い文書判定を行なうことが可能であると考えられる。本実施形態の文書判定条件生成装置100は、このように、カテゴリ未知の文書データに対して、より精度良く文書判定を行なうための最適な付加キーワードを判定し、文書判定条件を生成するものである。ここで、文書データをその内容に応じて文書判定を行なう方法として、キーワードにより分類する他に、出現率などに基づいた機械学習により構築したモデルによる分類方法があるが、分類の根拠に明瞭性を求める場合には、本実施形態に示すように、キーワードによる分類方法の方が優れていると考えられる。
図1に戻り、文書判定条件生成装置100は、キーワードリスト記憶部111と、改善対象キーワード抽出部112と、文書データ記憶部110と、文書データ抽出部121と、形態素解析部122と、処理対象語抽出部123と、付加キーワード抽出部124と、第1の再現率算出部131と、第1の再現率比較部132と、抽出文書数比較部133と、NOT付加キーワード候補再抽出部134と、第2の再現率算出部135と、第2の再現率比較部136と、条件生成部137とを備えている。
文書データ記憶部110には、定められた複数のカテゴリのうちいずれかのカテゴリが予め対応付けられた複数の文書データが記憶される。文書データには、複数の文または語が含まれている。例えば、ニュース記事である文書データの内容に応じて、政治、経済、社会、スポーツ、芸能などのカテゴリが対応付けられて記憶される。例えば、文書データ記憶部110には、文書データを識別する文書ID(Identifier)と、文書データと、その文書データの内容に対応するカテゴリとが対応付けられて記憶される。文書データに対応付けられているカテゴリは、管理者によって文書データの内容に応じて入力されたカテゴリが対応付けられるようにしても良いし、文書データの作成者によって予め定められたカテゴリを対応付けても良いし、本実施形態の文書判定条件生成装置100によって生成される文書判定条件を用いて判定されたカテゴリを対応付けるようにしても良い。ここで、文書データ記憶部110に記憶される文書データとしては、ニュース記事の他に、例えば医療におけるレセプトデータ、各種学術論文、企業等のコールセンター等への問合せ内容データ、電子メール、保険金の支払分類データなどを適用することができる。
キーワードリスト記憶部111には、予め定められた複数のカテゴリ毎に、そのカテゴリに対応する複数のキーワードと、そのキーワードがカテゴリに対して適合する度合いを示す適合率とが対応付けられたキーワードリストが記憶される。例えば、政治カテゴリに対応付けて、「選挙」、「政党」、「政策」などの語や、政党名や政治家名などの複数のキーワードと、各キーワードの政治カテゴリに対する適合率が対応付けられたキーワードリストが記憶される。
対象カテゴリに対して適合する度合いを示すキーワードの適合率は、例えば、文書データ記憶部110に記憶された文書データのうち、対象カテゴリが対応付けられており、かつそのキーワードが含まれる文書データの数と、そのキーワードが含まれる全てのカテゴリの文書データの数との比によって表される。ここでは、「適合率=(対応するカテゴリに属する文書データのうち対応するキーワードが含まれる文書データの数)/(対応するキーワードが含まれる全てのカテゴリの文書データの数))」により表される。例えば、政治カテゴリに対するキーワード「選挙」の適合率は、「適合率=(文書データ記憶部110に記憶された政治カテゴリに属する文書データのうち、キーワード「選挙」が含まれる文書データの数)/(文書データ記憶部110に記憶された全ての文書データのうち、キーワード「選挙」が含まれる文書データの数)」によって表される。
改善対象キーワード抽出部112は、キーワードリスト記憶部111に記憶されたキーワードリストに含まれるキーワードに対応付けられた適合率と予め定められた閾値とを比較して、閾値未満である適合率に対応するキーワードである改善対象キーワードを抽出する。すなわち、改善対象キーワード抽出部112は、キーワードの見直しを行なう対象であるカテゴリに対応するキーワードリストをキーワードリスト記憶部111から読み出し、読み出したキーワードリストに含まれる複数のキーワードのうち、キーワードに対応付けられた適合率と予め定められた閾値とを比較して、閾値未満である適合率が対応付けられたキーワードを、文書判定条件としての見直しを行なう対象である改善対象キーワードとして抽出する。ここで、改善対象キーワード抽出部112は、例えば「80%」などの適合率の閾値を自身の記憶領域に予め記憶させている。このようにして、改善対象キーワード抽出部112は、対象カテゴリに対応するキーワードリストに含まれるキーワードのうち、文書判定条件として用いた場合に分類ノイズが多く、分類精度が低いと思われる改善対象キーワードを抽出する。ここで、改善対象キーワード抽出部112によって、適合率が閾値未満である複数の改善対象キーワード群が抽出された場合には、抽出した改善対象キーワード群のそれぞれについて以降の機能部による処理が行われる。
文書データ抽出部121は、改善対象キーワード抽出部112によって抽出された改善対象キーワードが含まれ、かつ対象カテゴリが対応付けられた文書データである正解文書データを、文書データ記憶部110から抽出する。また、文書データ抽出部121は、改善対象キーワード抽出部112によって抽出された改善対象キーワードが含まれ、かつ対象カテゴリ以外のカテゴリが対応付けられた文書データである不正解文書データを抽出する。例えば、文書データ抽出部121は、改善対象キーワードが含まれる文書データを文書判定条件生成装置100から抽出し、抽出した文書データに対応付けられたカテゴリが対象カテゴリであれば正解文書と判定し、文書データに対応付けられたカテゴリが対象カテゴリ以外のカテゴリであれば不正解文書と判定する。
形態素解析部122は、文書データ抽出部121によって抽出された正解文書データまたは不正解文書データに含まれる文を形態素解析し、正解文書データに含まれる形態素とその形態素に対応する品詞とを出力する。形態素解析は、定められた文法や辞書に基づいて、文を解析して意味を持つ最小単位(形態素)に分割する処理である。例えば、形態素解析部122は、複数の語と、その語の品詞を示す情報とが対応付けられた辞書を自身の記憶領域に予め記憶する。また、形態素解析部122は、品詞の接続関係を示す文法規則を示す情報を、自身の記憶領域に予め記憶する。形態素解析部122は、解析対象の文を予め記憶した辞書に含まれる語毎に分割する。形態素解析部122は、分割した語毎に対応する品詞の接続関係が、予め定められた文法規則に応じた正しい並び順であるか否かを判定し、正しい並び順となった場合に分割した語を正解とする。例えば、形態素解析部122は、解析対象文が「リンパ性白血病を発症した」である場合、解析対象文を「リンパ」(名詞)、「性」(名詞)、「白血病」(名詞)、「を」(助詞)、「発症」(名詞)、「し」(動詞)、「た」(助動詞)の7語に分割する。
処理対象語抽出部123は、形態素解析部122による形態素解析の結果に基づいて、品詞が名詞である形態素を抽出する。ここで、処理対象語抽出部123は、品詞が名詞である語のうち非自立名詞や副詞可能名詞などの名詞は抽出しないようにしても良い。また、処理対象語抽出部123は、抽出した形態素に基づいて、連続する名詞の組み合わせである複合語を生成する。例えば、「リンパ」、「性」、「白血病」の3形態素が連続する場合、「リンパ性」、「性白血病」、「リンパ性白血病」の複合語を生成する。また、処理対象語抽出部123は、形態素解析部122によって抽出された形態素および生成した複合語から、定められた条件に基づいて不適切な形態素または複合語を削除する。例えば、処理対象語抽出部123は、接尾語で始まる複合語、接頭語で終わる複合語、アルファベットまたはひらがな一文字の形態素、数字のみで構成される形態素または複合語などを不適切として削除する。この例では、「性白血病」という複合語は接尾語で始まっているため削除され、「リンパ」、「性」、「白血病」、「リンパ性」、「リンパ性白血病」の5つの形態素及び複合語が処理対象語として抽出される。
付加キーワード抽出部124は、文書データ抽出部121によって抽出された正解文書データに含まれる語から、対象カテゴリに対する適合率が相対的に高い複数の語をAND付加キーワードとして抽出する。AND付加キーワードは、改善対象キーワードと論理積演算子によって結合するキーワードである。付加キーワード抽出部124は、文書データ抽出部121によって抽出された正解文書データに含まれる語のうち、処理対象語抽出部123によって抽出された処理対象語から、予め定められた複数(例えば、50キーワード)のAND付加キーワードを抽出する。ここで、付加キーワード抽出部124によって抽出されたAND付加キーワードは、改善対象キーワードと論理積演算子によって結合される。また、複数のAND付加キーワードが抽出された場合は、複数のAND付加キーワード同士は論理和演算子によって結合される。
ここでは、付加キーワード抽出部124は、処理対象語抽出部123によって抽出された処理対象語のそれぞれについて、対象カテゴリに対する適合率を算出する。付加キーワード抽出部124は、処理対象語抽出部123によって抽出された処理対象語の対象カテゴリに対する適合率、対象カテゴリに属する文書データのうち処理対象語が属する文書データ数、処理対象語に含まれる形態素の数などに基づいて、予め定められた数のAND付加キーワードを抽出する。付加キーワード抽出部124は、付加キーワードを抽出する数の閾値を自身の記憶領域に予め記憶している。同様に、付加キーワード抽出部124は、文書データ抽出部121によって抽出された不正解文書データに含まれる語から、対象カテゴリ以外のカテゴリに対する適合率が相対的に高い語である複数のNOT付加キーワードを抽出する。このように、付加キーワード抽出部124は、対象カテゴリに対する適合率が相対的に高いAND付加キーワードと、対象カテゴリ以外のカテゴリに対する適合率が相対的に高いNOT付加キーワードとの付加キーワードを抽出する。
第1の再現率算出部131は、文書データ抽出部121によって抽出された正解文書データの数と、後述する条件生成部137によって生成される文書判定条件を用いて文書データ記憶部110に記憶された文書データから抽出する文書データの数との比である再現率を算出する。ここで、第1の再現率算出部131は、改善対象キーワードと、付加キーワード抽出部124によって抽出された複数のAND付加キーワードとを論理積演算子で結合した文書判定条件を生成し、生成した文書判定条件に一致する文書データを文書データ記憶部110から抽出し、再現率を算出する。再現率は、改善対象キーワードのみで抽出された正解文書の数に対して、AND付加キーワードまたはNOT付加キーワードを付加した文書判定条件を用いて抽出された正解文書の数の割合を示す。すなわち、再現率は、「再現率=(改善対象キーワードと、付加キーワード抽出部124によって抽出された複数のAND付加キーワードのうち一番目の候補として抽出されたAND付加キーワードとを論理積演算子で結合した文書判定条件に基づいて抽出される文書データの数)/(文書データ抽出部121によって抽出された正解文書データの数)」によって表される。また、第1の再現率算出部131は、算出した再現率が、第1の再現率比較部132によって許容再現率未満であると判定されると、付加キーワード抽出部124によって抽出された次候補のAND付加キーワードを、改善対象キーワードに対して論理積演算子で結合した文書判定条件を生成し、生成した文書判定条件に一致する文書データを文書データ記憶部110から抽出し、再現率を算出する。このように、第1の再現率算出部131による再現率の算出処理は、第1の再現率比較部132によって算出した再現率が容再現率未満であると判定される度に繰り返しループして行なわれる。ここで、第1の再現率算出部131によって改善対象キーワードに付加されるAND付加キーワードは、改善対象キーワードに対しては論理積演算子によって結合される。また、複数のAND付加キーワードを改善対象キーワードに付加する場合は、複数のAND付加キーワード同士は論理和演算子によって結合される。
第1の再現率比較部132は、第1の再現率算出部131が算出した再現率と、予め定められた再現率の閾値(許容再現率)とを比較して、再現率が閾値未満であるか否かを判定する。許容再現率は、例えば80(%)などの値であり、自身の記憶領域に予め記憶する。許容再現率は、再現率を指標として、どの程度まで正解文書の抽出が再現できれば文書判定条件を許容するかを定めた閾値である。例えば、許容再現率が80%であれば、改善対象キーワードのみで抽出された正解文書を100とした場合に、付加キーワードを付加したカテゴリ判定条件を用いて抽出された正解文書がその80%以上であれば、その文書判定条件は妥当であるとして許容される。ここで、第1の再現率比較部132により再現率が許容再現率未満であると判定されると、第1の再現率算出部131によって次候補のAND付加キーワードが付加された文書判定条件を用いた再現率が算出され、第1の再現率比較部132による判定処理が繰り返しループして行なわれる。
抽出文書数比較部133は、改善対象キーワードのみを文書判定条件として文書データ記憶部110から文書データを抽出した場合の文書データ数(抽出文書数)と、第1の再現率算出部131または第2の再現率算出部135によって生成された文書判定条件を用いて文書データ記憶部110から文書データを抽出した場合の文書データ数(抽出文書数)とを比較する。
NOT付加キーワード候補再抽出部134は、抽出文書数比較部133によって、改善対象キーワードのみに基づく抽出文書数と、第1の再現率算出部131によって生成された文書判定条件に基づく抽出文書数とが一致しないと判定されると、改善対象キーワードを含み、かつ第1の再現率算出部131によって付加されたAND付加キーワード(AND付加キーワードが複数個である場合は、複数個のAND付加キーワードのいずれか)を含む文書データを文書データ記憶部110から抽出する。そして、NOTキーワード候補再抽出部134は、抽出した文書データのうちの不正解文書データを新たな不正解文書として、NOT付加キーワードを再抽出する。
第2の再現率算出部135は、付加キーワード抽出部124またはNOTキーワード候補再抽出部134によって抽出されたNOT付加キーワードのうち一番目の候補として抽出されたNOT付加キーワードに否定演算子を付加し、否定演算子を付加したNOT付加キーワードと改善対象キーワードとを論理積演算子で結合した文書判定条件を生成し、生成した文書判定条件に一致する文書データを文書データ記憶部110から抽出し、再現率を算出する。また、第2の再現率算出部135は、算出した再現率が、第2の再現率比較部136によって許容再現率以上であると判定されると、付加キーワード抽出部124によって抽出された次候補のNOT付加キーワードに否定演算子を付加し、改善対象キーワードに対して論理積演算子で結合した文書判定条件を生成し、生成した文書判定条件に一致する文書データを文書データ記憶部110から抽出し、再現率を算出する。
第2の再現率比較部136は、第2の再現率算出部135が算出した再現率と、予め定められた再現率の閾値(許容再現率)とを比較して、再現率が閾値以上であるか否かを判定する。許容再現率は、例えば80(%)などの値であり、第1の再現率比較部132に記憶された値を参照する。
条件生成部137は、改善対象キーワード抽出部112によって抽出された改善対象キーワードが含まれ、かつ付加キーワード抽出部124によって抽出されたAND付加キーワードが含まれる文書判定条件を生成する。また、条件生成部137は、改善対象キーワード抽出部112によって抽出されたキーワードが含まれ、かつ付加キーワード抽出部124によって抽出されたNOT付加キーワードが含まれないことを示す文書判定条件を生成する。ここでは、条件生成部137は、自身の記憶領域に、最低抽出文書数と、最適AND付加キーワード数と、最適AND付加キーワード数との変数を記憶しており、これらの変数は、第1の再現率算出部131や第2の再現率算出部135等によって更新される。
ここで、条件生成部137は、付加キーワード抽出部124によって抽出された複数のAND付加キーワードのうち、最適AND付加キーワード数に示される数のAND付加キーワードを論理和演算子(OR)によって結合する。また、条件生成部137は、論理和演算子によって結合した複数のAND付加キーワードと、改善対象キーワード抽出部112によって抽出されたキーワードとを論理積演算子で結合する。
また、条件生成部137は、付加キーワード抽出部124によって抽出された複数のNOT付加キーワードのうち、最適NOT付加キーワード数に示される数のNOT付加キーワードに否定演算子を付加し、否定演算子を付加した複数のNOT付加キーワードを論理積演算子によって結合する。また、条件生成部137は、論理積演算子によって結合した複数のNOT付加キーワードと、改善対象キーワード抽出部112によって抽出されたキーワードとを論理積演算子で結合する。
次に、本実施形態による文書判定条件生成装置100の動作例を説明する。図3は、文書判定条件生成装置100が、判定条件の見直し対象となる対象カテゴリの判定条件を生成する動作例を示すフローチャートである。ここでは、文書判定条件生成装置100は、例えば表示装置であるディスプレイや、ユーザからの入力を受け付ける入力装置であるキーボードやマウスなどを備えており、定められた複数のカテゴリを表示装置に表示し、判定条件の見直しを行なう対象カテゴリの入力を受け付ける。
文書判定条件生成装置100の改善対象キーワード抽出部112は、対象カテゴリに対応するキーワードリストをキーワードリスト記憶部111から読み出す。改善対象キーワード抽出部112は、読み出したキーワードリストに含まれる複数のキーワードのうち、キーワードに対応付けられた適合率と予め定められた閾値とを比較して、閾値未満である適合率が対応付けられたキーワードを、判定条件の見直しを行なう改善対象キーワード(複数存在する場合は、改善対象キーワード群)として抽出する(ステップS100)。
次に、文書判定条件生成装置100は、ステップS100において抽出された改善対象キーワードに対する付加キーワードを抽出する処理を行う(ステップS200)。図4は、文書判定条件生成装置100による付加キーワード抽出処理を示すフローチャートである。文書データ抽出部121は、改善対象キーワード抽出部112が抽出した改善対象キーワードが含まれる正解文書データと不正解文書データとを、文書データ記憶部110から読み出す(ステップS201)。形態素解析部122は、改善対象キーワード抽出部112によって抽出された文書データに含まれる文の形態素解析の処理を行ない、形態素と、形態素に対応する品詞との情報を出力する(ステップS202)。処理対象語抽出部123は、形態素解析部122によって出力された形態素から、品詞が名詞である形態素を抽出する。また、処理対象語抽出部123は、品詞が名詞である形態素の組み合わせである複数の複合語を生成する(ステップS203)。処理対象語抽出部123は、抽出した形態素および生成した複数の複合語とから、定められた不適切な形態素または複合語を削除し、処理対象語を出力する(ステップS204)。
付加キーワード抽出部124は、処理対象語抽出部123が出力した処理対象語の対象カテゴリに対する適合率を算出し、対象カテゴリの正解文書に対する適合率が最も高い処理対象語を抽出する(ステップS210)。ここで、付加キーワード抽出部124は、既にAND付加キーワード候補として抽出されている処理対象語を抽出対象から除外する。そして、付加キーワード抽出部124は、ステップS210において抽出した処理対象語が複数件であるか否かを判定する(ステップS211)。ここで、抽出した処理対象語が1件であれば(ステップS211:NO)、ステップS217に進む。抽出した処理対象語が複数件であれば(ステップS211:YES)、付加キーワード抽出部124は、ステップS210において抽出した処理対象語のうち、その処理対象語が含まれる正解文書データの数を算出し、文書データの数が大きい処理対象語を抽出する(ステップS212)。
付加キーワード抽出部124は、ステップS212において抽出した処理対象語が複数件であるか否かを判定する(ステップS213)。ここで、抽出した処理対象語が1件であれば(ステップS213:NO)、ステップS217に進む。抽出した処理対象語が複数件であれば(ステップS213:YES)、付加キーワード抽出部124は、ステップS212において抽出した処理対象語のうち、その処理対象語に含まれる形態素の数が大きい処理対象語を抽出する(ステップS214)。
付加キーワード抽出部124は、ステップS214において抽出した処理対象語が複数件であるか否かを判定する(ステップS215)。ここで、抽出した処理対象語が1件であれば(ステップS215:NO)、ステップS217に進む。抽出した処理対象語が複数件であれば(ステップS215:YES)、付加キーワード抽出部124は、ステップS214において抽出した処理対象語のうち、任意の処理対象語を抽出する(ステップS216)。ここで、任意の処理対象語を抽出する場合、付加キーワード抽出部124は、例えば、文書データ中から最初または最後に抽出された処理対象語を抽出する。
付加キーワード抽出部124は、ステップS210、ステップS212、ステップS214またはステップS216のいずれかにおいて抽出された処理対象語をAND付加キーワード候補として判定する(ステップS217)。付加キーワード抽出部124は、予め指定した数のAND付加キーワード候補を抽出したか否かを判定する(ステップS218)。付加キーワード抽出部124は、予め指定した数のAND付加キーワード候補を抽出していなければ(ステップS218:NO)、ステップS210に戻り、他のAND付加キーワード候補を抽出する。一方、付加キーワード抽出部124は、予め指定した数のAND付加キーワード候補を抽出していれば(ステップS218:YES)、ステップS220に進む。付加キーワード抽出部124は、ステップS210〜ステップS218と同様に、ステップS201において文書データ抽出部121によって抽出された不正解文書データに基づいて処理対象語抽出部123が抽出した処理対象語から、予め定められた数のNOT付加キーワードを抽出する(ステップS220〜ステップS228)。
この例では、ステップS210において、付加キーワード抽出部124は、既にAND付加キーワード候補として抽出されている処理対象語を抽出対象から除外することで、同一のAND付加キーワード候補が複数抽出されることを防ぐこととしたが、例えば、ステップS217において、抽出されたAND付加キーワードを含む文書データを正解文書から除いて、ステップS210に戻るようにしても良い。NOT付加キーワード候補の抽出時にも、同様に、ステップS220において、既にNOT付加キーワード候補として抽出されている処理対象語を抽出対象から除外することで、同一のNOT付加キーワード候補が複数抽出されることを防ぐようにしても良いし、ステップS227において、抽出されたNOT付加キーワードを含む文書データを不正解文書から除いて、ステップS220に戻るようにしても良い。
図3に戻り、文書判定条件生成装置100は、ステップS200において抽出された複数の付加キーワードに基づいて、最適な文書判定条件を生成する(ステップS300)。図5は、文書判定条件生成装置100による文書判定条件生成処理を示すフローチャートである。条件生成部137は、最低抽出文書数と、最適ANDキーワード数と、最適NOTキーワード数との変数を自身の記憶領域に記憶し、それぞれの値を初期化する(ステップS301)。最低抽出文書数は、生成した複数の文書判定条件を用いて文書データ記憶部110から抽出される文書データの数(文書数)のうち、最も小さい文書数を示す値である。最適ANDキーワード数は、最低抽出文書数に対応する文書判定条件において付加したANDキーワードの数を示す値である。最適NOTキーワード数は、最低抽出文書数に対応する文書判定条件において付加したNOTキーワードの数を示す値である。
第1の再現率算出部131は、改善対象キーワードと、付加キーワード抽出部124によって抽出された複数のAND付加キーワードのうち一番目の候補として抽出されたAND付加キーワードとを論理積演算子で結合した文書判定条件を生成し、生成した文書判定条件に一致する文書データを文書データ記憶部110から抽出し、再現率を算出する。第1の再現率比較部132は、第1の再現率算出部131によって算出された再現率と、自身の記憶領域に記憶した許容再現率とを比較し、再現率が許容再現率を上回ったか否かを判定する(ステップS302)。第1の再現率比較部132が、再現率は許容再現率を上回っていると判定すると(ステップS302:YES)、ステップS304に進む。
一方、第1の再現率比較部132が、再現率は許容再現率を上回っていないと判定すると(ステップS302:NO)、第1の再現率算出部131は、付加キーワード抽出部124によって抽出されたAND付加キーワードのうち次候補のAND付加キーワードを付加した文書判定条件を生成する(ステップS303)。ここでは、第1の再現率算出部131は、複数のAND付加キーワードを論理和演算子で結合し、複数のAND付加キーワードと改善対象キーワードとを論理積演算子で結合する。第1の再現率算出部131は、ステップS302に戻り、生成した文書判定条件に一致する文書データを文書データ記憶部110から抽出し、再現率を算出する。そして、文書判定条件生成装置100は、第1の再現率比較部132によって再現率が許容再現率を上回っていると判定されるまで、ステップS302とステップS302との処理を繰り返す。
ステップS302において、第1の再現率比較部132が、再現率は許容再現率を上回っていると判定すると、抽出文書数比較部133は、改善対象キーワードのみを文書判定条件として文書データ記憶部110から文書データを抽出した場合の文書データ数(抽出文書数)と、ステップS303において第1の再現率算出部131によって生成された文書判定条件を用いて文書データ記憶部110から文書データを抽出した場合の文書データ数(抽出文書数)とを比較する(ステップS304)。抽出文書数比較部133が、改善対象キーワードのみに基づく抽出文書数と、第1の再現率算出部131によって生成された文書判定条件に基づく抽出文書数とが一致すると判定すると(ステップS304:YES)、第2の再現率算出部135は、条件生成部137の記憶領域に記憶された最適ANDキーワード数の変数に0(ゼロ)を代入する(ステップS305)。
第2の再現率算出部135は、付加キーワード抽出部124によって抽出されたNOT付加キーワードのうち一番目の候補として抽出されたNOT付加キーワードに否定演算子を付加し、否定演算子を付加したNOT付加キーワードと改善対象キーワードとを論理積演算子で結合した文書判定条件を生成し、生成した文書判定条件に一致する文書データを文書データ記憶部110から抽出し、再現率を算出する。また、条件生成部137は、この時点での文書判定条件を用いた抽出文書数を、最低抽出文書数として自身の記憶領域に記憶させる。第2の再現率比較部136は、第2の再現率算出部135によって算出された再現率と、自身の記憶領域に記憶した許容再現率とを比較し、再現率が許容再現率を上回っているか否かを判定する(ステップS306)。
ステップS306において、第2の再現率比較部136が再現率は許容再現率を上回っていると判定すると(ステップS306:YES)、第2の再現率算出部135は、付加キーワード抽出部124によって抽出されたNOT付加キーワードのうち次候補のNOT付加キーワードを付加した文書判定条件を生成する(ステップS307)。ここでは、第2の再現率算出部135は、否定演算子が付加された複数のNOT付加キーワードを論理和演算子で結合し、結合した複数のNOT付加キーワードと改善対象キーワードとを論理積演算子で結合する。第2の再現率算出部135は、ステップS306に戻り、生成した文書判定条件に一致する文書データを文書データ記憶部110から抽出し、再現率を算出する。そして、文書判定条件生成装置100は、第2の再現率比較部136によって再現率が許容再現率を上回っていないと判定されるまで、ステップS306とステップS307との処理を繰り返す。ステップS306において、第2の再現率比較部136が再現率は許容再現率を上回っていないと判定すると(ステップS306:NO)、第2の再現率比較部136は、再現率が許容再現率を上回るNOT付加キーワードの数を、条件生成部137の記憶領域に記憶された最適NOTキーワード数の変数に代入する(ステップS308)。
一方、ステップS304において、抽出文書数比較部133が、改善対象キーワードのみに基づく抽出文書数と、第1の再現率算出部131によって生成された文書判定条件に基づく抽出文書数とが一致しないと判定すると(ステップS304:NO)、NOT付加キーワード候補再抽出部134は、改善対象キーワードを含み、かつ第1の再現率算出部131によって付加されたAND付加キーワード(AND付加キーワードが複数個である場合は、複数個のAND付加キーワードのいずれか)を含む文書データを文書データ記憶部110から抽出する。
第2の再現率算出部135は、ステップS306と同様に、付加キーワード抽出部124によって抽出されたNOT付加キーワードのうち一番目の候補として抽出されたNOT付加キーワードに否定演算子を付加し、否定演算子を付加したNOT付加キーワードと改善対象キーワードとを論理積演算子で結合した文書判定条件を生成し、生成した文書判定条件に一致する文書データを文書データ記憶部110から抽出し、再現率を算出する。また、条件生成部137は、この時点での文書判定条件を用いた抽出文書数を、最低抽出文書数として自身の記憶領域に記憶させる。第2の再現率比較部136は、第2の再現率算出部135によって算出された再現率と、自身の記憶領域に記憶した許容再現率とを比較し、再現率が許容再現率を上回っているか否かを判定する(ステップS311)。
ステップS311において、第2の再現率比較部136が再現率は許容再現率を上回っていると判定すると(ステップS311:YES)、第2の再現率算出部135は、付加キーワード抽出部124によって抽出されたNOT付加キーワードのうち次候補のNOT付加キーワードを付加した文書判定条件を生成する(ステップS312)。第2の再現率算出部135は、ステップS311に戻り、生成した文書判定条件に一致する文書データを文書データ記憶部110から抽出し、再現率を算出する。そして、文書判定条件生成装置100は、第2の再現率比較部136によって再現率が許容再現率を上回っていないと判定されるまで、ステップS311とステップS312との処理を繰り返す。ステップS311において、第2の再現率比較部136が再現率は許容再現率を上回っていないと判定すると(ステップS311:NO)、抽出文書数比較部133は、条件生成部137に記憶された最低抽出文書数と、ステップS311において第2の再現率算出部135が生成した文書判定条件を用いて文書データ記憶部110から抽出される文書数とを比較する(ステップS313)。
抽出文書数比較部133が、条件生成部137に記憶された最低抽出文書数はステップS311において第2の再現率算出部135が生成した文書判定条件に基づく抽出文書数以上であると判定すると(ステップS313:YES)、条件生成部137は、最適抽出文書数の変数に、ステップS311において第2の再現率算出部135が生成した文書判定条件に基づく抽出文書数を代入する。また、最適ANDキーワード数に、第1の再現率算出部131によって付加されたAND付加キーワードの数を代入し、最適NOTキーワード数に、第2の再現率算出部135によって付加されたNOT付加キーワードの数を代入し、文書判定条件の最適解を上書きする(ステップS314)。
ステップS314における文書判定条件の最適解の上書き処理を行った場合、またはステップS313において抽出文書数比較部133が、最低抽出文書数は文書判定条件に基づく抽出文書数以上でないと判定した場合(ステップS313:NO)、条件生成部137は、文書判定条件に基づく再現率が100%であるか、もしくは付加キーワード抽出部124によって抽出されたAND付加キーワード候補の全てを文書判定条件に設定したかを判定する(ステップS315)。
条件生成部137は、文書判定条件に基づく再現率が100%でなく、かつ付加キーワード抽出部124によって抽出されたAND付加キーワード候補の全てが文書判定条件に設定されていないと判定すると(ステップS315:NO)、次のAND付加キーワード候補を文書判定条件に付加し、ステップS310に戻る。一方、ステップS315において、条件生成部137が、文書判定条件に基づく再現率が100%であるか、もしくは付加キーワード抽出部124によって抽出されたAND付加キーワード候補の全てを文書判定条件に設定したと判定すると(ステップS315:YES)、自身の記憶部に記憶された最適ANDキーワード数と、最適NOTキーワード数とを最適解であると判定する(ステップS309)。条件生成部137は、最適ANDキーワード数と、最適NOTキーワード数とに基づいて、文書判定条件を生成する(ステップS309)。
図6は、図5を用いて説明した文書判定条件生成処理における抽出文書数と再現率との関係を示す図である。この図において、X軸は抽出文書数を示し、Y軸は再現率を示す。ここで、改善対象キーワードのみを文書判定条件とした場合の抽出文書数をT0とする。T0に示される抽出文書数は、分類ノイズを含んだ数であると考えられる。符号a1は、改善対象キーワードに対してAND付加キーワードを1個付加した場合の再現率と抽出文書数とに対応する点である。このように、AND付加キーワード同士を論理和演算子により結合して付加すると、再現率と抽出文書数とが増加する。第1の再現率算出部131は、再現率が許容再現率を超えるまでAND付加キーワードを付加する(符号a2〜符号a8)。AND付加キーワードを8個付加し、再現率が許容再現率を超えると、NOT付加キーワードを付加する。符号d1は、AND付加キーワードが8個付加された文書判定条件にさらにNOT付加キーワードを1個付加した場合の再現率と抽出文書数とに対応する点である。第2の再現率算出部135は、このようにNOT付加キーワードを付加して、文書判定条件によって抽出される抽出文書数を減少させる。
第2の再現率算出部135は、文書判定条件にNOT付加キーワードを付加し続け、再現率が許容再現率以下にならない最大のNOT付加キーワード数を判定する。この例では、符号a8の点から、NOT付加キーワードを6個付加した場合(d6)には再現率が許容再現率以下になるため、NOT付加キーワードを5個付加した場合の抽出文書数(T1)の値を最低抽出文書数に代入し、最適NOTキーワード数に5を代入し、最適ANDキーワード数に8を代入する。ここで、再現率は100%でなく、ANDキーワード候補の全てが文書判定条件に付加されていないので(上述したフローにおけるステップS315において、NOに進む)、9個目のAND付加キーワードを付加し、9個目のAND付加キーワードに対して同様にNOTキーワードを付加する。文書判定条件生成装置100は、このようにして、複数の文書判定条件に基づく再現率と抽出文書数とを算出し、許容再現率を満たし、かつ抽出文書数が最も小さくなる場合の文書判定条件を、最適な文書判定条件として出力する。すなわち、許容再現率を満たす文書データ群の中には、不正解文書(ノイズ)が含まれていることが考えられるため、許容再現率を満たす文書データ群のうち、最も抽出文書数が少ない文書データ群が、最もノイズの少ない文書データ群であると考えられる。このため、カテゴリ判定条件生成装置100は、抽出文書数が最も小さくなる場合の文書判定条件を、最適な文書判定条件として出力する。
図7は、従来の文書判定条件と、本実施形態の文書判定条件生成装置100によって生成される文書判定条件との例を示す図である。例えば、従来において「障害」カテゴリに属する文書データを抽出するための文書判定条件として「指切断」、「膝」、「骨折」、「音声障害」などのキーワードが独立に設定されており、このうち「膝」と「骨折」とのキーワードの適合率が低く、これらを用いた場合の分類ノイズが多いとする。ここで、これらについて最適なAND付加キーワード、NOT付加キーワードを判定し、文書判定条件に付加する。例えば、キーワード「膝」に対して、論理和演算子(Or)によって結合されたAND付加キーワード「切断」およびAND付加キーワード「壊死」と、否定演算子が付加されたNOT付加キーワード「両脚」とが、論理積演算子(&)によって結合されている。また、キーワード「骨折」に対して、AND付加キーワード「大腿骨」と、否定演算子が付加され、論理積演算子(&)によって結合されたNOT付加キーワード「認めず」および「軽度」とが、論理積演算子(&)によって結合されている。
以上説明したように、本実施形態によれば、許容再現率を超える再現率を保った状態で、文書判定の分類ノイズを最小化し、最適な文書判定条件を生成することが可能である。
なお、本発明における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより文書判定条件の生成を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
100 文書判定条件生成装置
110 文書データ記憶部
111 キーワードリスト記憶部
112 改善対象キーワード抽出部
121 文書データ抽出部
122 形態素解析部
123 処理対象語抽出部
124 付加キーワード抽出部
131 第1の再現率算出部
132 第1の再現率比較部
133 抽出文書数比較部
134 NOTキーワード候補再抽出部
135 第2の再現率算出部
136 第2の再現率比較部
137 条件生成部

Claims (7)

  1. 定められた文書データに含まれる語に応じて、文書データの内容に応じた分類を示すカテゴリを判定するための文書判定条件を生成する文書判定条件生成装置であって、
    複数の前記カテゴリのうちいずれかのカテゴリが予め対応付けられた複数の文書データが記憶される文書データ記憶部と、
    複数の前記カテゴリのうち、前記文書判定条件を生成する対象である対象カテゴリに対応する複数のキーワードと、当該キーワードが前記対象カテゴリに対して適合する度合いを示す適合率とが対応付けられて記憶されるキーワードリスト記憶部と、
    前記キーワードリストに含まれる前記キーワードに対応付けられた前記適合率と予め定められた閾値とを比較して、前記閾値未満である前記適合率が対応付けられた前記キーワードである改善対象キーワードを前記キーワードリスト記憶部から抽出する改善対象キーワード抽出部と、
    前記改善対象キーワード抽出部によって抽出された前記改善対象キーワードが含まれ、かつ前記対象カテゴリが対応付けられた前記文書データである正解文書データを前記文書データ記憶部から抽出する文書データ抽出部と、
    前記文書データ抽出部によって抽出された前記正解文書データに含まれる語から、前記対象カテゴリに対する前記適合率が相対的に高い語である第1の付加キーワードを抽出する付加キーワード抽出部と、
    前記改善対象キーワード抽出部によって抽出された前記改善対象キーワードが含まれ、かつ前記付加キーワード抽出部によって抽出された前記第1の付加キーワードが含まれることを示す前記文書判定条件を生成する条件生成部と、
    を備えることを特徴とする文書判定条件生成装置。
  2. 前記文書データ抽出部によって抽出された前記正解文書データに含まれる文を形態素解析し、前記正解文書データに含まれる形態素と当該形態素に対応する品詞とを出力する形態素解析部と、
    前記形態素解析部による形態素解析の結果に基づいて、品詞が名詞である前記形態素が含まれる語である処理対象語を抽出する処理対象語抽出部と、を備え、
    前記付加キーワード抽出部は、前記処理対象語抽出部によって抽出された前記処理対象語から、前記第1の付加キーワードを抽出する
    ことを特徴とする請求項1に記載の文書判定条件生成装置。
  3. 前記文書データ抽出部は、前記改善対象キーワード抽出部によって抽出された前記改善対象キーワードおよび前記付加キーワード抽出部によって抽出された前記第1の付加キーワードが含まれ、かつ前記対象カテゴリ以外の前記カテゴリが対応付けられた前記文書データである不正解文書データを抽出し、
    前記付加キーワード抽出部は、前記文書データ抽出部によって抽出された前記不正解文書データに含まれる語から、前記対象カテゴリ以外の前記カテゴリに対する前記適合率が相対的に高い語である第2の付加キーワードを抽出し、
    前記条件生成部は、前記改善対象キーワード抽出部によって抽出された前記改善対象キーワードが含まれ、かつ前記付加キーワード抽出部によって抽出された前記第2の付加キーワードが含まれないことを示す前記文書判定条件を生成する
    ことを特徴とする請求項1または請求項2に記載の文書判定条件生成装置。
  4. 前記文書データ抽出部によって抽出された前記正解文書データの数と、前記文書判定条件を用いて前記文書データ記憶部に記憶された前記文書データから抽出する前記文書データの数との比である再現率を算出する再現率算出部と、
    前記再現率算出部が算出した前記再現率と、予め定められた再現率の閾値とを比較して、前記再現率が前記閾値未満であるか否かを判定する再現率比較部と、を備え、
    前記付加キーワード抽出部は、前記文書データ抽出部によって抽出された前記正解文書データに含まれる語から、前記対象カテゴリに対する前記適合率が相対的に高い複数の前記第1の付加キーワードを抽出し、
    前記条件生成部は、前記再現率比較部によって前記再現率が前記閾値未満であると判定された場合、前記改善対象キーワード抽出部によって抽出された前記改善対象キーワードが含まれ、かつ前記付加キーワード抽出部によって抽出された複数の前記第1の付加キーワードのうちいずれかのキーワードが含まれることを示す前記文書判定条件を生成する
    ことを特徴とする請求項1から請求項3までのいずれか1項に記載の文書判定条件生成装置。
  5. 前記付加キーワード抽出部は、前記文書データ抽出部によって抽出された前記不正解文書データに含まれる語から、前記対象カテゴリ以外のカテゴリに対する前記適合率が相対的に高い複数の前記第2の付加キーワードを抽出し、
    前記条件生成部は、前記再現率比較部によって前記再現率が前記閾値以上であると判定された場合、前記改善対象キーワード抽出部によって抽出された前記改善対象キーワードが含まれ、かつ前記付加キーワード抽出部によって抽出された複数の前記第2の付加キーワードのいずれもが含まれないことを示す前記文書判定条件を生成する
    ことを特徴とする請求項4に記載の文書判定条件生成装置。
  6. 前記カテゴリに対する前記キーワードの適合率は、前記文書データ記憶部に記憶された前記文書データのうち、当該カテゴリが対応付けられた前記文書データの数と、当該キーワードが含まれる全てのカテゴリの文書データの数との比によって表される
    ことを特徴とする請求項1から請求項5までのいずれか1項に記載の文書判定条件生成装置。
  7. 定められた文書データの内容に応じた分類を示す複数の前記カテゴリのうちいずれかのカテゴリが予め対応付けられた複数の文書データが記憶される文書データ記憶部と、複数の前記カテゴリのうち、文書データに含まれる語に応じて文書データのカテゴリを判定するための文書判定条件を生成する対象である対象カテゴリに対応する複数のキーワードと、当該キーワードが前記対象カテゴリに対して適合する度合いを示す適合率とが対応付けられて記憶されるキーワードリスト記憶部とを備えた文書判定条件生成装置の文書判定条件生成方法であって、
    前記キーワードリストに含まれる前記キーワードに対応付けられた前記適合率と予め定められた閾値とを比較して、前記閾値未満である前記適合率に対応する前記キーワードを前記キーワードリスト記憶部から抽出するステップと、
    抽出した前記キーワードが含まれ、かつ前記対象カテゴリが対応付けられた前記文書データである正解文書データを前記文書データ記憶部から抽出するステップと、
    抽出した前記正解文書データに含まれる語から、前記対象カテゴリに対する前記適合率が相対的に高い語である第1の付加キーワードを抽出するステップと、
    抽出した前記キーワードが含まれ、かつ抽出した前記第1の付加キーワードが含まれることを示す前記文書判定条件を生成するステップと、
    を備えることを特徴とする文書判定条件生成方法。
JP2009242379A 2009-10-21 2009-10-21 文書判定条件生成装置および文書判定条件生成方法 Active JP5297972B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009242379A JP5297972B2 (ja) 2009-10-21 2009-10-21 文書判定条件生成装置および文書判定条件生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009242379A JP5297972B2 (ja) 2009-10-21 2009-10-21 文書判定条件生成装置および文書判定条件生成方法

Publications (2)

Publication Number Publication Date
JP2011090447A true JP2011090447A (ja) 2011-05-06
JP5297972B2 JP5297972B2 (ja) 2013-09-25

Family

ID=44108656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009242379A Active JP5297972B2 (ja) 2009-10-21 2009-10-21 文書判定条件生成装置および文書判定条件生成方法

Country Status (1)

Country Link
JP (1) JP5297972B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013191204A (ja) * 2012-02-15 2013-09-26 Rakuten Inc カテゴリ判定装置、検索装置、カテゴリ判定方法、カテゴリ判定プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
JP2019149102A (ja) * 2018-02-28 2019-09-05 ヤフー株式会社 情報処理装置、キーワード抽出装置、情報処理方法、およびプログラム
JP2022029461A (ja) * 2018-02-28 2022-02-17 ヤフー株式会社 キーワード抽出装置、キーワード抽出方法、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006099478A (ja) * 2004-09-29 2006-04-13 Toshiba Corp 文書分類装置および文書分類方法
JP2007041721A (ja) * 2005-08-01 2007-02-15 Ntt Resonant Inc 情報分類方法およびプログラム、装置および記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006099478A (ja) * 2004-09-29 2006-04-13 Toshiba Corp 文書分類装置および文書分類方法
JP2007041721A (ja) * 2005-08-01 2007-02-15 Ntt Resonant Inc 情報分類方法およびプログラム、装置および記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200201756001; 辻洋、外3名: 'テキスト自動分類エキスパートシステムの一構成法' 第49回(平成6年後期)全国大会講演論文集(3) , 19940930, p.3-93〜3-94, 社団法人情報処理学会 *
JPN6013023674; 辻洋、外3名: 'テキスト自動分類エキスパートシステムの一構成法' 第49回(平成6年後期)全国大会講演論文集(3) , 19940930, p.3-93〜3-94, 社団法人情報処理学会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013191204A (ja) * 2012-02-15 2013-09-26 Rakuten Inc カテゴリ判定装置、検索装置、カテゴリ判定方法、カテゴリ判定プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
JP2019149102A (ja) * 2018-02-28 2019-09-05 ヤフー株式会社 情報処理装置、キーワード抽出装置、情報処理方法、およびプログラム
JP2022029461A (ja) * 2018-02-28 2022-02-17 ヤフー株式会社 キーワード抽出装置、キーワード抽出方法、およびプログラム
JP7297855B2 (ja) 2018-02-28 2023-06-26 ヤフー株式会社 キーワード抽出装置、キーワード抽出方法、およびプログラム

Also Published As

Publication number Publication date
JP5297972B2 (ja) 2013-09-25

Similar Documents

Publication Publication Date Title
US8402036B2 (en) Phrase based snippet generation
JP3497172B2 (ja) 自動文書分類システム
KR101508260B1 (ko) 문서 특징을 반영하는 요약문 생성 장치 및 방법
El-Fishawy et al. Arabic summarization in twitter social network
JP2004164036A (ja) 文書の共通性評価方法
US10586174B2 (en) Methods and systems for finding and ranking entities in a domain specific system
Gunawan et al. Multi-document summarization by using textrank and maximal marginal relevance for text in Bahasa Indonesia
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
JP2002132811A (ja) 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP5297972B2 (ja) 文書判定条件生成装置および文書判定条件生成方法
JP4969209B2 (ja) 検索システム
Pande et al. Generation, implementation, and appraisal of an N-gram-based stemming algorithm
Oliveira et al. A concept-based ilp approach for multi-document summarization exploring centrality and position
JP2009140263A (ja) 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム
Patil et al. Inflectional and derivational hybrid stemmer for sentiment analysis: a case study with Marathi tweets
Nomoto A generic sentence trimmer with CRFs
Romero et al. Using Wikipedia concepts and frequency in language to extract key terms from support documents
JP2002183194A (ja) 検索式生成装置およびその方法
JP2009098931A (ja) キーワード間の関連度算出システム及び関連度算出方法
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
Zheng et al. An improved focused crawler based on text keyword extraction
CN116738065B (zh) 一种企业搜索方法、装置、设备及存储介质
Galiotou et al. On the effect of stemming algorithms on extractive summarization: a case study
Kumar et al. TelStem: An unsupervised telugu stemmer with heuristic improvements and normalized signatures
US20230185837A1 (en) Method and computer system for determining the relevance of a text

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130430

TRDD Decision of grant or rejection written
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130515

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130617

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5297972

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250