JP2010218010A - 文書分類装置およびプログラム - Google Patents

文書分類装置およびプログラム Download PDF

Info

Publication number
JP2010218010A
JP2010218010A JP2009061274A JP2009061274A JP2010218010A JP 2010218010 A JP2010218010 A JP 2010218010A JP 2009061274 A JP2009061274 A JP 2009061274A JP 2009061274 A JP2009061274 A JP 2009061274A JP 2010218010 A JP2010218010 A JP 2010218010A
Authority
JP
Japan
Prior art keywords
classification
sentence
determination
document
identification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009061274A
Other languages
English (en)
Inventor
Yoshimi Saito
佳美 齋藤
Toshiyuki Kano
敏行 加納
Saori Kurata
早織 倉田
Yasuo Senpuku
康雄 仙福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2009061274A priority Critical patent/JP2010218010A/ja
Publication of JP2010218010A publication Critical patent/JP2010218010A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書分類の基準となる判定文の品質を向上させることを可能とする。
【解決手段】文書分類部31は、分類対象文書格納部22に格納されている文書中に判定文に類似する文が含まれている場合、当該文書を識別するための文書ID、当該判定文に対応づけて分類判定文格納部23に格納されている判定文IDおよび分類IDを対応づけて分類ログ格納部25に格納する。入出力部33は、ユーザの操作に応じて正解分類IDを入力する。判定文修正部36は、分類ログ格納部25に格納された分類IDおよび入力された正解分類IDが同一でない場合、分類ログ格納部25に格納された文書ID、判定文ID、分類IDおよび入力された正解分類IDを出力する。判定文更新部37は、ユーザの操作に応じて、分類ログ格納手段に格納された判定文IDに対応づけて分類判定文格納部23に格納されている分類IDを、入力された正解分類IDに更新する。
【選択図】 図2

Description

本発明は、分類判定の基準となる判定文との類似度により文書を分類する文書分類装置およびプログラムに関する。
近年、大量の文書群を自動分類する文書分類装置が知られている。文書分類装置に適用される文書分類方式として、例えば文書の分類分野に対応して設けられた分類基準となる判定文および分類対象となる文書(分類対象文書)を比較し、これらの類似度に基づいて当該分類対象文書の分類分野が決定される方式がある。
このような文書分類装置に関連して、例えばアンケートのように特定分野において様々な設問事項を選択肢や自由記述によって記述された文書データのうち、自由記述された回答内容に対して回答内容を分析し、分類する技術(以下、先行技術と表記)が開示されている(例えば、特許文献1を参照)。この先行技術によれば、対象となる分類カテゴリがある程度限定されたアンケートのような文書集合に対して、分類時に着目する点を規定する分類ルールを予め与えておき、さらに、分類カテゴリ毎に設定された分類基準文となる文書をサンプルデータとして与えたときに自動的にクラスタリングする事で、大量の学習用文書を必要とした自動分類を、少ないサンプルデータで自動分類することができる。
特開2001−312501号公報
上記したように、先行技術によれば、予め定められた分類基準となる判定文(分類基準文)と分類対象文書との比較により、当該分類対象文書の分類分野が決定される。
つまり、先行技術は、単語の出現傾向が類似しているような場合であっても、分類対象文書に判定文における特定の概念が含まれるか否かにより分類される。したがって、先行技術は、単語の出現傾向が類似し、単語ベクトルにより分類することが困難な文書集合における文書分類に適している。
また、先行技術においては、分類の基準(つまり、判定文)をユーザの分類目的に合わせて設定することが可能である。よって、先行技術においては、ユーザの分類目的に適応した文書分類を行うことができる。
ところで、先行技術においては、予め設定された判定文に基づいて分類対象文書が分類されるため、当該判定文の品質により文書の分類精度が決定される。つまり、分類精度の高い文書分類を行うためには、品質の高い判定文を予め用意しておくことが好ましい。
しかしながら、品質の高い判定文を予め設定しておくことは困難であるため、当該判定文の品質を向上させるような仕組みが必要である。
そこで、本発明の目的は、文書分類の基準となる判定文の品質を向上させることが可能な文書分類装置およびプログラムを提供することにある。
本発明の1つの態様によれば、文字列からなる文を含む文書を格納する文書格納手段と、前記文書格納手段に格納されている文書を分類するための基準となる文字列を含む判定文、当該判定文を識別するための判定文識別情報および当該判定文に対応する分類分野を識別するための分類識別情報を予め対応づけて格納する判定文格納手段と、前記文書格納手段に格納されている文書中に前記判定文格納手段に格納されている判定文に類似する文が含まれているかを、当該文書および判定文に含まれる文字列に基づいて判定する第1の判定手段と、前記判定文に類似する文が含まれていると判定された場合、前記文書格納手段に格納されている文書を識別するための文書識別情報、当該判定文に対応づけて前記判定文格納手段に格納されている判定文識別情報および分類識別情報を対応づけて格納する分類ログ格納手段と、ユーザの前記文書の分類を修正する操作に応じて、前記文書格納手段に格納されている文書が分類される分類分野を識別するための正解分類識別情報を入力する入力手段と、前記分類ログ格納手段に格納された分類識別情報および前記入力された正解分類識別情報が同一であるかを判定する第2の判定手段と、前記分類識別情報および前記正解分類識別情報が同一でないと判定された場合、前記分類ログ格納手段に格納された文書識別情報、判定文識別情報、分類識別情報および前記入力された正解分類識別情報を出力する出力手段と、前記ユーザによる前記判定文の分類を修正する操作に応じて、前記分類ログ格納手段に格納された判定文識別情報に対応づけて前記判定文格納手段に格納されている分類識別情報を前記入力された正解分類識別情報に更新する更新手段とを具備することを特徴とする文書分類装置とこの装置を実現するプログラムが提供される。
また、本発明の他の態様によれば、文字列からなる文を含む文書を格納する文書格納手段と、前記文書格納手段に格納されている文書を分類するための基準となる文字列を含む判定文、当該判定文を識別するための判定文識別情報および当該判定文に対応する分類分野を識別するための分類識別情報を予め対応づけて格納する判定文格納手段と、前記文書格納手段に格納されている文書中に前記判定文格納手段に格納されている判定文に類似する文が含まれているかを、当該文書および判定文に含まれる文字列に基づいて判定する第1の判定手段と、前記判定文に類似する文が含まれていると判定された場合、前記文書格納手段に格納されている文書を識別するための文書識別情報、当該判定文に対応づけて前記判定文格納手段に格納されている判定文識別情報および分類識別情報を対応づけて格納する分類ログ格納手段と、ユーザの前記文書の分類を修正する操作に応じて、前記文書格納手段に格納されている文書が分類される分類分野を識別するための正解分類識別情報を入力する入力手段と、前記分類ログ格納手段に格納された分類識別情報および前記入力された正解分類識別情報が同一であるかを判定する第2の判定手段と、前記分類識別情報および前記正解分類識別情報が同一でないと判定された場合、前記分類ログ格納手段に格納された判定文識別情報に対応づけて前記判定文格納手段に格納されている分類識別情報を前記入力された正解分類識別情報に更新する更新手段とを具備することを特徴とする文書分類装置とこの装置を実現するプログラムが提供される。
本発明によれば、文書分類の基準となる判定文の品質を向上させることを可能とする。
本発明の第1の実施形態に係る文書分類装置のハードウェア構成を示すブロック図。 図1に示す文書分類装置30の主として機能構成を示すブロック図。 図2に示す分類対象文書格納部22のデータ構造の一例を示す図。 図2に示す分類判定文格納部23のデータ構造の一例を示す図。 分類判定文格納部23に格納されている判定文に対する形態素解析結果の一例を示す図。 図2に示す分類結果格納部24のデータ構造の一例を示す図。 図2に示す分類ログ格納部25のデータ構造の一例を示す図。 分類結果修正部34による修正処理が実行された後の分類結果格納部24のデータ構造の一例を示す図。 分類結果修正部34によって正解分類IDが追加された後の分類ログ格納部25のデータ構造の一例を示す図。 図2に示す判定文修正部36による文書に対する構文解析結果の一例を示す図。 本実施形態に係る文書分類装置30の処理手順を示すフローチャート。 図2に示す文書分類部31の処理手順を示すフローチャート。 図2に示す類似度判定部32の処理手順を示すフローチャート。 図2に示す修正結果解析部35の処理手順を示すフローチャート。 図2に示す判定文修正部36の処理手順を示すフローチャート。 ユーザに対して表示される判定文の確認修正画面100の一例を示す図。 ユーザに対して表示される判定候補文の登録画面200の一例を示す図。 図2に示す判定文更新部37の処理手順を示すフローチャート。 分類判定文格納23の更新処理が実行された後の分類判定文格納部23のデータ構造の一例を示す図。 本発明の第2の実施形態に係る文書分類装置の主として機能構成を示すブロック図。 図20に示す関連ID格納部26のデータ構造の一例を示す図。 本実施形態においてユーザに対して表示される判定文の確認修正画面300の一例を示す図。
以下、図面を参照して、本発明の各実施形態について説明する。なお、本明細書において「分類」とは、対象となる文書を分類することを指し、「判定文の属性」というのは、判定文に関連づけられた分類識別情報やその他の属性情報(例えば頻度や日付などの履歴情報)のことを指している。
[第1の実施形態]
まず、図1および図2を参照して、本発明の第1の実施形態について説明する。図1は、本実施形態に係る文書分類装置のハードウェア構成を示すブロック図である。図1に示すように、コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を格納する。コンピュータ10および外部記憶装置20は、文書分類装置30を構成する。
図2は、図1に示す文書分類装置30の主として機能構成を示すブロック図である。図2に示すように、文書分類装置30は、文書分類部31、類似度判定部32、入出力部33、分類結果修正部34、修正結果解析部35、判定文修正部36および判定文更新部37を含む。
本実施形態において、これらの各部31乃至37は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。このプログラム21は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム21が例えばネットワークを介してコンピュータ10にダウンロードされても構わない。
また、文書分類装置30は、分類対象文書格納部22、分類判定文格納部23、分類結果格納部24および分類ログ格納部25を含む。本実施形態において、分類対象文書格納部22、分類判定文格納部23、分類結果格納部24および分類ログ格納部25は、例えば外部記憶装置20に格納される。
分類対象文書格納部22には、文書分類装置30による分類の対象となる文書(分類対象文書)が格納される。分類対象文書格納部22には、複数の文書が格納される。分類対象文書格納部22に格納されている文書は、例えば文字列からなる文を含む。また、分類対象文書格納部22に格納されている文書には、当該文書を識別するための文書ID(文書識別情報)が付与されている。なお、文書IDは、分類対象文書格納部22に格納されている文書の各々に対して例えば1から順に付与される。
分類判定文格納部23には、分類対象文書格納部22に格納されている文書を分類するための基準となる判定文が格納されている。この分類判定文格納部23に格納されている判定文は、文字列を含む。
分類判定文格納部23には、判定文、当該判定文を識別するための判定文ID(判定文識別情報)および当該判定文に対応する分類分野を識別するための分類ID(分類識別情報)が予め対応づけて格納されている。
分類判定文格納部23には、上記した判定文、判定文IDおよび分類ID以外に、例えば当該判定文を利用するか否かを示す利用フラグ等が格納される。この分類判定文格納部23の詳細については後述する。
また、分類判定文格納部23には、当該分類判定文格納部23に格納されている判定文の形態素解析結果が予め格納されている。この判定文の形態素解析結果には、当該判定文を識別するための判定文IDおよび当該判定文に含まれる単語(文字列)が対応づけて含まれる。
文書分類部31は、分類対象文書格納部22に格納されている文書(群)を、分類判定文格納部23に格納されている判定文および分類IDに基づいて分類する。文書分類部31は、分類結果に基づいて、文書ID、分類IDまたは判定文IDを分類結果格納部24および分類ログ格納部25に格納する。
類似度判定部32は、分類対象文書格納部22に格納されている文書中に、分類判定文格納部23に格納されている判定文に類似する文が含まれているか否かを判定する。
このとき、類似度判定部32は、分類対象文書格納部22に格納されている文書および分類判定文格納部23に格納されている判定文に対して構文解析を実行する。これにより、類似度判定部32は、分類対象文書格納部22に格納されている文書および分類判定文格納部23に格納されている判定文を構成する単語の情報(文字列)を取得する。
類似度判定部32は、分類対象文書格納部22に格納されている文書に含まれる文中の文字列および分類判定文格納部23に格納されている判定文に含まれる文字列に基づいて判定処理を実行する。類似度判定部32は、判定結果を文書分類部31に渡す。この類似度判定部32による判定結果は、文書分類部31による文書の分類処理において用いられる。
文書分類部31による文書の分類処理において、分類対象文書格納部22に格納されている文書は、当該文書中に分類判定文格納部23に格納されている判定文に類似する文が含まれていると類似度判定部32によって判定場合には当該判定文に対応づけて分類判定文格納部23に格納されている分類IDによって識別される分類分野に分類される。
分類結果格納部24には、文書分類部31による分類結果が格納される。例えば類似度判定部32によって文書中に判定文に類似する文が含まれていると判定された場合(つまり、分類できる場合)、分類結果格納部24には分類結果として当該文書を識別するため文書IDおよび当該文書IDによって識別される文書が分類された分類分野を識別するための分類IDが対応づけて格納される。一方、類似度判定部32によって文書中に判定文に類似する文が含まれていないと判定された場合(つまり、分類できない場合)、分類結果格納部24には分類結果として当該文書を識別するための文書IDが格納される。
分類ログ格納部25には、文書分類部31による分類処理のログ情報(分類ログ)が格納される。例えば類似度判定部32によって文書中に判定文に類似する文が含まれていると判定された場合、分類ログ格納部25には分類ログとして当該文書を識別するための文書ID、当該文書IDによって識別される文書が分類された分類分野を識別するための分類IDおよび当該分類に用いられた判定文を識別するための判定文IDが対応づけて格納される。この判定文IDは、文書IDによって識別される文書中に判定文に類似する文が含まれていると類似度判定部32によって判定された場合の当該判定文を識別するための識別子である。一方、類似度判定部32によって文書中に判定文に類似する文が含まれていないと判定された場合、分類ログ格納部25には分類ログとして当該文書を識別するための文書IDが格納される。
入出力部33は、分類結果格納部24に格納されている分類結果を出力する。これにより、入出力部33は、分類結果をユーザに対して例えば提示し、当該分類結果の確認を求める。
入出力部33は、ユーザによる文書の分類を修正する操作に応じて、分類結果に対する例えば分類分野の修正内容を示す修正情報を入力する。この修正情報には、例えば分類結果格納部24に格納されている文書IDによって識別される文書が分類されるべき分類分野(ユーザによって指定された分類分野)を識別するための分類ID(以下、正解分類IDと表記)が含まれる。
つまり、ユーザは、入出力部33によって出力された分類結果を参照して、当該分類結果が適切ならば当該分類結果の修正は行わず、当該分類結果が不適切であれば正解分類IDを指定して当該分類結果を修正する。
分類結果修正部34は、文書IDに対応づけて分類結果格納部24に格納されている分類IDを入出力部33によって入力された修正情報に含まれている正解分類IDに修正する。
また、分類結果修正部34は、入出力部33によって入力された修正情報に含まれている正解分類IDを、分類ログ格納部25に格納されている文書ID、分類IDおよび判定文IDに対応づけて当該分類ログ格納部25に格納する。
修正結果解析部35は、分類判定文格納部23および分類ログ格納部25に格納されている各情報等を解析する処理を実行する。修正結果解析部35は、文書IDに対応づけて分類ログ格納部25に格納されている分類IDおよび正解分類IDが同一であるか否かを判定する。修正結果解析部35は、文書IDに対応づけて分類ログ格納部25に判定文IDが格納されているか否かを判定する。また、修正結果解析部35は、分類ログ格納部25に格納されている判定文IDによって識別される判定文の正解率(後述する)が予め定められた値(閾値)を下回るか否かを判定する。
修正結果解析部35は、上記した各判定処理の判定結果に基づいて、判定文修正部36および判定文更新部37を呼び出す。
修正結果解析部35は、文書IDに対応づけて分類ログ格納部25に判定文IDが格納されていると判定された場合、分類ログ格納部25に格納された文書IDを判定文修正部36に渡す。また、修正結果解析部35は、分類ログ格納部25に格納されている判定文IDによって識別される判定文の正解率が閾値を下回らないと判定された場合、分類ログ格納部25に格納された文書ID、判定文ID、分類IDおよび正解分類IDを判定文修正部36に渡す。
修正結果解析部35は、分類ログ格納部25に格納されている分類IDおよび正解分類IDが同一であると判定された場合、分類ログ格納部25に格納された判定文ID、分類IDおよび正解分類IDと、後述する正解モード「正解」および利用モード「利用オン」とを判定文更新部37に渡す。また、修正結果解析部35は、分類ログ格納部25に格納されている判定文IDによって識別される判定文の正解率が閾値を下回ると判定された場合、分類ログ格納部25に格納された判定文ID、分類IDおよび正解分類IDと、正解モード「誤り」および利用モード「利用オフ」とを判定文更新部37に渡す。
上記したように、正解モードには、「正解」および「誤り」が含まれる。また、利用モードには、「利用オン」および「利用オフ」が含まれる。
判定文修正部36は、修正結果解析部35から渡された判定文IDによって識別される判定文に対する形態素解析結果を分類判定文格納部23から取得する。これにより、判定文修正部36は、修正結果解析部35から渡された判定文IDによって識別される判定文を構成する単語の情報(文字列)を取得する。
判定文修正部36は、取得された単語をキーワードとして、分類判定文格納部23から判定文を検索する。このとき、判定文修正部36は、修正結果解析部35から渡された分類IDおよび正解分類ID(分類ログ格納部25に格納された分類IDおよび正解分類ID)に対応づけて分類判定文格納部23に格納されている判定文を検索する。
判定文修正部36は、修正結果解析部35から渡された文書ID、判定文IDおよび検索された判定文(関連判定文)を識別するための判定文ID(関連判定文ID)等の情報を、入出力部33を介して出力する。判定文修正部36は、出力された情報に対するユーザによる修正文の分類を修正する操作に応じて、修正結果解析部35から渡された判定文ID、分類IDおよび正解分類IDと、正解モードおよび利用モードとを判定文更新部37に渡す。判定文更新部37に渡される正解モードおよび利用モードは、出力された情報に対するユーザの操作に応じて決定される。
また、判定文修正部36は、修正結果解析部35から渡された文書IDによって識別される文書に対する構文解析処理を実行する。判定文修正部36は、構文解析結果に対して後述する判定文候補生成ルールを適用することで、上記した文書を分類するための基準となる判定文の候補となる文(以下、判定候補文と表記)を生成する。判定文修正部36は、生成された判定候補文を、入出力部33を介して出力する。判定文修正部36は、出力された判定候補文に対するユーザによる修正文の分類を修正する操作に応じて、修正結果解析部35から渡された判定文ID、分類IDおよび正解分類IDと、正解モード(正解)、利用モード(利用オン)および当該判定候補文とを判定文更新部37に渡す。
判定文更新部37は、修正結果解析部36および判定文修正部36から渡された判定文ID、分類ID、正解分類ID、正解モードおよび利用モードに基づいて、分類判定文格納部23を更新する。
上記した文書分類部31、類似度判定部32、修正結果解析部35、判定文修正部36および判定文更新部37の各処理の詳細については後述する。
図3は、図2に示す分類対象文書格納部22のデータ構造の一例を示す。図3に示すように、分類対象文書格納部22には、文書を識別するための文書IDに対応づけて当該文書が格納されている。文書IDは、分類対象文書格納部22に格納されている文書の各々に対して付与されている識別子である。
図3に示す例では、分類対象文書格納部22には、文書ID「001」に対応づけて文書「新製品の資料を作成し、プレゼンテーションを実施した。活発な質疑が行われ、プレゼンは好評だった。今後、新製品の新聞発表についても検討することになった。」が格納されている。
分類対象文書格納部22には、文書ID「002」に対応づけて文書「新製品の「XXX」売れ行きが好調なので、他社動向について調査した。今のところ、新製品に関連し他社からの新聞発表などは行われていないが、A社では「XXX」についての調査を実施している模様。」が格納されている。
分類対象文書格納部22には、文書ID「003」に対応づけて文書「新製品の「YYY」に関連し、ライバル他社の商品と調査し、プレゼンテーションした。特にB社製品について印刷機能が好評だった。」が格納されている。
分類対象文書格納部22には、文書ID「004」に対応づけて文書「新製品の「YYY」について、購入者を対象としたアンケートを集計した。他社製品と比較して、印刷機能が便利という声が最も多かった。」が格納されている。
分類対象文書格納部22には、文書ID「005」に対応づけて文書「新製品の「ZZZ」についての購入者のアンケート調査を実施し、プレゼンテーション機能が好評であるとのデータが得られた。一方、作図機能については不満が少なくない。」が格納されている。
図4は、図2に示す分類判定文格納部23のデータ構造の一例を示す。なお、図4においては、文書分類装置30の稼動開始前の分類判定文格納部23、つまり、初期状態の分類判定文格納部23のデータ構造の一例が示されている。なお、図4においては、分類判定文格納部23に格納されている判定文に対する形態素解析結果については省略されている。この判定文に対する形態素解析結果の一例については後述する。
図4に示すように、分類判定文格納部23には、判定文ID、分類ID、判定文、出現頻度および利用フラグが対応づけて予め格納されている。
判定文IDは、文書を分類するための基準となる判定文を識別するための識別子である。分類IDは、判定文に対応する分類分野を識別するための識別子である。判定文に類似する文を含む文書は、当該判定文に対応づけられている分類IDによって識別される分類分野に分類される。
出現頻度は、例えば過去の正解事例において、当該出現頻度に対応づけられている判定文が出現した分類分野毎の回数を示す。つまり、出現頻度は、当該出現頻度に対応づけられている判定文に類似する文を含む文書が最終的に分類された分類分野(つまり、上記した正解分類IDによって識別される分類分野)毎の回数を示す。なお、出現頻度は、分類判定文格納部23の初期状態では例えばユーザによって予め定められた値が入力されている。
利用フラグは、当該利用フラグに対応づけられている判定文を利用するか否かを示す。利用フラグには、判定文を利用する旨を示す利用フラグ「1」(第1の利用フラグ)および判定文を利用しない旨を示す利用フラグ「0」(第2の利用フラグ)が含まれる。
なお、分類判定文格納部23には、判定文の正解数、誤り数および正解率が格納されるが、文書分類装置30の稼動開始前(つまり、初期状態)においては、これらについては分類判定文格納部23には格納されていない。正解数は、判定文に応じて分類された分類分野が正解した数を示す。誤り数は、判定文に応じて分類された分類分野が誤りであった数を示す。正解率は、正解数/(正解数+誤り数)によって算出される数値である。これらの値は、文書分類装置30の稼動後に格納されることになる。
図4に示す例では、分類判定文格納部23には、判定文ID「0001」、分類ID「A001」、判定文「新製品をプレゼンテーションする」、出現頻度(A001)「3」、出現頻度(B001)「0」、出現頻度(B002)「1」、出現頻度(B003)「0」および利用フラグ「1」が対応づけて格納されている。
分類判定文格納部23には、判定文ID「0002」、分類ID「A001」、判定文「新製品の機能を紹介する」、出現頻度(A001)「2」、出現頻度(B001)「0」、出現頻度(B002)「1」、出現頻度(B003)「0」および利用フラグ「1」が対応づけて格納されている。
分類判定文格納部23には、判定文ID「0003」、分類ID「B001」、判定文「他社動向を調査する」、出現頻度(A001)「0」、出現頻度(B001)「4」、出現頻度(B002)「0」、出現頻度(B003)「0」および利用フラグ「1」が対応づけて格納されている。
分類判定文格納部23には、判定文ID「0004」、分類ID「B001」、判定文「機能に注目する」、出現頻度(A001)「0」、出現頻度(B001)「3」、出現頻度(B002)「1」、出現頻度(B003)「0」および利用フラグ「1」が対応づけて格納されている。
分類判定文格納部23には、判定文ID「0005」、分類ID「B002」、判定文「アンケートで調査する」、出現頻度(A001)「0」、出現頻度(B001)「1」、出現頻度(B002)「5」、出現頻度(B003)「2」および利用フラグ「1」が対応づけて格納されている。
分類判定文格納部23には、判定文ID「0006」、分類ID「B002」、判定文「機能が好評だ」、出現頻度(A001)「1」、出現頻度(B001)「1」、出現頻度(B002)「4」、出現頻度(B003)「0」および利用フラグ「1」が対応づけて格納されている。
分類判定文格納部23には、判定文ID「0007」、分類ID「B003」、判定文「機能を測定する」、出現頻度(A001)「0」、出現頻度(B001)「1」、出現頻度(B002)「1」、出現頻度(B003)「4」および利用フラグ「1」が対応づけて格納されている。
また、分類判定文格納部23には、判定文ID「0008」、分類ID「B003」、判定文「機能を評価する」、出現頻度(A001)「0」、出現頻度(B001)「3」、出現頻度(B002)「3」、出現頻度(B003)「4」および利用フラグ「0」が対応づけて格納されている。
図5は、前述した分類判定文格納部23に格納されている判定文に対する形態素解析結果の一例を示す。
図5に示すように、分類判定文格納部23に格納されている判定文に対する形態素解析結果には、当該判定文を識別するための判定文IDに対応づけて当該判定文に含まれる単語(文字列)が含まれる。なお、図5においては、上記した図4に示す分類判定文格納部23に格納されている各判定文に対する形態素解析結果について示されている。また、図5においては、判定文に含まれる例えば名詞および動詞が示されている。
図5に示す例では、判定文に対する形態素解析結果には、判定文ID「0001」に対応づけて単語「新製品」および「プレゼンテーション」が含まれている。これによれば、判定文ID「0001」によって識別される判定文には、単語「新製品」および「プレゼンテーション」が含まれることが示されている。
判定文に対する形態素解析結果には、判定文ID「0002」に対応づけて単語「新製品」、「機能」および「紹介」が含まれている。
判定文に対する形態素解析結果には、判定文ID「0003」に対応づけて単語「他社動向」および「調査」が含まれている。
判定文に対する形態素解析結果には、判定文ID「0004」に対応づけて単語「機能」および「注目」が含まれている。
判定文に対する形態素解析結果には、判定文ID「0005」に対応づけて単語「アンケート」および「調査」が含まれている。
判定文に対する形態素解析結果には、判定文ID「0006」に対応づけて単語「機能」および「好評」が含まれている。
判定文に対する形態素解析結果には、判定文ID「0007」に対応づけて単語「機能」および「測定」が含まれている。
また、判定文に対する形態素解析結果には、判定文ID「0008」に対応づけて単語「機能」および「評価」が含まれている。
図6は、図2に示す分類結果格納部24のデータ構造の一例を示す。図6に示すように、分類結果格納部24には、文書分類部31による分類結果として文書IDおよび分類IDが対応づけて格納される。この分類IDは、文書IDによって識別される文書が分類された分類分野を識別するための識別子である。
図6に示す例では、分類結果格納部24には、文書ID「001」および分類ID「A001」が対応づけて格納されている。これによれば、文書ID「001」によって識別される文書が分類ID「A001」によって識別される分類分野に分類されたことが示されている。
分類結果格納部24には、文書ID「002」および分類ID「B001」が対応づけて格納されている。
分類結果格納部24には、文書ID「003」および分類ID「B002」が対応づけて格納されている。
分類結果格納部24には、文書ID「004」格納されている。この場合、文書ID「004」に対応づけて分類IDが格納されていない。これによれば、文書ID「004」によって識別される文書中に分類判定文格納部23に格納されている判定文に類似する文が含まれていないため、当該文書は分類することができないことが示されている。この場合、文書ID「004」に対応する分類IDは、分類結果格納部24には格納されない。
また、分類結果格納部24には、文書ID「005」および分類ID「B002」が対応づけて格納されている。
図7は、図2に示す分類ログ格納部25のデータ構造の一例を示す。図7に示すように、分類ログ格納部25には、上記した分類ログとして文書ID、分類IDおよび判定文IDが対応づけて格納される。
文書IDおよび分類IDについては、上記した分類結果格納部24に格納される文書IDおよび分類IDと同様である。判定文IDは、文書IDによって識別される文書を分類IDによって識別される分類分野に分類する際に用いられた判定文を識別するための識別子である。つまり、文書IDによって識別される文書中には、当該文書IDに対応づけられている判定文IDによって識別される判定文に類似する文が含まれている。
なお、図7に示すように、分類ログ格納部25には、正解分類IDが格納される。この正解分類IDは、上記したようにユーザによる文書の分類を修正する操作に応じて入出力部33によって入力された後、分類ログ格納部25に格納される。図7においては、正解分類IDが格納される前の分類ログ格納部25のデータ構造を示している。
図7に示す例では、分類ログ格納部25には、文書ID「001」、分類ID「A001」および判定文ID「0001」が対応づけて格納されている。これによれば、文書ID「001」によって示される文書中に判定文ID「0001」によって識別される判定文に類似する文が含まれているため、当該文書が分類ID「A001」によって識別される分類分野に分類されたことが示されている。
分類ログ格納部25には、文書ID「002」、分類ID「B001」および判定文ID「0003」が対応づけて格納されている。
分類ログ格納部25には、文書ID「003」、分類ID「B002」および判定文ID「0006」が対応づけて格納されている。
分類ログ格納部25には、文書ID「004」が格納されている。この場合、文書ID「004」に対応づけて分類IDおよび判定文IDが格納されていない。これによれば、文書ID「004」によって識別される文書中に分類判定文格納部23に格納されている判定文に類似する文が含まれていないため、当該文書は分類することができないことが示されている。この場合、文書ID「004」に対応する分類IDおよび判定文IDは、分類ログ格納部25には格納されない。
また、分類ログ格納部25には、文書ID「005」、分類ID「B002」および判定文ID「0005」が対応づけて格納されている。
図8は、分類結果修正部34による修正処理が実行された後の分類結果格納部24のデータ構造の一例を示す。ここでは、上記した図6に示す分類結果格納部24に対して修正処理が実行されたものとする。
図8に示す例では、分類結果格納部24には、文書ID「001」および分類ID「A001」が対応づけて格納されている。
分類結果格納部24には、文書ID「002」および分類ID「B001」が対応づけて格納されている。
分類結果格納部24には、文書ID「003」および分類ID「B001」が対応づけて格納されている。
分類結果格納部24には、文書ID「004」および分類ID「B002」が対応づけて格納されている。
また、分類結果格納部24には、文書ID「005」および分類ID「B002」が対応づけて格納されている。
図8に示す例においては、上記した図5に示す分類結果格納部24に対して、文書ID「003」に対応づけられている分類IDが「B002」から「B001」に修正されている。また、文書ID「004」によって識別される文書が分類される分類分野を識別する分類ID(正解分類ID)として、分類ID「B002」が追加されている。
図9は、分類結果修正部34によって正解分類IDが追加(格納)された後の分類ログ格納部25のデータ構造の一例を示す。ここでは、上記した図7に示す分類ログ格納部25に対して正解分類IDが追加されたものとする。また、上記した図6に示す分類結果格納部24が図8に示す分類結果格納部24に修正されたているものとする。
図9に示す例では、分類ログ格納部25には、文書ID「001」、分類ID「A001」、判定文ID「0001」および正解分類ID「A001」が対応づけて格納されている。上記した図6および図8に示すように分類結果格納部24において、文書ID「001」に対応づけられている分類ID「A001」は修正されていないため、当該分類ID「A001」が正解分類IDとなる。
分類ログ格納部25には、文書ID「002」、分類ID「B001」、判定文ID「0003」および正解分類ID「B001」が対応づけて格納されている。上記した文書ID「001」と同様に、分類結果格納部24において文書ID「002」に対応づけられている分類ID「B001」は修正されていないため、当該分類ID「B001」が正解分類IDとなる。
分類ログ格納部25には、文書ID「003」、分類ID「B002」、判定文ID「0006」および正解分類ID「B001」が対応づけて格納されている。分類結果格納部24において、文書ID「003」に対応づけられている分類ID「B002」が「B001」に修正されているため、修正後の分類ID「B001」が正解分類IDとなる。
分類ログ格納部25には、文書ID「004」に対応づけて正解分類ID「B002」が格納されている。分類結果格納部24において、文書ID「004」に対応づけて分類ID「B002」が追加されているため、当該分類ID「B002」が正解分類IDとなる。
また、分類ログ格納部25には、文書ID「005」、分類ID「B002」および、文ID「0005」および正解分類ID「B002」が対応づけて格納されている。上記した文書ID「001」および「002」と同様に、分類結果格納部24において文書ID「005」に対応づけられている分類ID「B002」は修正されていないため、当該分類ID「B002」が正解分類IDとなる。
図10は、上記した図2に示す判定文修正部36による文書(に含まれる文)に対する構文解析結果の一例を示す。図10においては、上記した図3に示す文書ID「004」によって識別される文書の1文目「新製品の「YYY」について、購入者を対象としたアンケートを集計した。」についての構文解析結果が示されている。
図10に示すように、構文解析結果には、文節ID毎に、単語、品詞、係り受け関係および係り先が対応づけて含まれる。文節IDは、構文解析の対象となる文書を構成する文節を識別するための識別子である。単語は、当該単語に対応づけられている文節IDによって識別される文節に含まれる文字列(単語)を示す。品詞は、当該品詞に対応づけられている単語の品詞を示す。係り受け関係は、当該係り受け関係に対応づけられている文節IDによって識別される文節と他の文節との係り受け関係を示す。係り先は、当該係り先に対応づけられている文節IDによって識別される文節の係り先となる文節を識別するための文節IDを示す。
図10に示す例では、構文解析結果には、文節ID「1」に対応づけて単語「新製品」、品詞「名詞」、係り受け関係「の」および係り先「2」が含まれている。
この文節ID「1」についての構文解析結果によれば、当該構文解析の対象となる文(ここでは、「新製品の「YYY」について、購入者を対象としたアンケートを集計した。」)を構成する文節「新製品の」の単語「新製品」は名詞であり、当該単語「新製品」が係り受け関係「の」で係り先「2」(文節ID「2」)によって識別される文節に係る旨が解析されている。
なお、文節ID「1」によって識別される文節以外の文節についても同様であるため、その詳しい説明は省略する。
次に、図11のフローチャートを参照して、本実施形態に係る文書分類装置30の処理手順について説明する。
まず、文書分類部31は、分類判定文格納部23に格納されている判定文に基づいて、分類対象文書格納部22に格納されている文書を分類する(ステップS1)。このとき、類似度判定部32は、分類対象文書格納部22に格納されている文書中に、分類判定文格納部23に格納されている判定文に類似する文が含まれているか否かを判定する。文書分類部31は、類似度判定部32によって文書中に判定文に類似する文が含まれていると判定された場合、当該判定文に対応づけて分類判定文格納部23に格納されている分類IDによって識別される分類分野に当該文書を分類する。
文書分類部31は、分類結果を分類結果格納部24に格納する(ステップS2)。文書分類部31は、文書を識別するための文書IDおよび当該文書が分類された分類分野を識別するための分類IDを分類結果格納部24に格納する。
また、文書分類部31は、分類ログを分類ログ格納部25に格納する。文書分類部31は、文書を識別するための文書ID、当該文書が分類された分類分野を識別するための分類IDおよび当該分類に用いられた判定文、つまり、当該文書に含まれる文に類似する判定文を識別するための判定文IDを分類ログ格納部25に格納する。
入出力部33は、分類結果格納部24に格納された分類結果を出力する。これにより、入出力部33は、分類結果(文書IDおよび分類ID)をユーザに対して提示する(ステップS3)。
入出力部33は、提示された分類結果に対するユーザによる文書の分類を修正する操作に応じて、当該分類結果に対する修正内容を示す修正情報を入力する。この修正情報は、例えば入出力部33によって出力された文書IDによって識別される文書が分類されるべき分類分野を識別するための分類ID(正解分類ID)を含む。
つまり、ユーザは、入出力部33によって出力(提示)された分類IDによって識別される分類分野が当該入出力部33によって出力された文書IDによって識別される文書に対して適切でないと判断した場合には、当該分類分野とは異なる分類分野を識別するための正解分類IDを指定することができる。
分類結果修正部34は、入出力部33によって出力された文書ID(分類結果格納部24に格納されている文書ID)に対応づけて分類結果格納部24に格納されている分類IDを、入出力部33によって入力された正解分類IDに修正する(ステップS4)。
また、分類結果修正部34は、入出力部33によって出力された文書IDおよび分類IDに対応づけて入出力部33によって入力された正解分類IDを分類ログ格納部25に格納する。
修正結果解析部35、判定文修正部36および判定文更新部37は、分類ログ格納部25および分類判定文格納部23を参照して、当該分類判定文格納部23の更新処理を実行する(ステップS5)。この分類判定文格納部23の更新処理の詳細については後述する。
次に、図12のフローチャートを参照して、図2に示す文書分類部31の処理手順について説明する。
まず、文書分類部31は、分類処理の対象となる文書(以下、対象文書と表記)を識別するための対象文書ID(DID:Document ID)の初期値として対象文書ID=0とする(ステップS11)。
次に、文書分類部31は、対象文書ID(の値)を対象文書ID+1とする(ステップS12)。つまり、この段階での対象文書IDは1である。
ここで、文書分類部31は、対象文書IDが分類対象文書格納部22に格納されている文書IDの最大値以下であるか否かを判定する(ステップS13)。
対象文書IDが文書IDの最大値以下でないと判定された場合(ステップS13のNO)、文書分類部31の処理は終了される。
一方、対象文書IDが文書IDの最大値以下であると判定された場合(ステップS13のYES)、文書分類部31は、当該対象文書IDによって識別される対象文書を分類対象文書格納部22から取り出す(ステップS14)。
文書分類部31は、対象文書の分類に用いられる判定文(以下、対象判定文と表記)を識別するための対象判定文ID(SID:Sentence ID)の初期値として対象判定文ID=0とする(ステップS15)。
次に、文書分類部31は、対象判定文ID(の値)を対象判定文ID+1とする(ステップS16)。
文書分類部31は、対象判定文IDが分類判定文格納部23に格納されている判定文IDの最大値以下であるか否かを判定する(ステップS17)。
対象判定文IDが判定文IDの最大値以下であると判定された場合(ステップS17のYES)、文書分類部31は、当該対象判定文IDによって識別される対象判定文を分類判定文格納部23から取り出す(ステップS18)。
文書分類部31は、取り出された対象文書および対象判定文を類似度判定部32に渡す。類似度判定部32では、対象文書中に対象判定文と類似する文が含まれるか否かが判定される。文書分類部31は、類似度判定部32による判定結果を取得する(ステップS19)。なお、類似度判定部32の処理手順の詳細については後述する。
文書分類部31は、類似度判定部32による判定結果が類似(対象文書中に対象判定文と類似する文が含まれる)であるか否かを判定する(ステップS20)。
類似度判定部32による判定結果が類似でないと判定された場合(ステップS20のNO)、ステップS16に戻って処理が繰り返される。
一方、類似度判定部32による判定結果が類似であると判定された場合(ステップS20のYES)、文書分類部31は、対象判定文に対応づけて分類判定文格納部23に格納されている分類IDを当該分類判定文格納部23から取り出す(ステップS21)。ここで取り出された分類IDは、対象文書が分類される分類分野を識別するための識別子である。
文書分類部31は、対象文書IDおよび取り出された分類IDを対応づけて分類結果格納部24に格納する(ステップS22)。
また、文書分類部31は、対象文書ID、取り出された分類IDおよび対象判定文IDを対応づけて分類ログ格納部25に格納する(ステップS23)。
ステップS23の処理が実行されると、上記したステップS12に戻って処理が繰り返される。つまり、図12に示すステップS12以降の処理は、分類対象文書格納部22に格納されている全ての文書に対して、文書ID順に実行される。
一方、ステップS17において対象判定文IDが判定文IDの最大値以下でないと判定された場合、文書分類部31は、対象文書IDを分類結果格納部24に格納する(ステップS24)。また、文書分類部31は、対象文書IDを分類ログ格納部25に格納する(ステップS25)。
換言すれば、対象文書中に含まれる文の全てが分類判定文格納部23に格納されているどの判定文にも類似しない場合には、分類結果格納部24および分類ログ格納部25には対象文書IDのみが格納される。
次に、図13のフローチャートを参照して、図2に示す類似度判定部32の処理手順について説明する。
まず、類似度判定部32は、文書分類部31から渡された対象文書および対象判定文を取得する(ステップS31)。
次に、類似度判定部32は、取得された対象文書および対象判定文を構文解析する(ステップS32)。対象文書および対象判定文に対する構文解析結果は、類似度判定部32において保持される。なお、類似度判定部32による構文解析結果は、例えば上記した図10に示す判定文修正部36による構文解析結果と同様である。
類似度判定部32は、対象文書および対象判定文に対する構文解析結果を比較し、当該対象文書および対象判定文の間で一致する自立語を含む文節を特定する(ステップS33)。
類似度判定部32は、対象文書の特定された文節を含む構文木において、予め定められた置換ルールを適用することにより、部分構文木の置換処理を実行する(ステップS34)。これにより、類似度判定部32は、対象文書に含まれる文の1つの言い換え表現(言い換え文)を生成する。
類似度判定部32は、生成された言い換え表現および対象判定文に対する構文解析結果を比較することで、当該言い換え表現および当該対象判定文の類似度を算出する(ステップS35)。
類似度判定部32は、算出された類似度が予め定められた値(一定値)以上である場合には、対象文書中に対象判定文と類似する文が含まれる旨の判定結果を文書分類部31に渡す(ステップS36)。
一方、類似度判定部32は、算出された類似度が一定値以上でない、つまり、当該類似度が一定値以上である文が対象文書中にない場合には、対象文書中に対象判定文と類似する文が含まれない旨の判定結果を文書分類部31に渡す(ステップS36)。
次に、上記した図11に示すステップS5の分類判定文格納部23の更新処理について説明する。この分類判定文格納部23の更新処理においては、修正結果解析部35、判定文修正部36および判定文更新部37の処理が実行される。以下、これらの各処理について説明する。
まず、図14のフローチャートを参照して、図2に示す修正結果解析部35の処理手順について説明する。
修正結果解析部35は、処理の対象となる文書(対象文書)を識別するための対象文書ID(DID)の初期値として対象文書ID=0とする(ステップS41)。
次に、修正結果解析部35は、対象文書ID(の値)を対象文書ID+1とする(ステップS42)。つまり、この段階での対象文書IDは1である。
ここで、修正結果解析部35は、対象文書IDが分類対象文書格納部22に格納されている文書IDの最大値以下であるか否かを判定する(ステップS43)。
対象文書IDが文書IDの最大値以下でないと判定された場合(ステップS43のNO)、修正結果解析部35の処理は終了される。
一方、対象文書IDが文書IDの最大値以下であると判定された場合(ステップS43のYES)、修正結果解析部35は、当該対象文書IDに対応づけて分類ログ格納部25に格納されている分類IDおよび正解分類IDが同一(分類ID=正解分類ID)であるか否かを判定する(ステップS44)。このとき、上記したように分類ログ格納部25に分類IDが格納されていない場合があるが、この場合には分類IDおよび正解分類IDは同一でないと判定される。
分類IDおよび正解分類IDが同一であると判定された場合(ステップS44のYES)、修正結果解析部35は、対象文書IDに対応づけて分類ログ格納部25に格納されている判定文IDを当該分類ログ格納部25から取り出す(ステップS45)。また、修正結果解析部35は、対象文書IDに対応づけて分類ログ格納部25に格納されている分類IDおよび正解分類IDを当該分類ログ格納部25から取り出す。
次に、修正結果解析部35は、判定文更新部37を呼び出す(ステップS46)。この場合、修正結果解析部35は、取り出された判定文ID、分類ID、正解分類ID(対象文書IDに対応づけて分類ログ格納部25に格納されている判定文ID、分類IDおよび正解分類ID)、正解モードおよび利用モードを判定文更新部37に渡す。
正解モードは、ここでは分類IDおよび正解分類IDが同一であるため、取り出された判定文IDによって識別される判定文に基づいて分類された分類結果が正解であることを示す「正解」である。また、利用モードは、同様に分類結果が正解であるため、後の処理においても判定文を利用することを示す「利用オン」である。
修正結果解析部35によって判定文更新部37が呼び出されると、当該判定文更新部37の処理が実行される。この判定文更新部37の処理については後述する。
判定文更新部37の処理が実行されると、ステップS42に戻って処理が繰り返される。
一方、ステップS44において分類IDおよび正解分類IDが同一でないと判定された場合、修正結果解析部35は、対象文書IDに対応づけて判定文IDが分類ログ格納部25に格納されているか否かを判定する(ステップS47)。
対象文書IDに対応づけて判定文IDが分類ログ格納部25に格納されていないと判定された場合(ステップS47のNO)、修正結果解析部35は、判定文修正部36を呼び出す(ステップS48)。この場合、修正結果解析部35は、対象文書IDおよび当該対象文書IDに対応づけて分類ログ格納部25に格納されている正解分類IDを判定文修正部36に渡す。
修正結果解析部35によって判定文修正部36が呼び出されると、修正結果解析部35によって判定文修正部36の処理が実行される。この判定文修正部36の処理については後述する。
判定文修正部36の処理が実行されると、ステップS42に戻って処理が繰り返される。
一方、ステップS47において対象文書IDに対応づけて判定文IDが分類ログ格納部25に格納されていると判定された場合、修正結果解析部35は、当該判定文ID(によって識別される判定文)に対する正解率を算出する(ステップS49)。修正結果解析部35は、分類判定文格納部23を参照して算出処理を実行する。この場合、修正結果解析部35は、ここでは分類IDおよび正解分類IDが同一でない、つまり、判定文に基づいて分類された分類分野が誤っているため、分類判定文格納部23に格納されている誤り数を1増加させた場合の正解率を算出する。
正解率は、分類判定文格納部23に格納されている正解数/(正解数+誤り数)によって算出される。したがって、例えば分類判定文格納部23のデータ構造が上記した図4に示すように初期状態である場合には正解数および誤り数はともに0であるため、誤り数を1増加させて正解率を算出した場合、正解率は0.0となる。
次に、修正結果解析部35は、算出された正解率が予め定められた値(ここでは、αとする)を下回るか否かを判定する(ステップS50)。
算出された正解率がαを下回ると判定された場合(ステップS50のYES)、修正結果解析部35は、判定文更新部37を呼び出す(ステップS51)。この場合、修正結果解析部35は、対象文書IDに対応づけて分類ログ格納部25に格納されている判定文ID、分類ID、正解分類ID、正解モードおよび利用モードを判定文更新部37に渡す。
正解モードは、ここでは分類IDおよび正解分類IDが同一でないため、対象文書IDに対応づけて分類ログ格納部25に格納されている判定文IDによって識別される判定文に基づいて分類された結果が誤りである(正解でない)ことを示す「誤り」である。また、利用モードは、同様に分類IDおよび正解分類IDが同一でなく、更に、上記算出された正解率がαを下回っているため、後の処理において判定文を利用しないことを示す「利用オフ」である。
修正結果解析部35によって判定文更新部37が呼び出されると、当該判定文更新部37の処理が実行される。
判定文更新部37の処理が実行されると、ステップS42に戻って処理が繰り返される。
一方、ステップS50において正解率がαを下回らないと判定された場合、修正結果解析部35は、修正結果解析部35は、判定文修正部36を呼び出す(ステップS52)。この場合、修正結果解析部35は、対象文書ID、当該対象文書IDに対応づけて分類ログ格納部25に格納されている判定文ID、分類IDおよび正解分類IDを判定文修正部36に渡す。
修正結果解析部35によって判定文修正部36が呼び出されると、修正結果解析部35によって判定文修正部36の処理が実行される。判定文修正部36の処理が実行されると、ステップS42に戻って処理が繰り返される。
上記したように、図14に示すステップS42以降の処理は、分類対象文書格納部22に格納されている全ての文書に対して、文書ID順に実行される。
次に、図15のフローチャートを参照して、図2に示す判定文修正部36の処理手順について説明する。この判定文修正部36の処理は、上記した図14に示すステップS48およびステップS52において修正結果解析部35によって当該判定文修正部36が呼び出された際に実行される。
まず、判定文修正部36は、修正結果解析部35から渡された情報を取得する。判定文修正部36は、取得された情報の中に判定文IDが含まれていない(判定文IDがNULLである)か否かを判定する(ステップS61)。
上記したように、図14に示すステップS48において判定文修正部36が呼び出された場合には、文書ID(対象文書ID)、正解分類IDが修正結果解析部35から渡される。一方、図14に示すステップS52において判定文修正部36が呼び出された場合には、文書ID、判定文ID、分類IDおよび正解分類IDが修正結果解析部35から渡される。
したがって、図14に示すステップS48において判定文修正部36が呼び出された場合には、ステップS61においては判定文IDが含まれていない(判定文IDがNULLである)と判定される。一方、図14に示すステップS52において判定文修正部36が呼び出された場合には、ステップS61においては判定文IDが含まれていると判定される。
ここで、判定文IDが含まれていると判定された場合を想定する(ステップS61のNO)。
判定文修正部36は、取得された判定文ID(判定結果解析部35から渡された判定文ID)によって識別される判定文に対する形態素解析結果を分類判定文格納部23から取得する。これにより、判定文修正部36は、判定結果解析部35から渡された判定文IDによって識別される判定文を構成する単語を取得する(ステップS62)。
上記した図5を用いて具体的に説明すると、例えば判定文修正部36によって取得された文書IDが「003」であって判定文IDが「0006」である場合、判定文修正部36は、当該判定文ID「0006」に対応づけて形態素解析結果に含まれている単語「機能」および「好評」を取得する。
次に、判定文修正部36は、取得された単語を含む判定文を分類判定文格納部23から検索する(ステップS63)。このとき、判定文修正部36は、取得された分類IDおよび正解分類IDに対応づけて分類判定文格納部23に格納されている判定文を検索する。このステップS63において検索された判定文を関連判定文、当該判定文を識別するための判定文IDを関連判定文IDと称する。
ここで、上記した図9に示すように、文書ID「003」に対応づけて分類ログ格納部25に格納されている分類IDが「B002」、正解分類IDが「B001」であり、分類判定文格納部23が上記した図4に示すデータ構造である場合を想定する。この場合には、判定文修正部36によって取得された単語「機能」を含み、分類ID「B001」に対応づけられている判定文「機能に注目する」が関連判定文として分類判定文格納部23から検索される。なお、分類判定文格納部23において関連判定文「機能に注目する」を識別するための判定文ID「0004」が関連判定文IDである。
判定文修正部36は、取得された文書ID、判定文ID、分類ID、正解分類ID、検索された関連判定文および関連判定文IDを、入出力部33を介して予め定められた形式で表示する(ステップS64)。このとき、判定文修正部36は、取得された文書IDによって識別される文書(の内容)および判定文IDによって識別される判定文を表示する。また、上記した以外にも、例えば取得された判定文IDに対応づけて分類判定文格納部23に格納されている出現頻度、正解数、誤り数および正解率等が表示される。
このように、判定文に関する各種情報を表示することにより、判定文修正部36は、ユーザに対して判定文の確認および修正を促す。
ここで、図16は、図15に示すステップS64においてユーザに対して表示される判定文の確認および修正を促すための画面(以下、確認修正画面と表記)100の一例を示す。
図16に示すように、確認修正画面100には、文書IDおよび文書内容が表示される。図16に示す例では、文書ID「003」および文書内容「新製品の「YYY」に関連し、ライバル他社の商品を調査し、プレゼンテーションした。特にB社製品について印刷機能が好評だった。」が表示されている。
確認修正画面100には、分類ID「B002」および正解分類ID「B001」が表示されている。この分類IDおよび正解分類IDは、判定文修正部36によって取得された分類IDおよび正解分類IDである。
確認修正画面100には、判定文に関する情報として、判定文修正部36によって取得された判定文ID「0006」および当該判定文IDによって識別される判定文「機能が好評だ」が表示されている。確認修正画面100には、この判定文ID「0006」(判定文「機能が好評だ」)に対応づけて分類判定文格納部23に格納されている分類分野毎の出現頻度、正解数、誤り数および正解率が表示されている。
また、確認修正画面100には、例えば「今後も使う」ボタン101、「今後は使わない」ボタン102および「分類IDをB001に変更する」ボタン103等の処理ボタンが表示されている。ユーザは、この処理ボタン101〜103を指定することにより、確認修正画面100に表示されている判定文「機能が好評だ」に対する修正等の指示を行うことができる。なお、「分類IDをB001に変更する」ボタン103における分類ID「B001」は正解分類IDである。
確認修正画面100には、参考情報として、上記した関連判定文ID「0004」および関連判定文「機能に注目する」が表示されている。確認修正画面100には、分類判定文格納部23において関連判定文に対応づけられている分類ID「B001」および「B002」(判定文修正部36によって取得された分類IDおよび正解分類ID)が検索対象(である分類ID)として表示されている。また、確認修正画面100には、関連判定文に対応づけて分類判定文格納部23に格納されている分類IDが当該関連判定文に対応づけて表示されている。
なお、確認修正画面100には、「関連判定文の情報を確認する」ボタン104が表示されており、ユーザによって当該ボタン104が指定されると、関連判定文に関する情報(例えば出現率または正解率等)が表示される。
再び図15に戻ると、判定文修正部36は、判定文更新部37を呼び出す(ステップS65)。この場合、判定文修正部36は、取得された判定文ID、分類ID、正解分類ID、正解モードおよび利用モードを判定文更新部37に渡す。ここでは、判定文修正部36は、判定文IDとして判定文ID「0006」、分類IDとして分類ID「B002」、正解分類IDとして正解分類ID「B001」を判定文更新部37に渡す。
また、判定文更新部37に渡される正解モードは、上記した図16に示す確認修正画面100に対するユーザの操作に応じて決定される。
具体的には、確認修正画面100において、ユーザによって「今後も使う」ボタン101が指定された場合には、判定文修正部36は、正解モード「誤り」および利用モード「利用オン」を判定文更新部37に渡す。
確認修正画面100において、ユーザによって「今後は使わない」ボタン102が指定された場合には、判定文修正部36は、正解モード「誤り」および利用モード「利用オフ」を判定文更新部37に渡す。
また、確認修正画面100において、ユーザによって「分類IDをB001に変更する」ボタン103が指定された場合には、判定文修正部36は、正解モード「正解」および利用モード「利用オン」を判定文更新部37に渡す。この場合には、判定文更新部37に渡される分類ID(判定文IDによって識別される判定文の分類ID)は、判定文修正部36によって取得された分類ID「B002」から分類ID「B001」に変更される。また、分類IDが変更されることによって、分類IDおよび正解分類IDが同一となるため、判定文更新部37に渡される正解モードは「正解」となる。
一方、ステップS61において判定文IDが含まれていないと判定された場合を想定する。
この場合、判定文修正部36は、取得された文書IDによって識別される文書を分類対象文書格納部22から取得する。判定文修正部36は、取得された文書に対して構文解析を実行する(ステップS66)。これにより、判定文修正部36は、上記した図10に示すような構文解析結果を取得する。
ここでは、判定文修正部36が取得された文書に対して構文解析を実行するものとして説明したが、上記したように類似度判定部32において文書に対して構文解析が実行されているため、当該類似度判定部32に保持されている構文解析結果を取得する構成であっても構わない。
判定文修正部36は、取得された構文解析結果に基づいて、新たに分類判定文格納部23に格納される判定文の候補となる文(判定候補文)を生成する(ステップS67)。判定文修正部36は、取得された構文解析結果に対して、判定候補文を生成するためのルール(以下、判定候補文生成ルールと表記)を適用することにより判定候補文を生成する。
ここで、判定候補文生成ルールには、例えば「名詞を係り元、動詞、形容詞、形容動詞を係り先とする係り受けを選択し、当該係り元と当該係り先が当該係り元に対応づけられている係り受け関係で係り受けする判定候補文を生成する」というルールが含まれる。なお、判定候補文生成ルールは、ここで説明したルール以外であっても構わない。
この判定候補文生成ルールを上記した図10に示す構文解析結果に適用した場合には、名詞である「購入者」、当該「購入者」に対応づけられている係り受け関係「を」および当該「購入者」の係り先となる動詞である「する」から、判定候補文「購入者をする」が生成される。この判定候補文「購入者をする」以外にも、同様にして判定候補文「対象とする」および「アンケートを集計する」が生成される。
次に、判定文修正部36は、生成された判定候補文を、入出力部33を介して予め定められた形式で表示する(ステップS68)。
このように、生成された判定候補文を表示することにより、ユーザに対して判定候補文の登録を促す。
ここで、図17は、図15に示すステップS68においてユーザに対して表示される判定候補文の登録画面200の一例を示す。
図17に示すように、登録画面200には、例えば判定文修正部36によって取得された文書ID(図17示す例では、文書ID「004」)および当該文書ID「004」によって識別される文書内容「新製品の「YYY」について、購入者を対象としたアンケートを集計した。他社製品と比較し、印刷機能が便利という声が最も多かった。」が表示されている。また、登録画面200には、判定文修正部36によって取得された正解分類ID(ここでは、正解分類ID「B002」)が表示されている。
更に、登録画面200には、判定文の候補(つまり、判定候補文)が表示される。図17に示す例では、判定候補文として「購入者をする」、「対象とする」、「アンケートを集計する」、「製品と比較する」、「機能が便利だ」および「声が多い」が表示されている。なお、登録画面200に表示されている「購入者をする」、「対象とする」および「アンケートを集計する」は上記した文書内容における1文目から生成された判定候補文であり、「製品と比較する」、「機能が便利だ」および「声が多い」は上記した文書内容における2文目から生成された判定候補文である。
また、この判定候補文に対応づけて分類ID(正解分類ID「B002」)および処理内容が表示される。ユーザは、この登録画面200において判定候補文に対応づけられている処理内容として「判定文に登録」を選択することにより当該判定候補文を分類判定文格納部23に登録することができる。なお、処理内容には、「判定文に登録」以外に「判定文を登録しない」等が含まれる。
また、登録画面200には、「分類ID「B002」の他の判定文を表示する」ボタン201が表示されている。このボタン201がユーザによって指定された場合には、分類ID(正解分類ID)「B002」に対応づけて分類判定文格納部23に格納されている判定文が表示される。また、登録画面200には、当該登録画面200における登録処理を終了させるための「終了」ボタン202が設けられている。
この「終了」ボタン202が指定された際に、処理内容「判定文に登録」が選択されている判定候補文が分類判定文格納部23に登録される。
再び図15に戻ると、判定文修正部36は、判定文更新部37を呼び出す(ステップS69)。この場合、判定文修正部36は、判定文ID(NULL)、分類ID「B002」、正解分類ID「B002」、正解モード「正解」、利用モード「利用オン」および上記した図17に示す登録画面200において処理内容として「判定文に登録」が選択された判定候補文(判定文文字列)を判定文更新部37に渡す。
なお、判定文修正部36は判定文IDおよび分類IDを修正結果解析部35から渡されていないため、判定文IDが空であることを示す判定文ID(NULL)および正解分類IDと同一の分類ID「B002」が判定文更新部37に渡される。
次に、図18のフローチャートを参照して、図2に示す判定文更新部37の処理手順について説明する。この判定文更新部37の処理は、上記した図14に示すステップS46およびステップS51において修正結果解析部35によって判定文更新部37が呼び出された際に実行される。また、判定文更新部37の処理は、図15に示すステップS65およびステップS69において判定文修正部36によって判定文更新部37が呼び出された際に実行される。
まず、判定文更新部37は、修正結果解析部35または判定文修正部36から渡された情報を取得する。
次に、判定文更新部37は、取得された判定文IDがNULLであるか否かを判定する(ステップS71)。
上記したように、図14に示すステップS46において判定文更新部37が呼び出された場合には、判定文ID、分類ID、正解分類ID、正解モード「正解」および利用モード「利用オン」が修正結果解析部35から渡される。
また、図14に示すステップS51において判定文更新部37が呼び出された場合には、判定文ID、分類ID、正解分類ID、正解モード「誤り」および利用モード「利用オフ」が修正結果解析部35から渡される。
また、図15に示すステップS65において判定文更新部37が呼び出された場合には、判定文ID、分類ID、正解分類ID、正解モードおよび利用モードが判定文修正部36にから渡される。なお、このときの正解モードおよび利用モードについては、上記した図16に示す判定文の確認修正画面100に対するユーザの操作に応じて異なる。
また、図15に示すステップS69において判定文更新部37が呼び出された場合には、判定文ID(NULL)、分類ID、正解分類ID、正解モード「正解」、利用モード「利用」および判定候補文が判定文修正部36から渡される。この場合においては、上記したように分類IDおよび正解分類IDは同一である。
したがって、図15に示すステップS69において判定文更新部37が呼び出された場合には、ステップS71においては判定文IDがNULLであると判定される。一方、図15に示すステップS69以外(図14に示すステップS46、ステップS51および図15に示すステップS65)において判定文更新部37が呼び出された場合には、ステップS71においては判定文IDがNULLでないと判定される。
ここで、判定文IDがNULLであると判定された場合を想定する(ステップS71のYES)。
この場合、判定文更新部37は、取得された判定候補文(判定文文字列)を判定文として分類判定文格納部23に追加(格納)する(ステップS72)。このとき、判定文更新部37は、判定文(判定候補文)を識別するための判定文IDを、当該判定文に対応づけて分類判定文格納部23に格納する。
一方、判定文IDがNULLでないと判定された場合(ステップS71のNO)、判定文更新部37には判定候補文が渡されていないのでステップS72の処理は実行されない。
次に、判定文更新部37は、取得された分類IDおよび取得された判定文IDに対応づけて分類判定文格納部23に格納されている分類ID(以下、分類判定文格納部23の分類IDと表記)が同一であるか否かを判定する(ステップS73)。
ここで、判定文更新部37によって取得された分類IDおよび分類判定文格納部23の分類IDが同一でないと判定された場合(ステップS73のNO)を想定する。この場合、判定文更新部37は、分類判定文格納部23の分類IDを、取得された分類IDに更新する(ステップS74)。
ここで、判定文更新部37によって取得された分類IDおよび分類判定文格納部23の分類IDが同一でない場合とは、例えば上記した図16に示す確認修正画面100においてユーザの操作に応じて判定文の分類IDが変更(修正)された場合である。つまり、確認修正画面100において変更された分類IDが、ステップS74の処理において分類判定文格納部23に反映される。
また、上記したステップS72において判定候補文が分類判定文格納部23に追加された場合には、当該判定候補文に対応づけて分類IDは分類判定文格納部23には格納されていないため、判定文更新部37によって取得された分類IDおよび分類判定文格納部23の分類IDが同一でないと判定される。
一方、取得された分類IDおよび分類判定文格納部23の分類IDが同一であると判定された場合(ステップS73のYES)、ステップS74の処理は実行されない。
次に、判定文更新部37は、取得された判定文IDに対応づけて分類判定文格納部23に格納されている出現頻度であって、取得された正解分類IDによって識別される分類分野(と同一の分類分野)の出現頻度の値(回数)を1つ加算する(ステップS75)。
判定文更新部37は、取得された正解モードが「正解」であるか否かを判定する(ステップS76)。
正解モードが「正解」であると判定された場合(ステップS76のYES)、判定文更新部37は、取得された判定文IDに対応づけて分類判定文格納部23に格納されている正解数を1つ加算する(ステップS77)。
一方、正解モードが「正解」でない、つまり、正解モードが「誤り」であると判定された場合(ステップS76のNO)、判定文更新部37は、取得された判定文IDに対応づけて分類判定文格納部23に格納されている誤り数を1つ加算する(ステップS78)。
上記したステップS77またはステップS78の処理が実行されると、判定文更新部37は、取得された判定部IDによって識別される判定文に対する正解率を算出する(ステップS79)。この正解率は、上記したように正解数/(正解数+誤り数)により算出される。判定文更新部37は、算出された正解率を、取得された判定文IDに対応づけて分類判定文格納部23に格納する。
上記したように、文書分類装置30の初期状態においては正解数、誤り数および正解率は分類判定文格納部23には格納されていないが、ステップS77、ステップS78およびステップS79において正解数、誤り数および正解率が分類判定文格納部23に格納(蓄積)される。
次に、判定文更新部37は、取得された利用モードが「利用オン」であるか否かを判定する(ステップS80)。
利用モードが「利用オン」であると判定された場合(ステップS80のYES)、判定文更新部37は、取得された判定文IDに対応づけて分類判定文格納部23に利用フラグ「1」を格納する(ステップS81)。これにより、取得された判定文IDによって識別される判定文は、文書分類処理において用いられる(利用される)。
一方、利用モードが「利用オフ」であると判定された場合(ステップS80のNO)、判定文更新部37は、取得された判定文IDに対応づけて分類判定文格納23に利用フラグ「0」を格納する(ステップS82)。これにより、取得された判定文IDによって識別される判定文は、文書分類処理において用いられない(利用されない)。
なお、本実施形態において、利用フラグは上記したように判定文を利用する旨を示す利用フラグ「1」から判定文を利用しない旨を示す利用フラグ「0」には自動的に変更(更新)される。一方、利用フラグ「0」から利用フラグ「1」には、例えばユーザの操作に応じて変更することが可能である。
図19は、上記した分類判定文格納部23の更新処理が実行された後の分類判定文格納部23のデータ構造の一例を示す。
図19に示すように、分類判定文格納部23には、判定文ID、分類ID、判定文、出現頻度、正解数、誤り数、正解率および利用フラグが対応づけて格納されている。
以下、図19に示す分類判定文格納部23について、上記した図4に示す分類判定文格納部23(初期状態の分類判定文格納部23)と比較して説明する。
図19に示す例では、分類判定文格納部23において判定文ID「0001」に対応づけられている分類分野「A001」の出現頻度が(初期状態の分類判定文格納部23と比較して)1つ加算されている。また、分類判定文格納部23において判定文ID「0001」に対応づけられている正解数が1つ加算され、正解率「1.0」が当該分類判定文格納23に格納されている。
同様に、分類判定文格納部23において判定文ID「0003」に対応づけられている分類分野「B001」の出現頻度が1つ加算されている。また、分類判定文格納部23において判定文ID「0003」に対応づけられている正解数が1つ加算され、正解率「1.0」が当該分類判定文格納23に格納されている。
分類判定文格納部23において判定文ID「0005」に対応づけられている分類分野「B002」の出現頻度が1つ加算されている。また、分類判定文格納部23において判定文ID「0005」に対応づけられている正解数が1つ加算され、正解率「1.0」が当該分類判定文格納23に格納されている。
分類判定文格納部23において判定文ID「0006」に対応づけられている分類分野「B001」の出現頻度が1つ加算されている。また、分類判定文格納部23において判定文ID「0006」に対応づけられている誤り数が1つ加算され、正解率「0.0」が当該分類判定文格納23に格納されている。また、分類判定文格納部23において判定文ID「0006」に対応づけられている利用フラグが「1」から「0」に変更されている。
また、分類判定文格納部23には、新たに判定文ID「0009」および判定文「アンケートを集計する」が追加されている。分類判定文格納部23には、判定文ID「0009」に対応づけて分類ID「B002」が格納されている。分類判定文格納部23には、この判定文ID「0009」に対応づけて出現頻度、正解数、誤り数、正解率および利用フラグが格納(追加)されている。この場合、分類ID「B002」によって識別される分類分野の出現頻度が初期値(つまり、0)から1つ加算されている。同様に、正解数が初期値から1つ加算され、これに伴って算出された正解率(ここでは、1.0)が格納されている。
上記したように本実施形態においては、分類対象文書格納部22に格納されている文書の分類結果をユーザに対して表示し、ユーザの操作に応じて当該分類結果を修正し、当該修正された分類結果に基づいて、分類判定文格納部23に格納されている判定文に関する各種情報を自動的に更新することができる。
具体的には、分類対象文書格納部22に格納されている文書、当該文書が分類された分類分野(分類ID)、当該分類に用いられた判定文(判定文ID)等がユーザに対して提示し、当該提示された情報に応じたユーザの操作に基づいて当該判定文に対応づけて分類判定文格納部23に格納されている分類IDを正解分類IDに変更(更新)することができる。
これにより、本実施形態においては、文書分類の基準となる判定文の品質を容易に向上させることが可能となる。
また、本実施形態においては、分類対象文書格納部22に格納されている文書に対する構文解析結果に基づいて、判定候補文を生成することができる。本実施形態においては、生成された判定候補文のうち、ユーザによって指定された判定候補文が判定文として分類判定文格納部23に格納される。したがって、本実施形態においては、新たな判定文を自動的に分類判定文格納部23に追加することができる。
また、本実施形態においては、上記したように分類対象文書格納部22に格納されている文書、当該文書の分類に用いられた判定文および当該判定文を構成する単語(文字列)を含む判定文(関連判定文)等の情報がユーザに対して表示されるため、当該ユーザはこれらの情報を確認して当該判定文を今後も利用するか否か、または、当該判定文に対応する分類分野等の判断を容易にすることができる。
[第2の実施形態]
次に、図20を参照して、本発明の第2の実施形態について説明する。図20は、本実施形態に係る文書分類装置の主として機能構成を示すブロック図である。なお、前述した図2と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図2と異なる部分について主に述べる。
また、本実施形態に係る文書分類装置のハードウェア構成は、前述した第1の実施形態と同様であるため、適宜、図1を用いて説明する。
図20に示すように、文書分類装置50は、判定文修正部51を含む。本実施形態において、判定文修正部51は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。
また、文書分類装置50は、関連ID格納部26を含む。本実施形態において、関連ID格納部26は、例えば外部記憶装置20に格納される。
関連ID格納部26には、分類判定文格納部23に格納されている判定文に対応する分類分野を識別するための分類ID毎に、当該分類分野に関連する分類分野(以下、関連分類分野と表記)を識別するための分類ID(関連分類識別情報)が対応づけて予め格納されている。以下、関連分類識別情報を関連分類IDと称する。
判定文修正部51は、取得された分類IDおよび正解分類ID(修正結果解析部35から渡された分類IDおよび正解分類ID)に対応づけて関連ID格納部26に格納されている関連分類IDを取得する。
判定文修正部51は、取得された判定文ID(修正結果解析部35から渡された判定文ID)によって識別された判定文に対する形態素解析結果に含まれる単語(つまり、当該判定文に含まれる文字列)を含む判定文であって、当該取得された分類ID、正解分類IDおよび関連分類IDに対応づけて分類判定文格納部23に格納されている判定文を検索する。
判定文修正部51は、検索された判定文を関連判定文として、入出力部33を介して予め定められた形式で表示する。このとき、関連判定文に加えて、関連判定文を識別するための関連判定文IDが表示される。
前述した第1の実施形態においては、図15に示すステップS64で説明したように、分類IDおよび正解分類IDに対応づけて分類判定文格納部23に格納されている判定文が関連判定文としてユーザに対して表示される。これに対して、本実施形態においては、前述した第1の実施形態においてユーザに対して表示される関連判定文に加えて、分類IDおよび正解分類IDに関連する関連分類IDに対応づけて分類判定文格納部23に格納されている判定文が関連判定文として当該ユーザに対して表示される。
図21は、図20に示す関連ID格納部26のデータ構造の一例を示す。図21に示すように、関連ID格納部26には、分類IDに対応づけて関連分類IDが格納されている。
関連分類IDは、当該関連分類IDに対応づけられている分類IDによって識別される分類分野の関連分類分野を識別するための識別子である。
図21に示す例では、関連ID格納部26には、分類ID「A001」に対応づけて関連分類ID「B001」が格納されている。これによれば、関連分類ID「B001」によって識別される分類分野が、分類ID「A001」によって識別される分類分野の関連分類分野であることが示されている。
同様に、関連ID格納部26には、分類ID「B001」に対応づけて関連分類ID「B002」および「B003」が格納されている。
関連ID格納部26には、分類ID「B002」に対応づけて関連分類ID「B001」および「B003」が格納されている。
また、関連ID格納部26には、分類ID「B003」に対応づけて関連分類ID「B001」および「B002」が格納されている。
図22は、本実施形態においてユーザに対して表示される判定文の確認修正画面300の一例を示す。なお、前述した図16に示す確認修正画面100と同様の部分については、その詳しい説明を省略する。
ここで、判定文修正部51によって取得された分類IDおよび正解分類IDは、分類ID「B001」および正解分類ID「B002」であるものとする。また、関連ID格納部26が上記した図21に示すデータ構造であるものとすると、判定文修正部51は、分類ID「B001」および正解分類ID「B002」に対応づけて関連ID格納部26に格納されている関連分類ID「B001」、「B002」および「B003」を取得する。判定文修正部36は、取得された分類ID、正解分類IDおよび関連分類ID(ここでは、分類ID「B001」、「B002」および「B003」)に対応づけて分類判定文格納部23に格納されている判定文を関連判定文として検索する。
具体的には、判定文修正部51によって取得された判定文「機能が好評だ」から「機能」および「好評」という単語が取得された場合、当該「機能」および「好評」を含む判定文であって、分類ID「B001」、「B002」および「B003」に対応づけて分類判定文格納部23に格納されている判定文が検索される。この場合、分類判定文格納部23において分類ID「B001」に対応づけられている判定文「機能に注目する」、分類ID「B003」に対応づけられている判定文「機能を測定する」および分類ID「B003」に対応づけられている判定文「機能を評価する」が関連判定文として検索される。
図22に示す確認修正画面300には、関連判定文が検索された分類ID(検索対象)として上記した分類ID「B001」、「B002」および「B003」が表示されている。
図22に示す例では、確認修正画面300には、前述した図16に示す確認修正画面100に表示されている関連判定文ID「0004」によって識別される関連判定文「機能に注目する」に加えて、関連判定文ID「0007」によって識別される関連判定文「機能を測定する」および関連判定文ID「0008」によって識別される関連判定文「機能を評価する」が更に表示されている。
つまり、前述した図16に示す確認修正画面100と比較すると、確認修正画面300には、分類ID「B003」に関わる判定文(関連判定文)が2件追加されて表示されている。換言すれば、ユーザは、前述した第1の実施形態と比較して、より多くの関連判定文(に関する情報)を確認することができる。
また、確認修正画面300には、関連判定文に対応づけて分類判定文格納部23に格納されている分類IDが当該関連判定文に対応づけて表示されている。
上記したように本実施形態においては、文書分類処理に用いる判定文の品質を向上させるための参考情報である関連判定文として、判定文修正部51によって取得された分類IDおよび正解分類IDのみでなく、当該分類IDおよび正解分類IDに対応づけて関連ID格納部26に格納されている関連分類IDに対応づけて分類判定文格納部23に格納されている判定文が表示される。このため、例えば前述した第1の実施形態の場合と比較して、確認修正画面300により多くの情報が表示されるので当該確認修正画面300を確認することによりユーザは適切な判断をすることが可能となる。したがって、本実施形態においては、文書分類の基準となる判定文の品質を向上させることができる。
なお、本願発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。
例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。また、判定文の情報を修正するに際しては、判定文の分類ではなく判定文の属性を修正することによって行なってもよい。更には、ユーザによる判定文の分類を修正する操作に応じて更新するのではなく、分類ログ格納部25に格納された判定文IDに対応づけて分類判定文格納部23に格納されている分類IDについて、ユーザに予め入力されていた正解分類IDに更新するようにしてもよい。
10…コンピュータ、20…外部記憶装置、22…分類対象文書格納部、23…分類判定文格納部、24…分類結果格納部、25…分類ログ格納部、26…関連ID格納部、30,50…文書分類装置、31…文書分類部、32…類似度判定部、33…入出力部、34…分類結果修正部、35…修正結果解析部、36,51…判定文修正部、37…判定文更新部。

Claims (7)

  1. 文字列からなる文を含む文書を格納する文書格納手段と、
    前記文書格納手段に格納されている文書を分類するための基準となる文字列を含む判定文、当該判定文を識別するための判定文識別情報および当該判定文に対応する分類分野を識別するための分類識別情報を予め対応づけて格納する判定文格納手段と、
    前記文書格納手段に格納されている文書中に前記判定文格納手段に格納されている判定文に類似する文が含まれているかを、当該文書および判定文に含まれる文字列に基づいて判定する第1の判定手段と、
    前記判定文に類似する文が含まれていると判定された場合、前記文書格納手段に格納されている文書を識別するための文書識別情報、当該判定文に対応づけて前記判定文格納手段に格納されている判定文識別情報および分類識別情報を対応づけて格納する分類ログ格納手段と、
    ユーザによる前記文書の分類を修正する操作に応じて、前記文書格納手段に格納されている文書が分類される分類分野を識別するための正解分類識別情報を入力する入力手段と、
    前記分類ログ格納手段に格納された分類識別情報および前記入力された正解分類識別情報が同一であるかを判定する第2の判定手段と、
    前記分類識別情報および前記正解分類識別情報が同一でないと判定された場合、前記分類ログ格納手段に格納された文書識別情報、判定文識別情報、分類識別情報および前記入力された正解分類識別情報を出力する出力手段と、
    前記ユーザによる前記判定文の分類を修正する操作に応じて、前記分類ログ格納手段に格納された判定文識別情報に対応づけて前記判定文格納手段に格納されている分類識別情報を前記入力された正解分類識別情報に更新する更新手段と
    を具備することを特徴とする文書分類装置。
  2. 文字列からなる文を含む文書を格納する文書格納手段と、
    前記文書格納手段に格納されている文書を分類するための基準となる文字列を含む判定文、当該判定文を識別するための判定文識別情報および当該判定文に対応する分類分野を識別するための分類識別情報を予め対応づけて格納する判定文格納手段と、
    前記文書格納手段に格納されている文書中に前記判定文格納手段に格納されている判定文に類似する文が含まれているかを、当該文書および判定文に含まれる文字列に基づいて判定する第1の判定手段と、
    前記判定文に類似する文が含まれていると判定された場合、前記文書格納手段に格納されている文書を識別するための文書識別情報、当該判定文に対応づけて前記判定文格納手段に格納されている判定文識別情報および分類識別情報を対応づけて格納する分類ログ格納手段と、
    ユーザによる前記文書の分類を修正する操作に応じて、前記文書格納手段に格納されている文書が分類される分類分野を識別するための正解分類識別情報を入力する入力手段と、
    前記分類ログ格納手段に格納された分類識別情報および前記入力された正解分類識別情報が同一であるかを判定する第2の判定手段と、
    前記分類識別情報および前記正解分類識別情報が同一でないと判定された場合、前記分類ログ格納手段に格納された判定文識別情報に対応づけて前記判定文格納手段に格納されている分類識別情報を前記入力された正解分類識別情報に更新する更新手段と
    を具備することを特徴とする文書分類装置。
  3. 解析手段と、判定候補文生成手段とを更に具備し、
    前記分類ログ格納手段は、前記判定文に類似する文が含まれていないと前記第1の判定手段によって判定された場合、前記文書格納手段に格納されている文書を識別するための文書識別情報を格納し、
    前記解析手段は、前記分類ログ格納手段に格納された文書識別情報によって識別される文書に対して構文解析を実行し、
    前記判定候補文生成手段は、前記構文解析結果に基づいて、前記判定文格納手段に格納される判定文の候補となる判定候補文を生成し、
    前記更新手段は、前記ユーザの操作に応じて、前記生成された判定候補文、当該判定候補文を識別するための判定文識別情報および前記入力された正解分類識別情報を対応づけて前記判定文格納手段に格納する
    ことを特徴とする請求項1または請求項2記載の文書分類装置。
  4. 前記分類ログ格納手段に格納された判定文識別情報に対応づけて前記判定文格納手段に格納されている判定文を解析することによって、当該判定文に含まれる文字列を取得する解析手段と、
    前記解析手段によって取得された文字列を含む判定文であって、前記分類ログ格納手段に格納された分類識別情報および前記入力された正解分類識別情報に対応づけて前記判定文格納手段に格納されている判定文を、前記判定文格納手段から検索する検索手段と
    を更に具備し、
    前記出力手段は、前記検索された判定文に対応づけて前記判定文格納手段に格納されている判定文識別情報を、関連判定文識別情報として出力する
    ことを特徴とする請求項1または請求項2記載の文書分類装置。
  5. 前記判定文格納手段に格納されている判定文に対応する分類分野を識別するための分類識別情報に対応づけて、当該分類分野に関連する関連分類分野を識別するための関連分類識別情報を予め格納する関連識別情報格納手段を更に具備し、
    前記検索手段は、
    前記分類ログ格納手段に格納された分類識別情報および前記入力された正解分類識別情報に対応づけて前記関連識別情報格納手段に格納されている関連分類識別情報を取得する取得手段を含み、
    前記解析手段によって取得された文字列を含む判定文であって、前記取得手段によって取得された関連分類識別情報に対応づけて前記判定文格納手段に格納されている判定文を、前記判定文格納手段から検索する
    ことを特徴とする請求項3記載の文書分類装置。
  6. 文字列からなる文を含む文書を格納する文書格納手段と、前記文書格納手段に格納されている文書を分類するための基準となる文字列を含む判定文、当該判定文を識別するための判定文識別情報および当該判定文に対応する分類分野を識別するための分類識別情報を予め対応づけて格納する判定文格納手段と、分類ログ格納手段とを有する外部記憶装置と当該外部記憶装置を利用するコンピュータとから構成される文書分類装置において、前記コンピュータによって実行されるプログラムであって、
    前記コンピュータに、
    前記文書格納手段に格納されている文書中に前記判定文格納手段に格納されている判定文に類似する文が含まれているかを、当該文書および判定文に含まれる文字列に基づいて判定するステップと、
    前記判定文に類似する文が含まれていると判定された場合、前記文書格納手段に格納されている文書を識別するための文書識別情報、当該判定文に対応づけて前記判定文格納手段に格納されている判定文識別情報および分類識別情報を対応づけて前記分類ログ格納手段に格納するステップと、
    ユーザによる前記文書の分類を修正する操作に応じて、前記文書格納手段に格納されている文書が分類される分類分野を識別するための正解分類識別情報を入力するステップと、
    前記分類ログ格納手段に格納された分類識別情報および前記入力された正解分類識別情報が同一であるかを判定するステップと、
    前記分類識別情報および前記正解分類識別情報が同一でないと判定された場合、前記分類ログ格納手段に格納された文書識別情報、判定文識別情報、分類識別情報および前記入力された正解分類識別情報を出力するステップと、
    前記ユーザによる前記判定文の分類を修正する操作に応じて、前記分類ログ格納手段に格納された判定文識別情報に対応づけて前記判定文格納手段に格納されている分類識別情報を前記入力された正解分類識別情報に更新するステップと
    を実行させるためのプログラム。
  7. 文字列からなる文を含む文書を格納する文書格納手段と、前記文書格納手段に格納されている文書を分類するための基準となる文字列を含む判定文、当該判定文を識別するための判定文識別情報および当該判定文に対応する分類分野を識別するための分類識別情報を予め対応づけて格納する判定文格納手段と、分類ログ格納手段とを有する外部記憶装置と当該外部記憶装置を利用するコンピュータとから構成される文書分類装置において、前記コンピュータによって実行されるプログラムであって、
    前記コンピュータに、
    前記文書格納手段に格納されている文書中に前記判定文格納手段に格納されている判定文に類似する文が含まれているかを、当該文書および判定文に含まれる文字列に基づいて判定するステップと、
    前記判定文に類似する文が含まれていると判定された場合、前記文書格納手段に格納されている文書を識別するための文書識別情報、当該判定文に対応づけて前記判定文格納手段に格納されている判定文識別情報および分類識別情報を対応づけて前記分類ログ格納手段に格納するステップと、
    ユーザの前記文書の分類を修正する操作に応じて、前記文書格納手段に格納されている文書が分類される分類分野を識別するための正解分類識別情報を入力するステップと、
    前記分類ログ格納手段に格納された分類識別情報および前記入力された正解分類識別情報が同一であるかを判定するステップと、
    前記分類識別情報および前記正解分類識別情報が同一でないと判定された場合、前記分類ログ格納手段に格納された判定文識別情報に対応づけて前記判定文格納手段に格納されている分類識別情報を前記入力された正解分類識別情報に更新するステップと
    を実行させるためのプログラム。
JP2009061274A 2009-03-13 2009-03-13 文書分類装置およびプログラム Pending JP2010218010A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009061274A JP2010218010A (ja) 2009-03-13 2009-03-13 文書分類装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009061274A JP2010218010A (ja) 2009-03-13 2009-03-13 文書分類装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2010218010A true JP2010218010A (ja) 2010-09-30

Family

ID=42976838

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009061274A Pending JP2010218010A (ja) 2009-03-13 2009-03-13 文書分類装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2010218010A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7400543B2 (ja) 2020-02-28 2023-12-19 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001256243A (ja) * 2000-03-09 2001-09-21 Toshiba Systems Development Co Ltd 文書分類システム
JP2001312501A (ja) * 2000-04-28 2001-11-09 Mitsubishi Electric Corp 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002099555A (ja) * 2000-09-22 2002-04-05 Toshiba Corp 文書分類装置及び文書分類方法
JP2004220226A (ja) * 2003-01-14 2004-08-05 Oki Electric Ind Co Ltd 検索文書のための文書分類方法及び装置
JP2005107705A (ja) * 2003-09-29 2005-04-21 Hitachi Ltd 複数言語を対象とした文書分類装置及び文書分類方法
JP2007122662A (ja) * 2005-10-31 2007-05-17 Toshiba Corp 文書データ処理装置および文書データ処理プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001256243A (ja) * 2000-03-09 2001-09-21 Toshiba Systems Development Co Ltd 文書分類システム
JP2001312501A (ja) * 2000-04-28 2001-11-09 Mitsubishi Electric Corp 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002099555A (ja) * 2000-09-22 2002-04-05 Toshiba Corp 文書分類装置及び文書分類方法
JP2004220226A (ja) * 2003-01-14 2004-08-05 Oki Electric Ind Co Ltd 検索文書のための文書分類方法及び装置
JP2005107705A (ja) * 2003-09-29 2005-04-21 Hitachi Ltd 複数言語を対象とした文書分類装置及び文書分類方法
JP2007122662A (ja) * 2005-10-31 2007-05-17 Toshiba Corp 文書データ処理装置および文書データ処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7400543B2 (ja) 2020-02-28 2023-12-19 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Similar Documents

Publication Publication Date Title
Wu et al. Errudite: Scalable, reproducible, and testable error analysis
US7933774B1 (en) System and method for automatic generation of a natural language understanding model
KR100650427B1 (ko) 자연어 인식 애플리케이션 구축을 위한 통합 개발 툴
CN103026356B (zh) 语义内容搜索
US8204844B2 (en) Systems and methods to increase efficiency in semantic networks to disambiguate natural language meaning
US7536374B2 (en) Method and system for using voice input for performing device functions
US20100005049A1 (en) Information extraction rule making support system, information extraction rule making support method, and information extraction rule making support program
WO2021017612A1 (zh) 基于语音分析的问答方法、装置、设备及存储介质
US11481663B2 (en) Information extraction support device, information extraction support method and computer program product
US10235680B2 (en) System and method for populating a database with user input
US10747798B2 (en) Control method, processing apparatus, and recording medium
JP2002288201A (ja) 質問応答処理方法,質問応答処理プログラム,質問応答処理プログラム記録媒体および質問応答処理装置
Chong et al. A methodological review of qualitative research syntheses in CALL: The state-of-the-art
US11531693B2 (en) Information processing apparatus, method and non-transitory computer readable medium
US20130024184A1 (en) Data processing system and method for assessing quality of a translation
JP5910134B2 (ja) テキスト検索装置及びプログラム
WO2008062822A1 (fr) Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte
US10650195B2 (en) Translated-clause generating method, translated-clause generating apparatus, and recording medium
CN112691379B (zh) 游戏资源文本审核方法及装置、存储介质、计算机设备
JP2006323517A (ja) テキスト分類装置およびプログラム
JP4423004B2 (ja) テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
JP2010218010A (ja) 文書分類装置およびプログラム
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP4872504B2 (ja) 分類情報管理装置、分類情報管理システムおよび分類情報管理プログラム
JP2007157048A (ja) 体験情報評価方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121204

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130402